大模型+智能眼镜，让失明人士也能无障碍阅读

你有没有想过有一天你闭上眼睛也可以进行流畅阅读呢？

不是民科，也不是量子波动速读！借助大语言模型和智能眼镜，来自维也纳工业大学、罗马第一大学和明尼苏达大学的研究者，提出了一种无需视力也能阅读的辅助系统，帮助视力受损人群进行无障碍阅读。

视力障碍是一种常见的视觉健康问题，严重影响患者的生活质量和日常活动能力。视力障碍在不同年龄段人群中普遍存在，其中老年人是主要的受影响群体。调研数据显示，超过40岁的人群中，大约有50%以上的人有不同程度的视力障碍问题。

2010年，全球50岁及以上患有视力障碍的成年人数量估计约为1.86亿。仅在美国，40 岁及以上成年人中不可矫正视力问题的患病率就超过 300 万，预计到 2050 年将增加到 700 万。包括使用视力矫正镜片的人群在内，视力受损人群的日常生活往往依赖于他人的帮助。而现代生活中的信息密度越来越高，加剧了这一问题，视障人士更难以在海量信息中寻找到自己需要的细节信息（例如阅读药物说明书以了解正确剂量）。

GPT-3.5研究测试：
https://hujiaoai.cn

GPT-4研究测试：
https://higpt4.cn

Claude-3研究测试（全面吊打GPT-4）：
https://hiclaude3.com

那么研究人员将如何利用大语言模型和智能眼镜来解决这一问题呢？

下面让我们来看看这一研究的具体内容。

论文标题：
TEXT2TASTE: A Versatile Egocentric Vision System for Intelligent Reading Assistance Using Large Language Model

论文链接：
https://arxiv.org/pdf/2404.09254

系统设计：基于LLM的智能眼镜

作者认为，使用可穿戴设备是辅助视障人士的基础。文章中使用 Aria 智能眼镜为基础设计了一种新颖的文本分析助手。该系统使用OCR和LLM分析用户数据，并根据上下文提供指导。提出的框架如下图所示。

围绕视障人士在餐厅点餐为例，作者对系统做出了如下设计：

(1) 图像获取

首先，实验让用户佩戴Aria智能眼镜，获取以用户视角为中心的视频资料。

为了精确定位包含菜单信息的Aria录像帧，作者使用了当前sota的逐帧对象检测算法DETIC。因此算法可以识别菜单在佩戴者视野内可见的帧。为了减轻相机镜头可能带来的失真与畸变，算法会选择菜单位于图片最中心的帧。下图中，左图是使用Aria录制的视频帧（菜单位于最中心的图被选中），右图是佩戴Aria设备的用户正在与菜单卡进行交互。

(2) 文本信息提取

获得菜单图像后，作者使用开源的OCR算法EasyOCR （https://github.com/JaidedAI/EasyOCR）提取菜单中的文本。值得注意的是，此步骤需要确保不相关的文本被隔离开。随后，论文使用GPT4对这些文本做了进一步的处理，以构建文字版本的菜单信息。在这个步骤，LLM提高了数字化过程的速度和准确性，实现了从现实到数字领域的无缝过度。

(3) 用户界面

提取出菜单文本信息后，接下来用户就可以与眼镜进行交互了。出于演示目的，论文构建了一个简单的基于Gradio的聊天应用程序。作者提到，这个系统将在后续被改进为语音控制，让视障人士能够更方便的与智能眼镜进行交互。

这个聊天应用程序是使用GPT4开发的，并通过检索增强生成（RAG）的方法进行了增强。该方法分为两个步骤：首先，根据用户请求，从已知信息（从图像中提取的菜单，用户的口味偏好等）中检索到相关文本片段。随后，将这些相关文本片段和用户请求一起输入GPT4，以获取个性化的大模型响应。因此，系统可以轻松的处理诸如“有什么推荐菜品”一类的问题。

实验：获取真实场景下用户的评价

设计了这套基于LLM的智能眼镜交互系统后，作者希望获取来自真实场景的用户评价，确认这套系统可以为视障人士带来帮助。

还是以辅助点餐场景为例，作者设置了包括四种不同语言的菜单，包含英语、意大利语、波兰语和希腊语，来确保系统能够克服可能存在的语言障碍。在这项研究中，四名年龄在 25 岁到 35 岁之间的视力正常的参与者使用 Aria 智能眼镜与菜单进行交互。每个参与者的母语不同，并提供了他们不懂的语言的菜单。在所有场景下，系统都可以高精度的还原菜单项目（准确率96.77%）。同时，系统允许用户根据自身需求定制建议，例如事先将口味偏好、食物过敏信息录入系统。最后，每个参与者都被要求对他们与系统的交互进行评分，评分范围为 1 到 5，系统取得的平均评分为 4.87。