你有没有想过有一天你闭上眼睛也可以进行流畅阅读呢?
不是民科,也不是量子波动速读!借助大语言模型和智能眼镜,来自维也纳工业大学、罗马第一大学和明尼苏达大学的研究者,提出了一种无需视力也能阅读的辅助系统,帮助视力受损人群进行无障碍阅读。
视力障碍是一种常见的视觉健康问题,严重影响患者的生活质量和日常活动能力。视力障碍在不同年龄段人群中普遍存在,其中老年人是主要的受影响群体。调研数据显示,超过40岁的人群中,大约有50%以上的人有不同程度的视力障碍问题。
2010年,全球50岁及以上患有视力障碍的成年人数量估计约为1.86亿。仅在美国,40 岁及以上成年人中不可矫正视力问题的患病率就超过 300 万,预计到 2050 年将增加到 700 万。包括使用视力矫正镜片的人群在内,视力受损人群的日常生活往往依赖于他人的帮助。而现代生活中的信息密度越来越高,加剧了这一问题,视障人士更难以在海量信息中寻找到自己需要的细节信息(例如阅读药物说明书以了解正确剂量)。
GPT-3.5研究测试:
https://hujiaoai.cn
GPT-4研究测试:
https://higpt4.cn
Claude-3研究测试(全面吊打GPT-4):
https://hiclaude3.com
那么研究人员将如何利用大语言模型和智能眼镜来解决这一问题呢?
下面让我们来看看这一研究的具体内容。
论文标题:
TEXT2TASTE: A Versatile Egocentric Vision System for Intelligent Reading Assistance Using Large Language Model
论文链接:
https://arxiv.org/pdf/2404.09254
系统设计:基于LLM的智能眼镜
作者认为,使用可穿戴设备是辅助视障人士的基础。文章中使用 Aria 智能眼镜为基础设计了一种新颖的文本分析助手。该系统使用OCR和LLM分析用户数据,并根据上下文提供指导。提出的框架如下图所示。
围绕视障人士在餐厅点餐为例,作者对系统做出了如下设计:
(1) 图像获取
首先,实验让用户佩戴Aria智能眼镜,获取以用户视角为中心的视频资料。
为了精确定位包含菜单信息的Aria录像帧,作者使用了当前sota的逐帧对象检测算法DETIC。因此算法可以识别菜单在佩戴者视野内可见的帧。为了减轻相机镜头可能带来的失真与畸变,算法会选择菜单位于图片最中心的帧。下图中,左图是使用Aria录制的视频帧(菜单位于最中心的图被选中),右图是佩戴Aria设备的用户正在与菜单卡进行交互。
(2) 文本信息提取
获得菜单图像后,作者使用开源的OCR算法EasyOCR (https://github.com/JaidedAI/EasyOCR) 提取菜单中的文本。值得注意的是,此步骤需要确保不相关的文本被隔离开。随后,论文使用GPT4对这些文本做了进一步的处理,以构建文字版本的菜单信息。在这个步骤,LLM提高了数字化过程的速度和准确性,实现了从现实到数字领域的无缝过度。
(3) 用户界面
提取出菜单文本信息后,接下来用户就可以与眼镜进行交互了。出于演示目的,论文构建了一个简单的基于Gradio的聊天应用程序。作者提到,这个系统将在后续被改进为语音控制,让视障人士能够更方便的与智能眼镜进行交互。
这个聊天应用程序是使用GPT4开发的,并通过检索增强生成(RAG)的方法进行了增强。该方法分为两个步骤:首先,根据用户请求,从已知信息(从图像中提取的菜单,用户的口味偏好等)中检索到相关文本片段。随后,将这些相关文本片段和用户请求一起输入GPT4,以获取个性化的大模型响应。因此,系统可以轻松的处理诸如“有什么推荐菜品”一类的问题。
实验:获取真实场景下用户的评价
设计了这套基于LLM的智能眼镜交互系统后,作者希望获取来自真实场景的用户评价,确认这套系统可以为视障人士带来帮助。
还是以辅助点餐场景为例,作者设置了包括四种不同语言的菜单,包含英语、意大利语、波兰语和希腊语,来确保系统能够克服可能存在的语言障碍。在这项研究中,四名年龄在 25 岁到 35 岁之间的视力正常的参与者使用 Aria 智能眼镜与菜单进行交互。每个参与者的母语不同,并提供了他们不懂的语言的菜单。在所有场景下,系统都可以高精度的还原菜单项目(准确率96.77%)。同时,系统允许用户根据自身需求定制建议,例如事先将口味偏好、食物过敏信息录入系统。最后,每个参与者都被要求对他们与系统的交互进行评分,评分范围为 1 到 5,系统取得的平均评分为 4.87。
总结
这项研究提出了一个基于大语言模型的智能眼镜阅读助手,帮助视力受损人群阅读文本、互动和获取信息,并以此提高其生活独立性和舒适度。
研究通过使用智能眼镜中的嵌入式RGB摄像头,获取使用者视角的影像视频,再使用对象检测技术(Object Detection)和光学字符识别(OCR)对获取的视频进行处理。然后,通过大语言模型与用户进行交互,处理给定的用户请求。
最后,在真实生活场景中,研究者获取了所有参与者满意的评价,验证了系统可以作为主动辅助生活(Active Assisted Living,AAL)的一种解决方案。
研究旨在帮助视力受损人群自主生活,更少的依赖外界,从而给视障人士提供更高的生活质量。期待在未来,视力障碍将不再成为人们生活与社交的阻碍。