大模型+智能眼镜,让失明人士也能无障碍阅读

你有没有想过有一天你闭上眼睛也可以进行流畅阅读呢?

不是民科,也不是量子波动速读!借助大语言模型和智能眼镜,来自维也纳工业大学、罗马第一大学和明尼苏达大学的研究者,提出了一种无需视力也能阅读的辅助系统,帮助视力受损人群进行无障碍阅读。

视力障碍是一种常见的视觉健康问题,严重影响患者的生活质量和日常活动能力。视力障碍在不同年龄段人群中普遍存在,其中老年人是主要的受影响群体。调研数据显示,超过40岁的人群中,大约有50%以上的人有不同程度的视力障碍问题。

2010年,全球50岁及以上患有视力障碍的成年人数量估计约为1.86亿。仅在美国,40 岁及以上成年人中不可矫正视力问题的患病率就超过 300 万,预计到 2050 年将增加到 700 万。包括使用视力矫正镜片的人群在内,视力受损人群的日常生活往往依赖于他人的帮助。而现代生活中的信息密度越来越高,加剧了这一问题,视障人士更难以在海量信息中寻找到自己需要的细节信息(例如阅读药物说明书以了解正确剂量)。

 GPT-3.5研究测试:
https://hujiaoai.cn

GPT-4研究测试:
https://higpt4.cn

Claude-3研究测试(全面吊打GPT-4):
https://hiclaude3.com

那么研究人员将如何利用大语言模型和智能眼镜来解决这一问题呢?

下面让我们来看看这一研究的具体内容。

论文标题:
TEXT2TASTE: A Versatile Egocentric Vision System for Intelligent Reading Assistance Using Large Language Model

论文链接:
https://arxiv.org/pdf/2404.09254

系统设计:基于LLM的智能眼镜

作者认为,使用可穿戴设备是辅助视障人士的基础。文章中使用 Aria 智能眼镜为基础设计了一种新颖的文本分析助手。该系统使用OCR和LLM分析用户数据,并根据上下文提供指导。提出的框架如下图所示。

图片

围绕视障人士在餐厅点餐为例,作者对系统做出了如下设计:

(1) 图像获取

首先,实验让用户佩戴Aria智能眼镜,获取以用户视角为中心的视频资料。

为了精确定位包含菜单信息的Aria录像帧,作者使用了当前sota的逐帧对象检测算法DETIC。因此算法可以识别菜单在佩戴者视野内可见的帧。为了减轻相机镜头可能带来的失真与畸变,算法会选择菜单位于图片最中心的帧。下图中,左图是使用Aria录制的视频帧(菜单位于最中心的图被选中),右图是佩戴Aria设备的用户正在与菜单卡进行交互。

图片

(2) 文本信息提取

获得菜单图像后,作者使用开源的OCR算法EasyOCR (https://github.com/JaidedAI/EasyOCR) 提取菜单中的文本。值得注意的是,此步骤需要确保不相关的文本被隔离开。随后,论文使用GPT4对这些文本做了进一步的处理,以构建文字版本的菜单信息。在这个步骤,LLM提高了数字化过程的速度和准确性,实现了从现实到数字领域的无缝过度。

(3) 用户界面

提取出菜单文本信息后,接下来用户就可以与眼镜进行交互了。出于演示目的,论文构建了一个简单的基于Gradio的聊天应用程序。作者提到,这个系统将在后续被改进为语音控制,让视障人士能够更方便的与智能眼镜进行交互。

这个聊天应用程序是使用GPT4开发的,并通过检索增强生成(RAG)的方法进行了增强。该方法分为两个步骤:首先,根据用户请求,从已知信息(从图像中提取的菜单,用户的口味偏好等)中检索到相关文本片段。随后,将这些相关文本片段和用户请求一起输入GPT4,以获取个性化的大模型响应。因此,系统可以轻松的处理诸如“有什么推荐菜品”一类的问题。

实验:获取真实场景下用户的评价

设计了这套基于LLM的智能眼镜交互系统后,作者希望获取来自真实场景的用户评价,确认这套系统可以为视障人士带来帮助。

还是以辅助点餐场景为例,作者设置了包括四种不同语言的菜单,包含英语、意大利语、波兰语和希腊语,来确保系统能够克服可能存在的语言障碍。在这项研究中,四名年龄在 25 岁到 35 岁之间的视力正常的参与者使用 Aria 智能眼镜与菜单进行交互。每个参与者的母语不同,并提供了他们不懂的语言的菜单。在所有场景下,系统都可以高精度的还原菜单项目(准确率96.77%)。同时,系统允许用户根据自身需求定制建议,例如事先将口味偏好、食物过敏信息录入系统。最后,每个参与者都被要求对他们与系统的交互进行评分,评分范围为 1 到 5,系统取得的平均评分为 4.87。

总结

这项研究提出了一个基于大语言模型的智能眼镜阅读助手,帮助视力受损人群阅读文本、互动和获取信息,并以此提高其生活独立性和舒适度。

研究通过使用智能眼镜中的嵌入式RGB摄像头,获取使用者视角的影像视频,再使用对象检测技术(Object Detection)和光学字符识别(OCR)对获取的视频进行处理。然后,通过大语言模型与用户进行交互,处理给定的用户请求。

最后,在真实生活场景中,研究者获取了所有参与者满意的评价,验证了系统可以作为主动辅助生活(Active Assisted Living,AAL)的一种解决方案。

研究旨在帮助视力受损人群自主生活,更少的依赖外界,从而给视障人士提供更高的生活质量。期待在未来,视力障碍将不再成为人们生活与社交的阻碍。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/7648.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用fitten code插件(vscode),替换通义千问,识别需求中的输入输出

今天我们介绍一个工具,具体介绍可以参考我的这篇文章的介绍,支持vs code 插件,Fitten Code是一款由非十科技开发的AI代码助手,旨在通过大模型驱动来提升编程效率和体验-免费神器-CSDN博客https://blog.csdn.net/lijigang100/article/details/137833223?spm=1001.2014.3001…

Windows Server 2003安装DHCP服务器

0x00 前言 需要一个dhcp服务器,但是电脑只有一个windows server 2003,凑合着用的。 0x01 安装DHCP服务器 1. 打开控制面板,添加删除程序–添加/删除Windows组件–网络服务,勾选网络服务。 2. 点击【详细信息】,勾选…

深入Django:用户认证与权限控制实战指南

title: 深入Django:用户认证与权限控制实战指南 date: 2024/5/7 18:50:33 updated: 2024/5/7 18:50:33 categories: 后端开发 tags: AuthDecoratorsPermissionsGuardianRESTAuthSessionMgmtMFA 第1章:入门Django与设置 1.1 Django安装与环境配置 在…

Go 语言基础之指针、复合类型【数组、切片、指针、map、struct】

1、数组 特别需要注意的是:在 Go 语言中,数组长度也是数组类型的一部分!所以尽管元素类型相同但是长度不同的两个数组,它们的类型并不相同。 1.1、数组的初始化 1.1.1、通过初始化列表{}来设置值 var arr [3]int // int类型的数…

Terraform资源

资源是Terraform中最核心的部分,使用Terraform的目的就是用于管理资源。 在Terraform中,资源使用resource块定义。 一个resource可以定义一个或多个基础设施资源对象,如:VPC,虚拟机,DNS记录,Con…

渗透测试流程

一、攻击流程 信息收集阶段→漏洞分析阶段→攻击阶段→后渗透阶段 二、信息收集 1、收集内容: IP资源:真实IP获取、旁站信息收集、C段主机信息收集域名发现:子域名信息收集、子域名枚举发现子域名、搜索引擎发现子域名、第三方聚合服务器发…

4G工业路由器快递柜应用案例(覆盖所有场景)

快递柜展示图 随着电商的蓬勃发展,快递行业迎来高速增长。为提高快递效率、保障快件安全,智能快递柜应运而生。但由于快递柜部署环境复杂多样,网络接入成为一大难题。传统有线宽带难以覆盖所有场景,而公用WiFi不稳定且存在安全隐患。 星创易联科技有限公司针对这一痛点,推出了…

好消息|5月6日起换发补发出入境证件可“全程网办”

国家移民管理局从2024年5月6日起,实施若干便民利企出入境管理的六项政策措施,包括在北京等20个城市试点实行换发补发出入境证件的“全程网办”,该举措对于访问学者、博士后研究人员及联合培养博士都是利好消息。故知识人网小编转载发布。 为更…

类和对象之六个默认成员函数

目录 1.构造函数 2.析构函数 3.构造函数(重载) 4.拷贝构造 4.1特征: 4.2写法: 4.3浅拷贝和深拷贝 5.运算符重载 6.&运算符重载和const成员 6.1权限问题 Date类中是否加const修饰 6.2取地址及const取地址操作符重载…

vue-img-cutter 图片裁剪详解

前言&#xff1a;vue-img-cutter 文档&#xff0c;本文档主要讲解插件在 vue3 中使用。 一&#xff1a;安装依赖 npm install vue-img-cutter # or yarn add vue-img-cutter # or pnpm add vue-img-cutter 二&#xff1a;构建 components/ImgCutter.vue 组件 <script se…

sh包装脚本

两个脚本,运行的时间间隔分别是一分钟和五分钟,放入到sh文件中,挂在后代,脚本里面的路径最好是绝对路径。 新建sh文件 新建 run_test.sh 文件,使其可以运行两个不同的 Python 脚本,一个每分钟运行一次,另一个每五分钟运行一次。下面是修改后的 run_test.sh 文件的示例:…

光伏SRM供应商管理解决方案

供应商管理是光伏企业中重要的一环&#xff0c;通过SRM管理供应商&#xff0c;可以提高产品质量&#xff0c;降低采购成本&#xff0c;并集成供应链&#xff0c;提高核心竞争力。 一、搭建管理系统 分为供应商和商户&#xff0c;供应商需要完善基本信息、类别、等级、产品概要…

大历史下的 tcp:一个松弛的传输协议

如果 tcp 是一个相对松弛的协议&#xff0c;会发生什么。 所谓松弛感&#xff0c;意思是它允许 “漏洞”&#xff0c;允许可靠传输的不封闭&#xff0c;大致就是&#xff1a;“不求 100% 可靠&#xff0c;只要 90%(或多或少) 可靠&#xff0c;另外 10% 的错误可检测到” or “…

Python扩展模块的开发

有关python C扩展开发的教程可以参考概述 — Python 3.12.3 文档。项目已经发布至python官方的pypi里了。具体详情请见AdroitFisherman PyPI。目前该项目还处在测试阶段。尚有部分模块需要开发和测试。 项目结构 项目结构见下图&#xff1a; 代码展示与说明 以单链表(SingleL…

5.7代码

1.环境治理 分析&#xff1a;最开始进入了一个误区&#xff0c;觉得都有通路了直接算通路就可以&#xff0c;后来才发现居然是最小路径的总和&#xff0c;所以大概是每减一次都要算一次各点之间的最小路径了&#xff0c;然后是循环&#xff0c;到需要的条件为止 总的来说思路不…

昂科烧录器支持Infineon英飞凌的三相电机驱动器TLE9877QXA40

芯片烧录行业领导者-昂科技术近日发布最新的烧录软件更新及新增支持的芯片型号列表&#xff0c;其中Infineon英飞凌的三相电机驱动器TLE9877QXA40已经被昂科的通用烧录平台AP8000所支持。 TLE9877QXA40是一款单芯片三相电机驱动器&#xff0c;集成了行业标准的ARMCortex™M3 内…

【前端】实现表格简单操作

简言 表格合并基础篇 本篇是在上一章的基础上实现&#xff0c;实现了的功能有添加行、删除行、逆向选区、取消合并功能。 功能实现 添加行 添加行分为在上面添加和在下面追加行。 利用 insertAdjacentElement 方法实现&#xff0c;该方法可以实现从前插入元素和从后插入元…

安卓通信方式简介

目录 一、Binder二、Socket三、Binder与Socket四、Handler 一、Binder Binder作为Android系统提供的一种IPC机制&#xff0c;无论从系统开发还是应用开发&#xff0c;都是Android系统中最重要的组成。 二、Socket Socket通信方式也是C/S架构&#xff0c;比Binder简单很多。在…

Llama3-Tutorial之Llama3 Agent能力体验+微调(Lagent版)

Llama3-Tutorial之Llama3 Agent能力体验微调&#xff08;Lagent版&#xff09; 参考&#xff1a; https://github.com/SmartFlowAI/Llama3-Tutorial 1. 微调过程 使用XTuner在Agent-FLAN数据集上微调Llama3-8B-Instruct&#xff0c;以让 Llama3-8B-Instruct 模型获得智能体能力…

期权怎么开户?

今天期权懂带你了解期权怎么开户&#xff1f;近年来&#xff0c;随着股市的持续低迷&#xff0c;市场交易痛点越发明显的氛围中&#xff0c;所以有人看到了双向交易的期权。 期权怎么开户&#xff1f; 1、首先是证券账户内的资金需要满足50万保留20个交易日&#xff1b; 2、其…