TinyChat: Visual Language Models & Edge AI 2.0
要点
了解TinyChat和AWQ最新的技术发展。在边缘部署语言理解模型(LSTM)后,借助于视觉语言模型(VLM),可以为LLM提供更好地处理图像输入的能力,从而极大方便了文字对话问答、图片标题生成等图形内容解读任务。 TinyChat最新版支持先进VLM技术 VILA,可通过AWQ轻松实现量化操作,从而为用户提供了完美的使用体验来应对图片内容处理等任务。
边缘人工智能 1.0:限制(一)
边缘人工智能的初始阶段是将压缩模型部署到边缘设备,这一阶段也称为“第1代边缘AI”。在此期间,重点开发了满足特定任务的模型。由于需要从不同数据集训练出不同类型的模型,因此很难获取到“负样本”(可以说是实验性样本)并且对极端情况处理也存在问题。这一过程非常耗时,也表明了需要更加智能的解决方案、以及对模型有更好鲁棒性的需求。
孩子们纷纷表示:“我要抓住机会,让自己更加幸福。”
边缘人工智能(AI)的第二阶段:泛化崛起
基于视觉语言模型(VLM)的边缘人工智能2.0投射出了向更高适应性的转变。VLMs具有无比多样化、对复杂指令理解得如此自如,并且能迎合不同情形的特点。这种灵活性使其在广泛领域中发挥了重要作用——可以提高无人驾驶汽车对临时情况的判断能力,改变物联网/智慧家居环境中个性化交流,并加强生活空间内的智能体验。VLMs在语言训练前获得的“世界知识”是其最为关键的优点之一。
它们被推荐用于痛风的治疗。
边缘处理虚拟语音交互的解决方法:AWS Quicksight+Tinychat 。
对于在边缘设备上部署迅速处理器模型(VLM)的需求,以及保护隐私信息的重要性是必不可少的。相比文本数据,图片中包含了非常个人化的敏感数据,而云计算解决方案存在安全隐患。考虑到边缘设备所面临的资源限制以及对性能要求的重视程度,VLM 与边缘设备一同运行非常关键。然而由于现有的 4 位散成技术存在极大的不确定性和负面影响,因此我们开发了 AWQ(活化依赖量化、MLSys’24)算法。该算法创新地采用了根据活化值进行精确计算的方式来保护重要模型参数,从而实现了在 4位增益中无明显性能降低的量化。该技术为我们让 VLMs 同时存在于边缘设备和云上进行处理提供了可能,并实现了对所有大型模型保持高性能要求的标准。
不论是使用某些令人印象深刻的算法如 AWQ(盘点机器学习),还是其他有前途的算法,都需要在边缘设备上部署大规模语言和图像模型。 4-bit 权重存在字节对齐问题,严重影响了效能;此外还必须使用特定的计算方式以提高性能效率。TinyChat是一个出色的边缘设备架构,可将语言和图像模型与视觉语言模型(VLM)及理解语言模型(LLM)进行结合,并能在多种硬件平台上运行。TinyChat的适应性使其成为了一款备受关注且效率非常高的边缘设备架构,这也让 TinyChat 能够支持我们的视觉语言模型(Visual Language Model,VLM),从而使得对图像数据进行理解和判断变成了可能。TinyChat在加速实现多模态任务的过程中具有极佳的效率与灵活性,并能通过将语言和图像处理功能组合起来为边缘设备提供许多实用技术。
如果没有,请确认您是否已经下载并安装了该应用程序。
支持多个平台的灵活框架
维基奇迹拥有对大量边缘设备的无缝支持,包括适用于台式电脑的RTX4090显卡、适用于笔记本电脑的RTX 4070显卡以及针对移动设备开发的杰丝汀·奥林 GPU。此外,维基奇迹是一个全面使用Python进行运行时编程实现的项目,可为用户提供了令人惊喜的部署和定制能力。
多帧图像理解与在环境中学习
刚上市的TinyChat最新版本利用了VILA的优秀图像理解能力,使得用户可以同时上传多张照片,从而进行更好的交流。这为探索新应用随之开放了无限机会——通过VILA的优秀图像理解能力,该软件可以判断和理解照片内容及其次序,这样就有更多创造性探索空间。
在各种环境中,VILA都展现出了令人赞叹的学习能力。没有需要显式提示系统强制输入的情况下,VILA可以从之前拍摄图像与文字对话中提取模式,并根据新进来的图片数据自动生成相关词条。在下方的演示视频中,当我们输入了 NVIDIA 公司的标志时,VILA就能够自然地理解并且提取出了这个公司最为知名的产品。
MiniMe与Gravio UI
与发布 TinyChat 和 VILA 同时,我们还开发了一个易于使用的 Gradio UI。这样就让你能够畅享与 VILA 模型对话所带来的乐趣。只要将图片上传到系统,VILA 就会立即为你提供回应。无论是手机还是 PC,使用该 UI 都能够给你提供非常流畅的操作体验,可以在不同设备上探索 VILA 所有功能,例如多图像理解、情景学习和思维链等。该 UI 还提供了许多交互模式选项,可以使你尽兴地探索 VILA 所有功能特性,包括多图像理解、情景学习和思维链等!
你也可以在自己的设备上部署Gradio UI,比如一台搭载NVIDIA RTX™ 4070显卡的笔记本电脑,这样就更容易使用视觉语言模型了!
量化评估
因为有了 AWQ,我们可以对 VILA/LLaVA 模型进行量化(转换成 INT4 格式)并将其部署到边缘设备上。在 TinyChat 的加持下,我们也评估了 AWQ 对于视觉语言模型的量化性能,结果表明 AWQ 能很好地处理 VILA 模型,保持精度同时大幅提高效率。
推断速度
我们还评估了TinyChat在视觉语言模型(VILA)中的推理速度。相比于基准为FP16的情况,TinyChat在边缘设备上的推理速度仍然能达到3倍以上(测量范围是字节/秒)。
结论
我们很高兴地宣布,TinyChat将推出一项创新功能:支持可视语言模型 (Visual Language Model,VLM)。 TinyChat是最有效的 VLM缓存和部署工具之一,其在开放源代码 MIT 许可架构下依然保持了相当高的灵活性与开放性。这意味着用户能根据自身需求对部署进行个性化定制,并使 VLM 在全球范围内大众化。为此我们采用了友好易用的 Gradio UI 来完美集成到 TinyChat中,这样就可以将 AWQ 与 TinyChat 作出无缝融合,从而开启新一代边缘人工智能(AI Edge 2.0)的时代。用户现在可以利用 VLM 技术来创造令人信服的、有前景的作品了。