一次可输入多张图像,还能多轮对话!最新开源数据集,让AI聊天更接近现实

大模型对话能更接近现实了!

不仅可以最多输入20张图像,还能支持多达27轮对话。可处理文本+图像tokens最多18k。

这就是最新开源的超长多图多轮对话理解数据集MMDU(Multi-Turn Multi-Image Dialog Understanding)。

图片

大型视觉语言模型(LVLMs)的核心能力之一是生成自然且有意义的回答,从而能够与人类进行流畅的图文对话。

尽管目前开源的LVLMs在如单轮单图输入等简化场景中展示出了不错的潜力,但在具有长上下文长度,且需要多轮对话和多图输入的真实对话场景中,表现则相对不足。

此外,现有的LVLM Benchmarks主要采用单项选择题或简短回答的形式,难以全面评估LVLMs在真实世界人机互动应用中的表现。

为此,研究团队在论文A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs中提出了全新多图多轮评测基准MMDU及大规模指令微调数据集MMDU-45k,旨在评估和提升LVLMs在多轮及多图像对话中的性能。

目前,该研究在HuggingFace的6月18日Daily Papers中位居榜首,VQA dataset trending榜排名Top3,得到了国内外的广泛关注。

图片

可缩小开闭源模型差距

MMDU基准测试具有以下优势:

(1)多轮对话与多图像输入: MMDU基准测试最多包括20幅图像和27轮问答对话,从而超越了先前的多种benchmark,并真实地复制了复现了现实世界中的聊天互动情景。

(2)长上下文: MMDU基准测试通过最多18k文本+图像tokens,评估LVLMs处理和理解带有长上下文历史的情况下理解上下文信息的能力。

(3)开放式评估: MMDU摆脱传统基准测试依赖的close-ended问题和短输出(例如,多项选择题或简短的答案),采用了更贴合现实和精细评估的方法,通过自由形式的多轮输出评估LVLM的性能,强调了评估结果的可扩展性和可解释性。

在构建MMDU的过程中,研究者们从开源的维基百科中选取具有较高相关程度的图像及文本信息,并在GPT-4o模型的辅助下,由人工标注员构建问题和答案对。

具体而言,研究者将wikipedia词条通过聚类的方法进行合并,划分为多个不同的类别,并在同一个类别中使用不同的词条(包含图文)进行组合。经过InternLM-Chat-20B清洗并去除无用信息之后,交给GPT-4o进行对话生成。生成的基于单词条和多词条的对话进行组合,从而构建具有长上下文的多图多轮对话。

生成的对话以的格式标记图像位置,使用者可以将不同的多图多轮对话进一步组合,从而构建所需长度的对话。

图片
MMDU和MMDU-45k数据生成pipeline

MMDU Benchmark包含的问答最长拥有18k的图像+文本tokens、20幅图像及27轮对话,其规模是以往同类型benchmark的至少五倍,为当前的LVLMs提出了新的挑战。MMDU-45k包含的最长对话数据拥有超17k的图像+文本tokens。

45k的多轮对话共包含超过410k的问答,能够显著提升LVLMs在长上下文理解,多图多轮对话等方面的能力。

图片

受到利用强大的LLMs作为评判的NLP研究的启发,MMDU的研究员们开发了一个使用GPT-4o进行模型性能评估的评估流程。

具体来说,模型在MMDU Benchmark上生成输出后,GPT-4o将根据多个维度评估这些输出结果,并将它们与参考答案进行比较。

为确保全面和细致的评估,MMDU确定了六个评估维度:创造力、丰富度、视觉感知、逻辑连贯性、答案准确性和图像关系理解。为了引导GPT-4o提供平衡和公正的评估,每个维度都有精心制定的评估提示。

每个维度的评分范围为10分,分为五个区间(0-2、2-4…8-10),每个区间都设定了相应的评判标准。GPT-4o遵循这些标准进行评判过程,并为每个维度提供最终分数。

图片

MMDU的评估流程中,使用GPT-4o作为评判,根据参考答案给出总体分数。在每次评估中,GPT-4o将同时参考模型的答案和参考答案。它将为每个评估标准(用蓝色表示)提供相应的分数(用绿色表示),并最终以浅橙色总结结果。

通过对15个具有代表性的开源和闭源LVLMs进行深入分析,研究人员发现开源LVLMs(如LLaVa)由于缺乏足够的对话指令微调数据,相比闭源系统(如GPT-4V)存在较大差距。研究表明,通过对开源LVLMs在MMDU-45k数据集上进行finetune,则可以显著缩小这一差距,finetune后的模型能够生成更长、更精确的对话,同时对于图文交错的多图理解能力有了显著的提升。

图片
评估不同LVLMs在MMDU上的表现

团队报告了以下指标:创造力(C)、丰富度(R)、视觉感知(VP)、逻辑连贯性(LC)、答案准确性(AA)、图像关系理解(IRU),以及平均(Avg.)结果。

此外,经过MMDU-45k微调之后的模型,在现有基准测试上表现也有所提升(MMStar: +1.1%,MathVista: +1.5%,ChartQA: +1.2%)。这一结果说明,MMDU-45k能够在各种图像文本相关的任务上提升LVLMs的能力。

图片
在LVLM监督微调(SFT)阶段添加MMDU-45k数据的优势。

表中报告了LLaVa和InternLM-XC2在MMDU和现有的代表性基准测试上的表现,包括MMB(MMBench-Dev-EN)、MMMU(MMMU-Val)、MMStar 、MathVista、AI2D、HallBench(HallusionBench)、MMVet 以及ChartQA。每个部分中的最佳和次佳结果分别用绿色和红色标记。

在多图多轮问答及普通单图问答情境下,经过MMDU-45k微调的模型都有显著的性能提升。这一性能提升首先表现在对图像内容的识别上,相比微调前的LVLMs,微调之后的模型能够更加准确的同时理解多张图像的主要内容,图像的顺序,以及图像之间的关系。此外,微调之后的模型能够生成更为详实和丰富的输出,并能够轻松应对具有超长上下文长度的图文对话情景。

图片

InternLM-Xcomposer2在MMDU-45k数据集上finetune前后的表现。错误或幻觉描述在展示中用红色标记,详细且准确的描述则用绿色标记。

如何学习大模型

现在社会上大模型越来越普及了,已经有很多人都想往这里面扎,但是却找不到适合的方法去学习。

作为一名资深码农,初入大模型时也吃了很多亏,踩了无数坑。现在我想把我的经验和知识分享给你们,帮助你们学习AI大模型,能够解决你们学习中的困难。

我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习,等录播视频免费分享出来,需要的小伙伴可以扫取。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。

在这里插入图片描述

二、AI大模型视频教程

在这里插入图片描述

三、AI大模型各大学习书籍

在这里插入图片描述

四、AI大模型各大场景实战案例

在这里插入图片描述

五、结束语

学习AI大模型是当前科技发展的趋势,它不仅能够为我们提供更多的机会和挑战,还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型,我们可以深入了解深度学习、神经网络等核心概念,并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时,掌握AI大模型还能够为我们的职业发展增添竞争力,成为未来技术领域的领导者。

再者,学习AI大模型也能为我们自己创造更多的价值,提供更多的岗位以及副业创收,让自己的生活更上一层楼。

因此,学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/37509.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025艺考时间线来啦!所有艺考生码住!

2025届艺考生们的征途即将启程。对于每一个即将参加艺考的考生和家长来说,梳理艺考时间节点是尤为重要的。 对于艺考生而言,更早的规划意味着更充分的准备时间,更扎实的专业能力。补齐艺考信息差,以下2025艺考时间线一定要看明白…

知识库在AI大模型中的使用流程

大模型知识库的使用流程通常包括以下关键步骤,大模型知识库的使用流程需要跨学科的知识和技能,包括自然语言处理、数据库管理、软件工程等。同时,也需要关注用户体验、性能优化、安全保护等方面,以提供高质量的知识服务。北京木奇…

CC7关于ConstantTransformer返回值不能和put一样的分析

CC7关于ConstantTransformer返回值不能和put一样的分析 前言 实验室的gaorenyusi也是学到cc7的时候问了我一个很好的问题,我当时学的时候没有在意,然后就去调试分析解决了一下 分析 首先是paylaod package CC7;import org.apache.commons.collectio…

三英战吕布 | 第5集 | 温酒斩华雄 | 竖子不足与谋 | 三国演义 | 逐鹿群雄

🙋大家好!我是毛毛张! 🌈个人首页: 神马都会亿点点的毛毛张 📌这篇博客分享的是《三国演义》文学剧本第Ⅰ部分《群雄逐鹿》的第5️⃣集《三英战吕布》的经典语句和文学剧本全集台词 文章目录 1.经典语句2.文学剧本台…

MySQL之如何定位慢查询

1、如何定位慢查询 1.1、使用开源工具 调试工具:Arthas 运维工具:Promethuss、Skywalking 1.2、MySQL自带慢日志 慢查询日志记录了所有执行时间超过指定参数(long_query_time,单位:秒,默认10秒&#x…

小白上手AIGC-基于PAI-DSW部署Stable Diffusion文生图Lora模型

小白上手AIGC-基于PAI-DSW部署Stable Diffusion文生图Lora模型 前言资源准备开启体验服务创建工作空间 部署服务创建DSW实例安装Diffusers启动WebUI 写在最后 前言 在上一篇博文小白上手AIGC-基于FC部署stable-diffusion 中,说到基于函数计算应用模板部署AIGC文生图…

python基础语法 004-1流程控制- 条件控制

1 条件控制 1.1 表达 条件表达式冒号缩进 1.1.1 单个条件:满足表达式 """ ############if的表示 if 条件表达式:(缩进)条件满足以后要运行的代码例子: #遇到冒号要缩进 #缩进:1个缩进用4个空格,整个篇幅缩进需要统一 #4个…

揭开统计分析的秘密:独立样本和配对样本T检验实战案例

一、独立样本T检验 1.收集20名学生的自信心值 见下表,试问该指标是否与性别有关?(非参数检验或参数检验) 数据值 性别 1,1,1,1,2,2,1,1&#…

国产操作系统上netstat命令详解 _ 统信 _ 麒麟 _ 中科方德

原文链接:国产操作系统上netstat命令详解 | 统信 | 麒麟 | 中科方德 Hello,大家好啊!今天给大家带来一篇在国产操作系统上使用netstat命令的详解文章。netstat是网络统计(network statistics)的缩写,它是一…

【股指期权投教】一手股指期权大概多少钱?

一手股指期权的权利金大概在几千人民币左右,如果是作为期权卖方还需要另外缴纳保证金的。国内的股指期权有三种,沪深300、上证50、中证1000股指期权,每点合约人民币100 元。 期权合约的价值计算可以通过此公式得出:权利金的支付或…

软件工程实验

实验环境和需求 用户可以对相片进行按类别管理,用户可以设定不同的类别,然后上传照片到相应的类别中,并能进行照片的删除,注释 运行 运行并访问 localhost 8090,图片在数据库中的信息是D:/upgrade 后面的内容 se…

windographer数据操作教程

目录 通道设置将4个windographer文件拼到一起映射关系通道设置 先把风速列选中,将Type改为 wind speed 无需额外操作,确认一下即可

QT4-QT5(6)-const char* QString 乱码转换

我简单粗暴的给出个结论: QString GBK编码正常,可以转UTF-8编码,但会有少量乱码。 const char* 编码就不要转编码,转哪个都是乱码。 UTF-8.cpp 下 1.QString GBK->UTF-8 2.const char * GBK->UTF-8 const char *…

数据可视化在智慧园区中的重要作用

在现代智慧园区的建设和管理中,数据的作用越来越重要。智慧园区利用物联网、云计算、大数据等技术,实现了园区各类信息的实时采集和处理。数据可视化作为数据处理和展示的重要工具,为智慧园区的各个方面提供了强有力的支持。 首先&#xff0c…

mybatis的高级映射

mybatis的高级映射(重点) 表与表之间的关系: 一对一关系: 栗子:一个人对应一个身份证号 一对多关系: 栗子:一个用户可以有多个订单 1. 分析需求&…

[深度学习] 自编码器Autoencoder

自编码器(Autoencoder)是一种无监督学习算法,主要用于数据的降维、特征提取和数据重建。自编码器由两个主要部分组成:编码器(Encoder)和解码器(Decoder)。其基本思想是将输入数据映射…

文心一言 VS 讯飞星火 VS chatgpt (290)-- 算法导论21.3 3题

三、给出一个包含 m 个 MAKE-SET 、UNION 和 FINDSET 操作的序列(其中有 n 个是 MAKE-SET 操作),当仅使用按秩合并时,需要 Ω(mlgn) 的时间。如果要写代码,请用go语言。 文心一言: 在并查集(Union-Find)数…

2024最出色的代理软件评估及推荐

随着网络技术的飞速发展,代理软件已成为许多网络活动不可或缺的工具,特别是在数据抓取、网络安全防护等方面。在众多代理软件中,哪些能真正满足用户需求,提供卓越的性能和服务呢?我们的测评团队经过深入研究和测试&…

笔记本电脑安装CentOS

正文共:1234 字 24 图,预估阅读时间:2 分钟 前面我们对VPP进行了多次介绍(羡慕!大佬的VPP能达到180G性能,而我的却只有13.5G),可以发现他的很多优点,但是我们也可以发现它…

【Sklearn-驯化】sklearn中决策树cart的用法,看这篇就够了

【Sklearn-驯化】sklearn中决策树cart的用法,看这篇就够了 本次修炼方法请往下查看 🌈 欢迎莅临我的个人主页 👈这里是我工作、学习、实践 IT领域、真诚分享 踩坑集合,智慧小天地! 🎇 免费获取相关内容文档…