MM-PhyQA——一个专门处理高中物理选择题的 LLM 聊天机器人

概述

论文地址:https://arxiv.org/abs/2404.12926

人工智能的发展正在改变我们的学习方式。特别是使用大规模语言模型(LLM)的聊天机器人,通过提供个性化指导和即时反馈,极大地拓展了教育的可能性。

然而,在将 LLM 应用于教育领域方面仍存在许多挑战。例如,在物理解题中,计算数学公式和理解概念至关重要,但 LLM 在这些方面表现不佳。此外,当问题陈述包含图像时,也很难适当地处理这些信息。

因此,在本研究中,我们开发了一个 LLM 聊天机器人,专门用于印度高中物理选择题。通过使用强化学习和图像字幕,我们成功地大幅提高了 LLM 的解题和推理能力。这项研究为开启人工智能时代的教育革命之门迈出了一步。

相关研究

相关研究包括视觉语言模型(VLMs)的开发:Flamingo、GPT4、LLaVA 系列和 MiniGPT4 等模型能够处理视觉和语言综合信息,在视觉问题解答任务中表现出色。它们显示了此外,VisionLLM、Kosmos-2 和 Qwen-VL 等模型的视觉接地能力也有所提高。

对于从人类反馈中强化学习(RLHF)来说,最初的重点是文本总结和问题解答等任务,但后来逐渐被应用于改进通用语言模型。从人类反馈中强化学习(RLHF)最初的重点是文本摘要和问题解答等任务,后来逐渐应用于改进通用语言模型。

就图像说明而言,它们已被证明能有效减少 LLM 流形处理的局限性和模糊性。使用图像说明可为 LLM 提供更多上下文信息,并有望提高准确性。

LLM 在教育领域的应用包括提供个性化学习材料、提高生产率和普及性。此外,还在研究开发基于 LLM 的学生助理和编程作业自动反馈。

然而,对数学教育中的 ChatGPT 进行的评估表明,在领域适应性和语境理解方面仍有改进的余地。基于这些相关研究,我们正在开发一款专门用于物理教育的 LLM 聊天机器人。

建议方法

1. 使用 MM-PhyQA 数据集

- 印度高中物理选择题数据集 - 包括问题文本、选项、正确答案和解释 - 3,700 个研究样本和 676 个测试样本

2. 添加图片说明

- 对每幅问题图像进行详细描述 - 利用 Infi-MM 模型生成图像说明 - 尽量减少幻觉和图像处理错误

3. 联合联络小组的应用

将人类反馈纳入模型学习过程 - 从 MM-PhyQA 数据集中选择 2,000 个样本并使用 5 个模型进行推理- 使用 Gemini Pro 对推理结果进行排序- 将排序最高的回应与其他回应配对以创建 8,000 个优先级数据集- 使用优先级数据集训练奖励模型(RM)- 使用 PPO 算法用 RM 更新 LLM

使用优先级数据集训练奖励模型 (RM) - 使用 PPO 算法用 RM 更新 LLM

4. 微调

- 使用 7B、13B 和 13B LoRA 大型版本的 LLaVA 1.5 模型 - 使用 MM-PhyQA 数据集进行微调 - 使用 PEFT 进行高效参数学习

图 1 是拟议方法的概览:RLHF 流程通过创建优先数据集和学习奖励模型来提高 LLM 的推断能力。

通过实验,可以比较拟议方法在以下六种情况下的性能,从而对其进行评估

  1. 使用(问题文本/答案、图像、标题)进行微调

2.使用(问题文本/答案、标题)进行微调

3.使用(问题文本/答案、图像)进行微调

  1. 将 RLHF 应用于 1

5.将 RLHF 应用于 2

6.将 RLHF 应用于3

试验

表 1 至表 3 显示了在上一节所述的六种实验设置中,在不使用 RLHF 的设置 1 至设置 3 的情况下,每个模型与测试数据的对比精度。
在这里插入图片描述

表 1 显示了仅使用问题文本、答案和图像进行微调的结果,LLaVA 1.5 的 7B、13B 和 13B LoRA 大型模型的准确率分别为 53.3%、52.7% 和 53.1%,没有显著差异。

表 2 显示了使用问题文本和答案、图像和标题进行微调的结果。添加图片说明后,准确率明显提高,LLaVA 1.5 7B、13B 和 13B LoRA 大型模型的准确率分别达到 82.52%、83.28% 和 82.1%,这表明图片说明有助于提高 LLM 性能。

表 3 显示了仅使用问题文本、答案和标题进行微调的结果。即使没有图像,使用说明也能提高准确率:LLaVA 1.5 中 7B、13B 和 13B LoRA 大型模型的准确率分别为 66.95%、64.0% 和 74.56%。

这些结果表明,图像说明在提高 LLM 成绩方面发挥了重要作用。增加图片说明可能会提高解决问题的成绩,因为它们为 LLM 提供了更多的上下文信息。

不过,本文没有介绍应用 RLHF 的设置 4 至设置 6 的结果,因此无法讨论 RLHF 的效果;预计 RLHF 的应用将进一步提高 LLM 的推理能力,但验证这一点是未来的任务。

此外,由于本研究中使用的 MM-PhyQA 数据集专门针对印度高中物理问题,因此需要进一步研究拟议方法对其他学科和难度水平问题的有效性。

结论

本研究在 MM-PhyQA 数据集上引入了图像标题和 RLHF 这两种方法,目的是开发一款专门针对印度高中物理选择题的 LLM 聊天机器人。实验结果表明,添加图片说明能显著提高 LLM 的准确性。另一方面,RLHF 的有效性还需要进一步验证。

今后,还需要解决各种问题,包括验证 RLHF 的有效性、将其应用于其他领域、在实际教育环境中使用以及伦理方面的考虑。本研究为 LLHF 在教育领域的应用提供了重要见解,有望为人工智能教育研究的发展做出贡献。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/52483.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

带你深入了解C语言指针(一)

目录 前言 一、内存和地址 1. 内存 2. 究竟该如何理解编址 二、指针变量和地址 1. 取地址操作符(&) 2. 指针变量和解引用操作符(*) 2.1 指针变量 2.2 如何拆解指针类型 2.3 解引⽤操作符 3. 指针变量的大小 三、指…

LeetCode题练习与总结:矩形面积--223

一、题目描述 给你 二维 平面上两个 由直线构成且边与坐标轴平行/垂直 的矩形,请你计算并返回两个矩形覆盖的总面积。 每个矩形由其 左下 顶点和 右上 顶点坐标表示: 第一个矩形由其左下顶点 (ax1, ay1) 和右上顶点 (ax2, ay2) 定义。第二个矩形由其左…

配置 MinGW 以及使用 g++ 编译 C++ 程序

如何在 Windows 上安装和配置 MinGW 以及使用 g 编译 C 程序 (C语言(gcc)类似 ) 在Windows环境下,使用C进行编程需要一个编译器,而MinGW (Minimalist GNU for Windows) 是一个常用的C/C编译器工具集。对于编程新手来说&#xff0c…

SOMEIP_ETS_101: SD_ClientServiceActivate_send_StopOfferService

测试目的: 验证当DUT在客户端模式下开始发送FindService消息时,测试器发送StopOfferService后,DUT能够理解其正在寻找的服务和实例ID不再可用,并停止为此服务和实例ID发送FindService消息。同时,DUT仍然可以发送Find-…

云曦2024秋季开学考

ezezssrf 第一关:md5弱比较 yunxi%5B%5D1&wlgf%5B%5D2 第二关: md5强比较 需要在bp中传参,在hackbar里不行 yunxiiM%C9h%FF%0E%E3%5C%20%95r%D4w%7Br%15%87%D3o%A7%B2%1B%DC V%B7J%3D%C0x%3E%7B%95%18%AF%BF%A2%00%A8%28K%F3n%8EKU%B3_B…

【HarmonyOS NEXT】实现网络图片保存到手机相册

【问题描述】 给定一个网络图片的地址,实现将图片保存到手机相册 【API】 phAccessHelper.showAssetsCreationDialog【官方文档】 https://developer.huawei.com/consumer/cn/doc/harmonyos-references-V5/js-apis-photoaccesshelper-V5#showassetscreationdialog…

降维打击 华为赢麻了

文|琥珀食酒社 作者 | 积溪 真是赢麻了 华为估计都懵了 这辈子还能打这么富裕的仗? 其实在苹果和华为的发布会召开之前 我就知道华为肯定会赢 但我没想到 苹果会这么拉胯 华为这是妥妥的降维打击啊 就说这苹果iPhone 16吧 屏幕是变大了、颜色…

编译安装调试 scaLapack 和 openmpi 以及 lapack

编译安装调试 scaLapack /home/hipper/ex_scalapack/ mkdir ./lapack mkdir -p ./lapack/local/lib mkdir ./openmpi mkdir ./scalapack 1,编译安装 Lapack 下载代码: cd lapack wget https://github.com/Reference-LAPACK/lapack/archive/refs/tags/…

Python | Leetcode Python题解之第398题随机数索引

题目: 题解: class Solution:def __init__(self, nums: List[int]):self.nums numsdef pick(self, target: int) -> int:ans cnt 0for i, num in enumerate(self.nums):if num target:cnt 1 # 第 cnt 次遇到 targetif randrange(cnt) 0:ans …

智能头盔语音识别声控芯片,AI离线语音识别ic方案,NRK3301

头盔是交通事故中保护电动车车主安全的最后一道屏障。为了增加骑行用户的安全保护,改善骑行用户的出行体验,让用户从被动使用头盔到主动佩戴头盔,头盔厂家与九芯电子合作,推出了语音智能头盔,它具备首家骑行专用的智能…

【网络安全】-xss跨站脚本攻击实战-xss-labs(1~10)

Level1: 检查页面源代码: function函数: (function(){try{let tn ;if(tn.includes(oem)){Object.defineProperty(document, referrer, {get: function(){return ;}});}else if(tn.includes(hao_pg)){if(!document.referrer.match(tn)){Object.definePro…

【python】python 安装和 pycharm 安装

1 python 安装 1.1 下载 下载地址:python 官网 1.2 安装 windows 安装为例。 双击.exe文件打开 安装界面 安装完成 1.3 检查安装是否成功 win/start 键r 键 运行窗口输入 cmd 回车 3 输入 python查看 显示版本信息,表示已经安装成功。 …

协议头,wireshark,http

目录 协议头 ip头 udp头 mac层 网络工具 telnet wireshark Http 一、HTTP 协议介绍 二、HTTP 协议的工作过程 三、使用抓包工具抓取报文 四、获取到http请求报文: 五、http请求(request) (一)、认识URL 项…

如果 Android 手机出现数据丢失,如何在Android上恢复丢失的数据

当您的 Android 手机发生数据丢失时,您可能需要检索丢失的文件。为了帮助您完成此过程,以下是执行 Android 数据恢复的一些有效方法: 如何在Android上检索数据 如果您的 Android 手机出现数据丢失,您可能需要检索丢失的文件。为了…

OpenWRT有三个地方设置DNS,究竟设置哪个地方会更好?

前言 刚上手OpenWRT软路由系统的小伙伴或许都会有这样的疑问:OpenWRT这个系统有三个地方是设置DNS的,究竟设置哪一个才是正确的? 这个还得从实际应用说起。 一般来说,咱们在使用路由器的时候,DNS都是默认运营商的DN…

计算机毕业设计选题推荐-自驾游攻略管理系统-Java/Python项目实战

✨作者主页:IT研究室✨ 个人简介:曾从事计算机专业培训教学,擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Python…

CentOs7 解决yum更新源报错:[Errno 14] HTTP Error 404 - Not Found 正在尝试其它镜像。

CentOs7 解决yum更新源报错:[Errno 14] HTTP Error 404 - Not Found 正在尝试其它镜像。 前言问题解决方法: 前言 遇到这个问题大概率是镜像源的问题可以参照这篇文章的内容试一下 镜像源问题相关解决方法 根据自己的情况对症下药,如果还不…

LAMP环境下项目部署

目录 1、创建一台虚拟机 centos 源的配置 备份源 修改源 重新加载缓存 安装软件 2、关闭防火墙和selinux 查看防火墙状态 关闭防火墙 查看SELinux的状态 临时关闭防火墙 永久关闭SELinux:编辑SELinux的配置文件 配置文件的修改内容 3、检查系统中是否…

计算机毕业设计 家校互联管理系统 Java+SpringBoot+Vue 前后端分离 文档报告 代码讲解 安装调试

🍊作者:计算机编程-吉哥 🍊简介:专业从事JavaWeb程序开发,微信小程序开发,定制化项目、 源码、代码讲解、文档撰写、ppt制作。做自己喜欢的事,生活就是快乐的。 🍊心愿:点…

单片机-STM32 看门狗(八)

目录 一、看门狗概念 1、定义: 二、单片机中的看门狗 1、功能描述: 2、看门狗设置部分 预分频寄存器(IWDG_PR) 3、窗口看门狗 特性: 4、看门狗配置: 一、看门狗概念 看门狗--定时器(不属于基本定时器、通用定…