DAHL:利用由跨越 29 个类别的 8,573 个问题组成的基准数据集,评估大型语言模型在生物医学领域长篇回答的事实准确性。

2024-11-14,由首尔国立大学创建的DAHL数据集,为评估大型语言模型(LLMs)在生物医学领域长文本生成中的幻觉问题提供了一个重要的工具,这对于提高模型的准确性和可靠性具有重要意义。

数据集地址:DAHL|生物医学数据集|模型评估数据集

一、研究背景:

随着大型语言模型(LLMs)在自然语言理解和生成领域的迅速发展,它们在生物医学、法律和金融等专业领域的应用日益增多。然而,这些模型在生成文本时可能会出现“幻觉”现象,即生成包含不准确或有偏见信息的响应,这在对事实精确度要求极高的领域中尤其危险。

目前遇到困难和挑战:

1、幻觉问题:LLMs生成的幻觉响应可能导致虚假信息的传播,引发伦理问题和严重后果。

2、专业领域挑战:在生物医学等领域,对事实精确度的要求极高,幻觉问题的风险更大。

3、评估和缓解方法:现有的评估方法多依赖于多项选择题任务或人工标注,成本高且耗时。

数据集地址:DAHL|生物医学数据集|模型评估数据集

二、让我们一起来看一下DAHL数据集

DAHL是一个专为评估生物医学领域LLMs长文本生成中幻觉问题而设计的基准数据集和自动化评估系统。

DAHL数据集包含8573个问题,涵盖29个类别,基于PubMed Central(PMC)的生物医学研究论文精心策划而成。该数据集通过将LLMs的响应分解为代表单个信息单元的原子单位,计算这些原子单位的平均事实准确性,从而产生DAHL分数。

数据集构建:

涉及从PMC中选取研究论文,生成可能的考试问题,并通过过滤过程保留可以独立回答的问题。

数据集特点:

1、覆盖广泛的生物医学领域,包含多个类别。

2、自动化的数据集构建过程,易于扩展到其他领域。

3、通过原子单位级别的事实精确度评估,提供更深入的幻觉评估。

DAHL数据集可以用于评估LLMs在生物医学领域长文本生成中的事实准确性,通过计算响应中原子单位的平均事实准确性来得出DAHL分数。

基准测试 :

通过与不同模型的实验,发现较大的模型倾向于较少的幻觉,但超过70-80亿参数的模型规模,进一步扩展并不显著提高事实准确性。

DAHL 基准数据集构建过程。

DAHL 基准数据集的分类分布。

自动幻觉评估管道。

生成的响应及其两个版本的细分单元示例,一个来自 Splitter 模型,另一个来自人工注释。Splitter 通过将响应拆分为包含有关实体的一条信息或信息之间关系的单元来实现全面评估。

DAHL 分数和每个测试模型生成的响应(字符串)的平均长度。Gpt-4o 的表现优于所有,其次是 Qwen-2、Gemma-2、Llama-3、Llama-3.1、Dolly-v2、Mistral-Nemo-Base-2407 和 MPT。Qwen-2 的 DAHL 分数为 72B 参数,开源模型中得分最高的模型,以及 gpt-4o 的分数,标记为粗体。

在 0.1 到 1.0 的温度范围内评估了 Llama-3.1-8b、Gemma-2-9b、Qwen-2-8b 和 Mistral-Nemo-Base-2407(120 亿个参数)的 DAHL 评分。每个模型的最佳温度在 0.1 到 0.3 的范围内,随着温度的升高,DAHL 分数略有线性下降。

三、让我们一起展望DAHL数据集的应用场景:

比如,我是一名医生。

我每天的工作之一就是撰写临床报告。这通常是一个既耗时又需要高度集中精力的任务。

今天一个刚做完心脏手术的病人,我需要查看手术记录、病理报告和术后监测数据。然后,我需要将这些信息整合成一份报告,描述手术过程、发现的问题以及术后的恢复情况。这个过程可能会花费他几个小时,因为我需要确保报告中的每一个细节都是准确无误的。

现在有来DAHL数据集训练的智能系统

智能系统能够自动从电子健康记录中提取病人的所有相关信息,并开始生成初步的临床报告。

1、数据提取:

智能系统首先从电子健康记录中提取病人的医疗信息,包括手术记录、病理报告和术后监测数据。

2、报告生成:

智能系统利用DAHL数据集训练出的模型,将这些信息整合成一份初步的临床报告。这个过程中,系统会确保报告中的每一个信息单元都是准确无误的。

3、事实验证:

智能系统会使用DAHL评分系统对报告中的每个信息单元进行事实验证,确保报告的准确性。比如,系统会检查“病人的心脏瓣膜修复手术成功”这一信息是否与手术记录相符。

4、报告优化:

经过事实验证后,系统会将验证无误的信息单元重新整合成一份完整的临床报告,并对其进行优化,使其更加清晰易懂。

最后,我会收到这份由智能系统生成的报告,并进行快速审核。通过智能系统,我撰写临床报告的时间大大缩短,我可以将更多的时间和精力投入到病人的诊断和治疗中。同时,报告的准确性和质量也得到了显著提升,这对于提高医疗服务的质量和病人的满意度至关重要。

更多开源数据集,请打开:遇见数据集

DAHL|生物医学数据集|模型评估数据集DAHL是由首尔国立大学精心策划的生物医学领域长篇文本生成幻觉评估基准数据集。该数据集包含8,573个问题,涵盖29个类别,来源于PubMed Central的生物医学研究论文。数据集的创建过程包括自动生成问题和人工筛选,确保问题的高质量和独立可答性。DAHL旨在评估大型语言模型在生物医学领域...icon-default.png?t=O83Ahttps://www.selectdataset.com/dataset/c5c259c5a72a9fcc8e4826916d9249c1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/60975.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

GStreamer 简明教程(九):Seek 与跳帧

系列文章目录 GStreamer 简明教程(一):环境搭建,运行 Basic Tutorial 1 Hello world! GStreamer 简明教程(二):基本概念介绍,Element 和 Pipeline GStreamer 简明教程(三…

【微软:多模态基础模型】(1)从专家到通用助手

欢迎关注【youcans的AGI学习笔记】原创作品 【微软:多模态基础模型】(1)从专家到通用助手 【微软:多模态基础模型】(2)视觉理解 【微软:多模态基础模型】(3)视觉生成 【微…

GRE做题笔记(零散的个人经验)

locomotive机车By 1813, the Luddite resistance had all but vanished. all but表示“几乎完全”的程度,或者表示排除piston活塞attributed to 归因于how a sportsperson accounted for their own experience of stress 运动员如何解释自己的压力经历 ,…

【蓝桥杯算法】Java的基础API

1. BigInteger 的使用 1.1. 判素数 package 模板;import java.math.BigInteger; import java.util.Scanner;public class 判素数 {static Scanner in new Scanner(System.in);public static void main(String[] args) {int q in.nextInt();while (q-- > 0) {BigInteger …

【项目实战】基于 LLaMA-Factory 通过 LoRA 微调 Qwen2

【项目实战】基于 LLaMAFactory 通过 LoRA 微调 Qwen2 一、项目介绍二、环境准备1、环境准备2、安装LLaMa-Factory3、准备模型数据集3.1 模型准备3.2 数据集准备 三、微调1、启动webui2、选择参数3、训练 四、测试五、总结 一、项目介绍 LLaMA-Factory是一个由北京航空航天大学…

数据仓库在大数据处理中的作用

数据仓库(Data Warehouse,简称DW或DWH)是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。以下是对数据仓库及其在大数据处理中作用的详细解释: 一、数据仓库的定义 面向主题&#x…

第23课-C++-红黑树的插入与旋转

🌇前言 红黑树是一种自平衡的二叉搜索树,因其出色的性能,广泛应用于实际中。Linux 内核中的 CFS 调度器便是一个使用红黑树的例子,这足以说明它的重要性。红黑树的实现通过红黑两种颜色的控制来维持平衡,并在必要时使…

基于 CentOS7.6 的 Docker 下载常用的容器(MySQLRedisMongoDB),解决拉取容器镜像失败问题

安装MySQL&Redis&MongoDB mysql选择是8版本,redis是选择4版本、mongoDB选择最新版,也可以根据自己的需要进行下载对应的版本,无非就是容器名:版本号 这样去拉去相关的容器镜像。如果你还不会在服务器中安装 docker,可以查…

C#/WinForm拖拽文件上传

一、首先创建一个上传文件的类,继承Control类,如下: public class UploadControl : Control{private Image _image;public UploadControl(){this.SetStyle(ControlStyles.UserPaint | //控件自行绘制,而不使用操作系统的绘制Cont…

ubuntu将firewall-config导出为.deb文件

firewall-config ubuntu是canonial 公司维护的,用wireshark测过,开机会给他们公司发遥测(开了ufw阻塞所有连接也一样,canonial在里面把代码改了)firewall-config是fedora(爱好者维护,公益版本)自带的防火墙…

蓝桥杯备考——算法

一、排序 冒泡排序、选择排序、插入排序、 快速排序、归并排序、桶排序 二、枚举 三、二分查找与二分答案 四、搜索(DFS) DFS(DFS基础、回溯、剪枝、记忆化) 1.DFS算法(深度优先搜索算法) 深度优先搜…

Javascript垃圾回收机制-运行机制(大厂内部培训版本)

前言 计算机基本组成: 我们编写的软件首先读取到内存,用于提供给 CPU 进行运算处理。 内存的读取和释放,决定了程序性能。 冯诺依曼结构 解释和编译 这两个概念怎么理解呢。 编译相当于事先已经完成了可以直接用。好比去饭店吃饭点完上…

python面向对象基础入门

面向对象 基本的实现方法大概如此 class Student(object):def __init__(self, name, score):self.name nameself.score scoredef print_score(self):print(%s: %s % (self.name, self.score))在面向对象的思想中,面对一个问题,首先应该考虑这个问题所…

阿里云ACK容器如何配置pod分散在集群的不同节点上

阿里云ACK容器如何配置pod分散在集群的不同节点上 1.核心原理 是使用pod间反亲和性(podAntiAffinity),pod间反亲和性又分为软约束反亲和和硬约束反亲和。 2.软约束反亲和和硬约束反亲和区别: preferredDuringSchedulingIgnore…

ffmpeg+D3D实现的MFC音视频播放器,支持录像、截图、音视频播放、码流信息显示等功能

一、简介 本播放器是在vs2019 x86下开发,通过ffmpeg实现拉流解码功能,通过D3D实现视频的渲染功能。截图功能采用libjpeg实现,可以截取jpg图片,图片的默认保存路径是在C:\MYRecPath中。录像功能采用封装好的类Mp4Record实现&#x…

怎样遵守编程规范,减少和控制C++编程中出现的bug?

遵守编程规范和最佳实践是减少和控制 C 编程中出现 bug 的重要手段。以下是一些具体的建议和策略,帮助你编写更健壮、更易于维护的 C 代码。 1. 遵循 C 标准和最佳实践 使用现代 C 特性:尽可能使用 C11 及之后的标准,避免使用过时的特性和库…

从零开始学习 sg200x 多核开发之 uboot 网络功能使能

sophpi u-boot 默认未开启网络功能,需要手动开启,为了在 u-boot 下可以通过 tftp 下载固件,先测试 u-boot 下网络功能。 u-boot 网络功能开启 在 build/boards/cv181x/sg2002_wevb_riscv64_sd/u-boot/cvitek_sg2002_wevb_riscv64_sd_defcon…

编译sddm 0.18.1 依赖

github 下载后cmake编译会出现一些依赖 Could not find a package configuration file provided by "ECM" 则执行 sudo apt install extra-cmake-modules PAM headers not found - configure: 解决方法 yum -y install pam-devel No package ‘xcb-xkb’ foun…

C++11标准模板(STL)- 常用数学函数 - 宏常量 - 求值得到float类型的安静NaN(NAN)

常用数学函数 求值得到float类型的安静NaN NAN 定义于头文件 <math.h> #define NAN /*implementation defined*/ (C99 起) 宏 NAN 展开成求值为安静非数&#xff08; QNaN &#xff09;的 float 类型常量表达式。若实现不支持 QNaN &#xff0c;则不定义此宏。 用于打…

NodeJS 百度智能云文本转语音(实测)

现在文本转语音的技术已经非常完善了&#xff0c;尽管网络上有许多免费的工具&#xff0c;还是测试了专业的服务&#xff0c;选择了百度的TTS服务。 于是&#xff0c;在百度智能云注册和开通了文本转语音的服务&#xff0c;尝试使用NodeJS 实现文本转语音服务。但是百度的文档实…