【Nature】在科研中应用ChatGPT:如何与数据对话

随着人工智能技术的迅猛发展,大型语言模型(LLMs)正逐渐成为科研领域的一种创新工具。这些模型通过自然语言处理技术,使得研究人员能够以直观的方式与数据进行交互,从而简化了数据分析和解释的过程。在《自然》杂志2024年7月25日发表的文章《CHATGPT FOR SCIENCE: HOW TO TALK TO YOUR DATA》中,作者Julian Nowogrodzki深入探讨了LLMs在科学研究中的应用现状及其潜在价值。

文章首先介绍了LLMs如何帮助科学家们以自然语言的形式查询和分析复杂的生物数据,从而减少了对传统编程技能的依赖。通过引用多家公司如Genentech和Enable Medicine在开发和应用LLMs方面的实际案例,文章展示了这些工具如何助力药物发现和临床研究。

进一步,文章探讨了LLMs在实际应用中面临的挑战,包括准确性验证、数据多样性和偏见问题,以及如何通过专家反馈和迭代改进来提高模型的可靠性。作者强调了透明度和数据质量对于确保LLMs输出结果的准确性和可信度的重要性。

本文的介绍旨在为读者提供一个关于LLMs在科学研究中应用的全面视角,同时指出了这一领域未来发展的关键方向和潜在的改进空间。通过这篇文章,我们不仅能够洞察LLMs如何改变科学研究的面貌,还能对这一技术的未来发展趋势有所预见。

以下是正文:

“计算机,分析。” 在科幻小说中,角色无需编程技能即可从数据中提取有意义的信息,他们只需询问即可。现在,越来越多的公司正尝试使用大型语言模型(LLMs)使这种虚构成为现实——某种程度上——这些功能强大但专注的人工智能(AI)工具让研究人员可以用自然语言向他们的数据提问,例如“对照组和实验组之间有什么区别?”。但与科幻小说中的同行不同,这些AI给出的答案仍然需要谨慎对待,并在使用前进行双重检查才能安全使用。想象一下,ChatGPT用于数据。这些工具的原因是简单的:筛选和优先处理生物数据是费力且具有挑战性的,需要专业技能。“生物数据已经变得越来越复杂,”加利福尼亚州旧金山Enable Medicine的科学经理亚历山德罗·特雷维诺说,该公司正在为其药物开发客户构建一个空间基因表达和蛋白质定位数据图谱。“规模已经大幅增加,这些数据集的复杂性已经增加,我认为我们已经扩大了挖掘和有效理解和解释这些数据的挑战。” 理论上,专用的LLMs允许研究人员在不了解数据的复杂性或如何编程的情况下从数据中提取见解。这些工具中的一些已经能够回答非常复杂的问题。但它们仍然是进行中的工作。像其他基于LLM的工具一样,它们可能会“幻觉”或编造答案。因此,它们的开发者表示,它们应该只在人类一定程度的监督下使用。

为什么与您的数据对话?

网上数据和查询工具并不缺乏。例如,CZ CELLxGENE数据门户提供了预构建的工具,允许研究人员查询单细胞基因表达数据集。像ChatPDF这样的实用程序允许研究人员上传PDF文件,例如科学论文,并向它们提问。但更复杂的分析需要知道底层数据的结构以及它们的变量名称和类型。为了使这种交互更容易,

CHATGPT FOR SCIENCE: 如何与您的数据对话

公司正在使用人工智能工具帮助科学家无需编程技能即可查询他们的数据。由Julian Nowogrodzki撰写 插图由The Project Twins提供 924 | 自然 | 第631卷 | 2024年7月25日 工作 / 技术和工具

生物技术公司Genentech正在从头开始构建其基于LLM的工具。由纽约市Genentech前沿研究总监Stephen Ra领导,这个LLM旨在解决“跨越药物发现和开发管道的广泛问题”,他说,“从目标识别、发现、安全性评估、优先级排序,一直到我们如何做出更好的决策,或降低某些临床试验阶段的风险,或更好地理解患者轨迹和不良结果”。Ra说,这个系统可以简化目前手动且繁重的任务。例如,科学家可能会将他们的数据集搁置一段时间,但后来想要总结这些数据。他们可以问,“给我这个特定时间、这个菌株的这个特定测定的所有结果”,Ra说。该系统应该能够理解查询和数据,足够好地满足请求,“Genentech及其母公司罗氏的许多团队”正在测试它。同样,Enable Medicine的LLM旨在允许公司代表其客户查询其生物图谱,首席执行官Kamni Vijay说,这些客户大多是肿瘤学和自身免疫疾病的制药公司。研究人员可以问这样的问题,“患者是否对治疗有反应,哪些因素区分了对治疗有反应的患者和没有反应的患者?”或者“哪些生物标志物会影响或预测疾病进展?”,Vijay说。Enable正在构建几个现有的LLM,并用来自数万个样本的数以百万计的分子和细胞数据进行训练。但他们仍在实验。“我们的一部分研究探索这种类型的界面是否可以在科学上有效和有价值。”

它们是什么样子的?

这个领域的一些工具模仿了ChatGPT流行的问答格式。例如,由马萨诸塞州波士顿布莱根妇女医院的计算病理学家Faisal Mahmood构建的PathChat,允许用户输入病理图像,如肿瘤活检结果,以及描述性数据,如“这个肿瘤对标记A、B和C呈阳性”。(M. Y. Lu等人。自然 A Multimodal Generative AI Copilot for Human Pathology | Nature (2024)。然后用户可以就这些数据提出自然语言问题,例如,“你对肿瘤的主要起源有何评估?”交流看起来像WhatsApp对话中的来回文本气泡。然而,Vijay说,Enable的系统偏离了问答格式。它是一个更复杂的自动化系统,允许自然语言查询。尽管如此,其他工具输出代码而不是文字。Mergen是由柏林马克斯·德尔布吕克中心的生物信息学家Altuna Akalin构建的基于LLM的R编程语言库。Akalin创建了这个库(或“包”),因为他的团队收到了比它能够处理的更多的分析基因组数据的请求。Mergen旨在分析预处理的基因组数据集,以回答诸如“你能给我所有在某个特定个体集合中过表达的基因吗?”这样的问题。与所有LLM一样,该工具返回的代码在使用前应该由人双重检查,Akalin警告说,因为即使代码是可执行的,它可能包含逻辑错误。

它们是如何制造的?

构建一个允许研究人员与数据对话的LLM需要什么?与所有AI系统一样,答案是大量的训练数据。但数据类型的平衡同样重要,他的团队在实现正确的平衡方面付出了相当大的努力,Ra说。“对我们来说,价值在于能够采取对Genentech的许多团队都有广泛用途的东西,并允许这些团队也微调他们自己的模型。” Genentech训练其模型使用了涵盖多个项目和领域的内部和外部信息的组合,包括组学和临床数据,Ra说。特雷维诺说,将通用LLM转变为一个系统,使用户能够与他们的数据对话,有两种主要方式。一种是使用特定领域的信息,如病理数据,对通用LLM进行微调。在这种“非常有效”的方法中,他说,模型本身“正在具体学习新东西”。另一种方法,称为上下文化,不会改变底层的通用LLM,但会在查询中给它提供定制的上下文,如医学文献数据库。特雷维诺拒绝透露Enable使用哪种方法。为了构建PathChat,Mahmood和他的团队从Meta开发的通用LLM Llama 2开始。他们将LLM连接到他们为病理学构建的两个视觉语言模型,称为UNI和CONCH,每个模型都经过了数百万病理图像和标题的训练,以制造一个多模态LLM。然后研究人员使用来自病例报告和教育文章的半百万病理对话来提炼这个多模态LLM,这些对话遵循了布里格姆妇女医院和马萨诸塞州总医院的大多数病例的完整轨迹,以产生PathChat,Mahmood说。布里格姆和妇女的一些病理学家现在正在使用该系统来解释显微镜图像并编写病理学家随后可以检查的形态学描述,他说。

它们值得信赖吗?

确认很重要:仅仅因为LLM提供了一个答案,并不意味着那个答案是正确的。LLMs可以编造答案或遗漏信息,如何最好地确保模型的响应是可验证和可复制的仍然是一个未解决的问题,特雷维诺说。“这是一个积极的研究领域,如何审查结果。” Ra说,一个关键方面是来自特定领域专家的反馈。有不同的方式来纳入这样的检查——用户可以提供一个简单的点赞或不点赞,例如,一个更详细的回应,或者可以是人与LLM之间的迭代互动。无论如何,希望随着时间的推移,模型将进化到需要更少的输入,因为这样的反馈在数据集扩展时并不可扩展。特雷维诺和Ra说,在研究特定的LLMs中,理解和信任底层模型中发生的事情尤为重要。特雷维诺说,一个挑战是“稍微打开那个黑匣子”,以更好地理解它为什么会以这种方式回答。这可能有助于最小化幻觉。事实上,Ra说,Genentech从头开始构建其LLM的一个动机是,它希望知道它能够信任和理解输入的每一个数据点。“这在处理特权信息或非常敏感的信息的环境中非常重要,”例如患者数据,他说。对于现成的“黑匣子”LLMs,它们是如何被训练的并不总是清楚,Ra解释说。“我认为这是一些商业LLM解决方案的常见批评,通常没有足够的数据透明度。” 另一个持续的挑战,就像LLM领域本身一样,是底层数据的偏见。在训练数据中代表性不足的群体将被结果模型错误表示,当前的基因组数据极大地过度代表了欧洲后裔。特雷维诺和Vijay说,解决方案是提高底层数据的多样性。但他们说,没有真正的终点,可以确定底层数据何时足够多样化。然而,如果这些挑战被克服,特雷维诺说,“这些类型的模型将带来非常真实的好处。”重要的是“确保这种好处得以实现,并最大限度地民主化,”并且收益值得所有仍在进行中的工作。

作者

Julian Nowogrodzki是马萨诸塞州波士顿的科学作家和编辑。 “在这个非常有效的方法中,模型本身正在具体学习新东西。” 自然 | 第631卷 | 2024年7月25日 | 925

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/51316.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

当外接硬盘接入到macOS上,只读不可写时,应当格式化

当windows磁盘格式例如 NTFS 的硬盘接入到macOS上时,会发现无法新建文件夹,无法删除、重命名。原因是磁盘格式对不上macOS,需要进行格式化。格式化时请注意备份重要数据。具体做法如下,在macOS中找到磁盘工具,然后对磁…

QT Quick QML 实例之定制 TableView

QT Quick QML 实例之定制 TableView 一、演示二、C关键步骤1. beginInsertRows()(用户插入行)2. roleNames() (表格中列映射)3. data() (用户获取数据)4. headerData() (表头)5. fla…

影视会员官方渠道api对接

API对接是指两个不同的软件系统或应用程序之间通过API(应用程序编程接口)进行交互的过程。这种交互允许数据和功能的共享,而不必暴露系统的内部工作原理。在影视会员充值场景中,API对接具有以下几个关键特点和优势: 数…

【从Qwen2,Apple Intelligence Foundation,Gemma 2,Llama 3.1看大模型的性能提升之路】

从早期的 GPT 模型到如今复杂的开放式 LLM,大型语言模型 (LLM) 的发展已经取得了长足的进步。最初,LLM 训练过程仅侧重于预训练,但后来扩展到包括预训练和后训练。后训练通常包括监督指令微调和校准,这是由 ChatGPT 推广的。 自 …

11、Redis高级:Key设置、BigKey解决、批处理优化、集群下批处理、慢查询

Redis高级篇之最佳实践 今日内容 Redis键值设计批处理优化服务端优化集群最佳实践 1、Redis键值设计 1.1、优雅的key结构 Redis的Key虽然可以自定义,但最好遵循下面的几个最佳实践约定: 遵循基本格式:[业务名称]:[数据名]:[id]长度不超过…

沉浸式解压小视频在哪找?非常减压的几个视频素材网站分享

沉浸式解压小视频,以其独特的舒缓音乐、宁静自然景观和柔和动态图像,成为了迅速消解压力的有效途径。这些视频能够帮助我们暂时离开紧张的现实,重获内心的平和。如果你正在寻找优质的解压视频素材,不用担心,接下来我会…

【HarmonyOS NEXT星河版开发学习】综合测试案例-各平台评论部分

目录 前言 功能展示 整体页面布局 最新和最热 写评论 点赞功能 界面构建 初始数据的准备 列表项部分的渲染 底部区域 index部分 知识点概述 List组件 List组件简介 ListItem组件详解 ListItemGroup组件介绍 ForEach循环渲染 列表分割线设置 列表排列方向设…

图像分割论文阅读:BCU-Net: Bridging ConvNeXt and U-Net for medical image segmentation

本文提出了一种集合ConvNeXt和U-Net优势的网络模型来分割医学图像。 当然,模型整体结构就是并列双分支,如果只是这些内容,不值得拿出来讲。 主要有意思的部分是其融合两分支的多标签召回模块(multilabel recall loss module&…

如何使用midjourney?MidJourney订阅计划及国内订阅教程

国内如何订阅MidJourney 第三方代理 参考: zhangfeidezhu.com/?p474 使用信用卡订阅教程 办理国外信用卡: 这个各自找国外的银行办理就好了。 登录MidJourney: 登录MidJourney网站,进入订阅中心。如果是在Discord频道&#x…

ES 模糊查询 wildcard 的替代方案探索

一、Wildcard 概述 Wildcard 是一种支持通配符的模糊检索方式。在 Elasticsearch 中,它使用星号 * 代表零个或多个字符,问号 ? 代表单个字符。 其使用方式多样,例如可以通过 {"wildcard": {"field_name": "value&…

IP in IP 协议

IP in IP 是一种多重IP协议,即:客户机可以发送一个IP协议内部在嵌套一个IP协议到某个特定的主机上,在由具体的主机作为路由进行转发的协议。 例如: IP in IP帧协议结构为,第一层为发送到IP in IP 路由主机的报文&…

Vmware Workstation Pro 17.5.2最新版安装-免费使用

安装要求: Windows 10 或 11 操作系统(64位) 兼容的多核 64 位(x86)处理器(1.3GHz 或更高) 至少 4GB 内存(建议越大越好) 至少 1.2GB 可用磁盘空间 BIOS/UEFI 中开启…

epoll+线程池模型

🔥博客主页: 我要成为C领域大神🎥系列专栏:【C核心编程】 【计算机网络】 【Linux编程】 【操作系统】 ❤️感谢大家点赞👍收藏⭐评论✍️ 本博客致力于知识分享,与更多的人进行学习交流 ​ 负载均衡技术 …

网站上线流程完全手册:域名、服务器与CDN

网站上线的核心要点 需要买域名 域名备案(国内) 买服务器 把服务器IP和域名(网址)绑定 把本地网站代码文件上传到服务器上 我来先来了解下以上的概念 域名介绍 域名是网站的地址,类似于你的家在街上的位置。它让人们通过简单的名字(如 www.baidu.…

机器学习周报(8.19-8.25

文章目录 摘要Abstract1.PyTorch环境的配置及安装使用PyCharm配置环境安装配置jupyter 2.两个Python常用函数3.DataSet4.TensorBoard的使用绘制一幅坐标图使用tendorboard对一幅图片进行操作 5.torchvison中的transforms总结 摘要 在之前学习了一些机器学习相关理论之后&#…

【算法进阶2-动态规划】最长公共子序列、欧几里得算法-分数、RSA算法-密码于加密

1 最长公共子序列 2 欧几里得算法 2.1 欧几里得算法-分数 3 RSA算法-密码于加密 1 最长公共子序列 -个序列的子序列是在该序列中删去若干元素后得 到的序列。 例:“ABCD”和“BDF”都是“ABCDEFG”的子序列最长公共子序列(LCS)问题:给定两个序列X和Y,求X和Y长度最大…

Hadoop的概念

目录 1.什么是大数据 2.Hadoop体系结构 1:HDFS(Hadoop Distributed File System) 2 :MapReduce 3:YARN(Yet Another Resource Negotiator) 3、Hadoop生态圈 4、MapReduce的原理和工作流程…

android gradle 配置国内gradle地址

1. 地址: 腾讯云镜像 Gradle下载地址:https://mirrors.cloud.tencent.com/gradle/ 阿里云镜像 Gradle下载地址:https://mirrors.aliyun.com/macports/distfiles/gradle/ 阿里云镜像 Gradle下载地址:https://mirrors.aliyun.com…

浪潮服务器主板集成RAID常见问题

★主板集成RAID出现Initialize初始化,如下图 判断及解决方案: 1.机器是否有过插拔硬盘等操作。 2.系统初始化-系统启动会非常的慢。一般为非法关机或者断电导致。 3.出现此情况耐心等待磁盘初始化完成即可。系统初始化时间以具体的数据大小来决定&#…

Linux启动流程和Systemd特性

文章目录 内核设计流派linux启动流程1.硬件加电自检2.启动加载器bootloader3.加载kernel4.init初始化5.用户终端启动 systemdsystemd特性systemd的unitunit配置文件 systemctl管理系统服务service unit服务状态 service unit文件格式Unit段Service段Install段 内核设计流派 1.…