开源模型 Prometheus 2 能够评估其他语言模型,其效果几乎与 GPT-4 相当

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

Prometheus 2 是一款开源的语言模型,经过优化能够评估其他语言模型的表现,逐渐与 GPT-4 等商业模型相媲美。

这种评估方式为研究人员和开发者提供了客观的测量标准,并能够针对模型的优缺点提供详细反馈,以实现精准改进,进而不断提升语言模型的质量与可靠性。

目前,像 GPT-4 这样的专有模型通常被用于评估,但因其封闭性、不易控制和价格高昂,使许多人望而却步。韩国 KAIST AI 的金承元团队打造了 Prometheus 2,旨在为大家提供透明、独立、详细的语言模型评估工具。

Prometheus 2 模仿人类和 GPT-4 等模型,掌握了两种常用的评估方法:直接评估(使用评分量表打分)和成对比较(判断两个回答中哪个更优)。

定制评估标准,灵活应用

Prometheus 2 支持根据用户定义的标准进行评估,不局限于“有用性”“无害性”等通用指标,使其可以满足特定应用的优化需求。举例来说,在医疗咨询聊天机器人领域,它可以被用于考量“可信度”“共情力”和“专业准确度”等标准,从而开发出适合不同应用场景的高质量语言模型。

新数据集与混合权重

为了训练 Prometheus 2,研究团队创建了一个名为 “Preference Collection” 的全新成对比较数据集,涵盖超过 1000 种不同的评估标准。最佳效果来自于两个独立模型的联合训练:直接评分模型基于 Feedback Collection 数据集,成对比较模型则基于 Preference Collection 数据集。通过将这两个模型的权重合并,达到了最佳评估效果。

在包含四个直接评分数据集和四个成对比较数据集的测试中,Prometheus 2 在所有可用的评估模型中,显示出与人类判断和商业语言模型最为一致的结果。

虽然在许多测试中落后于 GPT-4 和 Claude 3 Opus,但 Prometheus 2 成功缩小了与这些商业模型之间的差距。

公平与透明的评估工具

Prometheus 2 的代码与数据都已开放至 GitHub 上,任何人都可以获取、使用。两种模型(7B 和 8x7B)可从 HuggingFace 获得。据团队称,7B 模型的评估表现达到了 8x7B 模型的 80%,可与 Mixtral-8x7B 相媲美,甚至优于 Meta 的 Llama 2 70B。

Prometheus 2 让每个人都能独立、透明地评估语言模型,推动了整个领域的公平性与可及性。

下载: GitHub - prometheus-eval/prometheus-eval: Evaluate your LLM's response with Prometheus 💯

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/7285.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在Codelab对llama3做Lora Fine tune微调

Unsloth 高效微调大模型的工具,通过Unsloth微调Llama3, Mistral, Gemma 速度提升2-5倍,内存减少70%! Codelab 创建一个jupyter notebook 选择 T4 GPU 安装Fine tune 相关的lib %%capture import torch major_version, minor_version torch…

权益商城系统源码,支持多种支付方式

权益商城系统源码,支持多种支付方式,后台商品管理,订单管理,串货管理,分站管理, 会员列表,分销日志,应用配置。 上传到服务器,修改数据库信息,导入数据库&a…

Stylus:深入解析与实战引入

Stylus:深入解析与实战引入 在前端开发的世界中,CSS一直扮演着至关重要的角色。然而,随着项目的复杂性和规模不断增长,原始的CSS逐渐显露出其局限性。为了克服这些限制,开发者们引入了CSS预处理器,如Sass、…

Python中的分布式爬虫系统Scrapy与分布式任务队列的结合

随着互联网的不断发展,网络爬虫在数据采集和信息挖掘中发挥着重要作用。然而,单机爬虫往往难以应对大规模数据抓取的需求,因此,构建分布式爬虫系统成为了一种必然选择。本文将介绍如何利用 Python 中的 Scrapy 框架和分布式任务队…

android studio apt代码编写实战

之所以试一下apt代码的编写,是因为发现几年前写的工程,在新的android studio中debug apt代码时,一直连不上debug环境,提示报错 Unable to open debugger port (localhost:5005): java.net.ConnectException "Connection refu…

IOS自动化—将WDA打包ipa批量安装驱动

前言 CSDN: ios自动化-Xcode、WebDriverAgent环境部署 ios获取原生系统应用的包 如果Mac电脑没有配置好Xcode相关环境,可以参考以上文章。 必要条件 Mac电脑,OS版本在12.4及以上(低于这个版本无法安装Xcode14,装不了Xcode14就…

excel中数据筛选技巧

1、筛选excel中破折号前后都为空的数据 在Excel中查找破折号前后为空的数据,你可以结合使用Excel的查找和筛选功能,或者利用一些公式来判断。以下是两种常用的方法: 方法一:使用筛选功能选中数据范围:首先&#xff0c…

微信小程序miniprogram_npm目录主包太大如何处理

在使用TDesign开发小程序,miniprogram_npm目录下很多组件,感觉很多组件我都没引用,为什么都在主包来,导致主包很大。如何优化? 在使用npm构建后生成的miniprogram_npm目录里,有所有TDesign组件。但是有很…

OceanBase 缺少 dbms_obfuscation_toolkit.md5 包函数的解决方案

因为 dbms_obfuscation_toolkit.md5 是一个 Oracle 不推荐继续使用的函数,所以 OceanBase 没有对其兼容,取而代之的是兼容了 dbms_crypto.hash,其用法详见这篇 KB 但是,并不是所有业务都接受修改源码,因为复杂系统里&…

Docker 入门篇(六)-- idea 打包 docker 镜像流程

环境准备: idea 环境:IntelliJ IDEA 2021.3.1 (Ultimate Edition)docker 版本:v. 26.1.0准备 springboot jar 文件 :target/DockerDemo-0.0.1-SNAPSHOT.jardocker 可视化管理工具 portainer :v2.6.0 一. 配置docker远…

27.leetcode---随机链表的复制(Java版)

题目链接: https://leetcode.cn/problems/copy-list-with-random-pointer/description/ 题目解析: 使用map来解这个题就比较方便了 代码: 测试:

论文阅读:《Sequence can Secretly Tell You What to Discard》,减少推理阶段的 kv cache

目前各类大模型都支持长文本,例如 kimi chat 以及 gemini pro,都支持 100K 以及更高的上下文长度。但越长的上下文,在推理过程中需要存储的 kv cache 也越多。假设,数据的批次用 b 表示,输入序列的长度仍然用 s 表示&a…

【typescript测试 - Jest 配置与使用】

安装 npm install --save-dev types/jestnpm install --save-dev ts-jest配置 tsconfig.json {"compilerOptions": {"types": ["jest"]} }jest.config.js module.exports {preset: ts-jest,testEnvironment: node, };使用 // add.js funct…

C++学习笔记——对仿函数的理解

文章目录 思维导图仿函数出现的逻辑仿函数使用上的巧妙 仿函数的本质仿函数的优势仿函数语法的巧妙 思维导图 仿函数出现的逻辑 我们在学习stack时会遇到一些新的问题,这些问题需要我们使用非类型模板参数去解决,即我们需要在设计类时需要有一个途径去快…

Android硬件加速hardwareAccelerated支持/不支持的绘图接口

Android硬件加速hardwareAccelerated支持/不支持的绘图接口 Android硬件加速也即在Androidmanifest.xml配置开启GPU渲染&#xff1a; <application android:hardwareAccelerated"true" > 配置后&#xff0c;Android将启用GPU渲染&#xff0c;在trace里面看会…

clang:在 Win10 上编译 MIDI 音乐程序(一)

先从 Microsoft C Build Tools - Visual Studio 下载 1.73GB 安装 "Microsoft C Build Tools“ 访问 Swift.org - Download Swift 找到 Windows 10&#xff1a;x86_64 下载 swift-5.10-RELEASE-windows10.exe 大约490MB 建议安装在 D:\Swift\ &#xff0c;安装后大约占…

2010NOIP普及组真题 4. 三国游戏

线上OJ&#xff1a; 一本通&#xff1a;http://ybt.ssoier.cn:8088/problem_show.php?pid1952 核心思想&#xff1a; 这道题先用 瞪眼法 找规律&#xff08;不能硬写模拟&#xff09;。 因为电脑采用的是 防守策略&#xff08;不会主动进攻&#xff09;&#xff0c;所以如果我…

Docker新建容器 修改运行容器端口

一、修改容器的映射端口 项目需求修改容器的映射端口 二、解决方案 停止需要修改的容器 修改hostconfig.json文件 重启docker 服务 启动修改容器 三、方案 目前正在运行的容器 宿主机的89 端口 映射 容器端口80 3.1测试环境中新建nginx服务 docker run -itd --n…

高频SQL 确认率

题目信息 表: Signups -------------------------- | Column Name | Type | -------------------------- | user_id | int | | time_stamp | datetime | -------------------------- User_id是该表的主键。 每一行都包含ID为user_id的用户的注册时间信…

div+css布局与Table布局

一、divcss是什么&#xff1f; div是框架&#xff0c;css是样式&#xff0c;用来装饰框架的。divcss布局是指使用HTML的div元素和CSS样式实现页面布局。 优点&#xff1a; divCSS布局可以实现更灵活的布局&#xff0c;可以轻松实现响应式布局和移动端适配&#xff0c;同时也有…