WORFBENCH：一个创新的评估基准，目的是全面测试大型语言模型在生成复杂工作流方面的性能。

WORFBENCH：一个创新的评估基准，目的是全面测试大型语言模型在生成复杂工作流方面的性能。

bicheng/2025/7/13 0:45:13/文章来源:https://blog.csdn.net/u011559552/article/details/143141956

2024-10-10,由浙江大学和阿里巴巴集团联合创建的WORFBENCH，一个用于评估大型语言模型（LLMs）生成工作流能力的基准测试。它包含了一系列的测试和评估协议，用于量化和分析LLMs在处理复杂任务时分解问题和规划执行步骤的能力。WORFBENCH 通过模拟多种应用场景和复杂的图结构工作流，为研究人员提供了一个统一的框架来评估和比较不同LLMs的性能。

一、研究背景：

随着大型语言模型在处理复杂任务方面能力的显著提升，将复杂问题分解为可执行的工作流成为了实现实际部署的关键步骤。然而，现有的工作流评估框架要么只关注整体性能，要么存在场景覆盖有限、工作流结构简单和评估标准宽松等限制。

目前遇到困难和挑战：

1、现有的评估基准大多只关注功能调用任务，忽视了更复杂的工作流结构，如并行性。

2、LLMs在生成工作流时容易受到幻觉和歧义的影响，导致评估缺乏系统性。

3、当前的工作流评估过于依赖GPT-3.5/4，而这些模型本身在复杂任务规划中的表现并不理想。

数据集地址：WORFBENCH|大型语言模型数据集|工作流生成数据集

二、让我们来一起看一下WORFBENCH

WORFBENCH是一个统一的工作流生成基准，包含多方面的应用场景和复杂的图结构工作流，目的全面提升LLMs的工作流生成能力。涵盖了问题解决、功能调用、具身规划和开放性规划等四种复杂的应用场景，包含了18k训练样本、2146个测试样本和723个用于评估泛化能力的保留任务。

整个构建过程包括任务的收集、节点链的构建、工作流图的生成以及严格的质量控制和数据过滤。通过GPT-4生成节点链和工作流图，并通过拓扑排序算法和人工评估来确保数据集的质量。

WORFBENCH提供了一套系统化的评估协议WORFEVAL，使用子序列和子图匹配算法来准确量化LLM代理的工作流生成能力。此外，还支持对不同规模的LLMs进行评估，并可以分析工作流如何增强端到端模型的性能。

基准测试：

通过在WORFBENCH上的综合评估，研究人员发现即使是GPT-4这样的模型，在图结构化工作流的预测能力上也远远达不到实际要求，性能差距约为15%。此外，通过训练开源模型并评估其在保留任务上的泛化能力，进一步证明了WORFBENCH的有效性和实用性。

概述框架WORFBENCH：第1 扇区是基准构建，我们首先合成节点链，然后是工作流图。第二部分是我们的数据过滤过程(§。第3部分描述了WORFEVAL中的算法，以评估LLM代理的预测工作流。第四部分是我们WORFBENCH的详细数据点。请注意，图中的每个节点都由其颜色唯一标识。

我们使用相同的精心设计指令和两个示例来评估所有模型。我们根据模型是否开源以及它们的规模对模型进行分类。每个类别中的最佳结果用粗体标出，第二好的结果用下划线标出。

三、让我们一起展望 WORFBENCH的应用：

想象一下，你是一个智能家居系统的AI大脑。

你的任务是帮助主人准备一个晚餐。主人家今天回来很多小朋友，所以这个重任就落在了你的肩上。

首先，你得检查一下家里的食材库存。你控制着家里的智能冰箱，查看了里面的蔬菜和肉类，发现冰箱里有新鲜的番茄和牛肉，但是缺少了一些香料和饮料。于是，你生成了一个购物清单，并通过智能家居系统发送给了主人。

主人回来后，根据你的清单采购了所需的物品。现在，你得开始规划晚餐的菜单和烹饪流程了。你决定做一道经典的番茄牛肉意面。你根据冰箱里的食材和主人新买的香料，制定了一个详细的烹饪计划。

烹饪开始了，你首先指导主人把牛肉切成薄片，然后用橄榄油、大蒜和香料腌制。同时，你还控制着智能烤箱预热到合适的温度。牛肉腌制好后，你指导主人将其放入烤箱中烤制。

在牛肉烤制的同时，你也没闲着，开始准备意面和番茄 sauce。你指导主人把意面放入锅中煮熟，同时用智能搅拌机打碎番茄，制作出新鲜的番茄酱。你还控制着智能定时器，确保意面不会煮过头。

最后，当一切准备就绪，你指导主人将烤好的牛肉和热腾腾的番茄酱与意面混合，撒上一些新鲜的芝士，一道美味的番茄牛肉意面就完成了。

在这个过程中，你不仅要处理厨房里的各种智能设备，还要根据实际情况灵活调整计划。比如，当发现烤箱预热不够快时，你得决定是否先准备酱料，或者调整烤箱的温度。这就像是在玩一个实时策略游戏，你得随时做出决策，确保一切都能按时完成。

最后，一盘盘香气扑鼻、味道鲜美、色泽诱人的意面被小吃货们一扫而光。嚷嚷着下次还要来做客。

一个大型语言模型在动态环境中执行动作的能力，它需要理解任务、规划步骤、控制设备，并且能够根据实际情况灵活调整计划。这种能力对于智能家居系统来说是非常有价值的，它可以让家庭生活更加便捷和高效。

来吧，让我们走进：多摄像头视图推荐数据集|模型泛化数据集

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/bicheng/57474.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Python 第七节魔法圆阵

Python 第七节魔法圆阵

这里写目录标题 1. 回顾：2. 绘图小游戏 - 深入探索turtle模块2.1 turtle.pensize()：设置画笔的宽度。2.2 turtle.speed()：设置画笔的速度2.3 t.hideturtle()：2.4 t.showturtle()：3. 变换精灵（变量）& 永恒精灵（常量）3.1 变换精灵：3.2 永恒精灵：3.3 标识符：4.数字…

阅读更多...

postgresql是国产数据库吗？

postgresql是国产数据库吗？

PostgreSQL不是国产数据库。但是PostgreSQL对国产数据库的发展有着重要影响，许多国产数据库产品是基于PostgreSQL进行二次开发的。 PostgreSQL的开源特性也是其受欢迎的重要原因之一。开源意味着任何人都可以查看、修改和使用PostgreSQL的源代码。这使得PostgreSQL…

阅读更多...

windows安装superset及各种问题解决

windows安装superset及各种问题解决

1,背景先说说背景,之前在2月份已经安装过superset3.1.1,当时还没有提示SECRET_KEY异常,能正常运行,且已配置数据库连接. 2,报错信息及解决途径 1,创建admin时,提示Error! User already exists 这个是因为之前已经创建过admin用户,需要删除C:\Users\用户名\.superset下的.…

阅读更多...

微信小程序文本收起展开

微信小程序文本收起展开

这里写自定义目录标题微信小程序文本收起展开常见问题的梯形背景框微信小程序文本收起展开参考 https://juejin.cn/post/6963904955262435336 <view classcontentBottom><view classBottomFirst><text id0 data-id0 class&quo…

阅读更多...

python从0快速上手（十六）小游戏开发

python从0快速上手（十六）小游戏开发

Python小游戏开发：创造你的第一款游戏你是否曾梦想过成为一名游戏开发者，创造出属于自己的游戏世界？随着技术的发展，这个梦想不再遥不可及。Python，作为一种易于学习和使用的编程语言，搭配其强大的库支持…

阅读更多...

六万字77道Spring面试题总结（2024版）

六万字77道Spring面试题总结（2024版）

文章目录问题1：什么是Spring?问题2：Spring的两大核心概念是什么？问题3：Spring框架的设计目标、设计理念和核心是什么？问题4：Spring的优缺点是什么？问题5：Spring有哪些应用场景&…

阅读更多...

MySQL事务及实现原理

MySQL事务及实现原理

一、MySQL事务简单介绍 MySQL事务是指一组操作，它们被看作一个单独的工作单元，要么全部成功，要么全部失败回滚。在MySQL中，事务可以确保数据的一致性和完整性。事务通常由四个关键词来描述： 1、BEGIN 或 START TRAN…

阅读更多...

Java-关于Java是值传递还是引用传递的解读(附代码实例解读)

Java-关于Java是值传递还是引用传递的解读(附代码实例解读)

大家都知道Java是面向对象编程，那么有没有考虑过在传递的过程中，究竟传递的是值，还是值的引用呢？下面我们先来看一下什么事值传递和引用传递。值传递：指在调用函数时将实际参数复制一份传递到函数中，这样如…

阅读更多...

安装buildkit，并使用buildkit构建containerd镜像

安装buildkit，并使用buildkit构建containerd镜像

背景因为K8s抛弃Docker了,所以就只装了个containerd,这样就需要一个单独的镜像构建工具了,就用了buildkit,这也是Docker公司扶持的,他们公司的人出来搞的开源工具,官网在 https://github.com/moby/buildkit 简介服务端为buildkitd,负责和runc或containerd后端连接干活,目前…

阅读更多...

windows复制文件到U盘，ubuntu打开U盘中文显示？

windows复制文件到U盘，ubuntu打开U盘中文显示？

背景有一些文件想copy到ubuntu机器上，然后从windows系统copy到了u盘，ubuntu插上u盘之后，文件夹和文件内容里中文部分都是？ 尝试解决首先系统默认语言是英语，所以首先查了资料，将系统语言改成中文&…

阅读更多...

Android 13 SPRD 如何临时修改 Android 系统版本

Android 13 SPRD 如何临时修改 Android 系统版本

在 Android 开发或调试过程中，有时需要临时修改系统版本号，例如为了适应特定的应用需求或进行特定版本的兼容性测试。通过修改 Android 系统的构建文件，可以轻松实现这个目的。本文将介绍如何在 Android 源码中快速更改系统版本号。步骤一：修改 sysprop.mk 首先，我们需…

阅读更多...

魔音音乐 5.0.1 | 界面优美，可无损下载，可播放

魔音音乐 5.0.1 | 界面优美，可无损下载，可播放

魔音Morin 是一款免费下载付费音乐和免费播放音乐的软件。现在听歌都需要付费，不想付费听音乐就来魔音Morin，完全免费的音乐资源非常丰富，可同步四大音乐平台歌单，还有各类音乐榜单，自带音乐社、同步歌单以及搜索音乐功…

阅读更多...

iTOP-RK3568开发板独立NPU通过算法加特应用到以下的场景

iTOP-RK3568开发板独立NPU通过算法加特应用到以下的场景

iTOP-3568开发板采用瑞芯微RK3568处理器，内部集成了四核64位Cortex-A55处理器。主频高达2.0Ghz，RK809动态调频。集成了双核心架构GPU，ARM G52 2EE、支持OpenGLES1.1/2.0/3.2、OpenCL2.0、Vulkan1.1、内嵌高性能2D加速硬件。内置独立NPU,算力…

阅读更多...

国内大语言模型哪家更好用？

国内大语言模型哪家更好用？

大家好，我是袁庭新。过去一年，AI大语言模型在爆发式增长，呈现百家争鸣之态。国内外相关厂商积极布局，并相继推出自家研发的智能化产品。我在工作中已习惯借助AI来辅助完成些编码、创作、文生图等任务，甚至对它们产…

阅读更多...

基于Springboot在线视频网站的设计与实现

基于Springboot在线视频网站的设计与实现

基于Springboot视频网站的设计与实现开发语言：Java 框架：springboot JDK版本：JDK1.8 服务器：tomcat7 数据库：mysql 5.7 数据库工具：Navicat11 开发软件：idea 源码获取：https://do…

阅读更多...

Android 开发 TabLayout 自定义指示器长度

Android 开发 TabLayout 自定义指示器长度

前言原生 TabLayout 的指示器长度是充满整个屏幕的，但在实际开发中 UI 会设计成指示器的长度等于或者小于标题字体长度，如图如果设置成跟字体长度一样即使用 API: mTabLayout.setTabIndicatorFullWidth(false);或者在 xml 布局文件中的TabLayout标签…

阅读更多...

普通java web项目转为maven项目

普通java web项目转为maven项目

以前写的老项目，转为maven项目管理，关键是涉及的jar比较多，手动改工作量太大。项目环境：eclipse、jdk8、jetty嵌入式启动。 1.创建一个新的maven项目。 2.拷贝源码。将老项目src目录下的源码拷贝到新项目的src/main/java目录…

阅读更多...

压缩SQL Server 2014 数据库日志文件

压缩SQL Server 2014 数据库日志文件

一开始没有设置好，数据库的日志文件膨胀到了3个G 以下使用Sql语句压缩日志文件的方法注意用自己的数据库名称替换测试数据库名称：Dealer GOALTER DATABASE Dealer SET RECOVERY SIMPLE WITH NO_WAITGOALTER DATABASE Dealer SET RECOVERY SIMPLE -…

阅读更多...

vscode配色主题推荐:Andromeda !

vscode配色主题推荐:Andromeda !

vscode配色主题推荐:Andromeda ! 图标库 vscode-icons ! Andromeda:Dark theme with a taste of the universe； 仙女座：一套宇宙深空体验的哑暗色主题; 高对比度,色彩饱和; Easy Installation Open the extensions sidebar on Visual Studio CodeSearc…

阅读更多...

【设计模式-简单工厂】

【设计模式-简单工厂】

定义简单工厂模式（Simple Factory Pattern）是一种创建型设计模式，用于通过一个工厂类来创建某个产品类的实例，而不直接在客户端（调用方）中实例化对象。这种模式的主要思想是将对象的创建逻辑集中在一个…

阅读更多...

最新文章