Author: Dongsheng Li, Kaitao Song, Kan Ren, Siyu Yuan, Weiming Lu, Wenqi Zhang, Xu Tan, Yongliang Shen, Yueting Zhuang
Institution: 复旦大学(Fudan University), 微软亚洲研究院(Microsoft Research Asia), 浙江大学(Zhejiang University)
Summary: LLM 带动了任务自动化的发展,它将用户指令描述的复杂任务分解为子任务,并调用外部工具来执行它们,在 Agent 中发挥着核心作用。但是目前还缺少系统化、标准化的基准来催 LLM 任务自动化的发展。任务自动化可以分为三个关键阶段:任务分解、工具调用和参数预测。为了生成高质量的评估数据集,作者引入了工具图的概念来表示用户意图中分解的任务,并采用反向指令方法来模拟用户指令和注释。作者还提出了 TASKEVAL,从不同方面评估 LLM 的能力,包括任务分解、工具调用和参数预测。
Score /5: ⭐️⭐️⭐️⭐️
Type: Paper
链接: https://arxiv.org/abs/2311.18760
代码是否开源: 开源
代码链接: https://github.com/microsoft/JARVIS/tree/main/taskbench
数据集是否开源: 开源
数据集链接: https://github.com/microsoft/JARVIS/tree/main/taskbench
读前先问
带着问题读论文,边读边回答。
- 大方向的任务是什么?Task
LLMs 自动化任务执行评估。</