Octopus V2:设备端super agent的高级语言模型

  • 论文:Octopus v2: On-device language model for super agent
  • 论文地址:https://arxiv.org/abs/2404.01744
  • 模型主页:https://huggingface.co/NexaAIDev/Octopus-v2

Octopus-V2-2B

Octopus-V2-2B 是一款具有20亿参数的开源先进语言模型,它体现了Nexa AI在将大型语言模型(LLM)应用于函数调用方面的研究成果,并且是针对Android API特别设计的。与传统的检索增强生成(RAG)方法不同,后者在处理潜在的函数参数时需要进行详尽的描述(有时涉及数万个输入标记),Octopus-V2-2B在训练和推理过程中采用了独特的函数标记策略。这种策略不仅让它能够与GPT-4的性能相媲美,还大幅提升了推理速度,优于基于RAG的方法。这一改进特别适合边缘计算设备,使得Octopus-V2-2B在这些平台上更具优势

📱设备端应用程序:Octopus-V2-2B 旨在与 Android 设备完美兼容,其应用范围广泛,涵盖了从 Android 系统管理到多设备协调等多个方面。

🚀推理速度:在基准测试中,Octopus-V2-2B 表现出了卓越的推理速度,在单个 A100 GPU 上的性能比“Llama7B + RAG 解决方案”组合高出 36 倍。此外,与依赖集群 A100/H100 GPU 的 GPT-4-turbo (gpt-4-0125-preview) 相比,Octopus-V2-2B 速度提高了 168%。这种效率归功于我们的functional token设计。

20 亿参数的 Octopus v2 可以在智能手机、汽车、个人电脑等端侧运行,在准确性和延迟方面超越了 GPT-4,并将上下文长度减少了 95%。此外,Octopus v2 比 Llama7B + RAG 方案快 36 倍。

🐙准确度:Octopus-V2-2B 不仅在速度上表现出色,而且在准确度上也表现出色,在函数调用准确度上超越“Llama7B + RAG 方案”31%。它实现了与 GPT-4 和 RAG + GPT-3.5 相当的函数调用精度,在基准数据集上的得分范围在 98% 到 100% 之间。

💪函数调用功能:Octopus-V2-2B 能够在各种复杂场景中生成单独的、嵌套的和并行的函数调用。

示例用例

您可以在 GPU 上使用以下代码来运行模型。

from transformers import AutoTokenizer, GemmaForCausalLM
import torch
import timedef inference(input_text):start_time = time.time()input_ids = tokenizer(input_text, return_tensors="pt").to(model.device)input_length = input_ids["input_ids"].shape[1]outputs = model.generate(input_ids=input_ids["input_ids"], max_length=1024,do_sample=False)generated_sequence = outputs[:, input_length:].tolist()res = tokenizer.decode(generated_sequence[0])end_time = time.time()return {"output": res, "latency": end_time - start_time}model_id = "NexaAIDev/Octopus-v2"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = GemmaForCausalLM.from_pretrained(model_id, torch_dtype=torch.bfloat16, device_map="auto"
)input_text = "Take a selfie for me with front camera"
nexa_query = f"Below is the query from the users, please call the correct function and generate the parameters to call the function.\n\nQuery: {input_text} \n\nResponse:"
start_time = time.time()
print("nexa model result:\n", inference(nexa_query))
print("latency:", time.time() - start_time," s")

评估

基准测试结果可以在这个excel中查看,这是手动验证的。基准测试中的所有查询均由 Gemini 采样。

Octopus-V2-2B 在基准测试中表现出卓越的推理速度,在单个 A100 GPU 上比「Llama7B + RAG 解决方案」快 36 倍。此外,与依赖集群 A100/H100 GPU 的 GPT-4-turbo 相比,Octopus-V2-2B 速度提高了 168%。这种效率突破归功于 Octopus-V2-2B 的函数性 token 设计。

图片

Octopus-V2-2B 不仅在速度上表现出色,在准确率上也表现出色,在函数调用准确率上超越「Llama7B + RAG 方案」31%。Octopus-V2-2B 实现了与 GPT-4 和 RAG + GPT-3.5 相当的函数调用准确率。

图片

注意:人们可以注意到查询包括用于函数的所有必需参数。预计查询也包括推理期间的所有参数。

数据集

为了训练、验证和测试阶段采用高质量数据集,特别是实现高效训练,研究团队用三个关键阶段创建数据集:

  • 生成相关的查询及其关联的函数调用参数;
  • 由适当的函数组件生成不相关的查询; 
  • 通过 Google Gemini 实现二进制验证支持。

图片

训练数据

该研究采用 Google Gemma-2B 模型作为框架中的预训练模型,并采用两种不同的训练方法:完整模型训练和 LoRA 模型训练。

在完整模型训练中,该研究使用 AdamW 优化器,学习率设置为 5e-5,warm-up 的 step 数设置为 10,采用线性学习率调度器。

LoRA 模型训练采用与完整模型训练相同的优化器和学习率配置,LoRA rank 设置为 16,并将 LoRA 应用于以下模块:q_proj、k_proj、v_proj、o_proj、up_proj、down_proj。其中,LoRA alpha 参数设置为 32。

对于两种训练方法,epoch 数均设置为 3。

我们编写了 20 个 Android API 描述用于训练模型,请参阅此文件了解详细信息。我们的演示的 Android API 实现以及我们的训练数据将在稍后发布。下面是一个Android API描述示例

def get_trending_news(category=None, region='US', language='en', max_results=5):"""Fetches trending news articles based on category, region, and language.Parameters:- category (str, optional): News category to filter by, by default use None for all categories. Optional to provide.- region (str, optional): ISO 3166-1 alpha-2 country code for region-specific news, by default, uses 'US'. Optional to provide.- language (str, optional): ISO 639-1 language code for article language, by default uses 'en'. Optional to provide.- max_results (int, optional): Maximum number of articles to return, by default, uses 5. Optional to provide.Returns:- list[str]: A list of strings, each representing an article. Each string contains the article's heading and URL."""

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/799654.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

性能分析-docker知识

docker的相关概念 docker是一个做系统虚拟化的软件,跟vmware类似,虚拟出来的也是操作系统。我们现在在企业中, 使用docker虚拟出来的系统,大多都是linux系统。 docker镜像image:就是虚拟一个docker容器需要的操作系统…

Ubuntu 20.04.06 PCL C++学习记录(十八)

[TOC]PCL中点云分割模块的学习 学习背景 参考书籍:《点云库PCL从入门到精通》以及官方代码PCL官方代码链接,,PCL版本为1.10.0,CMake版本为3.16 学习内容 PCL中实现欧式聚类提取。在点云处理中,聚类是一种常见的任务,它将点云数据划分为多…

基于单片机三相温度测量控制系统设计

**单片机设计介绍,基于单片机三相温度测量控制系统设计 文章目录 一 概要二、功能设计设计思路 三、 软件设计原理图 五、 程序六、 文章目录 一 概要 基于单片机三相温度测量控制系统设计概要主要包括系统组成、温度测量原理、控制逻辑、软件设计以及测试与验证等…

2.k8s架构

目录 k8s集群架构 控制平面 kube-apiserver kube-scheduler etcd kube-controller-manager node 组件 kubelet kube-proxy 容器运行时(Container Runtime) cloud-controller-manager 相关概念 k8s集群架构 一个Kubernetes集群至少包含一个控制…

PPT 操作

版式 PPT中,巧妙使用母版,可以提高效率。 双击母版,选择其中一个版式,插入装饰符号。 然后选择关闭。 这个时候,在该版式下的所有页面,就会出现新加入的符号。不在该版式下的页面,不会出现新加…

八股面试——数据库——索引

索引的概念 B树的概念: 索引的作用 聚簇索引与非聚簇索引 聚簇索引就是主键值,在B树上,通过主键大小(数据在B树叶子节点按主键顺序排序)寻找对应的叶子节点,叶子节点保存的一整条记录。 非聚簇索引&#x…

ctfshow web入门 命令执行 web53--web77

web53 日常查看文件 怎么回事不让我看十八 弄了半天发现并不是很对劲,原来我发现他会先回显我输入的命令再进行命令的回显 ?cnl${IFS}flag.php||web54 绕过了很多东西 基本上没有什么命令可以用了但是 grep和?通配符还可以用 ?cgrep${IFS}ctfshow${IFS}???…

分类预测 | Matlab实现ABC-LSSVM人工蜂群算法优化最小二乘支持向量机数据分类预测

分类预测 | Matlab实现ABC-LSSVM人工蜂群算法优化最小二乘支持向量机数据分类预测 目录 分类预测 | Matlab实现ABC-LSSVM人工蜂群算法优化最小二乘支持向量机数据分类预测分类效果基本介绍程序设计参考资料 分类效果 基本介绍 1.Matlab实现ABC-LSSVM人工蜂群算法优化最小二乘支…

BeautifulSoup数据抓取优化

优化 BeautifulSoup 数据抓取可以帮助提高数据抓取的效率和性能,优化的数据抓取方式更加友好,减少了对目标网站的访问压力,降低了被封禁或限制访问的风险。那边在日常中会遇到一些复杂的问题,如何解决?看看下面的几种解…

【C++】详解vector二维数组的全部操作(超细图例解析!!!)

目录 一、前言 二、 深度理解vector 的二维数组(重点!) 三、vector 二维数组的空间理解(重点!) ✨问题分析 ✨如何合理定制vector的内存空间 四、vector 二维数组的初始化 五、vector 二维数组的 添加…

性能优化 - 你能说一说,为什么做了骨架屏,FCP的指标还是没有提升吗

难度级别:中高级及以上 提问概率:80% FCP的全程是First Contentful Paint,是衡量网页性能的一个重要指标,很多人把FCP理解为元素内容首次渲染到浏览器上的时间。但由于现在比较流行的Vue或是React项目中,HTML文档最初只有一个id为app的DIV…

【Labview】虚拟仪器技术

一、背景知识 1.1 虚拟仪器的定义、组成和应用 虚拟仪器的特点 虚拟仪器的突出特征为“硬件功能软件化”,虚拟仪器是在计算机上显示仪器面板,将硬件电路完成信号调理和处理功能由计算机程序完成。 虚拟仪器的组成 硬件软件 硬件是基础,负责将…

YOLOv5改进--轻量化YOLOv5s模型

文章目录 1、前言2、轻量化模型结构:3、模型对比4、训练结果图5、目标检测文章 1、前言 在边缘设备的场景下,目前的YOLOv5s,虽然能够快速实现目标检测,但是运行速度依旧稍慢点,本文在牺牲一点精度前提下,提…

Web漏洞-文件上传常见验证

后缀名:类型,文件头等 后缀名:黑白名单 文件类型:MIME信息 文件头:内容头信息 常见黑名单(明确不允许上传的格式后缀):asp、php、jsp、aspx、cgi、war (如果没有完整…

nacos derby.log无法的读取+derby数据库启动失败分析解决

排查思路分析 日志报错: derby.log文件权限不够(root权限),无法读取,我用普通用户启动。 使用命令chown xx:xx derby.log修改属主和属组为普通用户后,又报出其他错误。 数据库启动不了,无…

Composer Windows 安装

Composer 的下载地址为:Composer 1 运行安装程序 当启动安装程序后单击下一步继续。 选择 PHP 路径 如果你的计算机上没有安装 PHP 的话,Composer 的安装无法继续。 你需要选择你本地安装的 PHP 路径。 配置代理地址 默认的情况下,可以不…

基于starganvc2的变声器论文原理解读

数据与代码见文末 论文地址:https://arxiv.org/pdf/1907.12279.pdf 1.概述 什么是变声器,变声器就是将语音特征进行转换,而语音内容不改变 那么我们如何构建一个变声器呢? 首先,我们肯定不能为转换的每一种风格的声…

JavaEE初阶——多线程(一)

T04BF 👋专栏: 算法|JAVA|MySQL|C语言 🫵 小比特 大梦想 此篇文章与大家分享多线程的第一部分:引入线程以及创建多线程的几种方式 此文章是建立在前一篇文章进程的基础上的 如果有不足的或者错误的请您指出! 1.认识线程 我们知道现代的cpu大多都是多核心…

【Figma】安装指南及基础操作

先前做UI设计一直都是用PS等绘图软件设计,但发现在纠结像素和排版问题上会花很多时间,再加上AI没来得及上手,就需要迅速出成图,此时通过论坛发现了figma,基本上可以满足足够的需求,并且可以在windows系统上…

SVG图标显示

SVG图标显示 1.安装SharpVectors.Wpf包 2.添加引用 xmlns:svgc"http://sharpvectors.codeplex.com/svgc/"3.加载svg文件&#xff0c;生成操作选择资源(Resource) 4.UI界面显示SVG图像 <Button Click"OnSaveFileClick" ToolTip"Save Svg File…