Octopus V2:设备端super agent的高级语言模型

  • 论文:Octopus v2: On-device language model for super agent
  • 论文地址:https://arxiv.org/abs/2404.01744
  • 模型主页:https://huggingface.co/NexaAIDev/Octopus-v2

Octopus-V2-2B

Octopus-V2-2B 是一款具有20亿参数的开源先进语言模型,它体现了Nexa AI在将大型语言模型(LLM)应用于函数调用方面的研究成果,并且是针对Android API特别设计的。与传统的检索增强生成(RAG)方法不同,后者在处理潜在的函数参数时需要进行详尽的描述(有时涉及数万个输入标记),Octopus-V2-2B在训练和推理过程中采用了独特的函数标记策略。这种策略不仅让它能够与GPT-4的性能相媲美,还大幅提升了推理速度,优于基于RAG的方法。这一改进特别适合边缘计算设备,使得Octopus-V2-2B在这些平台上更具优势

📱设备端应用程序:Octopus-V2-2B 旨在与 Android 设备完美兼容,其应用范围广泛,涵盖了从 Android 系统管理到多设备协调等多个方面。

🚀推理速度:在基准测试中,Octopus-V2-2B 表现出了卓越的推理速度,在单个 A100 GPU 上的性能比“Llama7B + RAG 解决方案”组合高出 36 倍。此外,与依赖集群 A100/H100 GPU 的 GPT-4-turbo (gpt-4-0125-preview) 相比,Octopus-V2-2B 速度提高了 168%。这种效率归功于我们的functional token设计。

20 亿参数的 Octopus v2 可以在智能手机、汽车、个人电脑等端侧运行,在准确性和延迟方面超越了 GPT-4,并将上下文长度减少了 95%。此外,Octopus v2 比 Llama7B + RAG 方案快 36 倍。

🐙准确度:Octopus-V2-2B 不仅在速度上表现出色,而且在准确度上也表现出色,在函数调用准确度上超越“Llama7B + RAG 方案”31%。它实现了与 GPT-4 和 RAG + GPT-3.5 相当的函数调用精度,在基准数据集上的得分范围在 98% 到 100% 之间。

💪函数调用功能:Octopus-V2-2B 能够在各种复杂场景中生成单独的、嵌套的和并行的函数调用。

示例用例

您可以在 GPU 上使用以下代码来运行模型。

from transformers import AutoTokenizer, GemmaForCausalLM
import torch
import timedef inference(input_text):start_time = time.time()input_ids = tokenizer(input_text, return_tensors="pt").to(model.device)input_length = input_ids["input_ids"].shape[1]outputs = model.generate(input_ids=input_ids["input_ids"], max_length=1024,do_sample=False)generated_sequence = outputs[:, input_length:].tolist()res = tokenizer.decode(generated_sequence[0])end_time = time.time()return {"output": res, "latency": end_time - start_time}model_id = "NexaAIDev/Octopus-v2"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = GemmaForCausalLM.from_pretrained(model_id, torch_dtype=torch.bfloat16, device_map="auto"
)input_text = "Take a selfie for me with front camera"
nexa_query = f"Below is the query from the users, please call the correct function and generate the parameters to call the function.\n\nQuery: {input_text} \n\nResponse:"
start_time = time.time()
print("nexa model result:\n", inference(nexa_query))
print("latency:", time.time() - start_time," s")

评估

基准测试结果可以在这个excel中查看,这是手动验证的。基准测试中的所有查询均由 Gemini 采样。

Octopus-V2-2B 在基准测试中表现出卓越的推理速度,在单个 A100 GPU 上比「Llama7B + RAG 解决方案」快 36 倍。此外,与依赖集群 A100/H100 GPU 的 GPT-4-turbo 相比,Octopus-V2-2B 速度提高了 168%。这种效率突破归功于 Octopus-V2-2B 的函数性 token 设计。

图片

Octopus-V2-2B 不仅在速度上表现出色,在准确率上也表现出色,在函数调用准确率上超越「Llama7B + RAG 方案」31%。Octopus-V2-2B 实现了与 GPT-4 和 RAG + GPT-3.5 相当的函数调用准确率。

图片

注意:人们可以注意到查询包括用于函数的所有必需参数。预计查询也包括推理期间的所有参数。

数据集

为了训练、验证和测试阶段采用高质量数据集,特别是实现高效训练,研究团队用三个关键阶段创建数据集:

  • 生成相关的查询及其关联的函数调用参数;
  • 由适当的函数组件生成不相关的查询; 
  • 通过 Google Gemini 实现二进制验证支持。

图片

训练数据

该研究采用 Google Gemma-2B 模型作为框架中的预训练模型,并采用两种不同的训练方法:完整模型训练和 LoRA 模型训练。

在完整模型训练中,该研究使用 AdamW 优化器,学习率设置为 5e-5,warm-up 的 step 数设置为 10,采用线性学习率调度器。

LoRA 模型训练采用与完整模型训练相同的优化器和学习率配置,LoRA rank 设置为 16,并将 LoRA 应用于以下模块:q_proj、k_proj、v_proj、o_proj、up_proj、down_proj。其中,LoRA alpha 参数设置为 32。

对于两种训练方法,epoch 数均设置为 3。

我们编写了 20 个 Android API 描述用于训练模型,请参阅此文件了解详细信息。我们的演示的 Android API 实现以及我们的训练数据将在稍后发布。下面是一个Android API描述示例

def get_trending_news(category=None, region='US', language='en', max_results=5):"""Fetches trending news articles based on category, region, and language.Parameters:- category (str, optional): News category to filter by, by default use None for all categories. Optional to provide.- region (str, optional): ISO 3166-1 alpha-2 country code for region-specific news, by default, uses 'US'. Optional to provide.- language (str, optional): ISO 639-1 language code for article language, by default uses 'en'. Optional to provide.- max_results (int, optional): Maximum number of articles to return, by default, uses 5. Optional to provide.Returns:- list[str]: A list of strings, each representing an article. Each string contains the article's heading and URL."""

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/799654.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

性能分析-docker知识

docker的相关概念 docker是一个做系统虚拟化的软件,跟vmware类似,虚拟出来的也是操作系统。我们现在在企业中, 使用docker虚拟出来的系统,大多都是linux系统。 docker镜像image:就是虚拟一个docker容器需要的操作系统…

Ubuntu 20.04.06 PCL C++学习记录(十八)

[TOC]PCL中点云分割模块的学习 学习背景 参考书籍:《点云库PCL从入门到精通》以及官方代码PCL官方代码链接,,PCL版本为1.10.0,CMake版本为3.16 学习内容 PCL中实现欧式聚类提取。在点云处理中,聚类是一种常见的任务,它将点云数据划分为多…

基于单片机三相温度测量控制系统设计

**单片机设计介绍,基于单片机三相温度测量控制系统设计 文章目录 一 概要二、功能设计设计思路 三、 软件设计原理图 五、 程序六、 文章目录 一 概要 基于单片机三相温度测量控制系统设计概要主要包括系统组成、温度测量原理、控制逻辑、软件设计以及测试与验证等…

2.k8s架构

目录 k8s集群架构 控制平面 kube-apiserver kube-scheduler etcd kube-controller-manager node 组件 kubelet kube-proxy 容器运行时(Container Runtime) cloud-controller-manager 相关概念 k8s集群架构 一个Kubernetes集群至少包含一个控制…

PPT 操作

版式 PPT中,巧妙使用母版,可以提高效率。 双击母版,选择其中一个版式,插入装饰符号。 然后选择关闭。 这个时候,在该版式下的所有页面,就会出现新加入的符号。不在该版式下的页面,不会出现新加…

八股面试——数据库——索引

索引的概念 B树的概念: 索引的作用 聚簇索引与非聚簇索引 聚簇索引就是主键值,在B树上,通过主键大小(数据在B树叶子节点按主键顺序排序)寻找对应的叶子节点,叶子节点保存的一整条记录。 非聚簇索引&#x…

Mysql底层原理一:事务

因为数据库操作也是并发操作,多个客户端在操作的时候,可能会存在很多问题 1. 一些问题 ● 脏写(人家还没有提交,我可以改别人的数据),这个在数据库不存在,已经通过锁解决了 ● 脏读&#xff0…

ctfshow web入门 命令执行 web53--web77

web53 日常查看文件 怎么回事不让我看十八 弄了半天发现并不是很对劲,原来我发现他会先回显我输入的命令再进行命令的回显 ?cnl${IFS}flag.php||web54 绕过了很多东西 基本上没有什么命令可以用了但是 grep和?通配符还可以用 ?cgrep${IFS}ctfshow${IFS}???…

分类预测 | Matlab实现ABC-LSSVM人工蜂群算法优化最小二乘支持向量机数据分类预测

分类预测 | Matlab实现ABC-LSSVM人工蜂群算法优化最小二乘支持向量机数据分类预测 目录 分类预测 | Matlab实现ABC-LSSVM人工蜂群算法优化最小二乘支持向量机数据分类预测分类效果基本介绍程序设计参考资料 分类效果 基本介绍 1.Matlab实现ABC-LSSVM人工蜂群算法优化最小二乘支…

SpringBoot 使用redis

目录 一、pom.xml 二、application.properties 三、编写一个配置类用于解决乱码问题和对象真实的类型问题 四、代码案例 4.1 model 准备 因为有可能存对象 4.2 使用redis 操作string 4.3 使用redis 操作list 4.4 使用redis 操作hash 4.5 使用redis 操作set 4.6 使用…

BeautifulSoup数据抓取优化

优化 BeautifulSoup 数据抓取可以帮助提高数据抓取的效率和性能,优化的数据抓取方式更加友好,减少了对目标网站的访问压力,降低了被封禁或限制访问的风险。那边在日常中会遇到一些复杂的问题,如何解决?看看下面的几种解…

React项目如何捕获错误

React项目如何捕获错误 1. 错误捕获的基本方法1.1 组件级别的错误处理1.2 使用错误处理库1.3 React的错误边界(Error Boundaries) 2. 错误边界的限制 在构建React应用程序时,错误处理是一个不可忽视的重要方面。有效地捕获和处理错误不仅可以…

【C++】详解vector二维数组的全部操作(超细图例解析!!!)

目录 一、前言 二、 深度理解vector 的二维数组(重点!) 三、vector 二维数组的空间理解(重点!) ✨问题分析 ✨如何合理定制vector的内存空间 四、vector 二维数组的初始化 五、vector 二维数组的 添加…

性能优化 - 你能说一说,为什么做了骨架屏,FCP的指标还是没有提升吗

难度级别:中高级及以上 提问概率:80% FCP的全程是First Contentful Paint,是衡量网页性能的一个重要指标,很多人把FCP理解为元素内容首次渲染到浏览器上的时间。但由于现在比较流行的Vue或是React项目中,HTML文档最初只有一个id为app的DIV…

自建ceph存储集群方案之从零到一

概述 根据硬件摩尔定律,硬件成本随时间越来越低,性能较之前越来越高,尤其是随着pcie全闪灯普及,理论上作为云服务的基础设施,存储应该越来越便宜。然而,购置商用sds产品的成本却一直居高不下,越…

在unbuntu服务器上使用nginx+uwsgi部署django项目

一、配置nginx 1. 安装nginx apt-get install nginx2. 编写nginx配置文件 进入nginx.conf文件路径:/etc/nginx/nginx.conf 编写以下内容: events {worker_connections 1024; # 工作进程的最大连接数量 }http{include mime.types;# 日志格式及保存路径…

(译) 理解 Elixir 中的宏 Macro, 第五部分:组装 AST

Elixir Macros 系列文章译文 [1] (译) Understanding Elixir Macros, Part 1 Basics[2] (译) Understanding Elixir Macros, Part 2 - Macro Theory[3] (译) Understanding Elixir Macros, Part 3 - Getting into the AST[4] (译) Understanding Elixir Macros, Part 4 - Divin…

【Labview】虚拟仪器技术

一、背景知识 1.1 虚拟仪器的定义、组成和应用 虚拟仪器的特点 虚拟仪器的突出特征为“硬件功能软件化”,虚拟仪器是在计算机上显示仪器面板,将硬件电路完成信号调理和处理功能由计算机程序完成。 虚拟仪器的组成 硬件软件 硬件是基础,负责将…

数字化转型回归底层逻辑

2024年第一季度已然过去,对于我们每个人而言,这都是一次严峻的挑战。2015年,蚓链数字化营销系统踏上研发之路。让我们回顾数字技术对企业的影响阶段:2012-2015 年,互联网在消费端产生巨大影响,引发了虚拟经…

清空nginx缓存并强制刷新

当对nginx的文件进行修改或更新时,可能会出现旧文件被缓存而无法立即生效的问题,此时需要清空nginx的文件缓存并强制刷新。可以通过以下步骤实现: 登录nginx服务器执行命令:sudo nginx -s reload (重新加载nginx配置&…