llmperf测试大模型API性能

llmperf测试大模型API性能

llmperf是一个用来评估LLM API性能的工具。

官方仓库地址:https://github.com/ray-project/llmperf

1. 安装准备

脚本依赖python3环境,测试前客户端安装python3,本文使用python版本为3.8。

# 创建一个python虚拟环境
python -m venv llmperf-env
source llmperf-env/bin/activate

#
 安装依赖
pip install torch TensorFlow

#
 取消代理设置
unset http_proxy
unset https_proxy

#
 安装工具
git clone https://github.com/ray-project/llmperf.git
cd llmperf
pip install -e .

从huggingface下载分词器,并将下载后的文件安装如下目录放置到llmperf文件夹下:

https://huggingface.co/hf-internal-testing/llama-tokenizer/tree/main

$ ls
analyze-token-benchmark-results.ipynb  LICENSE.txt         NOTICE.txt     pyproject.toml  requirements-dev.txt  src
hf-internal-testing                    llm_correctness.py  pre-commit.sh  README.md       result_outputs        token_benchmark_ray.py

$
 tree hf-internal-testing/
hf-internal-testing/
└── llama-tokenizer
    ├── gitattributes
    ├── special_tokens_map.json
    ├── tokenizer_config.json
    ├── tokenizer.json
    └── tokenizer.model

#
 修改token_benchmark_ray.py,将分词器改为本地路径:
62     tokenizer = LlamaTokenizerFast.from_pretrained(
63         "./hf-internal-testing/llama-tokenizer"

2. 测试实践

支持负载测试和正确性测试。

2.1 大模型API负载测试

llmperf兼容不同类型的大模型API,包'openai', 'anthropic', 'litellm'等。

OpenAI Compatible APIs:

export OPENAI_API_KEY=secret_abcdefg
export OPENAI_API_BASE="https://api.endpoints.anyscale.com/v1"

python token_benchmark_ray.py \
--model "meta-llama/Llama-2-7b-chat-hf" \
--mean-input-tokens 550 \
--stddev-input-tokens 150 \
--mean-output-tokens 150 \
--stddev-output-tokens 10 \
--max-num-completed-requests 2 \
--timeout 600 \
--num-concurrent-requests 1 \
--results-dir "result_outputs" \
--llm-api openai \
--additional-sampling-params '{}'

测试案例,以本地部署的大模型为例,测试baichuan2-13B-Chat模型。

# 设置大模型API的Key和URL,本次使用OPENAI_API类型的API进行测试。
export OPENAI_API_KEY=EMPTY
export OPENAI_API_BASE=http://10.210.18.41:32576/v1
# 运行脚本,设置测试的model,tokens相关参数,并发数量等。
python token_benchmark_ray.py --model "baichuan2-13B-Chat" --mean-input-tokens 100 --stddev-input-tokens 50 --mean-output-tokens 500 --stddev-output-tokens 100 --max-num-completed-requests 2 --timeout 600 --num-concurrent-requests 1 --results-dir "result_outputs" --llm-api openai --additional-sampling-params '{}'
2024-04-26 17:19:19,470 INFO worker.py:1749 -- Started a local Ray instance.
100%|████████████████████████████████████| 2/2 [00:11<00:00,  5.67s/it]
\Results for token benchmark for baichuan2-13B-Chat queried with the openai api.

inter_token_latency_s
    p25 = 0.08192225433145225
    p50 = 0.08256251340393315
    p75 = 0.08320277247641406
    p90 = 0.08358692791990259
    p95 = 0.08371497973439876
    p99 = 0.08381742118599571
    mean = 0.08256251340393315
    min = 0.08128199525897137
    max = 0.08384303154889494
    stddev = 0.001810926127469796
ttft_s
    p25 = 0.1733547967596678
    p50 = 0.18000664250575937
    p75 = 0.18665848825185094
    p90 = 0.19064959569950587
    p95 = 0.1919799648487242
    p99 = 0.19304426016809884
    mean = 0.18000664250575937
    min = 0.16670295101357624
    max = 0.1933103339979425
    stddev = 0.018814260937872945
end_to_end_latency_s
    p25 = 3.06721269452828
    p50 = 5.121514831029344
    p75 = 7.175816967530409
    p90 = 8.408398249431048
    p95 = 8.81925867673126
    p99 = 9.147947018571431
    mean = 5.121514831029344
    min = 1.0129105580272153
    max = 9.230119104031473
    stddev = 5.810443885303661
request_output_throughput_token_per_s
    p25 = 9.643341004971674
    p50 = 10.401396010428488
    p75 = 11.159451015885304
    p90 = 11.614284019159394
    p95 = 11.765895020250756
    p99 = 11.887183821123847
    mean = 10.401396010428488
    min = 8.88528599951486
    max = 11.917506021342119
    stddev = 2.1441033394836757
number_input_tokens
    p25 = 99.5
    p50 = 103.0
    p75 = 106.5
    p90 = 108.6
    p95 = 109.3
    p99 = 109.86
    mean = 103.0
    min = 96
    max = 110
    stddev = 9.899494936611665
number_output_tokens
    p25 = 34.25
    p50 = 59.5
    p75 = 84.75
    p90 = 99.9
    p95 = 104.94999999999999
    p99 = 108.99
    mean = 59.5
    min = 9
    max = 110
    stddev = 71.4177848998413
Number Of Errored Requests: 0
Overall Output Throughput: 10.486871057088438
Number Of Completed Requests: 2
Completed Requests Per Minute: 10.574996023954728

#
 result_outputs文件夹下的结果输出
ls -alh baichuan2-13B-Chat_100_500_*
-rw-r--r-- 1 root root 1.9K Apr 26 18:00 baichuan2-13B-Chat_100_500_individual_responses.json
-rw-r--r-- 1 root root 4.4K Apr 26 18:00 baichuan2-13B-Chat_100_500_summary.json

测试脚本参数解读:

python token_benchmark_ray.py --help
None of PyTorch, TensorFlow >= 2.0, or Flax have been found. Models won't be available and only tokenizers, configuration and file/data utilities can be used.
2024-04-26 17:58:32,799 INFO worker.py:1749 -- Started a local Ray instance.
usage: token_benchmark_ray.py [-h] --model MODEL [--mean-input-tokens MEAN_INPUT_TOKENS] [--stddev-input-tokens STDDEV_INPUT_TOKENS] [--mean-output-tokens MEAN_OUTPUT_TOKENS]
                              [--stddev-output-tokens STDDEV_OUTPUT_TOKENS] [--num-concurrent-requests NUM_CONCURRENT_REQUESTS] [--timeout TIMEOUT]
                              [--max-num-completed-requests MAX_NUM_COMPLETED_REQUESTS] [--additional-sampling-params ADDITIONAL_SAMPLING_PARAMS] [--results-dir RESULTS_DIR] [--llm-api LLM_API]
                              [--metadata METADATA]

Run a token throughput and latency benchmark.

options:
  -h, --help            show this help message and exit
  --model MODEL         The model to use for this load test.
  --mean-input-tokens MEAN_INPUT_TOKENS
                        The mean number of tokens to send in the prompt for the request. (default: 550)     # 请求中prompt的平均token数,默认值550。
  --stddev-input-tokens STDDEV_INPUT_TOKENS
                        The standard deviation of number of tokens to send in the prompt for the request. (default: 150)    # 请求中prompt的token数的标准差,默认值150。
  --mean-output-tokens MEAN_OUTPUT_TOKENS
                        The mean number of tokens to generate from each llm request. This is the max_tokens param for the completions API. Note that this is not always the number of tokens returned.
                        (default: 150)  # 从每个LLM请求中生成的平均token数。这是completions API的max_tokens参数。注意这并不一定总是是返回的token数,默认值150。
  --stddev-output-tokens STDDEV_OUTPUT_TOKENS
                        The stdandard deviation on the number of tokens to generate per llm request. (default: 80)  # 每个LLM请求生成的token数的标准差,默认值80。
  --num-concurrent-requests NUM_CONCURRENT_REQUESTS
                        The number of concurrent requests to send (default: 10)     # 要发送的并发请求数量。默认值为10。
  --timeout TIMEOUT     The amount of time to run the load test for. (default: 90)      # 运行负载测试的时间长度。默认90s。
  --max-num-completed-requests MAX_NUM_COMPLETED_REQUESTS
                        The number of requests to complete before finishing the test. Note that its possible for the test to timeout first. (default: 10)   # 在测试结束前完成的请求数量,如果超过设定时间,测试提前结束。
  --additional-sampling-params ADDITIONAL_SAMPLING_PARAMS
                        Additional sampling params to send with the each request to the LLM API. (default: {}) No additional sampling params are sent.
  --results-dir RESULTS_DIR
                        The directory to save the results to. (`default: `) No results are saved)   # 输出结果路径
  --llm-api LLM_API     The name of the llm api to use. Can select from ['openai', 'anthropic', 'litellm'] (default: openai)    # 大模型API类型
  --metadata METADATA   A comma separated list of metadata to include in the results, e.g. name=foo,bar=1. These will be added to the metadata field of the results.

2.2 大模型API正确性测试

OpenAI Compatible APIs:

export OPENAI_API_KEY=secret_abcdefg
export OPENAI_API_BASE=https://console.endpoints.anyscale.com/m/v1

python llm_correctness.py \
--model "meta-llama/Llama-2-7b-chat-hf" \
--max-num-completed-requests 150 \
--timeout 600 \
--num-concurrent-requests 10 \
--results-dir "result_outputs"

实践案例,以本地部署的大模型为例,测试baichuan2-13B-Chat模型。

export OPENAI_API_KEY=EMPTY
export OPENAI_API_BASE=http://10.210.18.41:32576/v1
python llm_correctness.py \
> --model "baichuan2-13B-Chat" \
> --max-num-completed-requests 150 \
> --timeout 600 \
> --num-concurrent-requests 10 \
> --results-dir "result_outputs"
2024-04-26 18:24:10,240 INFO worker.py:1749 -- Started a local Ray instance.
  0%|                                                                                                                                                                             | 0/150 [00:00<?, ?it/s](raylet) WARNING: 16 PYTHON worker processes have been started on node: 424e0f50137d0212cb68607fc3306ab347751605fbc7973d6f0a9db1 with address: 172.16.0.9. This could be a result of using a large number of actors, or due to tasks blocked in ray.get() calls (see https://github.com/ray-project/ray/issues/3644 for some discussion of workarounds).
100%|███████████████████████████████████| 150/150 [02:12<00:00,  1.13it/s]
Mismatched and errored requests.
    mismatched request: 900197, expected: 9197
    mismatched request: 5000, 300, 53, expected: 5353
    mismatched request: 404407, expected: 4447
    mismatched request: 200811, expected: 2811
    ...

Results for llm correctness test for baichuan2-13B-Chat queried with the openai api.
Errors: 0, Error rate: 0.0
Mismatched: 109, Mismatch rate: 0.7266666666666667
Completed: 150
Completed without errors: 150

#
 result_outputs文件夹下的结果输出
ls baichuan2-13B-Chat_correctness_* -alh
-rw-r--r-- 1 root root 140K Apr 26 18:26 baichuan2-13B-Chat_correctness_individual_responses.json
-rw-r--r-- 1 root root  405 Apr 26 18:26 baichuan2-13B-Chat_correctness_summary.json

3. 在线案例

网上能查到的测试案例https://huggingface.co/datasets/ssong1/llmperf-bedrock

横向比较不同的provider,参数设置如下:

  • 请求总数:100
  • 并发:1
  • 提示的令牌长度:1024
  • 预期输出长度:1024
  • 试验型号:claude-instant-v1-100k
python token_benchmark_ray.py \
    --model bedrock/anthropic.claude-instant-v1 \
    --mean-input-tokens 1024 \
    --stddev-input-tokens 0 \
    --mean-output-tokens 1024 \
    --stddev-output-tokens 100 \
    --max-num-completed-requests 100 \
    --num-concurrent-requests 1 \
    --llm-api litellm

利用 LLMPerf,我们对一系列 LLM 推理提供程序进行了基准测试。 我们的分析侧重于根据以下关键指标评估其性能、可靠性和效率:

  1. 输出令牌吞吐量,表示每秒返回的平均输出令牌数。此指标对于需要高吞吐量(如摘要和翻译)的应用程序非常重要,并且易于在不同模型和提供商之间进行比较。
  2. 第一个令牌的时间 (TTFT),表示 LLM 返回第一个令牌的持续时间。TTFT 对于聊天机器人等流媒体应用程序尤为重要。

第一个令牌的时间(秒):对于流式处理应用程序,TTFT 是 LLM 返回第一个令牌之前的时间。

FrameworkModelMedianMeanMinMaxP25P75P95P99
bedrockclaude-instant-v11.211.291.122.191.171.271.892.17

输出令牌吞吐量(令牌/秒):输出令牌吞吐量以每秒返回的平均输出令牌数来衡量。 我们通过向每个 LLM 推理提供者发送 100 个请求来收集结果,并根据 100 个请求计算平均输出令牌吞吐量。 输出令牌吞吐量越高,表示 LLM 推理提供程序的吞吐量越高。

FrameworkModelMedianMeanMinMaxP25P75P95P99
bedrockclaude-instant-v165.6465.9816.05110.3857.2975.5799.73106.42

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/6280.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

走进香港美食宛如走进香港电影

&#xff08;1&#xff09; 过去蔡澜有个节目&#xff0c;专门介绍香港美食&#xff0c;身边美女相伴、眼里美景相随。 过去离香港海关近&#xff0c;有时候散步都能走到那里&#xff0c;打车时车都不蹦字儿。那时候精神头儿真好&#xff0c;周六一早6点就起来拖着大箱子过关&a…

React 第十八章 Hook useImperativeHandle

React 的 useImperativeHandle 是一个自定义 Hook。该 Hook 一般配合 React.forwardRef 使用&#xff0c;主要用于在父组件中可以使用 ref 获取子组件暴露出来的属性和方法。 useImperativeHandle 接受两个参数&#xff1a;ref 和创建子组件属性和方法的函数。 function Chil…

人机协同中的分布式中心化态势感知

一、集中式和分布式 集中式和分布式是两种不同的系统结构和管理方式。集中式系统是指所有计算机资源和数据都集中在一个中心服务器或主机上&#xff0c;所有的计算和数据处理都由该中心服务器来完成。而分布式系统是指计算机资源和数据分布在不同的计算机节点上&#xff0c;通…

软件测试(实验五)——Jmeter的使用

目录 实验目的 一、使用JMeter演示取样器、监听器、配置元件、断言的使用&#xff1b; 1、取样器 2、监听器 3、配置元件的使用 ① 用户定义的变量 ②HTTP信息头管理器 ③HTTP请求默认值 ④CSV数据文件设置 4、断言 ①响应断言 ②JSON断言 ③断言持续时间 二、使用…

「 网络安全常用术语解读 」SBOM主流格式SWID详解

国际标准化组织&#xff08;ISO&#xff09;和国际电工委员会&#xff08;International Electrotechnical Commission&#xff0c;IEC&#xff09;发布了ISO/IEC 19770-2软件标识&#xff08;Software Identification&#xff0c;SWID&#xff09;标签标准&#xff0c;该标准定…

【LAMMPS学习】八、基础知识(5.6)绝热核/壳模型

8. 基础知识 此部分描述了如何使用 LAMMPS 为用户和开发人员执行各种任务。术语表页面还列出了 MD 术语&#xff0c;以及相应 LAMMPS 手册页的链接。 LAMMPS 源代码分发的 examples 目录中包含的示例输入脚本以及示例脚本页面上突出显示的示例输入脚本还展示了如何设置和运行各…

4.2 JavaScript语法

4.2.1 JavaScript大小写 在JavaScript中大小写是严格区分的&#xff0c;无论是变量、函数名称、运算符和其他语法都必须严格按照要求的大小写进行声明和使用。例如变量hello与变量HELLO会被认为是完全不同的内容。 4.2.2 JavaScript分号 很多编程语言&#xff08;例如C、Java和…

helm安装 AWS Load Balancer Controller

1、创建AmazonEKSLoadBalancerControllerRole角色 亚马逊文档 创建文档 2&#xff09;、使用 eksctl 创建 IAM 角色 a、安装eksctl eksctl安装文档 使用以下命令下载并提取最新版本的 eksctl curl --silent --location "https://github.com/weaveworks/eksctl/releases/l…

Flask教程2:flask高级视图

文章目录 add_url_rule类视图的引入装饰器的自定义与使用蓝图的使用url_prefix设置蓝图前缀 add_url_rule 欲实现url与视图函数的绑定&#xff0c;除了使用路由装饰器app.route&#xff0c;我们还可以通过add_url_rule(rule,endpointNone,view_funcNone)方法&#xff0c;其中&…

头歌实践教学平台:投影变换v2.0

第4关&#xff1a;视口变换与三视图 一. 任务描述 1. 本关任务 (1) 理解投影变换的方法; (2) 将main函数中的空白部分补充完整。 2. 输入 (1) 代码将自动输入一个边长为1的obj正方体模型&#xff0c;具体模型如下图&#xff1a; (2) 代码自动将模型投影到二维平面&#xf…

Java毕业设计 基于SSM SpringBoot vue宠物领养平台

Java毕业设计 基于SSM SpringBoot vue宠物领养平台 SSM 宠物领养平台 功能介绍 首页 图片轮播 新闻信息 新闻类型 新闻详情 宠物百科 宠物百科类型 宠物百科详情 宠物 宠物类型 宠物详情 立即领养 留言 论坛 发布帖子 登录 个人中心 宠物收藏 宠物领养订单 后台管理 登录注…

jsp校园商城派送系统Myeclipse开发mysql数据库web结构java编程计算机网页项目

一、源码特点 JSP 校园商城派送系统 是一套完善的web设计系统&#xff0c;对理解JSP java编程开发语言有帮助&#xff0c;系统具有完整的源代码和数据库&#xff0c;系统采用serlvetdaobean mvc 模式&#xff0c;系统主要采用B/S模式 开发。开发环境为TOMCAT7.0,Myeclipse8.…

数据结构可视化(适合考研党)

废话不多说传送门 还在疑惑平衡二叉树、红黑树、B树、B树怎么插入构建的吗&#xff0c;不要慌张&#xff0c;这个网站会一步一步来演示.&#xff0c;听了咸鱼的课还不够&#xff0c;需要自己动手模拟一下各种数据结构的CRUD&#xff01;&#xff01;

Coze扣子开发指南:搭建一个免费的微信公众号AI客服

运营微信公众号的自媒体&#xff0c;现在借助Coze扣子可以非常好用而且免费的7*24客服了&#xff0c;完全不需要任何编程基础&#xff0c;操作非常简单&#xff1a; 打开Coze扣子&#xff0c;新建一个bot&#xff0c;输入bot名称、功能介绍和图标&#xff1a; 选择大语言模型&…

Python根据预设txt生成“你画我猜”题目PPT(素拓活动小工具)

Python根据预设txt生成“你画我猜”题目PPT&#xff08;素拓活动小工具&#xff09; 场景来源 去年单位内部的一次素拓活动&#xff0c;分工负责策划设置其中的“你画我猜”环节&#xff0c;网络上搜集到题目文字后&#xff0c;想着如何快速做成对应一页一页的PPT。第一时间想…

【LeetCode】树的DFS(前序、中序、后序)精选10题

目录 前序遍历&#xff1a; 1. 二叉树的所有路径&#xff08;简单&#xff09; 2. 求根节点到叶节点数字之和&#xff08;简单&#xff09; 3. 路径总和 III&#xff08;中等&#xff09; 中序遍历&#xff1a; 1. 递增顺序搜索树&#xff08;简单&#xff09; 2. 验证二…

【C++】深入剖析C++11 initializer_list 新的类功能 可变模板参数

目录 一、std::initializer_list 1、std::initializer_list是什么类型 2、std::initializer_list 的应用场景 ①给自定义容器赋值 ② 传递同类型的数据集合 二、新的类功能 1、默认成员函数 2、关键字default 3、关键字delete 三、可变参数模板 一、std::initialize…

Oracle 数据库全面升级为 23ai

从 11g 到 12c 再到 19c&#xff0c;今天&#xff0c;我们迎来了 23ai &#xff01; “ Oracle AI Vector Search allows documents, images, and relational data that are stored in mission-critical databases to be easily searched based on their conceptual content Ge…

Visual Studio C++ 的一个简单示例

Visual Studio 项目属性设置&#xff1a; 项目属性→C/C→常规→附加包含目录 C:\Intel\include\iconv\include;项目属性→链接器→常规→附加库目录 C:\Intel\include\iconv\lib;项目属性→链接器→输入→附加依赖项 iconv.lib;提示缺少"iconv.dll"&#xff0c;…

架构设计 | 分布式与集群有什么区别

作为一名从业多年的程序员&#xff0c;对于分布式和集群这两种架构有着深入的了解。简单来说&#xff0c;分布式是将一个任务分拆到多个节点共同完成&#xff0c;而集群则是多个节点执行相同的任务。具体来说&#xff0c;分布式和集群的区别体现在以下几个方面&#xff1a; 一…