👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦!
1. Cloud LLM capability, cost, performance | 一份开发者最实用的大模型「性价比」计算手册
这是 Harlan Lewis 整理的大语言模型 (LLM) 对比清单,从capability 能力、cost 成本、throughput 吞吐量 三个指标,对国外最新主流大模型进行了打分,并绘制了可视化图。
完整版本如下所示 👇
模型数量:27 (国外为主)
更新频率:非常及时
推荐指数:⭐⭐⭐⭐⭐
开发者最常使用 & 近期推出的领先大模型,都被加入了这份表单。比如,Claude 3.5、GPT-4o、Gemini 1.5、Llama 3、Groq、Phi、Command R+ 等大模型系列,以及来自中国的 DeepSeek-V2。
评价指标包含两部分。上半部分 (黄色背景) 是各大模型在 MMLU、MATH、GPQA、HumanEval、MT Bench 等基准测试中的得分;下半部分 (白色背景) 是各大模型在各项测评指标中的得分,包括上下文窗口、最大输出 token 数、吞吐量、速率限制、1M token 的输入成本 & 输出成本……
根据作者设定的评价指标,有几个关键结论值得注意:
- 👍 GPT-4o 功能一骑绝尘,吞吐量仅仅次于最快的模型,成本也控制得非常好。
- 👍 Gemini 1.5 Flash 吞吐量遥遥领先 (不包括 Groq) ,在基准测试中表现不错,每个 token 的成本也控制到较低。
- Gemini 1.5 Flash 和 GPT-4o 这两个模型一起,几乎覆盖了各种功能/速度/成本需求的任务,完全取代了5月份之前的开发方案。
- 👎 Claude 3 Opus 功能靠前,但吞吐量低,且每个token的成本很高。它与初始版本的 GPT-4 相比还算有优势,但与最新的前沿大模型 (GPT-4o、GPT-4 Turbo、Gemini 1.5 Pro、Llama 3 70B) 相比,Claude 3 Opus 在成本方面完全没有竞争力。
- Groq 系列大模型有多种版本,且吞吐量和成本都有巨大的领先优势。但因为它的云API服务还不成熟,所以没有在表单中呈现出来。
原始的 Google 在线表单,作者维护和更新都非常及时。你可以访问 👇 下方链接获取最新版
官网 → https://docs.google.com/spreadsheets/d/1foc98Jtbi0-GUsNySddvL0b2a7EuVQw8MoaQlWaDT-w
2. Artificial Analysis | 一份更完备、更客观的 AI大模型 (LLM) 购物指南
Artificial Analysis 是目前看到最完备的大模型性能对比网站啦!
不仅基于数据进行了大量分析和可视化,还给出了 质量、价格、性能、速度、上下文窗口等关键指标的 详细排名,帮你选择最合适的大模型和API提供商。
感受下网站风格和主要内容 👇
模型数量:38 (国外为主)
更新频率:非常及时
推荐指数:⭐⭐⭐⭐⭐
网站对比维度非常丰富,可视化图 & 结论也很清晰,而且支持自定义交互,非常实用!
- 各能力维度的比较 (Quality Comparison by Ability)
- 质量 vs. 吞吐量 (Quality vs. Throughput)
- 质量 vs. 价格 (Quality vs. Price)
- 吞吐量 (Throughput)
- 定价:输入和输出价格 (Pricing: Input and Output prices)
- ……
整体来看,各关键指标中得分高的大模型有 👇
- 质量 (Quality):GPT-4o、GPT-4 Turbo、Claude 3 Opus、Llama 3 (70B)
- 吞吐量 (Throughput):Gemma 7B、Gemini 1.5 Flash、Llama 3 (8B)、GPT-3.5 Turbo Instruct
- 延迟 (Latency):Mistral 7B、Mistral Medium、Mixtral 8x7B、Mixtral 8x22B
- 价格 (Price):Gemma 7B、OpenChat 3.5、DeepSeek-V2、Llama 3 (8B)
- 上下文窗口 (Context Window):Gemini 1.5 Flash、Gemini 1.5 Pro、Claude 3 Opus、Claude 3 Sonnet
单拿出价格一栏,可以看到大模型输入/输出价格的明显变化。右侧交互框支持勾选自己想添加参与比价的其他大模型。
整个网站收录了国外主流前沿大模型,国内的依旧只有 DeepSeek-V2-Chat 大模型入选。网站底部有这些大模型清单,点击还可以跳转到每个大模型的专属介绍页面。
官网 → https://artificialanalysis.ai
3. LLM API Pricing Calculator | 大模型 API 价格计算器,一步到位的价格计算助手
这个网站非常有意思!
手动设定大模型的输入& 输出值,网站下方可以直接显示各个大模型的费用额度。而且!网站还支持 tokens、Words、Characters 这三种不同的计算类型 👏 再也不用自己苦哈哈地换算了~
网站截图如下 👇 赶紧加入收藏夹~
模型数量:25 (国外)
更新频率:比较及时
推荐指数:⭐⭐⭐⭐⭐
唯一比较可惜的点在于,网站收录的大模型数量比较少 (当然主流的也都包括啦),而且木有国产大模型~
官网 → https://docsbot.ai/tools/gpt-openai-api-pricing-calculator
4. The Fastest AI | 各大模型 token 生成速度对比网站,三个指标综合测评
这是一个专门对比各大模型 token 生成速度的网站,并且非常科学地设定和计算了3个指标的得分。而且表单顶部还支持交互筛选。
- TTFT:到首个 token 的时间 (Time To First Token)
- TPS:每秒 token 数量 (Tokens Per Second)
- Total Time:从请求发出到最终 token 生成的总时间 (From request to final token)
绿色背景表示生成速度快,红色背景表示慢 👇
模型数量:56 (国外)
更新频率:非常及时
推荐指数:⭐⭐⭐⭐⭐
原网站底部,对指标的定义和计算方式,有非常清晰的解释说明。感兴趣可以访问下方链接 👇
官网 → https://thefastest.ai
5. LLM Pricing | 包含最多大模型&供应商的比价网站,简明清晰
LLM Pricing 应该是传播度最广泛的比价网站之一。
网站整合了大模型官网、云服务供应商等多种渠道的价格信息,并对输入&输出价格进行了比较。
以下是网页截图 👇 更新还算及时,可以收藏当作比价小助手!
模型数量:63 (国外)
更新频率:非常及时
推荐指数:⭐⭐⭐⭐
网站收录了 60+ 主流厂商和前沿大模型,挺全面的!唯一可惜的就是,木有国内的大模型~ 所以还是要自己比较价格和性能了~
官网 → https://llm-price.com
6. AIGCRank | 国内外AI大语言模型API价格对比
终于!有一个中文的大模型的对比网站了!
AIGCRank 是一个专门汇总和比较全球主要AI模型提供商的价格信息的工具,提供最新的大语言模型价格数据,以及一些免费的AI大模型API。
模型数量:138 (国内外主流大模型)
更新频率:比较及时
推荐指数:⭐⭐⭐⭐
官网 → https://aigcrank.cn/llmprice/
7. 大模型性能全景图 | 一份文档追全球 400 家大模型进展
这是国内开发者维护的一份大模型全景图,整理了近 400 个国内外大模型&性能参数,并据此整理了学霸榜、全球开源榜、国内开源榜、多模态榜、贵榜 、宜榜等多个实用榜单,还把参数进行了可视化供直观判断。
模型数量:376 (国内外几乎所有重要大模型)
更新频率:比较及时
推荐指数:⭐⭐⭐⭐
链接 → https://langgptai.feishu.cn/wiki/HteYwsIMpimxO8kFqJ8cylqEnoe?table=tbl2mBh6CE5ezghR&view=vewbhF3k1V
◉ 点击 👀日报&周刊合集,订阅话题 #ShowMeAI日报,一览AI领域发展前沿,抓住最新发展机会!
◉ > 前往 🎡ShowMeAI,获取结构化成长路径和全套资料库,用知识加速每一次技术进步!