快速体验 Llama3 的 4 种方式,本地部署,800 tokens/s 的推理速度真的太快了!

北京时间4月19日凌晨,Meta在官网上官宣了Llama-3,作为继Llama1、Llama2和CodeLlama之后的第三代模型,Llama3在多个基准测试中实现了全面领先,性能优于业界同类最先进的模型,你有没有第一时间体验上呢,这篇文章就分享下如何在Groq上以超过 800 tokens/s 的魔鬼推理速度体验Llama3,会同时分享Web端、移动端、API方式以及集成到LangChain中4种体验方案。

我的新书[《LangChain编程从入门到实践》]已经开售!推荐正在学习AI应用开发的朋友购买阅读,本书围绕 LangChain 梳理了AI时代开发范式的转变,除了LangChain,还涉及其他诸如 LIamaIndex、AutoGen、AutoGPT、Semantic Kernel等热门开发框架。

[LangChain编程从入门到实践

Groq 有多快

先看两组数据

Llama3 8B不同平台的推理速度

Llama3 70B不同平台的推理速度

Llama3 8B 每秒钟 876 tokens 的输出速度,人眼基本跟不上模型的输出速度了,要知道 Llama3 8B 的质量与 GPT-3.5 和 Llama2 70B 相似,可以显著提升一些常见的 AI 应用场景的用户体验;RAG 的性能瓶颈不再是 LLM,而是 Retrieval,什么 HyDE(假设⽂档嵌⼊,利⽤ LLMs ⽣成假设性答案,以增强⽂档检索的准确性)、LLM 重排序器(对检索到的⽂档进⾏重排序,以优先选择最相关和上下⽂适当的信息)不再是 RAG 链路速度瓶颈…

初看数据,我以为是个噱头,本着务实的态度,我自己实际体验了一把,大家自己看 👇

Llama3 8B实测

Llama3 70B实测

结果 Llama3 70B 的实际体验结果比测评数据还高。

Groq 为什么这么快

源于 Groq 开发出了一种新的 AI 处理器 ——LPU(Language Processing Unit),其推理速度相较于英伟达 GPU 提高了 10 倍。

  1. 专业优化:LPU 专门针对语言模型推理任务进行了优化,特别是在序列处理方面。
  2. 创新架构:LPU 采用了一种新的计算模式,能够高效地按顺序处理任务,而不是并行处理。
  3. 软件先行:Groq 在硬件开发前就创新了软件和编译器,以确保芯片间的高效通信。
  4. 内存与处理单元的整合:LPU 的设计使得数据流局部性得到更好的利用。
  5. 针对性能和成本的优化:LPU 在设计时就注重了性能提升和成本降低。

4 种 Groq 体验方案

1. Web 端

无需登录,即可直接在网页版进行尝试,地址指路 👉[groq.com],当前支持的模型有 Llama3 8B-4k 、 Llama3 70B-8k 、 Llama2 70B-8k 、 Mixtral 8X7B-32k 、 Gemma 7B-it

2. 移动端

Gorq 的 iOS 应用已经推出,目前不需要登录即可使用,通过下面的 TestFlight 安装地址:[testflight.apple.com],支持的模型有 Llama3 8B 、 Llama3 70B 、 Llama2 70B 、 Mixtral 8X7B 、 Gemma 7B

Gorq iOS 应用

3. API 调用

先前往这个地址 [console.groq.com/keys] 申请好 API-KEY。

Groq API-Key申请

安装依赖库

pip install groq

调用

import os
from groq import Groqclient = Groq(api_key=os.environ.get("GROQ_API_KEY"),
)
llm = client.chat.completions.create(messages=[{"role": "user","content": "编写一篇中国神话故事,篇幅500~800字,必须使用中文输出",}],model="llama3-70b-8192",
)print(llm.choices[0].message.content)
4. LangChain 中使用

安装依赖库

pip install langchain-groq

使用

from langchain_core.prompts import ChatPromptTemplate
from langchain_groq import ChatGroqllm = ChatGroq(temperature=0, model_name="llama3-70b-8192")
human = "{text}"
prompt = ChatPromptTemplate.from_messages([("human", human)])chain = prompt | llmresponse = chain.invoke({"text": "编写一篇中国神话故事,篇幅500~800字,必须使用中文输出"})
print(response.content)

更多体验方式

如何学习AI大模型?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/45365.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

加入这些使用,代码变得简单即优雅!

加入这些使用,代码变得简单即优雅!在Spring Boot应用中,拦截请求通常可以通过两种方式实现:使用HandlerInterceptor(处https://mp.weixin.qq.com/s?__bizMzkzMTY0Mjc0Ng&mid2247484482&idx1&sn063cea7cda…

Apache AGE 运算符

运算符 字符串特定比较运算符 测试数据 SELECT * FROM cypher(graph_name, $$ CREATE (:Person {name: John}),(:Person {name: Jeff}),(:Person {name: Joan}),(:Person {name: Bill}) $$) AS (result agtype);Starts With 对字符串执行区分大小写的前缀搜索。 SELECT * …

【源码开源】C#桌面应用开发:串口调试助手

c#桌面应用开发 1、环境搭建和工程创建:参照番茄定时器项目 工程创建参照 2、界面布局设计 3、具体功能函数 (1)端口扫描: private void btn_com_scan_Click(object sender, EventArgs e){//端口号扫描ReflashPortToComboBox(…

安装失败,已为系统安装 Microsoft Edge Webview2 Runtime

在使用微软的webview2的时候,有时候会出现如下错误提示: 解决方案: 1、打开电脑“控制面板”,找到Microsoft Edge Webview2 Runtime 2、鼠标右键点击,“更改”,按电脑指示操作执行。 3、再次安装Microsoft…

CV每日论文--2024.7.12

1、LLaVA-NeXT-Interleave: Tackling Multi-image, Video, and 3D in Large Multimodal Models 中文标题:LLaVA-NeXT-Interleave:处理大型多模态模型中的多图像、视频和 3D 简介:视觉指令调整在增强大型多模态模型(LMMs)的能力方面取得了显著…

事务码 BP DYNPRO_NOT_FOUND

事务码 BP DYNPRO_NOT_FOUND 使用事务 BP 时,模块 PBO_START_SUBSCREEN 中 SAPLBUSS 中的转储 DYNPRO_NOT_FOUND 目录 问题 双击查看详细信息时发生错误DYNPRO_NOT_FOUND 解决方案 执行事务码BUSP 重新生成屏幕 参考链接: 1621119

2w才学到的交易策略,Anzo Capital今天免费分享

花费了2w学费才学到的外汇交易策略,Anzo Capital今天免费分享!那就是使用交易价格行动和利润区策略,在实施价格行动利润区策略时,关键步骤一定要严格执行,下面是操作的关键步骤: 1. 定义趋势:首…

获取网页logo图标

怎么获取网页logo图标的URL链接 第一种方法: 最常用的方法(适用于90%的站点)是,直接在访问网址首页链接后加上上/favicon.ico,例如: https://www.baidu.com/favicon.ico 第二种方法: 按F12&…

【逆向基础】十二、工具分享之Process Explorer

一、简介 Process Explorer是一款出色的进程资源管理器。在调试运行window系统中的程序软件时,使用Process Explorer可以通过工整的UI界面,让我们快速了解软件的进程信息,挂载的动态库等;可以帮助我们快速定位分析的方向&#xf…

python如何结束程序运行

方法1:采用sys.exit(0),正常终止程序,从图中可以看到,程序终止后shell运行不受影响。 方法2:采用os._exit(0)关闭整个shell,从图中看到,调用sys._exit(0)后整个shell都重启了(RESTAR…

30.ROM-IP核的调用

(1)ROM IP核简介: ROM是只读存储器,是一种只能读出事先锁存的固态半导体存储器。其特性是一旦存储资料就无法再将之改变或删除,并且资料也不会因为电源关闭而消失。(掉电不丢失) FPGA使用内部RA…

上讯信息 InforCube运维管理审计系统 RepeatSend 前台RCE漏洞复现

0x01 产品简介 上讯信息的InforCube运维管理审计系统(InforCube OMA)是一款新一代运维安全审计产品,旨在全面提升企业IT运维管理水平,通过细粒度授权、全过程操作记录及控制、全方位操作审计等功能,实现运维过程的“事…

USB PD SINK协议取电芯片不同品牌介绍对比-在选择PD SINK 协议芯片时,用户需要综合考虑各方面的因素,包括工作耐压、稳定性、兼容性等

PD SINK协议芯片是现代通信技术中的一项重要技术,它起着连接不同系统的桥梁作用。协议芯片内部集成了各种不同的通信协议,如蓝牙、Wi-Fi、以太网等,使不同设备之间的通信变得更加简单和高效。协议芯片推动了信息通信技术的发展。在过去&#…

Windows下查看某个端口被某个应用占用

1、打开命令窗口(以管理员身份运行) ​​​​​​​​​​ 2、查找所有运行的端口 输入所有命令:当前命令可以查看当前电脑的全部端口使用情况 netstat -ano3、查看被占用端口对应的 PID(这里以8000端口为例) netstat -ano|findstr &qu…

博物馆地图导航系统:高精度地图引擎与AR/VR融合,实现博物馆数字化转型

在人民日益追求精神文化的时代下,博物馆作为传承与展示人类文明的璀璨殿堂,其重要性不言而喻。然而,随着博物馆规模的不断扩大和藏品种类的日益丰富,游客在享受知识盛宴的同时,也面临着“迷路”与“错过”的困扰。博物…

一周涨8K star!RAG技术迎来大升级,速度关注

之前我们聊到过RAG,它是目前非常常用的增强大模型能力的技术,通过检索增强生成(RAG),大型语言模型能够从外部知识源检索信息,从而回答涉及私有或未见文档的问题。 今天我们分享一个开源项目,它…

【MybatisPlus】QueryWapper和LambdaQueryWrapper的区别

【MybatisPlus】QueryWapper和LambdaQueryWrapper的区别 (一)MyBatisPlus的条件查询构造器QueryWrapperLambdaQueryWrapper优缺点使用场景 (二)Lambda的概念(三)QueryWrapper如何进化成LambdaQueryWrapper的…

Python爬虫之路(2):爬天气情况

hello hello~ ,这里是绝命Coding——老白~💖💖 ,欢迎大家点赞🥳🥳关注💥💥收藏🌹🌹🌹 💥个人主页:绝命Coding-CSDN博客 &a…

5G RedCap调查报告

一、5G RedCap技术背景 5G RedCap(Reduced Capability缩写,轻量化5G),是3GPP标准化组织定义下的5G裁剪版本,是5G面向中高速率连接场景的物联网技术,它的能力介于5G NR(含eMBB和uRLLC)和LPWA(如LTE-M和NR-IoT)之间,如图1所示,是5G-A(5G Advanced)的关键技术之一。…

WAV 和 FLAC 哪个音质好?常见音频格式又如何转换?

音频文件的格式种类繁多,每种格式都有其独特的优势和应用场景。其中,WAV 和 FLAC 作为两种常见的无损音频格式,备受音频发烧友和专业人士的青睐。它们不仅能够保留原始录音的全部细节,还为听众提供了近乎 CD 品质的听觉体验。然而…