自己只能跑llama3-8b模型,告诉你一个免费使用llama3-70b的方法

我们前期介绍了Llama 3大模型,以及本地部署了Llama 3 8b模型,但是想体验一下llama3-70b的模型的话,需要很大的计算资源,且要求极高的内存。llama3-8b的模型约4.7G ,而llama3-70b的模型约40G,若想在自己的电脑上面加载llama3-70b的模型,可想而知需要多少的内存,多少的显卡资源。

Meta llama 3

Llama 3是Meta AI开源的第三代Llama系列模型,其新的 8B 和 70B 参数 Llama 3 模型在Llama 2的基础上,实现了更大性能的提升。由于预训练和训练后的技术改进,其Llama 3模型是当今 8B 和 70B 参数规模的最佳模型。Llama 3模型的改进大大降低了错误拒绝率,改善了一致性,并增加了模型响应的多样性。Llama 3模型在推理、代码生成和指令跟踪等功能也得到了极大的改善。

Nvidia

无论是大语言模型,还是文生视频,文生图模型,都需要大量的显卡资源,而Nvidia的显卡一定是研发团队考虑的重点显卡配置。随着Llama系列开源以来,而Nvidia也拿出了自己的诚意,在自己官方网站上线了Llama系列的模型,不仅搭建了完美的UI界面供大家使用,而且还是免费的使用资源。

llama3-70b Nvidia

在Nvidia官方界面,可以很容易的使用llama3-70b模型。界面提供2种使用llama3-70b的方式,一是可以直接在界面聊天框中输入内容,跟llama3-70b模型聊天,另外要给是使用Nvidia提供的API接口。

llama3-70b模型

llama3-70b模型在Nvidia网站上面跑的速度还是极快的,而在自己电脑上面跑llama3-8b的模型有时还出现卡顿的现象,特别是一些稍微复杂的问题。

llama3 70b 中文能力

让他说中文,感觉回复的是英文,然后再翻译成中文,但是回复的内容中,其中文还是占少数,主要是英文为主。这在介绍llama3时也有介绍,其官方目前的训练数据还是以英文为主。

llama3 70b 编程能力

不得不说,各大模型对编码的处理还是很符合人意的,毕竟编程语言是固定的,且都是英文的形式,训练数据也可以直接用GitHub的数据。

llama3 70b 上下文记忆能力

而在Nvidia官网上使用的llama3 70b模型也支持上下文记忆,模型可以记录以前的聊天记录,若模型回复英文的答案,可以让模型进行翻译,其翻译效果还是很强大。

英文:
Here is a Python implementation of the Bubble Sort algorithm:
def bubble_sort(arr):n = len(arr)for i in range(n-1):for j in range(n-i-1):if arr[j] > arr[j+1]:arr[j], arr[j+1] = arr[j+1], arr[j]return arr
Here's an explanation of how the algorithm works:
The outer loop iterates n-1 times, where n is the length of the input array.
The inner loop iterates from the first element to the n-i-1-th element.
In each iteration of the inner loop, we compare the current element with the next element. If the current element is greater than the next element, we swap them.
After each iteration of the outer loop, the largest element in the unsorted portion of the array "bubbles" up to the end of the sorted portion.
The algorithm repeats steps 2-4 until the entire array is sorted.
Here's an example usage:
arr = [5, 2, 8, 3, 1, 6, 4]
arr = bubble_sort(arr)
print(arr)  #[1, 2, 3, 4, 5, 6, 8]
Note that Bubble Sort has a time complexity of O(n^2), which makes it less efficient than other sorting algorithms like QuickSort or MergeSort for large datasets. However, it's still a simple and easy-to-understand algorithm that can be useful for small datasets or educational purposes. 
中文翻译:
以下是 Python 实现的冒泡排序算法:
def bubble_sort(arr):n = len(arr)for i in range(n-1):for j in range(n-i-1):if arr[j] > arr[j+1]:arr[j], arr[j+1] = arr[j+1], arr[j]return arr
以下是算法的工作原理:
外层循环迭代 n-1 次,其中 n 是输入数组的长度。
内层循环从第一个元素迭代到 n-i-1 个元素。
在内层循环的每次迭代中,我们比较当前元素与下一个元素。如果当前元素大于下一个元素,我们交换它们。
在每次外层循环迭代后,未排序部分的最大元素“冒泡”到已排序部分的末尾。
算法重复步骤 2-4,直到整个数组被排序。
以下是一个示例用法:
arr = [5, 2, 8, 3, 1, 6, 4]
arr = bubble_sort(arr)
print(arr)  #[1, 2, 3, 4, 5, 6, 8]
注意冒泡排序的时间复杂度为 O(n^2),这使得它对于大型数据集来说不如快速排序或归并排序那样高效。然而,它仍然是一个简单易懂的算法,对于小型数据集或教育目的来说非常有用。

代码实现llama3

当然,也可以使用官方提供的API搭建自己的聊天机器人,只需申请API key,输入如下代码,并把API key替换成自己的key即可。

from openai import OpenAI
client = OpenAI(base_url = "https://integrate.api.nvidia.com/v1",api_key = "$API_KEY_REQUIRED_IF_EXECUTING_OUTSIDE_NGC")
completion = client.chat.completions.create(model="meta/llama3-70b-instruct",messages=[{"role":"user","content":"请翻译以上的内容,翻译成中文"}],temperature=0.5,top_p=0.7,max_tokens=1024,stream=True)
for chunk in completion:if chunk.choices[0].delta.content is not None:print(chunk.choices[0].delta.content, end="")
https://build.nvidia.com/meta/llama3-70b
Inference:
Engine: Triton
Test Hardware:
H100-80G更多transformer,VIT,swin tranformer
参考头条号:人工智能研究所
v号:启示AI科技

 动画详解transformer  在线教程

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/34330.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Servlet常用类剖析

通过继承HttpServlet实现Servlet程序 实际开发中,一般使用继承HttpServlet类的方法去实现Servlet程序。 步骤: 1、编写一个类去继承HttpServlet类 2、根据业务需要重写doGet或doPost方法 3、到web.xml中配置Servlet程序 1、编写一个类,Altin…

Spring整合CXF,发布RSETful 风格WebService

import javax.ws.rs.core.MediaType; import com.hoo.entity.MapBean; import com.hoo.entity.User; import com.hoo.entity.Users; /* 注释(Annotation):在 javax.ws.rs.* 中定义,是 JAX-RS (JSR 311) 规范的一部分。 Path…

【蓝队小WIKI】攻防演练中防守方重点知识点整理

一、蓝队防守策略: 工作流程概述 Hvv蓝队技战法:Hvv蓝队技战法 - FreeBuf网络安全行业门户 3个阶段,4大要点,蓝队防守全流程纲要解读:攻防演练合集 | 3个阶段,4大要点,蓝队防守全流程纲要解读 -…

oracle 11g rac安装grid 执行root脚本add vip -n 。。。on node= ... failedFailed 错误处理

问题: CRS-4402: The CSS daemon was started in exclusive mode but found an active CSS daemon on node racdg1-1, number 1, and is terminating An active cluster was found during exclusive startup, restarting to join the cluster PRCN-2050 : The requ…

js小题:通过字符串执行同名变量怎么做

在JavaScript中,你不能直接使用一个字符串来直接引用一个变量,因为JavaScript是一种静态类型语言(尽管它的类型在运行时可以变化),变量的名字在编译时就被确定了。但是,有几种方法可以实现类似的功能&#…

构建LangChain应用程序的示例代码:41、如何结合使用大型语言模型(LLMs)和 bash 进程来执行简单的文件系统命令指南

Bash 命令链使用指南 概述 本指南展示了如何结合使用大型语言模型(LLMs)和 bash 进程来执行简单的文件系统命令。 代码示例 from langchain_experimental.llm_bash.base import LLMBashChain from langchain_openai import OpenAI# 初始化 OpenAI 的…

k8s部署grafana beyla实现app应用服务依赖图可观测

k8s部署grafana beyla OS: Static hostname: test Icon name: computer-vm Chassis: vm Machine ID: 22349ac6f9ba406293d0541bcba7c05d Boot ID: 83bb7e5dbf27453c94ff9f1fe88d5f02 Virtualization: vmware Operating System: Ubuntu 22.04.4 LTS Kernel: Linux 5.15.0-105-g…

BEVM基于OP-Stack发布首个以WBTC为GAS连接以太坊和比特币生态的中继链

为了更好的连接以太坊和比特币生态,BEVM团队正在基于OPtimism的OP Stack来构建一个以WBTC为GAS兼容OP-Rollup的中继链,这条中继链将作为一种完全去中心化的中间层,把以太坊上的主流资产(WBTC/ ETH/USDC/USDT等)引入到BEVM网络。 不仅如此&am…

AlgorithmStar 度量 计算组件

AlgorithmStar 度量 计算组件 AlgorithmStar 本文将会基于 AlgorithmStar 1.40 以及以上的版本来演示,度量 计算 组件 的使用! 目录 文章目录 AlgorithmStar 度量 计算组件目录获取到依赖库度量计算组件 计算实例距离计算代表 - 欧几里德距离计算组件…

Redis数据库(一):Redis数据库介绍与安装

Redis是一种高性能的开源内存数据库,支持多种数据结构(如字符串、列表、集合等),具有快速的读写速度。它提供持久化、主从复制、高可用性和分布式部署等功能,适用于缓存、实时分析、消息队列等应用场景。Redis使用简单…

UE5 场景物体一键放入蓝图中

场景中,选择所有需要加入到蓝图的模型或物体。 点击 蓝图按钮,点击“将选项转换为蓝图” 在创建方法中,选择“子Actor”或着 “获取组件” 如果需要保持相对应的Actor的父子级别(多层),那么选择“获取组件…

计算机组成原理 | 数据的表示、运算和校验(4)基本运算方法

补码加减(运算与控制) (-Y)补 [Y补]变补,这个要好好理解 (-Y)补:先将Y的符号位置反,在求-Y的补码(数字为变反加1) [Y补]变补:先求Y的补码(数字为变反加1)&…

protobuf实践+生成C++代码的解析

目录 1.实践1(简单使用) 2.实践2(存储列表类数据) 3.实践3(定义RPC方法) 4.解析protobuf的message类 5.解析protobuf的service类 6.Rpcchannel是什么呢? 1.实践1(简单使用&…

Django中,update_or_create()

在Django中,可以使用update_or_create()方法来更新现有记录或创建新记录。该方法接受一个字典作为参数,用于指定要更新或创建的字段和对应的值。 update_or_create()方法的语法如下: 代码语言:python obj, created Model.obje…

python遍历文件夹中所有图片

python遍历文件夹中的图片-CSDN博客 这个是之前的版本,现在这个版本会更好,直接进来就在列表中 path glob.glob("1/*.jpg")print(path)print(len(path))path_img glob.glob("1/*.jpg")path_img.extend(path)print(len(path_img))…

问题解决:数据库自增id到最大报错

pgsql数据库id自增到长度问题: django.db.utils.DataError: nextval: reached maximum value of sequence "ip_prefix_info_id_seq" (32767) schema_name: ip_management_app table_name: ip_prefix_info # 先把自增id改到serial8,范围改大#…

行列视(RCV)在系统管理中的应用:解决生产型企业数据治理的挑战

行列视(RCV)作为一款面向生产型企业的综合性数据应用系统,在系统管理中扮演着至关重要的角色,特别是在解决生产型企业数据治理的挑战方面,表现出了卓越的性能。 首先,生产型企业面临着复杂而繁琐的数据治理…

学期结束如何发布期末成绩?

当期末的试卷最后一张被收起,当教室里的喧嚣逐渐沉寂,学生们的心中充满了对成绩的期待与忐忑。期末成绩,关乎着学生的心情,更关系到他们的未来学习动力。那么,如何在保护学生隐私的同时,高效地公布成绩呢&a…

vscode cmake debug 调试

在 VSCode 中调试使用 CMake 编译的程序,按照以下步骤进行: 1. **安装必要的扩展:** - 打开 VSCode,并确保你已经安装了以下扩展: - C/C(由 Microsoft 提供) - CMake - CMak…

Python Sqlalchemy基础使用

Python Sqlalchemy基础使用 Python Sqlalchemy基础使用基本使用创建Session创建ORM对象查询插入 进阶操作插入存在时更新执行SQL Python Sqlalchemy基础使用 这里记录一下,在编写python代码过程中使用Sqlalchemy的封装和基本使用方法。 (持续完善ing) 基本使用 …