官网天下/惠州seo外包费用

官网天下,惠州seo外包费用,龙湾网站建设,山东建设兵团网站2024年12月26日,DeepSeek-V3横空出世,以其卓越性能备受瞩目。该模型发布即支持昇腾,用户可在昇腾硬件和MindIE推理引擎上实现高效推理,但在实际操作中,部署流程与常见问题困扰着不少开发者。本文将为你详细阐述昇腾 De…

2024年12月26日,DeepSeek-V3横空出世,以其卓越性能备受瞩目。该模型发布即支持昇腾,用户可在昇腾硬件和MindIE推理引擎上实现高效推理,但在实际操作中,部署流程与常见问题困扰着不少开发者。本文将为你详细阐述昇腾 DeepSeek 模型部署的优秀实践,同时解答常见问题。

DeepSeek在昇腾上的模型部署优秀实践

01硬件要求及组网

推荐参考配置如下,部署DeepSeek-V3/R1量化模型至少需要多节点Atlas 800I A2(8*64G)服务器。本方案以DeepSeek-R1为主进行介绍,DeepSeek-V3与R1的模型结构和参数量一致,部署方式与R1相同。

image.png

02运行环境准备

推荐使用镜像部署

1、镜像部署

昇腾官方在Ascend hub提供环境示例镜像,含推理部署配套软件以及模型运行脚本,用户可参考构建运行环境镜像进行部署。

镜像部署及启动参照ModelZoo指南中“加载镜像”章节,该指南中还包含“容器启动”等指引

https://gitee.com/ascend/ModelZoo-PyTorch/tree/master/MindIE/LLM/DeepSeek/DeepSeek-R1#%E5%8A%A0%E8%BD%BD%E9%95%9C%E5%83%8F

镜像申请/下载(含于上述指南):

https://www.hiascend.com/developer/ascendhub/detail/af85b724a7e5469ebd7ea13c3439d48f

image.png

2、裸机部署

根据昇腾社区发布的MindIE安装指南安装软件包和运行依赖软件。

安装指南:

根据指南安装全部软件包和环境

https://www.hiascend.com/document/detail/zh/mindie/100/envdeployment/instg/mindie_instg_0001.html

模型获取:

https://gitee.com/ascend/ModelZoo-PyTorch/tree/master/MindIE/LLM/DeepSeek/DeepSeek-R1#1-%E5%87%86%E5%A4%87%E6%A8%A1%E5%9E%8B

03权重文件准备

BF16权重下载:

1、HuggingFace:https://huggingface.co/unsloth/DeepSeek-V3-bf16/

2、ModelScope:https://modelscope.cn/models/unsloth/DeepSeek-V3-bf16/

3、Modelers:https://modelers.cn/models/State_Cloud/DeepSeek-V3-BF16

INT8量化后权重下载:https://modelers.cn/models/State_Cloud/DeepSeek-R1-W8A8/tree/main

如已下载BF16模型,也可采用以下步骤进行模型量化,权重BF16->INT8转换预计7~8小时。

Step1:安装ModelSlimgit clone https://gitee.com/ascend/msit.gitcd msit/msmodelslimbash install.shStep2: 运行量化命令cd msit/msmodelslim/example/DeepSeek/python3 quant_deepseek_w8a8.py \--model_path {浮点权重路径} \--save_path {W8A8量化权重路径}

更多详细量化教程请参考 DeepSeek 量化文档( https://gitee.com/ascend/msit/tree/br_noncom_MindStudio_8.0.0_POC_20251231/msmodelslim/example/DeepSeek)

Msmodelslim 代码仓:https://gitee.com/ascend/msit/tree/br_noncom_MindStudio_8.0.0_POC_20251231/msmodelslim

04运行前检查

服务器检查https://gitee.com/ascend/ModelZoo-PyTorch/tree/master/MindIE/LLM/DeepSeek/DeepSeek-R1#%E5%89%8D%E7%BD%AE%E5%87%86%E5%A4%87

软件版本配套检查,含:HDK、CANN、PTA、MindIE、MindStudio

1、检查组网链接状态

a)    检查物理链接

for i in {0..7}; do hccn_tool -i $i -lldp -g | grep Ifname; done

b)    检查链接情况

for i in {0..7}; do hccn_tool -i $i -link -g ; done

c)     检查网络健康情况

for i in {0..7}; do hccn_tool -i $i -net_health -g ; done

d)    查看侦测ip的配置是否正确

for i in {0..7}; do hccn_tool -i $i -netdetect -g ; done

e)    查看网关是否配置正确

for i in {0..7}; do hccn_tool -i $i -gateway -g ; done

f)     检查NPU底层tls校验行为一致性,建议全0

for i in {0..7}; do hccn_tool -i $i -tls -g ; done | grep switch

g)    # NPU底层tls校验行为置0操作

for i in {0..7};do hccn_tool -i $i -tls -s enable 0;done

2、根据组网设置准备rank_table_file.json

使用多节点推理时,需要将包含设备ip,服务器ip等信息的json文件地址传递给底层通信算子。参考如下格式,配置rank_table_file.json:

图片

05模型部署与配置

独立模型:

https://gitee.com/ascend/ModelZoo-PyTorch/tree/master/MindIE/LLM/DeepSeek/DeepSeek-R1#%E7%BA%AF%E6%A8%A1%E5%9E%8B%E6%B5%8B%E8%AF%95

服务化部署:

1、运行指南

https://gitee.com/ascend/ModelZoo-PyTorch/tree/master/MindIE/LLM/DeepSeek/DeepSeek-R1#%E6%9C%8D%E5%8A%A1%E5%8C%96%E6%B5%8B%E8%AF%95

2、服务启动

https://www.hiascend.com/document/detail/zh/mindie/100/mindieservice/servicedev/mindie_service0004.html

3、接口指引

https://www.hiascend.com/document/detail/zh/mindie/100/mindieservice/servicedev/mindie_service0062.html

06模型运行

1、纯模型测试

模型脚本已预制在镜像中,参照以下链接即可拉起精度测试及模型测试

https://gitee.com/ascend/ModelZoo-PyTorch/tree/master/MindIE/LLM/DeepSeek/DeepSeek-R1#%E7%BA%AF%E6%A8%A1%E5%9E%8B%E6%B5%8B%E8%AF%95

image.png

2、服务化测试

1、运行指南

https://gitee.com/ascend/ModelZoo-PyTorch/tree/master/MindIE/LLM/DeepSeek/DeepSeek-R1#%E6%9C%8D%E5%8A%A1%E5%8C%96%E6%B5%8B%E8%AF%95

2、服务启动

https://www.hiascend.com/document/detail/zh/mindie/100/mindieservice/servicedev/mindie_service0004.html

3、常用接口指引

https://www.hiascend.com/document/detail/zh/mindie/100/mindieservice/servicedev/mindie_service0062.html

常见问题及解决方案

01通信错误:Hccl execute failed

问题现象:

日志显示卡(IP地址10.0.3.9)与卡(IP地址10.0.3.17)之间connection fail

查看日志发现出现hccl通信失败相关日志内容:

image.png

image.png

解决方案:

(1)问题定位前需要先开启日志生成环境变量:

image.png


算子库&加速库&模型库日志保存路径:/root/atb/log

CANN日志保存路径:/root/ascend/log/debug/plog

(2)通过hccn_tool 工具进行连通性检测,发现出现链路down,修复链路down的问题后,通信失败问题解决。

02通信错误:Hccl通信超时

可配置以下环境变量,增大超时等待时间。

image.png

03显存不足:NPU out of memory

问题现象:

在服务化拉起过程中,出现NPU out of memory报错。

图片

解决方案:

适当调高NPU_MEMORY_FRACTION环境变量(默认值为0.8),适当调低mindie-service服务化配置文件config.json中maxSeqLen、maxInputTokenLen、maxPrefillBatchSize、maxPrefillTokens、maxBatchSize等参数。

image.png

04推理卡顿:模型加载时间长,可能达到2H及以上

问题现象:

模型部署过程中,推理前的模型加载时间过长,部分极端情况需要等待>2H。

可能原因:

1)用户场景内存不足导致swap介入;

2)首次加载权重,权重存储硬件的传输速率慢,传统的HDD或低速SSD或网络存储方式存在I/O瓶颈;

3)框架权重加载使用单线程加载;

解决方案:

1)更换NVMe SSD高速存储硬件;

2)使用内存映射文件mmap加载权重,例如:

Weights = torch.load(“model.bin”,mmap=True);

3)使用并行加载的方式,将权重按层或模块拆分为多个文件,可google教程

4)减少多线程开销,设置以下环境变量

 export OMP_NUM_THREADS=1

5)预热加载,提前预加载模型权重到内存

05推理卡顿:纯模型/服务化拉起卡住、停止

image.png

问题现象:

如果free -h中的free内存小于权重大小 / 机器数,纯模型拉起会卡死,过一段时间后进程被杀。

根据经验,可以确保一下free_mem >= (权重大小 / 机器数) * 1.3 (该计算方式待验证,但需要确保内存足够)

解决方案:重启/释放缓存。

推荐使用释放缓存的方式,可以在容器内运行以下指令:

sync; echo 3 > /proc/sys/vm/drop_caches

注意,每次跑完模型,请检查一下机器的host侧内存占用。

06推理卡顿:首Curl请求卡死

问题现象:在服务化成功启动后出现首次curl请求发送后,无返回的现象;或者服务化拉起卡死的现象。

可能原因:多节点的服务化config.json有区别,或是除了需要写本机信息外的环境变量不一样。

1、例如,A、B两个8卡节点的服务化配置文件中,A配置了interNodeTLSEnabled=true,B配置了interNodeTLSEnbal=false。

2、容器A的环境变量中未设置确定性计算相关环境变量,容器B的环境变量中却有确定性计算相关的环境变量。尽管执行推理请求的节点确定性计算相关的环境变量是关闭状态,仍可能影响推理卡住。

# 确定性计算环境变量

export   HCCL_DETERMINISTIC=false

所以,请一定要一一核对好每个8卡容器内的环境变量是一样的,服务化的config.json也需是一样的。

07推理卡顿:大流量下curl请求超时

问题现象:服务启动后,在大流量下会出现挂死,具体表现为Curl请求超时,Aicore利用率为0:

image.png

所有卡利用率为0:

image.png

当前识别为重计算触发的问题,可通过修改mindieservice的config文件进行临时规避。

要求maxseqen与maxprefilltoken参数配置为相同大小。

当前识别为重计算触发的问题,可通过修改mindieservice的config文件进行临时规避。

要求maxseqen与maxprefilltoken参数配置为相同大小。

image.png

08配置问题:服务化benchmark初始化失败

image.png

需正确配置Ranktable:  export RANKTABLEFILE=/Path/To/ranktable[X].json

09配置问题:Ranktable中的server id和container ip填写

ranktable中的server id和container ip均填写成主机IP,前提是起容器时需要设置成host模式:docker run --network host <image_name>,含义就是容器的ip地址=主机的ip地址,注意容器开放的端口不要和主机冲突。

图片

10日志采集:纯模型Profiling 采集

当前 MindIE atb-models 中已经内置了 Profiling 采集逻辑,核心代码在 atb-models/examples/run_pa.py 的 PARunner 中。我们可以通过以下环境变量对 Profiling 采集进行控制:

image.png

执行采集时,只需要配置环境变量,在modeltest下拉起性能测试,即可获取到 Profiling 数据。若需采集的卡数大于8,则需要在每个节点上同时开启以下环境变量:

图片

开启环境变量后,参照性能测试,指令如下(可自行修改指令):

image.png

采集完成后,核心数据解析到$PROFILING_FILEPATH /ASCEND_PROFILER_OUTPUT 路径下。

11日志采集:通用方法

遇到推理报错时,请打开日志环境变量,收集日志信息。

image.png

12Tokenizer 报错

image.png

MindIE 报 XXX 错误,有一定误导性。实际上只要是 transformers 加载 tokenizer 报错,MindIE 会捕获所有错误,直接退出,并且不会显示真正错误原因。通常,transformers 加载 tokenizer 常见错误以及对应排查方法有:

1、词表文件损坏

  • 检查tokenizer.json 文件完整性,V3 和 R1 的词表不一样。

  • 推荐使用 ModelScope 由 Unsloth 维护的 bf16 版本

image.png

2、transformers / tokenizer 版本不匹配

  • 确认 transformers、tokenizer 版本:查看模型权重路径下的 config.json 中,transformers版本号。注意:不同的原权重由于fp8转bf16时的transformers版本不同,可能会有不同的transformers 配套,请以机器上的deepseek官方权重中的config.json中的transformers版本为准)

image.png

  • 若怀疑Tokenizer的问题,可以使用以下Tokenizer 校验方法,创建一个 python 脚本,如果运行成功,则 tokenizer 加载无问题。若报错,请按照上述方法检查。

image.png

13性能问题:推理性能不符合预期

首先,请确保使能AIV,关闭确定性计算。

image.png

其次,DeepSeek-R1 官方推荐服务化请求遵循以下配置,以达到预期性能:

  • 将温度设置在0.5-0.7 范围内(推荐0.6),以防止出现无休止的重复或不连贯的输出。

  • 避免添加 System Prompt;所有指令应包含在 User Prompt 中。 

  • 对于数学问题,建议在提示中加入以下指令:“请逐步推理,并将最终答案放在\boxed{}内。”

  • 在评估模型性能时,建议进行多次测试并取平均结果。

  • 若遇到精度问题,请确保使用openai接口。

此外,DeepSeek-R1系统模型在回答某些问题时倾向于绕过思考模式(即不输出“<think>\n\n</think>”),这可能会影响模型的表现。为了确保模型进行正确的推理,建议强制模型在每次输出的开头使用“<think>\n”。

14权重路径和权限问题

问题描述:

在服务化拉起过程中出现权重路径不可用或者权重文件夹权限问题。

解决方案:

注意保证权重路径是可用的,执行以下命令修改权限,注意是整个父级目录的权限

image.png

15 16卡及以上配置推理测试类问题

1、16卡及以上配置推理测试类问题

问题描述:

多节点参与的推理超过两小时不通信会超时,从而服务化报错。

解决方案:

当前版本可以写一个每小时调用健康监控接口的脚本,进行服务化保活。服务化监控探测接口参考MindIE官方文档:https://www.hiascend.com/document/detail/zh/mindie/100/mindieservice/servicedev/mindie_service0102.html

2、权重加载过程中/加载完成后卡死

遇到多节点推理拉起问题可以用一个轻量化的脚本尝试快速定位一下,卡死是否是由于节点间通信算子导致的(以AllReduce为例)。

首先需要在每个节点上(推理容器内)创建三个文件,分别是 hostfile, test_allreduce.sh, test_allreduce.py

image.png

image.png

image.png

image.png

如果该指令能成功跑通且有回显,则hccl出现问题的几率较小,可以定位范围缩小到模型加载的问题上(本方法为简易HCCL联通验证,HCCL连通完全校验请使用 hccl test 工具)。

如果该指令在计算过程中卡住,则hccl出现问题的几率较大,可以再容器外再次尝试该验证方法。若在容器外也无法验通,可以按照1.4.1章节对机器进行前置准备,再进行容器外、容器内的连通验证。

如果该指令直接拉起失败,检查脚本是否有写错的地方,如sh脚本中各个参数。

3、Unicode Error

问题描述:

出现UnicodeEncodeError: 'ascii' codec can't encode character \uff5c in position 301:ordinal not in range(128) 报错。

解决方案:

这是因为由于系统在写入或打印日志ASCII编码deepseek的词表失败,导致报错,不影响服务化正常运行。如果需要规避,需要将/usr/local/Ascend/atb-models/atb_llm/runner/model_runner.py的第145行注释掉:

image.png

4、Not set valid RANKTABLEFILE报错

问题描述:

在执行服务化benchmark测试时,报错 not set valid RANKTABLEFILE。

image.png

解决方案:

需在每台机器上正确配置RANKTABLEFILE文件路径的环境变量:

image.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/70363.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vscode复制到下一行

linux中默认快捷键是ctrl shift alt down/up 但是在vscode中无法使用&#xff0c;应该是被其他的东西绑定了&#xff0c;经测试&#xff0c;可以使用windows下的快捷键shift alt down/up { “key”: “shiftaltdown”, “command”: “editor.action.copyLinesDownAction”…

网络爬虫学习:借助DeepSeek完善爬虫软件,实现模拟鼠标右键点击,将链接另存为本地文件

一、前言 最近几个月里&#xff0c;我一直在学习网络爬虫方面的知识&#xff0c;每有收获都会将所得整理成文发布&#xff0c;不知不觉已经发了7篇日志了&#xff1a; 网络爬虫学习&#xff1a;从百度搜索结果抓取标题、链接、内容&#xff0c;并保存到xlsx文件中 网络爬虫学…

Arduino 第十六章:pir红外人体传感器练习

Arduino 第十六章&#xff1a;PIR 传感器练习 一、引言 在 Arduino 的众多有趣项目中&#xff0c;传感器的应用是非常重要的一部分。今天我们要学习的主角是 PIR&#xff08;被动红外&#xff09;传感器。PIR 传感器能够检测人体发出的红外线&#xff0c;常用于安防系统、自动…

CV -- YOLOv8 图像分割(GPU环境)

目录 参考视频&#xff1a; 标注 JSON转为TXT 训练 验证 参考视频&#xff1a; 使用 Yolov8 自定义数据集进行图像分割_哔哩哔哩_bilibili 标注 数据集&#xff1a; 我使用的是一些苹果数据集&#xff0c;可以在我的csdn资源中下载&#xff1a; https://download.csdn.net/do…

基于微信小程序的电影院订票选座系统的设计与实现,SSM+Vue+毕业论文+开题报告+任务书+指导搭建视频

本系统包含用户、管理员两个角色。 用户角色&#xff1a;注册登录、查看首页电影信息推荐、查看电影详情并进行收藏预定、查看电影资讯、在线客服、管理个人订单等。 管理员角色&#xff1a;登录后台、管理电影类型、管理放映厅信息、管理电影信息、管理用户信息、管理订单等。…

【Linux网络编程】应用层协议HTTP(请求方法,状态码,重定向,cookie,session)

&#x1f381;个人主页&#xff1a;我们的五年 &#x1f50d;系列专栏&#xff1a;Linux网络编程 &#x1f337;追光的人&#xff0c;终会万丈光芒 &#x1f389;欢迎大家点赞&#x1f44d;评论&#x1f4dd;收藏⭐文章 ​ Linux网络编程笔记&#xff1a; https://blog.cs…

Vue3 打造 Windows 桌面个性高效组件工具

软件介绍 Widgets 这款基于 Vue3 构建的开源 Windows 桌面小部件工具超实用。 其多样化组件库涵盖超 20 种&#xff0c;从倒计时、打工进度等实用工具&#xff0c;到抖音热榜等实时资讯组件应有尽有&#xff0c;各组件独立运行&#xff0c;满足多场景需求。 高度自定义布局支持…

DeepSeek预测25考研分数线

25考研分数马上要出了。 目前&#xff0c;多所大学已经陆续给出了分数查分时间&#xff0c;综合往年情况来看&#xff0c;每年的查分时间一般集中在2月底。 等待出成绩的日子&#xff0c;学子们的心情是万分焦急&#xff0c;小编用最近爆火的“活人感”十足的DeepSeek帮大家预…

Android 动态加入Activity 时 manifest 注册报错解决。使用manifestPlaceholders 占位

需求如下&#xff1a; 项目 测试demo 有多个渠道&#xff0c;部分渠道包含支付功能&#xff0c;在主测试代码外&#xff0c;需要一个单独 Activity 调用测试代码。 MainActivityPayActivity渠道A包含不包含渠道B包含包含 因为支付功能需要引入对应的 moudule&#xff0c;因此…

FRRouting配置与OSPF介绍,配置,命令,bfd算法:

文章目录 1、frrouting的配置&#xff1a;2、ospf2.1、检测和维护邻居关系2.2、ospfDR和BDR2.3、odpf邻居表2.4、ospf常用命令2.5、bfd配置 1、frrouting的配置&#xff1a; sudo service zebra start sudo service ospfd start telnet localhost 2604 en configure termina…

Perplexity 开源DeepSeek-R1 模型新版本 R1-1776

引言 在人工智能领域&#xff0c;模型的更新迭代如同科技界的时尚潮流&#xff0c;不断推陈出新。今天&#xff0c;我们要介绍的是Perplexity AI开源的新版推理模型——DeepSeek-R1 1776。这个版本不仅继承了前代的强大性能&#xff0c;还在公正性和准确性上进行了显著提升。那…

关系中出现这10个信号,离分手就不远了(爱情友情都适用)

亲密关系的隐形裂痕 在一个阳光明媚却略显萧瑟的午后&#xff0c;咖啡杯里的咖啡已经凉透。小李盯着手机屏幕&#xff0c;那些曾经热烈的对话记录现在看起来如此陌生&#xff0c;仿佛隔着一层薄薄的雾。她终于意识到&#xff0c;这段关系已经悄然走向尽头。 亲密关系是一场精心…

马斯克Grok3使用入口和订阅教程(白嫖150刀API额度)

文章目录 马斯克Grok3使用入口和订阅教程(白嫖150刀API额度)前言介绍如何订阅X上Premium服务国内订阅X的Premium教程 白嫖教程小结 马斯克Grok3使用入口和订阅教程(白嫖150刀API额度) 前言介绍 重点&#xff1a;Grok 3仅对X上的Premium用户开放。你需要订阅X的Premium服务才能…

DeepBI助力跨境电商打破流量垄断:AI驱动的亚马逊广告投放新打法

#亚马逊广告优化# 亲爱的亚马逊跨境电商卖家们&#xff0c;是否曾因亚马逊的广告打法不清晰&#xff0c;或是纠结于亚马逊广告费用过高&#xff0c;或是为亚马逊电商广告怎么投放合适的问题而苦恼&#xff1f;在竞争激烈的亚马逊市场中&#xff0c;广告投放效果平平&#xff0…

单元测试junit5

一、idea 安装自动化生成插件jcode5 安装可能不成功&#xff0c;尝试多次安装&#xff1b; 安装成功后&#xff0c;重启idea&#xff0c;再次确认安装是否成功&#xff1b; 二、在需要生成单元测试代码的模块的pom中引入依赖 ......<parent><groupId>org.springf…

windows系统本地部署DeepSeek-R1全流程指南:Ollama+Docker+OpenWebUI

本文将手把手教您使用OllamaDockerOpenWebUI三件套在本地部署DeepSeek-R1大语言模型&#xff0c;实现私有化AI服务搭建。 一、环境准备 1.1 硬件要求 CPU&#xff1a;推荐Intel i7及以上&#xff08;需支持AVX2指令集&#xff09; 内存&#xff1a;最低16GB&#xff0c;推荐…

Windows Server 任务计划

背景&#xff1a;QMT服务只能在windows服务器上面运行 直接在控制面板里面搜索"任务计划"点进去 需要注意的是&#xff1a; 1.创建任务计划选择”不管用户是否登录都运行“&#xff0c;是否需要最高权限执行看你的需求 2.操作程序或脚本&#xff0c;选择bat脚本就…

人工智能学习环境配置

文章目录 Python、CUDA、cuDNN、PyTorch 和 Anaconda 的介绍PythonCUDAcuDNNPyTorchAnaconda联系 安装n卡驱动更新安装 AnacondaAnaconda配置镜像源CUDA安装Cudnn安装Anaconda初始化创建虚拟环境安装 PyTorch验证安装 可能的错误SSL错误 Python、CUDA、cuDNN、PyTorch 和 Anaco…

【C语言】C语言 食堂自动化管理系统(源码+数据文件)【独一无二】

&#x1f449;博__主&#x1f448;&#xff1a;米码收割机 &#x1f449;技__能&#x1f448;&#xff1a;C/Python语言 &#x1f449;专__注&#x1f448;&#xff1a;专注主流机器人、人工智能等相关领域的开发、测试技术。 【C语言】C语言 食堂自动化管理系统&#xff08;源…

【架构】分层架构 (Layered Architecture)

一、分层模型基础理论 ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/0365cf0bfa754229bdedca6b472bffc7.png 1. 核心定义 分层架构(Layered Architecture)模型是一种常见的软件设计架构,它将软件系统按照功能划分为不同的层次,每个层次都有特定的职责和功能…