小盒子跑大模型！基于算能BM1684X+FPGA平台实现大模型私有化部署

当前，在人工智能领域，大模型在丰富人工智能应用场景中扮演着重要的角色，经过不断的探索，大模型进入到落地的阶段。而大模型在落地过程中面临两大关键难题：对庞大计算资源的需求和对数据隐私与安全的考量。为应对这些挑战，在边缘侧私有化部署大模型成为了一个有效的解决方案。

将大模型部署到边缘侧，不仅能够减少延迟和带宽消耗，使得大模型能够在边缘节点快速进行推理和应用；还能增强数据隐私保护，这对于维护企业的数据安全至关重要。

▎边缘计算盒子

基于BM1684X推出的高性能边缘计算盒子，INT8算力高达32Tops，配置了16GB大内存，支持适配Llama2-7B/ChatGLM3-6B/Qwen-7B和SAM/StableDiffusion等大模型，是业内少数能同时兼容国内外深度学习框架，并且能够流畅运行大语言模型推理的边缘计算设备之一。

▎大模型推理加速卡

算力可达64 TOPS@INT8和72 TOPS@INT8，显存配置32GB和48GB，支持多芯分布式推理及支持大语言/提示型/图像生成模型等大模型推理；这两款云边大模型推理加速卡均可应用于边缘大语言、文生图等通用大模型、垂直行业私有模型的推理应用。

迭代500次

python3 run.py --model_path ../models/BM1684X --stage singlize --prompt "A parrot resting on a branch" --neg_prompt "worst quality" --num_inference_steps 500 --dev_id 0

② Controlnet插件辅助控制生成图像

一只小兔子晚上在酒吧喝酒：迭代次数，20次

python3 run.py --model_path ../models/BM1684X --stage multilize --controlnet_name scribble_controlnet_fp16.bmodel --processor_name scribble_processor_fp16.bmodel --controlnet_img ../pics/generated_img.jpg --prompt "a rabbit drinking at the bar at night" --neg_prompt "worst quality" --num_inference_steps 100 --dev_id 0

一只小兔子晚上在酒吧喝酒：迭代次数，200次

python3 run.py --model_path ../models/BM1684X --stage multilize --controlnet_name scribble_controlnet_fp16.bmodel --processor_name scribble_processor_fp16.bmodel --controlnet_img ../pics/generated_img.jpg --prompt "a rabbit drinking at the bar at night" --neg_prompt "worst quality" --num_inference_steps 200 --dev_id 0