引子
最近鹅厂竟然开源了一个多模态的大模型,之前分享福报厂的多模态视觉大模型(Qwen-VL环境搭建&推理测试-CSDN博客)感兴趣的可以移步。鹅厂开源的,我还是头一回部署。好的,那就让我们看看这个多模态视觉大模型有什么特点吧,首先它说它是汉英双语DiT模型,嗯,这个时候必须再次吐槽下智谱开源的CogVLM(CogVLM/CogAgent环境搭建&推理测试-CSDN博客),竟然只支持英文。其次呢,当然是各种测试集的niubility和各种sota,这里就不再赘述。OK,让我们开始吧。
一、环境安装
docker run -it --rm --gpus=all -v /datas/work/zzq:/workspace pytorch/pytorch:1.13.1-cuda11.6-cudnn8-runtime bash
https://github.com/Tencent/HunyuanDiT.git
cd /workspace/HunyuanDiT/HunyuanDiT-main
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
模型下载地址
https://huggingface.co/Tencent-Hunyuan/HunyuanDiT/tree/main
二、推理测试
改为实际路径,防止下载模型
执行
sh test.sh