盘点2023年Q3的开源模型，这些值得推荐！

文章目录

盘点2023年Q3「值得推荐」的开源模型！
- 基座模型
- - LLaMA 2
  - Baichuan 2
  - ChatGLM2-6B
  - Qwen-14B
  - InternLM-20B
  - Tigerbot-13B
  - Tigerbot-70B
- 多模态模型
- - LLaVA 1.5
  - VisualGLM-6B
  - VisCPM
  - NexT-GPT
  - MiniGPT-5
  - Qwen-VL
- Agent开发
- - Agents
  - AgentVerse
  - AutoAgents
  - MetaGPT
  - AutoGen
  - AutoGPT
  - AgentGPT
- 微调框架
- - OpenLLM
  - LLaMA-Efficient-Tuning
  - XTuner
  - xTuring
  - LLMTune
  - DeepSpeed
  - Megatron-LLM
- 推理加速框架
- - vllm
  - fastllm
  - ExLlamaV2
- 领域精调模型
- - 代码编程任务
  - - CodeLlama
    - StableCode
    - WizardCoder
    - CodeFuse
  - 法律领域
  - - DISC-LawLLM
    - 智海-录问
    - 夫子·明察
    - ChatLaw
  - 心理领域
  - - MindChat
    - MeChat
    - SoulChat
  - 医疗领域
  - - DISC-MedLLM
    - 仲景
    - 扁鹊
    - MedQA-ChatGLM
    - MedicalGPT
  - 天文领域
  - - StartGLM
  - 交通领域
  - - TransGPT
  - 金融领域
  - - Cornucopia
    - FinGPT
  - 教育领域
  - - EduChat
  - 自媒体领域
  - - Media LLaMA

盘点2023年Q3「值得推荐」的开源模型！

回顾2023年第三季度，社区又开源了不少模型，包括 LLaMA 2、Baichuan 2、ChatGLM2-6B等语言大模型，还有LLaVA1.5、VisualGLM-6B、VisCPM、NexT-GPT等多模态模型。此外，各个领域涌现了不少精调模型，比如用于法律领域的智海-录问、夫子·明察，医疗领域的 DISC-MedLLM、仲景，心理领域的Mindchat、MeChat，天文领域的StarGLM等。

除此之外，社区还开源了很多模型微调、LLM推理加速、智能体开发等方面的框架和工具，比如Agents，AutoAgents，fastllm等。

基座模型

LLaMA 2

Meta开源商用大语言模型LLaMA 2，包含基础和对话模型版本，参数为7B、13B、70B

适用任务：聊天对话

Meta 发布 LLaMA 2，开源可商用，包含基础预训练和微调对话版本，参数为 7B、13B、70B。预训练版本 LLaMA 2 是在 2 万亿 token 上训练的，微调版本 LLaMA2-chat 是在 100 万人类标记的数据上训练的，针对对话用例进行了专门优化。相比于 Llama 1，Llama 2 的训练数据多了 40%，上下文长度也翻倍，并采用了分组查询注意力机制。测评结果显示，Llama 2 在包括推理、编码、精通性和知识测试等许多外部基准测试中都优于其他开源语言模型。当前 LLaMA 2 开放权重下载，可通过官方开源仓库发送邮箱进行申请，在收到邮箱后参考官方步骤进行获取。

Baichuan 2

百川智能推出新一代开源大语言模型Baichuan 2 ，采用2.6 万亿Tokens高质量语料训练

适用任务：中英文对话

Baichuan 2 是百川智能推出的新一代开源大语言模型，采用 2.6 万亿 Tokens 的高质量语料训练。Baichuan 2 在多个权威的中文、英文和多语言的通用、领域 benchmark 上取得同尺寸最佳的效果。本次发布包含有 7B、13B 的 Base 和 Chat 版本，并提供了 Chat 版本的 4bits 量化。所有版本对学术研究完全开放。同时，开发者通过邮件申请并获得官方商用许可后，即可免费商用。

ChatGLM2-6B

ChatGLM-6B第二代版本发布，中英双语对话性能大幅提升，支持更长上下文和更高效推理，权重开放商业使用

适用任务：中英对话

ChatGLM-6B 发布第二代版本 ChatGLM2-6B，该模型支持中英对话，在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础上，引入了更强大的性能、更长的上下文、更高效的推理和更开放的协议等新特性。其中，ChatGLM2-6B 在 MMLU、CEval、GSM8K、等数据集上的性能取得了大幅度的提升，在同尺寸开源模型中具有较强的竞争力。ChatGLM2-6B 的上下文长度扩展到了 32K，并使用 8K 的上下文长度训练，允许更多轮次的对话。基于 Multi-Query Attention 技术，ChatGLM2-6B 有更高效的推理速度和更低的显存占用。ChatGLM2-6B 的权重对学术研究完全开放，申请后可允许商业使用。

Qwen-14B

阿里云通义千问系列14B参数大模型，训练数据超过3万亿Token

适用任务：中文对话

阿里云通义千问系列 14B 参数大模型，是基于 Transformer 架构的大型语言模型，通过在超大规模的预训练数据上进行训练得到。Qwen-14B 的训练数据超过 3 万亿 Token，相比同类模型使用了更多的高质量数据，使得模型具备更强大的推理、认知、规划和记忆能力。Qwen-14B 的主要应用是在自然语言处理领域，可以用于问答系统、对话系统、文本生成等任务。它可以理解和生成自然语言，帮助人们进行信息搜索、问题解答和交流对话。

InternLM-20B

书生·浦语InternLM-20B开源，消费级GPU单卡可运行

适用任务：中文对话

上海 AI 实验室联合多家机构推出了中量级参数的 InternLM-20B，InternLM-20B 基于 2.3T token 预训练语料从头训练，相较于 InternLM-7B，InternLM-20B 的训练语料经过了更高水平的多层次清洗，补充了高知识密度和用于推理的信息，理解能力、推理能力、数学能力、编程能力等方面都有显著提升。同时，20B 量级模型可在单卡上进行推理，经过低比特量化后，可运行在单块消费级 GPU 上，因而在实际应用中更为便捷。

Tigerbot-13B

虎博开源Tigerbot-13B，基于llama2继续训练提升中文能力，涵盖基础和对话模型

适用任务：中文对话

虎博开源 TigerBot-13B 大模型，基于 Llama-2 继续训练，不但保持了 Llama-2 出色的英文能力，同时具有中文能力。本次开源包括基础模型 TigerBot-13B-base 和对话模型 TigerBot-13B-chat。基础模型基于 Llama-2-13B 继续预训练 300B tokens，扩充了中文词表到 60K vocabulary，并采用 holistic training 在预训练中直接使模型具有 9 成的指令完成能力。对话模型基于 TigerBot-13B-base 用 5M 指令数据微调，并采用 rejection sampling fine-tune 对齐人类需求。

Tigerbot-70B

虎博科技发布的自研开源可商用大模型，在Llama-2-70b基础上继续预训练

适用任务：中文对话

Tigerbot-70b是虎博科技发布的开源可商用大模型之一，包含基础和对齐版本。Tigerbot-70b-base 在 Llama-2-70b 的基础上继续预训练，通过使用高质量的 300GB 多语言数据进行训练；以及使用 GQA、flash-attn、RoPE 和 holistic-training 等技术，并采用了 tensor/pipeline-partition 来提高计算效率。Tigerbot-70b-chat: 在Tigerbot-70b-base基础上，用20M指令完成数据进行sft，和10K人类标注的gold set进行rejection-sampling对齐。

多模态模型

LLaVA 1.5

开源多模态大模型LlaVA 1.5，11项基准测试中取得SOTA

适用任务：图文对话

LLaVA 1.5 是一个由威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学的研究人员共同开发的多模态大模型。它是 LLaVA 系列的最新版本，旨在帮助用户处理各种任务，并具备强大的多模态理解能力。LLaVA 1.5 相较于之前的版本进行了一些改进。它采用了更高分辨率的图像输入、更大规模的语言模型（13B 参数），以及面向学术任务的视觉问答数据集，从而获得了显著的性能提升。LLaVA 1.5 在 11 项基准测试中都取得了新的最优成绩，包括视觉问答、图像描述等任务。它能够通过对生成的指令数据进行微调，实现端到端训练，将视觉编码器与语言模型连接起来。

VisualGLM-6B

清华、智谱AI开源多模态对话模型VisualGLM-6B，支持图像、中文和英文

适用任务：多模态对话

智谱AI和清华大学开源了基于 ChatGLM-6B 的多模态对话模型 VisualGLM-6B ，该模型不仅可以进行图像的描述及相关知识的问答，也能结合常识或提出有趣的观点。VisualGLM-6B 是一个开源的，支持图像、中文和英文的多模态对话语言模型，语言模型基于 ChatGLM-6B，具有62亿参数；图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁，整体模型共78亿参数。另外，VisualGLM-6B 依靠来自于 CogView 数据集的30M高质量中文图文对，与300M经过筛选的英文图文对进行预训练，中英文权重相同。该训练方式较好地将视觉信息对齐到 ChatGLM 的语义空间，并在微调后实现了生成人类偏好的答案。在经过量化后，模型可以实现在消费级显卡上进行部署和推理。

VisCPM

清华等开源多模态大模型系列VisCPM，支持中英双语对话和文到图生成能力

适用任务：多模态对话

VisCPM 是由面壁智能、清华大学 NLP 实验室和知乎联合开源的多模态大模型系列，其中 VisCPM-Chat 模型支持中英双语的多模态对话能力，VisCPM-Paint 模型支持文到图生成能力，并在中文多模态开源模型中表现最佳。该模型基于百亿参数基座模型 CPM-Bee 训练，融合 Q-Former 视觉编码器和 Diffusion-UNet 视觉解码器，支持视觉信号的输入和输出。VisCPM 训练包括预训练和指令精调两个阶段，通过高质量的英文图文对数据进行预训练，并采用 LLaVA-150K 英文指令精调数据对模型进行指令精调，以对齐模型多模态基础能力和用户使用意图。

NexT-GPT

新加坡国立大学开源通用多模态大模型NExT-GPT，支持任意模态输入到任意模态输出

适用任务：多模态理解

NExT-GPT 是开源的多模态大模型，由新加坡国立大学的团队开发。该模型结合了大型语言模型和扩散模型，能够进行多种模态的转换和生成。NExT-GPT 支持任意模态的输入和输出，可以实现文本、图像、语音和视频之间的自由转换，是第一个实现从任一模态到任一模态转换的通用多模态系统。它利用现有的训练有素的高性能编码器和解码器，只调整了一小部分参数（某些投影层的 1%），这不仅有利于低成本训练，还便于方便地扩展到更多的潜在模态。

MiniGPT-5

统一图像和文字生成的模型，生成具有连贯文本叙述的图像

适用任务：多模态对话

MiniGPT-5 是一种统一图像和文字生成的模型，它采用了一种新的两阶段训练策略，用于无描述多模态生成。这种训练策略使得MiniGPT-5能够在生成图像时考虑到文本的连贯性。MiniGPT-5与CLIP等模型相匹配，巧妙地将扩散模型与MiniGPT-4融合，以生成交错的视觉和语言输出。它通过将大型语言模型与预训练的文本到图像生成模型对齐，来生成带有连贯文本叙述的图像。MiniGPT-5的出现是对多模态特征集成的一种重要进展，它有望在多模态对话和内容创建工具等领域带来关键的突破。

Qwen-VL

阿里云开源大规模视觉语言模型Qwen-VL，新增视觉定位、图像文字描述能力

适用任务：图像问答

阿里云开源的大规模视觉语言模型 Qwen-VL，包含基础模型和对齐模型两个版本。该模型可将图像、文本、检测框作为输入，并以文本和检测框作为输出，可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景。基础模型以 Qwen-7B 的预训练模型作为语言模型的初始化，并以 Openclip ViT-bigG 作为视觉编码器的初始化，中间加入单层随机初始化的 cross-attention，经过约 1.5B 的图文数据训练得到，可输入分辨率为 448 的图像。Qwen-VL-Chat 在 Qwen-VL 的基础上，使用对齐机制构建，支持更灵活的交互方式，包括多图、多轮问答、创作等能力。

Agent开发

Agents

波形智能、苏黎世联邦理工等开源智能体框架Agents，支持零代码定制/微调多智能体系统

适用任务：智能体开发

Agents 是波形智能、苏黎世联邦理工等开源的智能体开发框架，支持包括长短期记忆、工具使用、网络导航、多 agent 通信等功能，以及包括人机交互和符号控制在内的新功能。该框架允许用户通过 SOP（标准操作流程）为语言代理提供细粒度的控制和指导。SOP 为整个任务定义子目标/子任务，并允许用户为语言代理自定义细粒度工作流。借助 Agents 用户只需用自然语言填写配置文件，就能轻松定义各种功能和使用场景的 AI 智能体 / 多智能体系统。

AgentVerse

清华大学、北邮等开源多智能体框架AgentVerse，支持多个模型之间协作提升任务完成效率

适用任务：智能体开发

AgentVerse 是一个多功能的框架，旨在实现多个模型之间的协作以提升任务完成的效率，借助该框架开发者可轻松构建生成式智能体研究中的虚拟小镇。AgentVerse 具有三个主要特点，首先提供了高效的环境搭建，只需要在配置文件中添加几行代码，即可轻松搭建多智能体环境，如 LLM 聊天室等。其次，框架支持可定制的组件，将多智能体环境划分为五个功能模块，并定义了各自的接口，用户可以根据需求重新定义不同模块的功能。第三，AgentVerse 还支持使用 BMTools 中提供的工具，进一步拓展了框架的功能和扩展性。

AutoAgents

基于LLM的多智能体自动生成框架AutoAgents，通过多智能体处理更复杂的任务

适用任务：智能体构建

AutoAgents 是基于 LLM 的多智能体自动生成框架，可以通过多智能体处理更复杂的任务，在游戏、交通、语言生成等领域都有广泛的应用。与其他类似项目相比，AutoAgents 的特点是可以应用于任意场景，自动设计出合理的智能体组合，将复杂任务解构为角色和任务，实现合适的角色解决匹配的任务。AutoAgents 最大的优势是可以自动化生成多智能体应用程序，并且这些应用程序可以通过调整参数、策略和目标设置来进行极其快速和有效的优化与升级，提高了开发效率和应用性能。

MetaGPT

多角色元编程框架MetaGPT，给定需求可一键生成产品文档、架构设计、任务列表、代码

适用任务：多智能体开发

MetaGPT 是一个多智能体元编程框架，可解决复杂编程流程的自动化。MetaGPT 能够模拟产品经理、架构师、项目经理、工程师等角色，自动监督代码生成，提升代码质量。MetaGPT 能够一键进行市场调研、竞品分析、架构设计等环节，结合现实情况，智能分析生成代码的类型、适用人群和功能需求，大大降低开发成本。MetaGPT 在模拟现实软件开发过程中变量更多，监督效果更佳，生成输出的结果更具优势。但该项目当前仍处于开发环节，尚不能完全代替人工开发。

AutoGen

微软开源AutoGen，多个智能体协作，编码速度提升4倍

适用任务：多智能体开发

微软开源AutoGen，它是“一个简化大语言模型工作流编排、优化和自动化的框架”。AutoGen 背后的基本概念是“代(agents)的创建，即由大语言模型 (如GPT-4) 提供支持的编程模块。这些智能体 (agents) 通过自然语言信息相互作用，完成各种任务。借助AutoGen，开发人员可以创建一个由代理 (agents)组成的生态系统，这些代理专注于不同的任务并相互合作。

AutoGPT

GPT4应用项目Auto-GPT开源，给定复杂任务即可自主规划和实施解决方案

适用任务：智能体开发，复杂任务规划

Auto-GPT 是基于 GPT4 的开源 AI 代理 Python 应用程序，由开发人员 Significant Ggravitas 近日发布在 GitHub 上。用户仅需要提供给 Auto-GPT 目标任务，即可全自动地根据任务指令进行分析和执行，自己给自己提问并进行回答，中间环节不需要用户参与。目前 AutoGPT 已经配备的功能包括：联网搜集信息；存储信息；生成用于文本生成的 GPT-4 实例；使用 GPT-3.5 总结信息等。项目现已在 github 开源并可部署在本地，但需要 GPT4 的资格。

AgentGPT

基于Auto-GPT开发AI代理的项目AgentGPT，可直接在浏览器上部署的个人AI代理

适用任务：智能体开发

AgentGPT 是开发者对基于 GPT4 的 AI 代理应用 Auto-GPT 的浏览器部署，旨在实现一个可以在浏览器中组装、配置和部署自主 AI 代理的项目。AgentGPT 可以让用户自主命名自己的 AI 代理，给定任务后，AgentGPT 会自主规划和实现需求任务。当前，AgentGPT 已经在 github 上开源了其本地部署的代码，但完全体验仍需要 GPT4 的资格。

微调框架

OpenLLM

开源平台OpenLLM，可轻松微调、部署和监控任何开源大型语言模型，为构建AI应用提供强大支持

适用任务：LLM微调

OpenLLM 是一个开放平台，用于在生产环境中运行大型语言模型（LLMs）。开发者可以轻松地微调、部署和监控任何开源的大型语言模型，构建强大的人工智能应用。OpenLLM 内置支持多种开源 LLM，其中包括 StableLM、Falcon、Dolly、Flan-T5、ChatGLM、StarCoder 等，让开发者可以选择适合自己的 LLM。同时，OpenLLM 支持 LangChain 和 BentoML，让开发者可以将 LLMs 与其他模型和服务组合起来创建自己的人工智能应用。

LLaMA-Efficient-Tuning

适用任务：LLM微调

LLaMA Efficient Tuning是一个简单易用的LLM微调框架，支持微调主流大型语言模型，例如BLOOM、ChatGLM2、LLaMA2、Baichuan等微调，除了可以进行常见的PEFT (LORA/QLORA) 、全参数微调，还支持预训练、指令监督微调、奖励模型训练、PPO 训练、DPO 训练等功能。

XTuner

上海人工智能实验室开发的低成本大模型训练工具箱XTuner，支持消费级显卡训练多种主流LLM

适用任务：大模型训练

上海人工智能实验室开发了低成本大模型训练工具箱 XTuner，支持 2080/2080ti、3060~3090Ti 等消费级显卡。该工具支持主流 LLMs，如 InternLM, Llama2, ChatGLM2, Qwen, Baichuan，并适配了多个热门开源数据集格式，例如 Alpaca 格式、MOSS 格式除了支持多种数据集格式外。同时针对大语言模型数据的特点，对各种数据集格式做了充分的解耦。此外，还内置了增量预训练、单轮&多轮对话指令微调、工具类指令微调的标准化流程，并集成了 QLoRA、DeepSpeed 和 FSDP 等技术。

xTuring

适用任务：LLM微调

xTuring提供快速、高效和简单的LLM微调，例如LLaMA、GPT-J、GPT-2、OPT、Cerebras-GPT、Galactica 等。通过提供一个易于使用的界面来将LLM定制为你自己的数据和应用程序，xTuring使构建和控制LLM变得简单。xTuring支持单GPU或多GPU的训练框架，意味着用户可以根据其特定硬件配置定制模型。xTuring 使用 LORA 等内存高效微调技术来加快学习过程。

LLMTune

康奈尔大学发布可以在单张消费级显卡上微调650亿参数规模大模型的框架：LLMTune

适用任务：LLM微调

可在消费级GPU上微调大型65B+LLM。可以在普通消费级GPU上进行4位微调，例如最大的65B LLAMA模型。LLMTune还实现了LORA算法和GPTO算法来压缩和量化LLM，并通过数据并行处理大型模型。此外，LLMTune提供了命令行界面和Python库的使用方式。

DeepSpeed

适用任务：大模型训练

DeepSpeed 是由 Microsoft 提供的分布式训练工具，旨在支持更大规模的模型和提供更多的优化策略和工具。与其他框架相比，DeepSpeed 支持更大规模的模型和提供更多的优化策略和工具。其中，主要优势在于支持更大规模的模型、提供了更多的优化策略和工具 (例如 ZeRO 和 Offload 等)。

Megatron-LLM

适用任务：LLM微调

英伟达发布的基于PyTorch的分布式训练框架，实现了一种简单高效的层内模型并行方法 (TP，是切分矩阵的形式实现的)，可以训练具有数十亿参数的Transformer模型。Megatron不需要新的编译器或库更改，可以通过在PyTorch中插入几个通信操作来完全实现。当然Megatron目前支持TP、PP、SP (Sequence Parallelism)和Selective Activation Recomputationo。

推理加速框架

vllm

伯克利开源高吞吐量LLM推理服务库vllm，比HF Transformers高出最多24倍，与HuggingFace模型无缝集成

适用任务：LLM推理

vllm 是一款易于使用、快速且廉价的 LLM（Language Model）服务库。它的吞吐量比 HuggingFace Transformers 高出最多 24 倍，比 Text Generation Inference 高出最多 3.5 倍，具有出色的推理吞吐量、对注意力键和值内存的高效管理、动态批处理、优化的 CUDA 内核等特点。vllm 能够与流行的 HuggingFace 模型无缝集成，支持高吞吐量的服务和各种解码算法，并提供 Tensor 并行支持和流式输出。它支持多种 HuggingFace 模型，包括 GPT-2、GPTNeoX、LLaMA 和 OPT。

fastllm

纯C++ LLM加速库fastllm，支持多种国产开源大模型，高效提高大模型推理性能

适用任务：LLM加速

fastllm 是一个纯 C++的全平台 LLM 加速库项目，适用于各种开发环境，无第三方依赖的大模型库。目前该项目支持许多国产开源大模型，包括 ChatGLM2 6B、ChatGLM-6B、MOSS 等。其中，ChatGLM-6B 级模型单卡可达 10000+token/s，表现优异。fastllm 可以在安卓设备上流畅运行 ChatGLM-6B，并且可以在支持 CUDA 的设备上进行加速计算。该项目为开发者提供了一个高效的解决方案，可用于多种应用场景，例如自然语言处理、语音识别、机器翻译等。

ExLlamaV2

消费级GPU高性能LLM推理库ExLlamaV2，支持多种量化格式并兼容HuggingFace模型

适用任务：LLM推理加速

ExLlama 是一个专为消费级 GPU 上本地运行大型语言模型而设计的开源推理库，近日推出新版本 ExLlamaV2。ExLlamaV2 采用全新的代码库和内核实现，取得了显著的性能提升，支持与 V1 相同的 4 位 GPTQ 模型，同时支持新的“EXL2”格式。EXL2 基于与 GPTQ 相同的优化方法，支持 2、3、4、5、6 和 8 位量化。该格式允许在模型内混合量化级别，以实现每个权重 2 到 8 位之间的任何平均比特率，以实现既可以充分利用 GPU 的计算能力，又可以控制模型大小，适应不同的显存限制。ExLlamaV2 还集成了与 HuggingFace 模型的兼容性，并提供交互式示例和模型转换脚本。

领域精调模型

代码编程任务

CodeLlama

Meta开源代码编程任务微调版Llama2模型CodeLlama，参数涵盖7B、13B和34B

适用任务：代码生成

Meta 开源的针对代码编程任务进行了微调的 Llama2 版模型 Llama2，支持大型输入上下文，以及编程任务的零样本指令跟随能力。提供多种版本以覆盖广泛的应用程序：基础模型（CodeLlama），Python 专业化（CodeLlama - Python）和指令跟随模型（CodeLlama - Instruct），每个模型都有 7B、13B 和 34B 参数。所有模型都在 16k tokens 的序列上进行训练，并在最多 100k tokens 的输入上显示改进。7B 和 13B CodeLlama 和 CodeLlama - Instruct 变体支持基于周围内容的填充。CodeLlama 是通过使用更高的代码采样对 Llama 2 进行微调而开发的。

StableCode

Stability开源代码生成模型StableCode，包含基础、指令和支持16K上下文三种模型版本，支持多种编程语言

适用任务：代码生成

Stability 开源 StableCode，涵盖通用基础模型、指令模型，支持 16K 上下文的模型。基础模型在来自 BigCode 的 stack-dataset（v1.2）中进行了多种编程语言的训练，进一步使用 Python、Go、Java、JavaScript、C、Markdown 和 C++等流行语言进行了训练。总计，在高性能计算集群上使用了 560B 个代码标记进行了模型训练。在建立基础模型后，针对特定用例对指令模型进行调优，以解决复杂的编程任务。其中 16K 版本具有更大的上下文窗口，可实现同时查看或编辑多个中等大小的 Python 文件。

WizardCoder

编程大型模型WizardCoder开源，采用Evol-Instruct方法开发，高性能编程、支持微调和推理任务

适用任务：代码生成

编程大型模型（Code LLM）WizardCoder，采用 Evol-Instruct 方法开发，专门用于编程任务。WizardCoder-15B-v1.0 模型在 HumanEval 基准测试中取得了 57.3%的 pass@1 得分，比开源 Code LLMs 高出了 22.3 个百分点。相比闭源模型，WizardCoder 具有更小的模型大小，并在 HumanEval 和 MBPP 基准测试中表现出显著的性能优势。WizardCoder 的代码和模型托管于 huggingface，当前项目提供部署环境配置代码、模型权重、模型训练代码和模型文件，帮助开发者进行微调、推理等开发任务。

CodeFuse

蚂蚁自研代码生成专用大模型CodeFuse，为开发者提供全生命周期的智能支持和代码增强

适用任务：代码生成

CodeFuse 是蚂蚁开源代码专用大模型，可以根据开发者的输入提供智能建议和实时支持，帮助开发者自动生成代码、自动增加注释、自动生成测试用例、修复和优化代码等，以提升研发效率。CodeFuse 支持软件开发的整个生命周期，包括设计、需求、编码、测试、部署、运维和维护等关键阶段。当前开源模型版本包含 CodeFuse-13B 和 CodeFuse-CodeLlama-34B，支持多种与代码相关的任务，如代码补全、文本转代码、单元测试生成等。

法律领域

DISC-LawLLM

复旦大学开源面向智慧司法系统的领域大模型DISC-LawLLM，用于构建专业、智能、全面法律服务的私人法律助手

适用任务：法律对话

DISC-LawLLM 是一个旨在为用户提供专业、智能、全面的法律服务的法律领域大模型，由复旦大学数据智能与社会计算实验室 (Fudan-DISC) 开发并开源，该模型基于 Baichuan-13B-Base 微调得到。该项目发布了微调数据集DISC-Law-SFT（不包括法律问答部分）、DISC-LawLLM 模型权重。DISC-LawLLM 是一个具有法律推理和知识检索能力的智能法律系统，它面向不同群体，能在不同应用场景下提供帮助，具有法律文本处理能力、法律推理思维能力、司法领域知识遵循能力。此外DISC-LawLLM 还增加了基于开源检索框架Langchain-Chatchat的检索模块，该知识库目前包括法条库和法考题库。

智海-录问

法律大模型智海-录问，基于Baichuan-7B进行二次预训练和指令微调训练

适用任务：法律知识问答

智海-录问（wisdomInterrogatory）是由浙江大学、阿里巴巴达摩院以及华院计算三家单位共同设计研发的法律大模型，基于 Baichuan-7B 模型基座，进行了二次预训练和指令微调训练。二次预训练为通用的大模型注入了法律领域的知识。在指令微调阶段，使用了 100k 的指令微调训练，以使大模型具备问答能力，能够直接与用户进行交流。智海-录问通过构建知识库，并进行意图识别、知识检索、知识融合，实现模型增强，以为法律智能化体系入司法实践、数字化案例建设、虚拟法律咨询服务赋能等方面提供支持。

夫子·明察

基于ChatGLM的司法大模型，采用海量中文无监督司法语料与有监督司法微调数据训练

适用任务：法律知识问答

夫子•明察司法大模型是由山东大学、浪潮云和中国政法大学联合研发的一种中文司法大模型，以 ChatGLM 为底座，基于海量中文无监督司法语料与有监督司法微调数据训练，支持法条检索、案例分析、三段论推理判决以及司法对话等功能，旨在为用户提供全方位、高精准的法律咨询与解答服务。该模型具有法条检索回复能力、案例分析能力、司法对话能力三大特色，能够结合相关法条进行回复生成，自动分析案情并生成一个逻辑严谨的三段论式判决预测，与用户进行实时的法律问答交互。

ChatLaw

北大开源集成外部知识库的法律大语言模型ChatLaw，基于姜子牙 -13B和Anima-33B训练，具有强大逻辑推理能力

适用任务：法律对话

ChatLaw 是一个法律大型语言模型，可以集成外部知识库，并基于姜子牙 -13B 和 Anima-33B 进行训练，具有较强的逻辑推理能力。目前开源了三个模型型号：ChatLaw-13、ChatLaw-33B、ChatLaw-Text2Vec。ChatLaw-13B 是学术 demo 版，中文表现良好，但在逻辑复杂的法律问答方面效果不佳，需要使用更大参数的模型。ChatLaw-33B 是学术 demo 版，逻辑推理能力大幅提升，但由于语料库过少，会出现英文数据。ChatLaw-Text2Vec 使用 93w 条判决案例做成的数据集基于 BERT 训练了一个相似度匹配模型，可以将用户提问信息和对应的法条相匹配。

心理领域

MindChat

开源心理大模型MindChat（漫谈），涵盖基于Qwen-7B、InternLM-7B、Baichuan-13B的微调模型

适用任务：心理知识问答

开源心理大模型 MindChat（漫谈），旨在从心理咨询、心理评估、心理诊断、心理治疗四个维度帮助人们解决心理问题，提高心理健康水平。目前提供基于 Qwen-7B、InternLM-7B、Baichuan-13B 三个版本的微调模型，利用了大规模预训练模型的优势，具备处理复杂心理问题的能力。MindChat 采用了经过人工清洗的约 20 万条的高质量多轮心理对话数据进行训练, 涵盖工作、家庭、学习、生活、社交、安全等多个方面，具有以下技术优势：能够了解用户的个人经历、情感状态和行为模式，为用户提供隐私、温暖、安全、及时、方便的对话环境。

MeChat

基于心理多轮对话数据集的中文心理健康支持通用模型MeChat，采用ChatGLM-6B LoRA 16-bit模型进行微调

适用任务：心理对话

MeChat 是通过微调 ChatGLM-6B LoRA 16-bit 模型得到，用于提供中文心理健康支持。数据集经过 ChatGPT 的改写，将真实的心理互助问答扩展为多轮对话形式，包含了 56k 个多轮对话。这些对话涵盖了更加丰富多样的话题、词汇和篇章语义，更贴合长程多轮对话的应用场景。通过改进真实心理互助问答数据集，MeChat 在心理健康支持领域展现出更出色的性能，适用于长程多轮对话。作为一款心理健康支持对话伴侣机器人，它能够与用户聊天，提供情感支持和心理疏导，还具备基础模型已有的知识。

SoulChat

基于ChatGLM-6B的开源中文心理健康对话模型SoulChat，提供共情能力和合理建议

适用任务：心理对话

SoulChat（灵心）是由华南理工大学未来技术学院-广东省数字孪生人重点实验室开源的中文领域心理健康对话大模型。基于主动健康的主动性、预防性、精确性、个性化、共建共享、自律性六大特征，构造并使用超过 120 万个样本的单轮与多轮混合共情对话数据集，对 ChatGLM-6B 模型进行全量参数的指令微调，提升了模型的共情能力、引导用户倾诉能力以及提供合理建议的能力。项目包含模型环境部署及安装代码、模型调用代码示例，以及模型应用示例。

医疗领域

DISC-MedLLM

复旦开源医疗健康对话场景专用医疗领域大模型，基于Baichuan-13B-Base微调

适用任务：医疗对话

DISC-MedLLM 是一个专门针对医疗健康对话式场景而设计的医疗领域大模型，由复旦大学数据智能与社会计算实验室（Fudan-DISC）开发并开源。DISC-MedLLM 基于 Baichuan-13B-Base 微调，有效地对齐了医疗场景下的人类偏好，弥合了通用语言模型输出与真实世界医疗对话之间的差距。它可以满足各种医疗保健需求，包括疾病问诊和治疗方案咨询等。得益于以目标为导向的策略，以及基于真实医患对话数据和知识图谱，引入 LLM in the loop 和 Human in the loop 的多元数据构造机制，DISC-MedLLM 具有可靠丰富的专业知识、多轮对话的问询能力、对齐人类偏好的回复。

仲景

基于Llama的中文医疗大模型仲景，采用大规模预训练语料和多轮对话数据集进行训练

适用任务：医疗对话

中文医疗大模型仲景，在 Llama 基础上采用大规模预训练语料库和多轮对话数据集进行训练得到。仲景是首个实现了预训练、有监督微调和强化学习与人类反馈（RLHF）完整训练流程的中文医学大型模型，展现出了很好的泛化能力，在某些对话场景中甚至接近专业医生的专业水平。在数据方面，构建了一个包含 70000 条完全来源于真实医患对话的多轮对话数据集 CMtMedQA。该数据集包含大量医生主动提问的语句，有助于提升模型的主动医疗询问能力。

扁鹊

中文医疗对话模型扁鹊，经过千万规模中文健康对话数据微调得到，强化建议和知识查询能力

适用任务：中文医疗对话

扁鹊是一个中文医疗对话模型，当前发布两个版本扁鹊 -1.0 和扁鹊 -2.0。相比常见开源医疗问答模型，扁鹊更注重多轮交互中用户描述不足的情况，定义了询问链并强化了建议和知识查询能力。扁鹊 -1.0 是一个经过指令与多轮问询对话联合微调的医疗对话大模型，使用超过 900 万条样本的中文医疗问答指令与多轮问询对话混合数据集训练得到。扁鹊 -2.0 则基于扁鹊健康大数据 BianQueCorpus，选择 ChatGLM-6B 作为初始化模型，经过全量参数的指令微调训练得到，并扩充了药品说明书指令、医学百科知识指令以及 ChatGPT 蒸馏指令等数据，强化了模型的建议与知识查询能力。

MedQA-ChatGLM

基于真实医疗对话数据的微调大型语言模型 MedQA-ChatGLM，为医疗领域提供精准的个性化建议

适用任务：医疗对话

MedQA-ChatGLM 模型是一种专门针对医学领域进行优化的大语言模型，在 ChatGLM 上经过了 LoRA、P-Tuning V2、Freeze、RLHF 等微调。该模型可以更准确地理解患者的问题，并根据其症状和历史记录提供个性化建议。MedQA-ChatGLM 基于真实医疗对话数据进行微调，提供了 LoRA、Freeze、P-Tuning V2 等微调命令及对应的模型权重、多 GPU 分布式训练配置和推理可视化测试代码。

MedicalGPT

专为医疗领域开发的大型语言模型 MedicalGPT，可为医疗行业提高医疗指导和咨询的质量

适用任务：医疗对话

MedicalGPT 是一个专为医疗领域开发的大型语言模型，通过二次预训练、有监督微调、奖励建模和强化学习训练等四个阶段来提高模型的准确性和人性化。基于 ChatGPT Training Pipeline，MedicalGPT 实现了领域模型–医疗模型的四阶段训练，具体包括增量预训练、有监督微调、奖励模型建模和基于人类反馈的强化学习。MedicalGPT 提供了一个简洁的基于 Gradio 的交互式 Web 界面，用户可以通过浏览器输入问题，模型将返回答案。

天文领域

StartGLM

天文大语言模型StarGLM开源，通过整合司天工程相关的语料数据与知识库资料进行训练

适用任务：天文通用知识

为缓解大语言模型在部分天文通用知识和前沿变星领域的幻觉现象，同时探索了多模态模型在天文图像生成与识别上应用的可能性。天文大语言模型 StarGLM 开源，通过整合司天工程相关的语料数据与知识库资料训练得到。它经历了多个阶段的数据筛选，包括使用 ChatGPT-Corpus、Belle 项目、Firefly+Instinwild 项目和 GPT-4-LLM 项目进行筛选，并结合人工标注，共计 20 万条天文对话数据。在未来，StarGLM 将进一步完善语言模型并增强专业多模态能力，包括进行二次预训练、扩充天文知识、调整监督微调中通用数据和专业数据的比例，缓解灾难性问题，并通过人工反馈的强化学习提升模型性能。

交通领域

TransGPT

开源可商用交通大模型TransGPT，可实现交通情况预测、智能咨询助手等智能交通解决方案

适用任务：交通预测

TransGPT 是国内首款开源交通大模型，它能够实现交通情况预测、智能咨询助手、公共交通服务、交通规划设计、交通安全教育、协助管理、交通事故报告和分析、自动驾驶辅助系统等功能。TransGPT 作为一个通用常识交通大模型，可以为道路工程、桥梁工程、隧道工程、公路运输、水路运输、城市公共交通运输、交通运输经济、交通运输安全等行业提供通识常识。以此为基础，可以落脚到特定的交通应用场景中。当前项目开源 TransGPT-7B 模型，以及约 34.6 万条文本数据用于领域内预训练、约 5.8 万条对话数据用于微调。

金融领域

Cornucopia

基于中文金融知识的LLaMA微调模型Cornucopia，提高金融领域问答效果

适用任务：金融领域问答

Cornucopia（聚宝盆）是一个基于中文金融知识的 LLaMA 微调模型，涉及 SFT、RLHF、GPU 训练部署等。该项目开源了基于 LLaMA 系基模型经过中文金融知识指令精调/指令微调的微调模型。团队通过中文金融公开问答数据+爬取的金融问答数据构建指令数据集，并在此基础上对 LLaMA 系模型进行了指令微调，提高了 LLaMA 在金融领域的问答效果。当前项目发布了基于 Chinese-LLaMA 和中文金融数据进行指令微调的模型、基于 Meta-LLaMA 和中文金融数据进行指令微调的模型。后续 Cornucopia 还会陆续发布新的中文场景的金融模型，包括 next-pretrain、multi-task SFT、RLHF 等。

FinGPT

哥大开源金融大型语言模型FinGPT，以数据为中心通过自动筛选提供可靠资源和工具

适用任务：金融领域对话

哥伦比亚大学和纽约大学（上海）的研究者开发了针对金融领域的开源大型语言模型 FinGPT，该模型采用数据为中心的方法，为研究人员和从业者提供可访问和透明的资源来开发他们的 FinLLMs。FinGPT 目前提供 V1 和 V2 版本，其中 V1 基于 ChatGLM 和 LoRA 在中国金融市场数据上训练得到，V2 基于 LLaMA 和 LoRA 在美国金融实测数据上训练得到。项目提供了数据准备、数据集制作、微调和推理脚本等方便开发者使用的工具。FinGPT 为开发金融自然语言处理任务提供了高质量的金融数据资源。

教育领域

EduChat

教育垂直领域的对话大模型EduChat开源，基于BELLE继续训练，实现自动出题、作业批改等教育场景

适用范围：智能教育

EduChat 是一款针对教育垂直领域的对话大模型，由华东师范大学计算机科学与技术学院的 EduNLP 团队研发。该项目主要研究以预训练大模型为基底的教育对话大模型相关技术，融合多样化的教育垂直领域数据，辅以指令微调、价值观对齐等方法。EduChat 提供教育场景下自动出题、作业批改、情感支持、课程辅导、高考咨询等丰富功能，服务于广大老师、学生和家长群体，助力实现因材施教、公平公正、富有温度的智能教育。该模型基于 BELLE 进行继续训练，具有较高的准确率和性能表现。

自媒体领域

Media LLaMA

针对自媒体领域进行特殊训练的中文大模型Media LLaMA，掌握自媒体知识

适用任务：自媒体知识问答

Media LLaMA 是一个针对自媒体领域进行特殊训练的模型，旨在解决自媒体创作、直播和运营等领域缺乏专业训练数据的问题。该模型首先在大规模自媒体语料上进行连续预训练，然后利用 ChatGPT 收集了一批关于自媒体知识问题的分析和回答，并使用这些数据对以 Chinese-LLaMA-7B 为基础进行指令微调，使其习得如何将自媒体知识应用到实际场景中。Media LLaMA 掌握自媒体知识，能够以通俗易懂的语言解释自媒体概念，并进行基础的自媒体运营咨询，涵盖内容创作、平台运营、广告投放等领域。

参考：
https://mp.weixin.qq.com/s/tHTHrJMnH8I8QC33wu6zJQ

https://sota.jiqizhixin.com/implements/irlab-sdu

欢迎各位关注我的个人微信公众号：HsuDan，我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。