本地离线模型搭建指南-中文大语言模型底座选择依据

搭建一个本地中文大语言模型(LLM)涉及多个关键步骤,从选择模型底座,到运行机器和框架,再到具体的架构实现和训练方式。以下是一个详细的指南,帮助你从零开始构建和运行一个中文大语言模型。

本地离线模型搭建指南将按照以下四个部分展开

  1. 中文大语言模型底座选择依据
  2. 本地运行显卡选择
  3. RAG架构实现
  4. LLaMA-Factory训练框架及工具

1 中文大语言模型底座选择依据

在选择中文大语言模型(LLM)的底座时,可以参考以下几个关键因素:

1.1 模型规模与参数

根据具体应用场景选择不同规模的模型。比如:

  • ChatGLM系列:包含6B参数的模型,适合中小规模应用,且支持商业用途。
  • LLaMA系列:提供7B、8B、13B、33B和70B等多种规模,部分版本可商用。
  • Baichuan系列:提供7B和13B参数的模型,适合需要较大规模的应用。
  • Qwen系列:提供7B、14B、72B和110B参数的模型,支持较长的上下文长度,适合复杂场景。
  • BLOOM:从1B到176B-MT,多种规模选择。
  • Aquila系列:包括7B和34B参数版本。
  • InternLM系列:从7B到20B参数,支持代码应用。
  • Mixtral、Yi、DeepSeek、XVERSE等:提供多种参数规模,适合不同应用需求。

在这里插入图片描述

常见底座模型细节概览:

底座包含模型模型参数大小训练token数训练最大长度是否可商用
ChatGLMChatGLM/2/3 Base&Chat6B1T/1.42K/32K可商用
LLaMALLaMA/2/3 Base&Chat7B/8B/13B/33B/70B1T/2T2k/4k部分可商用
BaichuanBaichuan/2 Base&Chat7B/13B1.2T/1.4T4k可商用
QwenQwen/1.5 Base&Chat7B/14B/72B/110B2.2T/3T8k/32k可商用
BLOOMBLOOM1B/7B/176B-MT1.5T2k可商用
AquilaAquila/2 Base/Chat7B/34B-2k可商用
InternLMInternLM/2 Base/Chat/Code7B/20B-200k可商用
MixtralBase&Chat8x7B-32k可商用
YiBase&Chat6B/9B/34B3T200k可商用
DeepSeekBase&Chat1.3B/7B/33B/67B-4k可商用
XVERSEBase&Chat7B/13B/65B/A4.2B2.6T/3.2T8k/16k/256k可商用

1.2 训练数据与Token数

不同模型经过不同规模的数据训练,影响其在特定任务上的表现:

  • ChatGLM:经过1到1.4T的中英文标识符训练,适合中文问答和对话。
  • LLaMA:经过1T到2T的训练。
  • Baichuan:训练数据在1.2T到1.4T之间。
  • Qwen:训练数据量高达2.2T到3T,支持复杂任务。
  • BLOOM:经过1.5T的训练。
  • XVERSE:训练数据量达2.6T到3.2T。

1.3 上下文长度支持

根据应用需求选择支持较长上下文长度的模型:

  • ChatGLM2-6B:上下文长度扩展到32K。
  • Qwen:支持8K到32K的上下文长度。
  • Mixtral、Yi、DeepSeek:支持200k到256k的上下文长度。

1.4 商业用途许可

确保所选模型允许商业用途:

  • ChatGLM、LLaMA、Baichuan、Qwen、BLOOM、Aquila、InternLM、Mixtral、Yi、DeepSeek、XVERSE等模型均允许商业用途。

1.5 垂直领域微调与应用

考虑模型在特定领域的微调效果:

  • 医疗、法律、金融、教育、科技、电商、网络安全、农业等领域的垂直应用。

1.6 具体模型推荐

以下是一些具体的模型推荐及其特点:

  • ChatGLM系列:适合中文问答和对话,经过中英文双语训练,支持商业用途。
  • LLaMA系列:提供多种规模,部分版本适合商用。
  • Baichuan系列:适合需要较大规模训练的应用。
  • Qwen系列:支持复杂任务和长上下文长度。
  • InternLM系列:适合代码相关应用。

更多详细信息和具体模型的链接,请访问 Awesome-Chinese-LLM 项目。

下一篇介绍
本地离线模型搭建指南-本地运行显卡选择

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/858431.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

鸿蒙开发系统基础能力:【@ohos.hiAppEvent (应用打点)】

应用打点 本模块提供了应用事件打点能力,包括对打点数据的落盘,以及对打点功能的管理配置。 说明: 本模块首批接口从API version 7开始支持。后续版本的新增接口,采用上角标单独标记接口的起始版本。 导入模块 import hiAppEve…

基于 Java 实现的智能客服聊天工具模拟场景

服务端代码 import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.net.ServerSocket; import java.net.Socket;public class Server {public static void main(String[] args) throws IOE…

今日分享:中国石油年金系统交互、视觉设计和vue开发

金融系统交互及UI设计时,需注意简洁明了、色彩合理、字体统一、交互易用、安全感和用户控制。确保用户快速理解、安全操作并提升体验。

数据结构~~时间、空间复杂度

目录 一、什么是数据结构 什么是算法 算法的复杂度 二、时间复杂度 三、空间复杂度 四、总结 一、什么是数据结构 数据结构(Data Structure)是计算机存储、组织数据的方式,指相互之间存在一种或多种特定关系的 数据元素的集合。 数据结构关注的是数据的逻辑结…

快速搭建Jenkins自动化集成cicd工具

一、简介 jenkins是一款优秀的自动化持续集成运维工具,可以极大的简化运维部署的步骤。 传统的项目部署需要手动更换最新的项目代码,然后打包并运行到服务器上。 使用Jenkins可以自动化实现,当代码编写完成并提交到git后,Jenki…

通过 cloudflare 白嫖个人 docker 镜像加速服务

不知为何,现在大多数的 docker hub 镜像加速站都停止服务,而官方站点又因某些原因访问不到或延迟很高。所以,今天来记录一种通过 CloudFlare 搭建一个自己的镜像加速服务。 0、必看!!! 注意: 此…

pywebview打包本地的html

51.安装 pip install pywebview 2.新建start.py import webview import timeclass API:def say_hello(self, name):time.sleep(2) # 模拟一个耗时操作return fHello, {name}!def main():api API()webview.create_window(pywebview Example, index.html, js_apiapi)webview.…

抛弃Mybatis,拥抱新的ORM 框架!【送源码】

背景 转java后的几年时间里面一直在寻找一个类似.net的orm,不需要很特别的功能,仅希望90%的场景都可以通过强类型语法来编写符合直觉的sql,来操作数据库编写业务。 但是一直没有找到,Mybatis-Plus的单表让我在最初的时间段内看到…

利用golang_Consul代码实现Prometheus监控目标的注册以及动态发现与配置

文章目录 前言一、prometheus发现方式二、监控指标注册架构图三、部分代码展示1.核心思想2.代码目录3、程序入口函数剖析4、settings配置文件5、初始化配置文件及consul6、全局变量7、配置config8、公共方法目录common9、工具目录tools10、service层展示11、命令行参数12、Make…

Qt异常处理

初步警告:异常安全功能不完整!一般情况下应该可以工作,但类仍然可能泄漏甚至崩溃。 Qt本身不会抛出异常。而是使用错误码, 但是C可能会抛出异常。此外,有些类有用户可见的错误消息,例如QIODevice::errorString()或QSqlQuery::lastError()。这…

Android笔记-安装Termux开启ssh,安装vim、android-tool、python等

背景 家里面有个老手机,想将此手机做成一个家庭服务器。控制各种家电。目前准备先控制电视机 流程 用电脑usb连接手机,下载好Termux,在安卓手机上安装好。这里就不记录笔记了,各个手机不一样。 安装好进入手机后: …

Java短路逻辑运算符

Java中的运算符还有短路运算符。 其中就有符号 && 和 || 符号 作用 说明 && 短路与 结果和&相同,但是有短路效果 || 短路或 结果和|相同,但是有短路效果 注意事项: &和|&…

SIM卡将成为历史

近期苹果发布了全新款的 iPad Pro 和 iPad Air,这些新品不仅在性能和设计上带来了令人惊叹的进步,还悄然迎来了一项重要改变:eSIM 技术的支持。此次发布的蜂窝版本 iPad Pro 和 iPad Air 都不再配备物理 SIM 卡槽,这标志着苹果在推…

mfc140.dll是什么文件?mfc140.dll文件下载安装办法

一、mfc140.dll文件功能与作用 mfc140.dll作为Microsoft Foundation Classes库的一部分,提供了一系列的基础功能,这些功能对于开发Windows桌面应用程序至关重要。 2.1 应用程序框架 mfc140.dll封装了应用程序的生命周期管理,包括初始化、运…

Gorm 基础:表映射

这篇文章将以创建事件时间记录功能为示例,介绍如何使用 Gorm 完成数据库表的基本映射、简单的创建表数据操作和注意事项。 数据库表设计 设计一个事件时间记录功能通常需要记录事件的开始时间、结束时间和事件类型,以及一些额外的功能,像事…

代码生成技术技术-janino

文章目录 背景简单例子flink 例子 背景 代码生成技术适合在需要动态代码编译的场景中使用。比如大数据计算场景下,经常会要把flink sql 转成实际的执行计划 简单例子 代码是一个string 类型,直接用janino 编译后,就可以得到加载到jvm里的c…

北京地铁用什么数据结构来处理

北京地铁信息查询系统或相关数据分析系统可能会使用多种数据结构来高效地处理和存储信息。以下是几种可能用到的数据结构及其用途: 图(Graph):北京地铁线路可以被建模为一个有向加权图,其中每个站点是一个节点&#xf…

赶论文不用愁:如何利用ChatGPT在3小时内完成论文

在这份指南里,我将详细介绍如何运用ChatGPT 4.0的高级功能来辅助学术研究与文章写作。从挖掘研究课题的初步想法开始,到撰写一篇内容深刻、结构完整的学术论文,我将逐步演示如何在研究的各个阶段中充分利用ChatGPT。值得一提的是,…

编程精粹—— Microsoft 编写优质无错 C 程序秘诀 07:编码中的假象

这是一本老书,作者 Steve Maguire 在微软工作期间写了这本书,英文版于 1993 年发布。2013 年推出了 20 周年纪念第二版。我们看到的标题是中译版名字,英文版的名字是《Writing Clean Code ─── Microsoft’s Techniques for Developing》&a…

POSTMAN接口详解

Postman接口详解 Postman 是一个流行的API开发工具,广泛应用于测试、开发和文档编写。它支持发送各种HTTP请求,管理请求参数、标头、认证和脚本,帮助开发者快速调试和验证API接口的正确性。以下是对Postman接口的详细讲解。 Postman基本功能…