(图片由大模型生成,如有侵权,立删)
记得一年多以前,和不少商家交流大模型解决方案时,他们谈到内部有很多的资料,可以对大模型进行训练,让大模型变得更有智慧,从而为客户提供贴心而专业的服务,但是又不希望这些资料被泄漏出去,所以要求第一是本地化部署大模型,第二是专业化训练方面实现两个“便”,即“简便”而且“便宜”。第一点在当时勉强可以做到,但是要花不少钱,因为相当于把大模型开发运行的整套环境从大厂搬到客户那里去,第二点就更难做到了。
近年随着大模型开源软件如雨后春笋般越来越多,我们已经可以在手提电脑上本地运行大模型,并且对这些大模型方便地进行个性化的训练,当然手提电脑上运行大模型的参数规模不能过大,以我的手提电脑为例,Apple M2的芯片,8核GPU,16G内存,可以轻松地跑动通义千问70亿参数(它最低显存要求16.7G,精调要求20G),以及LLama的80亿参数的大模型,更大的大模型如通义千问140亿参数、720亿参数(它推理显存要求143G)就跑不动了,如果本地部署用更强的机器,则这些大参数的模型运行起来估计将不是问题。另外大模型有时会出现胡说八道的现象,如何减少这种幻觉?现在也有开源的LangChain等软件,可以进行本地化RAG(Retrieval Augmented Generation)检索增强生成,即为大模型提供外部的知识源,从而使它能够生成准确且符合上下文的答案。
具体测试环境的配置这里不再详述,有兴趣的读者可以参考文后列出的文档链接1和2。个性化的训练找什么方向?对于应答类的大模型,商家一般希望它可以当线上客服或者专家,但是需要有与行业相关的知识库,我就在网上搜索了一份唐诗宋词鉴赏的文章,尝试把大模型训练成语文老师吧。先用了LLama,发现它毕竟是Meta公司开源的产品,回答问题动不动就冒出一句英文,相当于让老外来当语文老师,肯定没有中国人合适呀,所以最终选择了通义千问70亿参数的开源大模型。对比训练前后的效果,通义千问在唐诗宋词的知识方面进步明显,举例说明:
一、关于杜甫
文章中写道“杜甫(712-770),字太美,祖籍襄阳,生于河南巩县,是初唐著名诗人杜审言的孙子。杜甫是中国古代最伟大的现实主义诗人,他的诗反映了唐代安史之乱前后广阔的社会生活,富于变化,千锤百炼,意到笔随。杜甫善于用诗歌叙事,他的五言、七言长篇古诗标志着我国古代诗歌叙事艺术的高度成就。杜甫迭经盛衰乱,饱受艰难困苦,写出了许多反映现实忧国忧民的诗篇,被称为‘诗史’。”
于是我问通义千问:“谁的诗被称为‘诗史’?”
a.训练前的回答是:
通义千问机灵地判断出我问的是杜甫,从社会历史和个人生活两方面对杜甫的诗句进行了分析,虽然没有扣题“诗史”,但也没有犯错。
b.训练后的回答是:
“杜甫的诗歌反映了唐朝社会的真实面貌,包括政治动荡、民生疾苦、历史事件等。他的作品被誉为‘诗史’,在文学史上具有重要地位。”这个回答明显受到了训练文章的影响,但也没有照抄文章中的语句,但表达的意思是一样的。这一次算打个平手1:1吧。
二、关于李白
谈完杜甫,自然要谈谈李白,文章中写道:“李白(701-762),字太白,号青莲居士。生于绵州彰明县青莲乡。李白青年时即漫游全国各地,天宝初年,因吴筠及贺知章推荐,唐玄宗召为翰林供奉承,但不久又赐金放还。安史之乱后,被牵连累,长流放于夜郎。晚年漂泊东南一带,依附当涂令李阳冰,公元762年病死于当涂。李白才华横溢,性格豪放,刻苦向前人学习,善于从民间文学中汲取营养和素材。他的诗风格豪放,雄奇壮丽,表现了浪漫主义色彩,是继屈原之后我国古代最伟大的浪漫主义诗人。被后人称之为‘诗仙’。”
问通义千问:“谁被长期流放于夜郎?”
a.训练前的回答是:
“西汉时期,臣子司马贞所著《史记》中记载了刘邦的儿子刘发(即后世的长沙王吴芮)曾被封为夜郎侯,但并未被流放至夜郎。这个记载是出于对历史人物和事件的描述,并非真实的流放事件。”这个答案把《史记》作者司马迁的名字都弄错了,实在不应该。查了一下刘发的历史记载:刘发(?~前129年),汉族,西汉宗室,汉景帝刘启第六子,东汉皇帝直系祖先,光武帝刘秀与更始帝刘玄五世祖。前元二年(前155年),以皇子的身份受封为长沙王。后元二年(前142年),增加武陵郡、零陵郡、桂阳郡为长沙国属地。元光六年(前129年)去世,谥号为定,史称“长沙定王”。
数了一下辈分,刘邦是刘发的曾祖父,也没有被封为夜郎侯,大模型又出现了幻觉。
b.训练后的回答是:
真的是言简意赅,就不能多说两句吗?好吧,语文老师胜出,2:1。
三、上难度,分析诗句
文章中对《西施咏》进行了赏析
西施咏
王维
艳色天下重,西施宁久微。
朝为越溪女,暮作吴宫妃。
贱日岂殊众,贵来方悟稀。
邀人傅脂粉,不自著罗衣。
君宠益娇态,君怜无是非。
当时浣纱伴,莫得同车归。
持谢邻家子,效颦安可希!
【赏析】:这是一首借咏西施,以喻为人的诗。朝为越溪女,暮作吴宫妃写出了人生浮沉,全凭际遇的炎凉世态。诗开首四句,写西施有艳丽的姿色,终不能久微。次六句写西施一旦得到君王宠爱,就身价百倍。末了四句写姿色太差者,想效颦西施是不自量力。实是讽刺那些靠机缘而显贵的人。语虽浅显,寓意深刻。沈德潜在《唐诗别裁集》中说:“写尽炎凉人眼界,不为题缚,乃臻斯诣。”此言颇是。
问通义千问:“朝为越溪女,暮作吴宫妃”写的是什么内容?
a.训练前的回答是:
有那么点意思,不过没有判断出来诗句写的是西施,给个0.5分吧。
b.训练后的回答是
“‘朝为越溪女,暮作吴宫妃’这句话描述了西施人生境遇的转变。她早上还是越溪边的普通女子,到了傍晚却已经成为吴王宫中的妃子。这种人生浮沉,全凭际遇的变化,体现了人生的无常和世态炎凉。”这个答案判断出是关于西施的诗句,内容分析得也不错,这一轮还是语文老师胜出,3:1.5。
四、查询古文的出处
文章中提到“杜甫‘望岳’诗共三首,这一首是写望东岳泰山的。沈德潜《唐诗别裁》说:齐鲁青未了五字已尽泰山。诗以‘望’入题,希望凌顶而小天小,以抒雄心壮志。前两句,开门见山,写泰山的高峻伟大,先写对它的仰慕,再写它横跨齐鲁两地的壮伟。三、四句写近望,所见泰山的神奇秀丽和能分割日夜的巍峨形象。五、六句写遥望,见山中云气层出不穷,归鸟入林。最后两句写望岳而生登临峰顶之意愿。显示出他坚韧不拔的性格和远大的政治抱负。‘会当凌绝顶,一览众山小’千百年来为人们传诵。”
问通义千问:“齐鲁青未了五字已尽泰山,这句话的出处?”
a.训练前的回答是:
“‘齐鲁青未了,五岳归来不看山。’这句话是唐代诗人杜甫在《望岳》一诗中描绘泰山景象的名句。”知道和杜甫的《望岳》有关,但是把徐霞客《漫游黄山仙境》的名句加在后面是怎么回事?
b.训练后的回答是:
“沈德潜《唐诗别裁》中提到‘齐鲁青未了五字已尽泰山’,这是对杜甫诗句的解析,认为这五个字已经充分展现了泰山的雄伟。”回答得不错,语文老师又一次胜出,4:1.5。
五、语文老师也出现了幻觉
看看李白的《月下独酌》
月下独酌
李白
花间一壶酒,独酌无相亲。
举杯邀明月,对影成三人。
月既不解饮,影徒随我身。
暂伴月将影,行乐须及春。
我歌月徘徊,我舞影零乱。
醒时同交欢,醉后各分散。
永结无情游,相期邈云汉。
【赏析】:原诗共四首,此是第一首。诗首四句为第一段,写花、酒、人、月影。诗旨表现孤独,却举杯邀月,幻出月、影、人三者;然而月不解饮,影徒随身,仍归孤独。因而自第五句至第八句,从月影上发议论,点出“行乐及春”的题意。最后六句为第三段,写诗人执意与月光和身影永结无情之游,并相约在邈远的天上仙境重见。全诗表现了诗人怀才不遇的寂寞和孤傲,也表现了他放浪形骸、狂荡不羁的性格。邀月对影,千古绝句,正面看似乎真能自得其乐,背面看,却极度凄凉。
问通义千问:“哪一首诗写了花、酒、人、月影?”
a.训练前的回答是:
嗯,对唐诗知道得挺多,而且喜欢胡说八道。
b.训练后的回答是:
“李白的诗写了花、酒、人、月影。他的五言古诗《望岳》中就有这样的描述:‘岱宗夫如何,齐鲁青未了。造化钟神秀,阴阳割昏晓。荡胸生层云,决䀝入归鸟。’”前半句还回答得不错,怎么后半句也乱说呢?这次只能得0.5分,最终语文老师以4.5:1.5胜出。
综上所述,通过LangChain的RAG训练后的模型,的确可以大大提升其回答问题的准确度,但偶尔也会出现幻觉,而且其回答的内容是经过重新编排的,对于法律(例如订金和定金的法律含义就完全不同)、医学等叙述要求严谨的应用场景,需要做更多训练和调优的操作。另外LongChain也逐渐受到了部分开发团队的诟病,认为其过于抽象,无法实现高级功能,未来是否会出现更好的开发框架,我们拭目以待。
中国大模型2C市场正在进入砸钱引流量的阶段,经历过当年移动互联网APP推广的读者是不是觉得似曾相识?不少公司开始盯上了海外的2C市场,如Gauth、Questio.AI和Answer.AI等AI教育产品霸榜美国市场。相对而言,大模型在中国2B市场的落地才刚刚开始,“百模大战”已经拉开帷幕,低价竞争初显峥嵘。对于中小企业市场而言,基于开源大模型的个性化训练,是否会催生一批的服务商呢?类似于当年为Linux提供企业服务的RedHat,或者是为SAP提供实施落地的一批咨询公司。然而大模型的技术突飞猛进,一旦有新的惊人产品出现,比如大家都在期待的ChatGPT5,一切原先的构想都有可能推倒重来。痛并快乐着,一切皆有可能,这或许正是大模型的魅力所在吧。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。