2022 年 11 月,美国 AI 公司 Open AI 发布旗下 AI 聊天机器人程序 ChatGPT,该程序基于大型语言模型(LLM,Large Language Model) GPT-3.5,使用指令微调 (Instruction Tuning)和基于人类反馈的强化学习技术(RLHF,Reinforcement Learning with Human Feedback)训练而成。在发布后的短短两个月内,ChatGPT 的月活用户突破 1 亿,成为史上用户增长速度最快的消费级应用程序。
在随后的时间内中国本土厂商积极跟进,相继推出基于大模型的 AI 应用产品。 自 ChatGPT 发布以来的半年多时间内,中国本土各类型厂商已经发布近 80 款参 数量在十亿量级以上的大模型,其中不乏华为、阿里、腾讯等互联网大厂,亦有 三六零、科大讯飞等在 AI 领域拥有深厚经验积累的厂商,同时还有复旦大学、 清华大学等高校机构。
大模型是指模型具有庞大的参数规模和复杂程度的机器学习模型。在深度学习领域, 大模型通常是指具有数百万到数十亿参数的神经网络模型。这些模型通常在各种领域,例如自然语言处理、图像识别和语音识别等方面,表现出高度准确和广泛的泛化能力。大模型按照功能可分为 NLP 大模型、CV 大模型、科学计算大模型和多模态大模型。如今大模型支持的模态数量更加多样,从支持文本、图片等单一模态下的单一任务,逐渐发展成支持多种模态下的多种任务:
• NLP(Natural Language Processing,自然语言处理)大模型:LLM 为 NLP 大模 型的一种,主要用于处理自然语言文本数据,具备强大的语言理解和生成能力, 帮助人类完成问答、创作、文本等工作,例如 Open AI 的 GPT 系列模型;
• CV(Computer Vision,计算机视觉)大模型:主要用于处理图像和视频数据,具备强大的图像识别和视频分析能力,如人脸识别、物体检测等,具体可以在智能驾驶、安防等领域进行利用,例如腾讯的PCAM大模型;
• 科学计算大模型:主要用于解决科学领域的计算问题,如生物信息学、材料科学、 气候模拟等,需要处理大规模数值数据,例如华为的盘古气象模型;
• 模态大模型:可以同时处理多种类型的模态数据,如文本、图像、语音等,实现 跨模态搜索、跨模态生成等任务,已有的渗透应用具体包括搜索引擎、办公工具、 金融电商等,例如谷歌的Vision Transformer 模型。
中国 AI 大模型的行业参与者主要是以商汤科技、度小满、滴普科技为代表的科技型企 业,以及百度、腾讯、阿里和华为为代表的互联网云厂商。
1、商汤科技 AI 大模型
商汤打造新型 AI 基础设施 SenseCore 大装置,在此基础上构建 SenseNova 日日新大 模型体系,推进自身 AGI 发展战略的同时,也为行业提供大模型训练、推理、算法 以及数据服务。
- 商汤大装置助力日日新大模型体系下大语言模型及文生图模型的研发
商汤投入打造出国内最大的人工智能基础设施 SenseCore,以实现生产工业级人工 智能模型的目标,赋能自身及客户生产满足自身需求的细分领域产品。整个 AI 大装置由模型层、深度学习平台、计算基础设施三个部分架构而成,带动 AI 生 产在规模、性能、速度等方面的提升。基于大装置,商汤拥有了大模型生产的核 心平台,不仅对内支持打造了日日新大模型体系,同时具备对外提供大模型训练 赋能的服务,包括从工程开发到生产部署。
商汤借助 SenseCore 大装置的丰沛算力,加快推进日日新大模型体系下大语言模 型及文生图模型的研发,积极拓展生成式 AI 的应用生态。SenseCore 商汤大装置 持续升级,截止 2023 年 6 月底,上线 GPU 数量已经达到 30000 块,算力规模达 到 6ExaFLOPS,同时,商汤正在扩建四个智算中心的节点,分别在广州、重庆、 深圳和福建。2023 年以来,共有超 1000 个参数量数十亿至上千亿的大模型在 SenseCore 商汤大装置上完成训练,实现了领跑行业的技术迭代进度,支持了数十 款生成式 AI 应用。基于此,商汤快速建立了一套有效迭代大模型能力的软硬结 合的全栈体系。
- 全面构建日日新大模型应用矩阵,基于基模型进行快速迭代
商汤商量语言大模型在金融、医疗、汽车、地产、能源、传媒、工业制造等众多垂 直行业与超过 500 家客户建立了深度合作,通过提供多种灵活的 API 接口和服务, 为客户提供大模型的各项 AI 技术和服务,低门槛、低成本、高效率地实现各类生成 式 AI 应用。商量推出了基于不同参数量级的多尺寸模型版本,可适用于不同终端和 场景的应用需求,支持简体中文、繁体中文、英语等多种语言交互,支持粤语等方 言交互。同时,模型还可快速挂载和融合知识库进行知识领域的扩展。此外,商汤 秒画文生图大模型已服务超过 60 家企业级客户,行业涵盖建筑、营销、教育、娱乐、 游戏、汽车、文创、文旅等产业累计近百万用户注册并体验网页端产品,每日调用量超十万次。商汤秒画内置全新美学引导系统,并整合了 ControlNet 提高创作效率。 秒画已上线移动端版本,免费开放专为手机使用习惯设计,通过手机登录商汤秒画官网可随时随地开展文生图创作。
除了备受关注的大语言模型和文生图模型这两个重点项目,商汤还面向不同的行业和领域,推出一系列大模型产品,如气象大模型、遥感大模型、还有获得 CVPR最佳论文的自动驾驶大模型等。商汤还推出了一系列的生成式 AI 应用,包括如影、琼宇、格物,分别对应着数字人、3D 大场景重建、3D 小物体生成等生成式 AI 应用。
- 明确迭代发展目标,从算力、数据、训练三个层面打造全球领先的基模型
AGI 催生了新的研究范式,即基于一个强大的多模态基模型,通过强化学习和人类 反馈不断解锁基模型新的能力,从而更高效地解决海量的开放式任务。通用人工智能将实现从“数据飞轮”到“智慧飞轮”的演进,最终迈向人机共智。
基于 SenseCore 商汤大装置,商汤打造了一整套工程化系统支撑大模型的快速迭代, 实现敏捷、低成本、大批次地做模型迭代。另外,商汤构建了高质量、大规模的训 练数据,通过算法结合人工的方式,对原始语料数据来做分门别类的精细化的清洗, 通过高精度的分类器筛选出高价值的数据,对特定类别的数据进行人工标注,确保训练数据的质量、安全性和价值观都符合要求。当前,商汤的高质量训练数据的每个月产出量,已经达到了 2 万亿 token。预计 2023 年底高质量数据的储备量,可以 突破 10 万亿 token,支持商汤构建更强大的基模型。
2、度小满 AI 大模型
度小满深耕金融科技领域多年,具备金融数据集优势,以“通用大模型+自有行业数 据”的方式构建金融行业大模型“轩辕”,该模型在通用领域和金融场景的评测中表现出色。
- 度小满具备金融行业数据集优势,打造金融领域垂直大模型
度小满依托百度人工智能技术,探索大模型在金融领域的应用。作为百度文心一 言的首批合作伙伴,度小满结合业务场景积累的金融专用知识数据进行交互式训练,打造金融领域垂直大模型。
度小满深耕金融行业多年,拥有海量专用训练数据集。业务涵盖信贷、财富管理、 支付、保险、个人金融科技和供应链金融科技等六个板块,合作的金融公司包括 工商银行、农业银行、易方达基金、中国人寿等数百家知名银行及持牌机构,拥有金融研报、股票、基金、银行、保险等方向的专业知识。这些大量的金融对话数据被通用大模型在金融领域进行特定的预训练调优,使得轩辕大模型在金融内容的理解上和生成上具备卓越能力。另一方面,度小满拥有专业的金融数据,这 依托于此前百度搭建的金融生态,包括面向大众的消费信贷服务、理财平台“度 小满理财”和支付平台“度小满钱包”。此外,度小满将轩辕大模型开源,有助于降低大模型在金融场景中的应用门槛。并且借助生态伙伴的技术加持,提升大模型技术成熟度,成熟的大模型也能促进金融行业服务效率和体验的突破性革新。
- 轩辕大模型在通用领域和专业金融领域均表现出色
2023 年 9 月,度小满“轩辕-70B”金融大模型在 C-Eval 和 CMMLU 两大权威榜单上位列所有开源模型第一。轩辕-70B 是首个拥有 70B 参数量级,并且上下文长度能 够达到 8k 以上的开源大模型,在逻辑计算和编程方面展示出了强大实力。从主观测 试结果看,轩辕-70B 能够自动式输出编程代码,给出准确的数据计算答案和清晰的 解题思路,同时也能做好隐私保护。从评测榜单结果看,轩辕-70B 在 C-Eval、 CMMLU 两大权威开源模型评测中地位领先,分别以总成绩 71.9 和 71.1 的高分位居 榜首,也再次展现出其在中文语义理解和推理方面,以及在人文社科等通识学科方 面具备明显优势。
轩辕-70B 深度掌握金融专业知识,具备领先的金融能力。在金融应用场景中,大模 型的效用往往取决于其对金融专业知识的掌握程度。轩辕-70B 的强项还在于拥有专业的金融能力,受益于预训练和微调阶段海量金融专业语料库的训练,里面囊括了 理财、信贷、保险和投资方面相关专业知识。为此,轩辕-70B 在注册会计师考试 (CPA)、银行/证券/保险/基金/期货从业资格、理财规划师、经济师等金融领域十 大类权威考试中,都能提供专业的支持和解答。从评测结果看,该模型在特定中文 金融领域知识评估数据集测试中以 67.56 平均分位居首位,超越了 GPT4 等一众开闭源模型。这一结果不仅验证了该模型在金融各子领域的深度理解和应用能力,也 标志着它能够为金融行业提供一体化、系统性的专业支持。在应对金融知识类问题 时不仅能给出准确答案,还附带深入解析每个要素的具体含义和重要性;并且处理 金融计算类问题也能够展示逻辑推理过程。
“轩辕-70B”特地制定的中文金融领域知识评估数据集:涵盖了 10 个金融大类以及 36 个金融小类,包括 7173 个单项选择题,全面覆盖了从注册会计师(CPA)考试到银行、 证券、保险、基金、期货从业资格,再到理财规划师、经济师等多个权威金融认证。
3、腾讯 AI 大模型
腾讯 MaaS 依靠腾讯云 TI 平台建造行业大模型精选商店,基于腾讯 HCC 高性能计 算集群,提供一站式大模型服务。
- 腾讯云大模型解决方案
腾讯云依托于 TI 平台打造行业大模型精选商店,为用户提供 MaaS 一站式服务。 在平台层面,腾讯云 TI 平台内置包含金融、政务、文旅、传媒及教育等多个场景 的行业大模型,并开放支持客户多模型训练任务,满足个性化需求。另外,腾讯 云 TI - ONE 平台提供完善的大模型工具链,包括数据标注、训练、评估、测试和 部署等全套工具,并具备强大的多机多卡训练加速能力,用户可以在 TI - ONE 平 台快速进行一站式大模型精调。由 TI-ACC 提升的 “太极拳Angel” 提供更优质的 练习和逻辑推理加快能力。在以往 CV、NLP 优化算法模型的前提下,增加了对 于模型的练习和逻辑推理加快能力,根据多线程生产调度提升、显卡内存提升、 测算提升等形式,对比行业常见计划方案性能增加 30%。
- 腾讯云 MaaS 架构
- 腾讯云 MaaS 的内部实践,重塑 PaaS/SaaS 产品
腾讯在 AI 技术领域有长期投入和积累,过去很多的 AI 技术能力,都率先在内部产 品中进行应用。腾讯云 MaaS 内部实践,一方面,既能够验证腾讯云MaaS 服务的可 用性、易用性。另一方面,也将腾讯云更多开箱即用的产品、服务,向客户开放, 推动大模型在实际生产、运营场景发挥效用。
例如,围绕客服场景,腾讯企点发布全新一代智能客服,引入大模型能力,针对对 话交互、人工辅助和知识构建三个层面进行提升。此后,腾讯进一步升级了管理端 配置能力,提升知识构建效率,优化 C 端用户体验。同时,腾讯也积极与各行业各 领域进行产业实践,在文旅、政务、地产等领域落地应用。
- 腾讯云将 AI 大模型能力应用到更广泛的 PaaS、SaaS 产品