人工智能在先进技术的应用

前言

总的来说，人工智能已经深入到了人们的生活中了，尤其是自ChatGPT出现以后。

介绍

人工智能是一个涵盖多个领域和技术的综合性学科，包括但不限于以下几个主要课程：

机器学习：机器学习是人工智能的核心技术之一，涉及数据分析、模式识别、统计学等领域，通过算法和模型学习数据的规律和特征，实现自动化的决策和预测。

深度学习：深度学习是机器学习的一个分支，主要基于神经网络模型，通过多层次的神经元网络结构实现复杂的数据特征提取和模式识别，已在图像识别、语音识别、自然语言处理等领域取得显著成就。

自然语言处理：自然语言处理是研究计算机如何理解和处理人类语言的技术领域，包括语义分析、语音合成、信息检索等技术，应用于智能对话系统、机器翻译、文本挖掘等领域。

计算机视觉：计算机视觉是研究如何让计算机“看懂”图像和视频的技术领域，涉及图像处理、目标识别、物体检测等技术，应用于人脸识别、无人驾驶、医学影像分析等领域。

强化学习：强化学习是一种通过智能体与环境互动学习来获取最佳决策策略的技术方法，包括马尔科夫决策过程、Q学习、深度强化学习等算法，应用于智能游戏、自动控制、金融交易等领域。

在先进技术的应用

ChatGPT：AI大模型

参考：人工智能行业深度报告：ChatGPT引发的大模型时代变革

参考：国内AI大模型综述：ChatGPT取得突破性进展，国内大模型争相发布

ChatGPT 是由 OpenAI 研发的一种语言 AI 模型，使用海量语料库来生成与人类相似的反应。ChatGPT 是基于 GPT（generativef pretrained’ transformer）架构搭建的，主要用深度学习来生成连贯且具有意义的文字。连贯且具有意义：意味着在同一个会话中，AI会联系上下文，来知道发问人的意图。从使用效果上，交流通畅，同时能够实现写诗、撰文、编码的功能。

简单说一下：国内外 AI 大模型项目。

MT-NLG：微软英伟达强强联手，软硬结合引领行业新景。
2021 年 10 月 11 日，微软和英伟达推出由 DeepSpeed 和 Megatron 驱动的 Megatron-Turing 自然语言生成模型（MT-NLG）, 具有 5300 亿个参数。MT-NLG 的参数数量是当时该类型最大模型的 3 倍，并且在广泛的自然语言任务中如阅读理解、常识推理、自然语言推理、词义消歧等方面表现出较强的准确性。基于 105 层 transformer 的 MT-NLG 在多个方面方面改进了当时最先进模型，并为大规模语言模型在模型规模和质量方面设置了新标准。硬件方面，模型训练是在基于 NVIDIA DGX SuperPOD 的 Selene 超级计算机上进行的，实现的系统吞吐量为：420 台 DGX A100 服务器上考虑了 5300 亿参数模型（批量大小为 1920 ）的系统端到端吞吐量，迭代时间为 44 . 4 秒、GPU 113 万亿次/秒。

Switch Transformers：Google 推出的首个万亿级语言模型。
相比 1750 亿参数的 GPT-3，谷歌 Switch Transformers 则直接将该数值拉升至 1.6 万亿，且相比于 OpenAI 在 GPT-3 里所使用的 Sparse Attention，需要用到稀疏算子而很难发挥 GPU、TPU 硬件性能的问题。Switch Transformer 不需要稀疏算子，可以更好的适应 GPU、TPU 等硬件。

目前，国内已有百度、阿里巴巴、腾讯、华为等公司对 AI 大模型进行开发，各模型系列主要的 NLP 语言大模型、CV 大模型、多模态大模型也已推出并实现部分应用落地。

百度文心大模型
模型简述：已拥有NLP、CV、跨模态、行业等多个AI大模型场景

模型toC应用：文心一言有望优化C端用户搜索、创作体验

百度已经推出对话式产品文心一言。文心一言可通过对话模式，帮助用户文学创作、商业文案创作、数理推算、中文理解、多模态生成等。例如文心一言发布会上案例，文心一言可以生成 2023 世界智能交通大会海报，解答“智能交通最适合”。

模型toB应用：开放 API 接口赋能企业，精调行业模型目前，百度开放大模型 API 接口，在文案、AI作画、开放域对话方面赋能开发者和企业。百度文心大模型开放了 NLP 大模型 ERNIE3.0、ERNIE-ViLG 文生图、对话大模型 PLATO。 ERNIE 3.0 提供文案改写、开放问答、摘要、文案创作、小说创作、文本补全等文本理解与创作能力。 ERNIE-ViLG 提供基于文本描述的 AI 作画能力。 PLATO提供生成式开放域对话服务，逻辑清晰、知识多元、情感丰富，闲聊能力接近真人水平。当前已经有 650家企业宣布接入文心一言生态，还有更多的企业在排队。据百度介绍，申请文心一言 API调用服务测试的企业已突破 6.5 万。

对于具体行业来说，百度也推出文心.行业大模型，进行行业精调。行业大模型是在百度通用大模型的基础上学习行业特色数据与知识，建设行业 AI 基础设施。

阿里巴巴通义大模型
模型简述：由通义-M6模型融合语言模型和视觉模型组成

通义大模型最早发布于 2022 年 9 月 2 日，在阿里达摩院主办的世界人工智能大会 “大规模预训练模型”主题论坛上。通义大模型实际上是由一系列模型组成，包括统一底座“M6-OFA”，三大通用模型“通义-M6”“通义-AliceMind”“通义- 视觉大模型”，以及行业层面的不同垂直领域专业模型。通义系列前身为 M6，是阿里达摩院研发的通用性多模态大模型，特点是训练能耗显著降低。M6 自 2020 年初正式启动研发，于 2021 年 1 月/3 月/5 月分别发布百亿/千亿/万亿参数多模态预训练模型。2021 年 10 月发布十万亿参数模型，并且支持使用 512 GPU 在 10 天内即训练出具有可用水平的 10 万亿模型，同等参数下相较于 GPT-3 能耗降低 99%。

M6 融合语言模型和视觉模型，形成当前的通义系列大模型。2022 年 1 月，阿里 M6 发布了统一大模型 M6-OFA，可以实现不同模型之间的模态表示、任务表示、模型结构的统一。以 M6-OFA 为统一底座，阿里巴巴将另外两大模型“AliceMind” “视觉大模型”与 M6 进行融合，形成了当前的通义系列架构。其中，通义 -AliceMind 为深度语言模型体系，包含了通用语言模型 StructBERT、生成式 PALM、结构化 StructuralLM、超大中文 PLUG 、多模态 StructVBERT、多语言 VEC 等多个不同模型，具有阅读、写作、翻译、问答、搜索、摘要生成、对话等多种能力；通义-视觉大模型包括文本到视觉生成、语言和视觉的模态映射两大基础模型，可以提供文生图等能力。

模型应用：率先应用在硬件终端天猫精灵和软件通义千问

硬件终端方面：天猫精灵基于通义大模型推出拟声助手“鸟鸟分鸟”。4 月 4 日，脱口秀演员鸟鸟在微博发布了一条关于天猫精灵的演示视频。根据公司和鸟鸟的介绍，“鸟鸟分鸟”是天猫精灵联合阿里达摩院，基于通义大模型，对鸟鸟录制的一个多小时音频进行学习训练而成。从形态上看，“鸟鸟分鸟”本身是一个对话机器人，具备多轮对话能力，并且还能利用搜索引擎等工具。个性化是“鸟鸟分鸟”最大特点，具备拟人化的音色、语气、表达方式。我们推测，这意味着通用大模型将有可能在表达方式层面实现较低成本的定制化。

对话式通义千问已经开始内测，包含 9 款“百宝袋”小应用。4 月 7 日，阿里云宣布大模型“通义千问”上线，并定向邀请企业用户进行测试。测试版的通义千问与 ChatGPT 和文心一言在界面上相似，都是采用问答对话的形式。此外，通义千问在对话模式之外，制作了 9 款称为“百宝袋”的小应用，可以分为三类：1）效率类：写提纲、SWOT 分析、商品描述生成；2）生活类：会放飞的菜谱、小学生作文、然后呢；3）娱乐类：彩虹屁专家、写情书、为你写诗。我们认为，未来阿里大模型有望添加至阿里系电商和钉钉等场景中，带动用户体验和效率的提升。

腾讯混元大模型
模型简述：热启动降低训练成本，文字视频等多领域表现优异

“混元”AI 大模型由 TEG 数据平台部和机器学习平台部联合主导，涵盖计算机视觉、自然语言处理、多模态内容理解、文案生成、文生视频等方向。“混元”AI 大模型由腾讯 17 级研究员/杰出科学家（腾讯史上最高专业职级）张正友博士带队，2022 年 4 月公司首次披露研发进展，目前已更新至 2.0 版本。性能上看，“混元”大模型在文字、视频等多个领域表现优异。其中 HunYuan-tvr 模型在文字和视频在全球最具权威的 MSR-VTT，MSVD，LSMDC，DiDeMo 和 ActivityNet 五大跨模态视频检索数据集榜单排名第一，实现该领域的大满贯； HunYuan-NLP 1T 模型在 CLUE（中文语言理解评测集合）总榜、分类榜和阅读理解榜排名第一。

技术上看，“混元”大模型基于腾讯太极机器学习平台研发，通过改进模型与算法，大幅降低训练成本。HunYuan 利用千亿小模型帮助万亿大模型完成启动，相较从 0 启动耗时短耗能低，仅用 256 卡，最快一天内即可完成万亿参数大模型 HunYuan-NLP 1T 的训练，整体训练成本仅为直接冷启动训练万亿模型的 1/8。

模型应用：已在广告游戏多场景落地，大幅提升效率并降低成本

腾讯广告业务：腾讯在广告业务中应用 AI 模型，助力广告主提升广告创作效率、提升广告推荐系统的内容理解能力，大幅提升了广告效率，实现降本增效。在混元 AI 大模型基础上建立“巨阙”广告内容理解、“乾坤”广告智能创作、“神针” 广告智能审核、“天印”广告指纹系统等四大技术平台，提升了广告系统的理解能力，让系统更加智能，从而提高用户体验以及广告转化效果与广告制作效率。

内容创作：腾讯智能创作助手文涌（Effidit）主要用途是帮助创作者开阔思路、提升创作后的文本水平和质量等，目前已经发布 2.0 版本。据官方介绍，文涌融合了知识抽取、文本理解、文本生成、大规模预训练模型、经典语言模型、搜索等技术，部分功能的实现使用“混元”系列 AI 大模型作为底层预训练模型。

游戏业务：腾讯近日提出基于 AI Bot 与 AIGC 两大方向的自研 3D 虚拟场景自动生成解决方案，帮助游戏开发者以更低成本创造风格多样、贴近现实的虚拟城市，大幅提升 3D 虚拟场景的生产效率。以 3D 虚拟城市道路布局设计为例，现有技术生成的路网通常横平竖直、风格单一，要实现不同城市风格必须手动设计和反复修改，耗时至少一周。腾讯解决方案只需用户输入城市主干道和海岸线，模型 1 分钟内即可填充合理、多样的路网细节并支持微调操作，相比现有技术下效率提升近 100 倍。

对话式智能助手：腾讯集合集团内资源与顶尖人才，正在全力打造类 ChatGPT 对话式产品。36 氪旗下媒体消息，腾讯类 ChatGPT 对话式产品项目组——腾讯混元助手项目组（HunyuanAide）于 2023 年 2 月已经成立。该项目组联合腾讯内部多部门构建大参数语言模型，目标是通过性能稳定的强化学习算法训练，完善腾讯智能助手工具，打造腾讯智能助手，并能成为国内的业界标杆，我们预计未来 AI 只能助手将广泛应用于腾讯系社交产品和办公产品等。

华为盘古大模型
模型简述：基于ModelArts研发设计的系列模型，NLP、CV等方向性能优越

“盘古”大模型由计算机视觉（CV）大模型、科学计算大模型、自然语言处理（NLP）大模型、多模态大模型组成，该模型由华为云人工智能领域首席科学家田奇带领的华为云 EI 盘古团队主导设计。“盘古”项目自 2020 年 11 月起立项，2021 年 4 月在华为开发者大会上首次正式发布，2023 年 4 月 8 日，团队介绍了盘古模型的应用进展，包括模型在物流、药物研发、气象预测等领域的落地。盘古模型基于华为一站式 AI 开发平台 ModelArts 进行研发。ModelArts 是华为开发的 AI 生产线，具备持续构建大模型训练及推理加速能力、分布式训练能力等，并提供数据处理、算法开发、模型训练、模型管理、模型部署等 AI 应用开发全流程技术能力。

模型性能优异，NLP 大模型是首个千亿参数级中文大模型，2021 年位列 CLUE 榜单三项第一。2021 年 4 月华为云盘古 NLP 大模型发布，这是当时业界首个 2000 亿参数的中文预训练模型。在 2021 年，盘古 NLP 模型在中文语言理解评测基准 CLUE 榜单中总排行榜及分类、阅读理解单项均排名第一，刷新了三项榜单世界历史纪录。盘古 CV 大模型是业界最大的 CV 预训练模型。盘古 CV 大模型包含了 30 多亿参数和 10 亿级别的图像，已经在 100 多个场景中得到了验证。在 Image Net 1%、10% 数据集上的小样本分类精度上均达到业界最高水平。

模型应用：在物流、药物研发、气象等多个场景实现落地，极大提高行业效率

NLP 大模型、CV 大模型等都是华为 L0 级别的基础大模型，往上则是 L1 级别的行业大模型和 L2 级别的细分场景模型。具体而言，盘古 CV 大模型目前覆盖了工业质检、物流仓库监控、时尚辅助设计等行业和领域；盘古 NLP 大模型覆盖了智能文档检索、智能 ERP 和小语种大模型；盘古科学计算大模型则应用于气象预报、海浪预测等方面。

物流仓库监控：在物流场景，华为盘古团队为浦发银行构建了“物的银行”—— 普慧云仓。相比于传统的数字银行，它能够更彻底的做到业务流程的线上化，进一步提升效率。华为数据显示，在人员行为、货物检测方面，“物的银行”可以实现 5%到 10%的性能提升。新药研发：传统模式下，新药研发有周期长、投入大、成功率高的难题，盘古药物分子大模型是专门面向药物研发领域推出的模型，可以帮助医药公司进行 AI 辅助研发，使得先导药研发周期从数年缩短到 1 个月，极大改善了新药研发过程的效率。

气象预测：盘古气象大模型的研究团队通过 3D Earth-Specific Transformer 的方式处理复杂的不均匀 3D 气象数据，提高 AI 大模型的预测精度。盘古气象大模型能够提供秒级的全球气象预报，其气象预测结果包括位势、湿度、风速等，其精度首次超过了欧洲气象中心的数字分析的方法，并且预测速度提升了 1 万倍以上。

字节跳动大模型
模型简述：AI探索基础扎实，语言大模型和图像大模型初步布局

字节跳动 AIGC 大模型将从语言和图像两种模态发力。根据 36 氪消息，字节跳动在大模型上已有所布局，分别在语言和图像两种模态上发力，预期是在今年年中推出大模型。字节跳动 AIGC 大模型尚在初期探索阶段，有一定 AI 基础。根据 36 氪，在 ChatGPT 公开前，字节跳动对大模型的投入存疑。但字节跳动在工程团队和云服务团队方面并无短板。 1）算力：字节并不缺 GPU。字节旗下的企业技术服务平台火山引擎，在 2021 年正式进军基础云市场（IaaS 层），为大模型所需的算力奠定了基础。4 月 18 日，火山引擎发布自研 DPU 等系列云产品，并推出新版机器学习平台：支持万卡级大模型训练、微秒级延迟网络，弹性计算可节省 70%算力成本。同时，火山引擎宣布与字节跳动国内业务并池，抖音等业务的空闲计算资源可极速调度给火山引擎客户使用。

2）算法：阿里巴巴 M6 大模型的原带头人杨红霞现已加入字节 AI Lab（人工智能实验室），参与语言生成大模型的研发。模型应用：可用于图文、视频内容生成等，飞书将推出智能 AI 助手“My AI” 抖音、今日头条基于 AIGC 生成图文内容。在 AIGC 的加持下，用户上传照片后，短时间内系统即可自动生成不同风格的图片。例如，抖音上线该“漫画脸”特效后，吸引了大量用户，据抖音平台数据显示，截至 2022 年 12 月 6 日，该特效已经超 2428 万人使用，并迅速飙升至特效潮流榜 TOP1。

剪映提供 AI 生成视频功能。剪映的创作者可以通过几个关键词或一小段文字，生成一段创意小视频。除此以外，剪映可以根据文字描述智能匹配视频素材，将视频包装为更垂直的内容作品，包括财经、历史、人文等类别。飞书将推出智能 AI 助手“My AI”。4 月 11 日字节跳动飞书宣布将推出智能 AI 助手“My AI”，My AI 将包括自动汇总会议纪要、创建报告、优化和续写文字内容，在飞书 app 中，My AI 也可以通过对话形式，帮助用户自动创建日程、搜索公司内部知识库等功能。

特斯拉的自动驾驶

在智能驾驶领域，自动驾驶和无人驾驶已经出现了，举例：特斯拉自动驾驶，无人公交车。

首先，自动驾驶技术基于人工智能的深度学习和计算机视觉技术，通过激光雷达、摄像头、传感器等设备获取周围环境信息，再由算法对这些信息进行处理和分析，实现车辆的自主感知、决策和控制。

其次，自动驾驶技术在应用场景上有着广泛的应用前景。除了个人私家车辆，自动驾驶技术还可以应用于出租车、货运车辆、公共交通工具等领域。只是现在封闭道路上实现易于实现，但是在复杂路况仍然不是很理想，自动规避以及人为和机器对车辆的控制权的管理。

最后，国内的发展。现在国内其实大部分自动驾驶都是只有L1级别，特斯拉是到L2。
自动驾驶如何分等级的，自动驾驶基本可以分为0-5级，L0级即全部需要人为操作，即无自动。驾驶随时掌握著车辆的所有机械、物理功能，仅配备警报装置等等无关主动驾驶的功能也算在内简单来说就是驾驶员完全手工驾驶，一点不能分心。L1级别呢，驾驶者操作车辆，但个别的装置有时能发挥作用，如电子稳定程式（ESP）或防锁死刹车系统（ABS）可以帮助行车安全。只是可以起到一个辅助的作用，驾车主力还是驾驶员。L2级别呢，驾驶者主要控制车辆，但系统阶调地自动化，使之明显减轻操作负担，例如主动式巡航定速（ACC）结合自动跟车和车道偏离警示，而自动紧急煞停系统（AEB）透过盲点侦测和汽车防撞系统的部分技术结合。大家了解了吗？

通俗点来说，L1级则代表解放双脚，L2级则代表解放双脚双手，L3级别则叫人机共驾，一些特殊操作需要由人掌控，L4级别则是高度自动驾驶，人已经基本可以不干预或者很好干预驾驶，L5级别就是完全的自动驾驶了。

搜索引擎

搜索引擎接入AI大模型。

搜索引擎中AI技术的一个典型例子是Google搜索引擎中的RankBrain。RankBrain是一个基于人工智能技术的搜索算法，用于帮助Google搜索引擎更好地理解和处理搜索查询。它是自2015年开始在Google搜索引擎中使用的，是Google在搜索算法中引入AI的一个重要里程碑。

RankBrain利用深度学习技术和神经网络模型来理解搜索查询的语义和意图，帮助搜索引擎更精准地匹配搜索结果。它可以处理复杂的搜索查询，特别是那些长尾关键词或是之前未见过的查询。通过学习用户的搜索行为和反馈，RankBrain可以不断优化搜索结果的排序，提高用户的搜索体验。

RankBrain的引入使得Google搜索引擎更加智能化和个性化，能够更好地理解用户的搜索意图，提供更相关和准确的搜索结果。它为搜索引擎优化(SEO)带来了新的挑战和机遇，也推动了搜索引擎技术的发展。在搜索引擎中，AI技术的运用不断推动搜索体验的提升，使得用户能够更方便、更快速地找到他们需要的信息。

图像视频领域

在图像视频领域，AI技术被广泛应用于图像识别、视频分析、图像处理等方面。以下是一些AI在图像视频领域中的具体应用：

图像识别：AI可以通过深度学习和神经网络技术，识别图像中的物体、场景、人脸等内容。例如，人脸识别技术在安防领域、人脸支付等方面得到广泛应用。以及生活中的图片转文字，拍照翻译，拍照美颜，照片动态化。医疗中：分析医疗影像数据，分析病变组织的特征，来进行识别大批图像的医疗影像。

图像处理：AI可以用于图像去噪、图像增强、图像合成等处理。例如，AI可以自动修复图像中的缺陷、调整图像的亮度、对比度等。

视频内容分析：AI可以对视频内容进行实时分析和识别，例如识别视频中的行人、车辆、道路状况等信息。这在智能交通、视频监控等领域有着重要应用。

视频推荐：AI可以根据用户的观看历史和兴趣，推荐个性化的视频内容。视频平台如YouTube、Netflix等都在使用AI技术进行视频推荐。

视频智能剪辑：AI可以通过分析视频内容和用户反馈，自动进行视频剪辑、高光时刻提取等操作。这在视频编辑、广告制作等方面有着很大的应用价值，例如：许多剪辑软件都有了文案成片，从字幕自动配音,视频字幕提取,虚拟主播,智能编目与检索,画质修复以及AI换脸

最后

人工智能在先进技术中的应用正日益广泛，其在各行业中发挥着重要作用。通过机器学习、深度学习和自然语言处理等技术，人工智能已经实现了许多令人瞩目的成就。在医疗保健领域，人工智能可以协助医生进行疾病诊断和治疗规划；在金融领域，人工智能应用于风险管理和智能投资；在农业领域，人工智能可以提高农作物的生产效率和质量；在交通领域，人工智能可以实现智能交通管理和自动驾驶技术；在制造业领域，人工智能可以优化生产过程和提高产品质量。总的来说，人工智能的应用为各行业带来了更高效、更智能的解决方案，推动了技术发展和社会进步。随着人工智能技术的不断进步和发展，我们可以期待更多创新的应用场景和更广泛的影响。

最后，附：《年终盘点之AI大模型：2023大事记》。

年终盘点之AI大模型：2023大事记

参考：年终盘点之AI大模型：2023大事记

最后，说说AI在2023中的大事记。

今年1月份，位于北京常营华联购物中心的宝迈健身更新了灯箱广告，与以往不同的是，画面的模特由真人换成了AI生成的数字人。

时间拉回到一年前，ChatGPT掀起了AI大模型热潮，人们对于通用大模型的发展前景、应用场景充满想象，也对其所面临的技术风险、科技伦理问题充满担忧。

然而仅仅一年时间，一家小小的健身房已经在宣传灯箱上用起了AI，在惊叹AI大模型发展之快，对生活渗透之迅速的时候，我们应回头看看，这一年究竟发生了什么。

一月：ChatGPT月活破亿成为史上增长最快消费级应用

仅仅在推出两个月后，OpenAI旗下的聊天机器人ChatGPT就成为历史上增长最快的消费级应用。

瑞银发布的一份研究报告显示，ChatGPT在2023年1月份月活跃用户估计已达1亿。该报告援引分析公司Similar Web的数据称，2023年1月，全球每天约有1300万独立访问者使用ChatGPT。瑞银分析师在报告中写道：“在互联网领域发展20年来，我们想不出有哪个消费者互联网应用比它能够发展得更快。”

根据World of Engineering整理的数据显示，iTunes达到1亿用户用了6年半、Twitter用了5年、Meta（Facebook）用了4年半、WhatsApp用了3年半。

ChatGPT的爆火也让市场看到了AI大模型的机会，这股风也刮到了中国市场，各家互联网、科技大厂纷纷推动自身AI大模型的建设和发布。

二月：复旦大学发布MOSS打响百模大战前奏

ChatGPT引发的大模型热潮席卷而来后，国内率先发布产品的是高校。

2023年2月份，复旦大学发布了类ChatGPT的对话式大模型moss，又在两个月后正式开源，成为国内首个插件增强的开源对话语言模型。

国内对于MOSS充满期待，距离开放还没有超过24小时，由于瞬时访问压力过大，MOSS服务器被挤爆。

MOSS主要作用于科研范围，鳌头财经了解到，研究人员计划结合复旦在人工智能和相关交叉学科的研究成果，赋予MOSS绘图、语音、谱曲等多模态能力，并加强它辅助科学家进行高效科研等能力。

尽管如此，MOSS也为国内对话大模型的发展开一个好头，此后大厂之间的大模型“你方唱罢我登场”。

三月：百度先声夺人文心一言发布略显仓促

2023年3月16日，在众多互联网大厂中，百度率先发布了大模型——文心一言。

在外界看来，百度率先发布是情理之中的事。“百度搜索搞了这么多年，信息检索和大数据处理紧密相关，百度在AI大模型的投入和应用研发上有先天优势。”行业观察人士分析称，“另一方面，百度是较早确立AI发展方向的互联网大厂之一，也做了很多此方面的研究，在技术储备上更厚实一些。”

文心一言的首次面市略显仓促，发布会上并没有出现公众期待的实机演示环节，而只是播放了提前录好的演示视频。尽管如此，百度在仍然在百模大战中拔得头筹。

四月：阿里巴巴发布通义千问率先用于改造内部产品

2019年起，阿里巴巴开始相关领域的研究。2023年4月，阿里巴巴推出同通义千问大模型，这是阿里巴巴大模型研究的阶段性成果。

通义千问主要用于赋能阿里巴巴内部各产品，如钉钉、淘宝、天猫精灵等。鳌头财经了解到，钉钉接入通义千问测试后，可以自动生成工作方案，也可以在会议纪要后自动生成总结和待办事项，还能拍功能草图并自动生成小程序。

通义千问更大的意义在于提供了AI大模型商业应用的一个方向，面向AI时代，如果每家企业拥有具备行业能力的专属大模型，将为AI大模型带来巨大的市场增量。

五月：科大讯飞星火大模型强应用时代来临

如果说阿里巴巴的通义千文只是阿里云在企业数字化改造中提供更多技术赋能的“弱应用”，那么科大讯飞发布的星火认知大模型则标志着AI大模型强应用时代的来临。

2023年5月6日，科大讯飞发布了“星火认知大模型”，并发布大模型在教育、办公、汽车、数字员工等行业的应用成果，包括讯飞AI学习机T20系列、讯飞听见会写、数字员工、智能座舱等多项人工智能应用产品。

鳌头财经了解到，基于“星火大模型+教育”场景，科大讯飞推出包括教师助手、教育数字基座、星火语伴APP等产品，覆盖“教”“学”两端。其中星火教师助手可以通过对话式、生成式交互，为教师智能生成科学系统的教学设计、灵活实用的教学活动设计、贴合教学需求的课件等内容，主打备课场景。

这意味着AI大模型已经运用到了更贴近人们日常生活的C端，应用场景得到进一步的拓宽。

六月：百模大战白热化美团亲自下场

2023年5月底，《中国人工智能大模型地图研究报告》发布，报告显示，截至报告发布，我国10亿级参数规模以上大模型已发布79个。

在百模大战进入白热化之时，光年之外突发变故，领导团队的王慧文病休，美团则对这一团队进行了兜底。

2023年6月29日，美团发布公告，以约20.65亿元人民币的价格，完成对光年之外的股权收购。公告显示，此次收购总代价包括现金约2.33亿美元、债务承担约3.67亿元、及现金人民币1元。

美团表示，收购完成后，将继续支持光年团队在大模型领域的探索和研究。然而截至目前，无论是美团还是光年之外都鲜有研究成果出现。

光年之外所发生的事也给从业者提了个醒，AI大模型是个“长坡厚雪的赛道”，仅凭一腔热血进入或将“血本无归”。

七月：妙鸭相机爆火 AIGC引发数据安全问题

2023年7月份，一款AICG产品火了，这便是阿里大文娱推出的妙鸭相机，这是一款AI换脸软件，用户上传照片后可获得不同风格、不同背景AI生成图。

微信数据显示，妙鸭相机关注度在7月25日和7月27日达到峰值；七麦数据则显示，妙鸭相机APP7月28日上线后，短时间内下载排名迅速攀升，并于12日拿下中榜第一。

在妙鸭相机爆火的同时，数据安全、个人隐私等问题引发关注，不少用户质疑，通过妙鸭相机生成的数字分身，是否具有信息泄露的风险，高精度、高质量的照片信息一旦泄露，可能会对用户带来不可估量的危害。

新技术、新应用的产生必然伴随着争议，但不能因争议或风险去限制技术发展，而是应该以制度规避风险，予以技术发展广阔空间。

八月：《暂行办法》施行将AI纳入监管

2023年8月15日，《生成式人工智能服务管理暂行办法》（简称《暂行办法》）正式施行。该办法旨在促进生成式人工智能健康发展和规范应用，维护国家安全和社会公共利益，保护公民、法人和其他组织的合法权益。

同时，有11家企业和机构的大模型产品首批通过了《暂行办法》的备案，分别为百度的文心一言、字节跳动研发的云雀大模型、北京百川智能科技有限公司推出的百川大模型、北京智谱华章科技有限公司推出的智谱清言、中国科学院自动化研究所研发的紫东太初、北京市商汤科技开发有限公司研发的商量SenseChat、MiniMax推出的ABAB大模型和上海人工智能实验室研发的书生通用大模型。以及华为、腾讯和科大讯飞股份有限公司推出的大模型产品。