产业大模型刚开卷,京东跑进“最后半公里”

点击关注

 

姚    悦

王一粟

“京东一直在探索哪些产品、技术、场景可以真正把大模型用起来,在我们内部的场景中反复验证后,才决定在7月份对外发布,现在我们在零售、健康、物流、金融等业务场景里已经积累了一些经验。”京东集团技术委员会主席、京东云事业部总裁曹鹏在群访中,对光锥智能表示。

大模型火热半年,自2月官宣聚焦“产业大模型”后,一直相对低调的京东,也终于展示了自己的言犀大模型。但与此同时,大模型的竞争已经趋于白热化。据不完全统计,当前国内已发布超过80个大模型产品,并已经开始对应不同行业、不同应用场景频繁发力。

究竟什么样的大模型,才能在这番激烈的竞争中突出重围?

一方面,大模型亟需寻找到场景快速落地,另一方面,中国实体产业需要技术驱动来降本增效。

于是,从产业中来,到产业中去,就成了京东大模型自然的选择。

“大模型,让技术帮助产业降本增效的可能性成倍递增。”京东集团CEO许冉认为,从产业段切入大模型,如同从北坡攀爬技术珠峰。道路虽然更加艰难,却有更波澜壮阔的风景。

图片

长于产业的大模型

“言犀大模型训练时,融合70%的通用数据与30%数智供应链原生数据”,IEEE Fellow、京东探索研究院院长、京东科技智能服务与产品部总裁何晓冬告诉光锥智能。

这种大模型训练方式,与此前业界早期普遍认为的并不相同。

“目前,基础模型有三种不同的应用模式:第一种是通用基础模型训练好后,迁移至行业基础模型中,进而做产业(垂直)应用;第二种是通用基础模型进行微调;第三种,则是利用通用大模型+‘知识库和搜索引擎’。”业内人士分享道。

图片

2023京东科技峰会现场

由于前两种的训练成本偏高,且用于通用大模型训练的公开数据“噪声”过大,容易出现错误、谣言、偏见等问题,以至于让AI 存在“幻觉”“一本正经的胡说八道”,无法保障内容真实可信,进而阻碍大模型落地行业。

近期,从OpenAI到国内部分公司,都开始偏向第三种应用路径,而京东也正是走的这条路。“知识库+搜索引擎”,大致可以理解为是产业(垂类)领域的向量数据库,这样的向量数据库与通用大模型结合,被业界称之为“黄金搭档”。

通过这样的路径,“言犀大模型一开始就既具备常识,又具备专业性。相当于是既做了通识教育,又做了四年本科教育”,何晓冬形象地描述言犀大模型的差异性。

京东找到这样的路径,并不是偶然。

从事AIGC领域研究20余年的何晓冬,在2020年开始通过注意力机制、深度学习、Transformer 生成文档、文案,他注意到,用大语言模型直接生成的文案、文字和报告总会出现一些“胡说八道”“玄幻”的现象。

于是,何晓冬和团队提出了知识注入的预训练语言模型(K-Plug),并于2021年发布了相关论文。“京东内部用上更早一点”,何晓冬说,通过K-Plug,让Transformer和行业知识结合,让生成式语言模型的内容生成正确率从83%、85%左右,直接提升到95%以上,才能达到商用程度。

“83%的正确率在to C 用户的聊天中,也可以接受。但是,商用是不可接受的。”何晓冬提到。

GPT能出现智能涌现,依靠的不是数据,而是文本数据中的知识。所以,相比一味的追求超大参数量,数据中的“知识”含量更为重要。

基于20年的行业“知识”积累,京东言犀可以说是“长”在了数智供应链上。

图片

供应链是产业中数据最集中、结构最复杂、相关度最密切的环节。在零售、物流,到健康、保险、工业等场景中,京东沉淀了从采购、分销、交易、物流等产业链条中的巨量数据,并且每天还会源源不断产生大量“活”的交互数据。

在行业中长期积累的“知识”,保障了大模型的可信,极大的帮助大模型落地。

“只有自己的场景才能培养适合自己的大模型应用”,京东集团副总裁、京东科技产品与解决方案总裁高礼强如此说道。

30%的京东数智供应链数据,训练出了产业可用的大模型,而大模型在应用过程中要落地,还需要在具体场景中继续打磨。

在场景中历练,算法与数据的飞轮

“大模型不是我们的目标,而是(产业服务的)工具。”曹鹏表示,大模型不能只用来聊天、画画、吟诗作赋,最终还是要在产业中创造价值。

所以,在语言大模型火热的半年里,京东选择了埋头摸索和尝试,让大模型先在京东的多项业务中历练。

由于AIGC在生成和交互中表现优异,所以在京东健康中落地较快。

图片

AI问诊流程

在京东健康的诸多业务流程中,大模型首先在AI问诊中落地。用户输入“我可以吃阿司匹林吗?”的诉求后,接下来在AI的引导下,通过多轮对话逐步判断病因,给出诊断、用药参考,并进行生活建议,医疗风险提示。

这就是在言犀大模型3.0的基础上,通过医疗知识和经验训练的“慧医千询”大模型,在现场辅助诊疗场景下的具体表现。这背后,是京东健康累计线上问诊数据2.8亿,超3千万高质量临患对话,140余科室医疗专家等数据积累。

如果是一般通用大模型,在遇到患者问题时,更倾向于直接把答案给出。“但是在实际的医疗场景下,是需要多轮对话,才能更深入了解用户病史信息,这样才能给出更适合用户自身特点的方案。”京东集团副总裁、京东健康技术产品部负责人李欣表示。

医疗是和百姓生活息息相关一个行业,其中存在一个著名的“不可能三角”,即医疗服务不可能同时实现高质量、高覆盖、低成本,这本质上是由于优质医疗资源的供给不足造成。

“慧医千询”的出现,目标就是通过远程医疗全流程方案,解决这个“不可能三角”。

李欣透露,“慧医千询”重点会做两个核心场景,“首先是药师的问答,这个非常专业化、具体,是医疗大模型最容易发挥作用的地方,AI自动化可以省去90%的人工工作量。再在这个基础上,推全场景医患问答。”

除了京东健康,大模型在京东物流、零售等方面也大展拳脚。

“电商的产品视频、照片直接由人去拍摄非常贵,少则几百块,多则几千块。”京东集团副总裁、京东科技产品与解决方案总裁高礼强表示,AIGC可以极大的降低商品营销的成本。

图片

目前,基于言犀的AIGC内容营销平台,已经能很好地理解商品特征,自动帮助商家生成商品图片、卖点等营销素材。以每套图为例,成本降低90%,周期从7天缩短到半天。

通过对营销的理解,以及用户运营经验的持续积累,大模型解决了诸如关键性任务,动态适应性、用户体验等问题。本次发布的AI增长营销平台是京东科技市场和平台运营团队依托日常的金融营销工作结合大模型应用的探索,能大幅优化了营销运营流程,降低运营人员的学习成本与操作成本,实现方案生产效率上百倍提高。将过去涉及产品/研发/算法/设计/分析师等5类以上职能才能完成的流程,压缩至1人。同时,一个入口的全新交互模式,让人机交互次数从2000次降低至少于50次,将操作效率提升了超过40倍。

另外,数字人在主播方面的落地也是行业热点,基于京东在电商领域知识增强模型K-PLUG,仅需在直播后台上传商品链接,数字人就能“阅读”商品详情,找到关键的规格、卖点等信息,并自动生成真实、生动、可阅读性强的直播文案。

图片

例如,商家原先写出50个SKU的直播脚本需要至少五小时,使用K-PLUG模型只需要“一键生成”。目前K-PLUG商品文案写作能力已经覆盖3000多个京东的品类,累计生成文案30多亿字。

通过上面场景就可以看到,大模型在产业(垂类)场景中的降本增效非常明显。

当大模型在海量具体场景中使用时,人类真实反馈就会让数据和算法的形成飞轮效应。这期间,高质量数据不断生成,垂直行业的智能涌现才有可能出现。

为了支撑大模型在场景中的历练,京东需要不断在产品和算力方面提升能力。产品方面,日前,京东将积累高质量行业数据的两个平台——数智平台优加DaaS和言犀智能服务都已升级到了3.0版本,进一步提升了交互能力,以及更好地将数据用起来;算力方面,已经布局了全国首个基于SuperPOD架构的超大规模计算集群——天琴α,算力总规模达到135TFLOPS(每秒浮点运算次数)。

六年AI路,三年大模型

种树最好的时间是在十年前。

在大模型突然爆火之前,京东很早已经开始“栽树”。

“技术、技术、技术”,2017年初,京东开始全面向 AI 技术转型。

第一个技术,主要用于解决内部大规模人力带来的效率问题;第二个技术,是组件化、模块化的技术服务对外输出;第三个技术,则是对前沿技术进行探索和有秩序地创新。

2017年底,京东在人工智能的布局就开始落地,一方面聚集团队,通过人才、研究、专利等打造技术护城河;但与此同时,京东也一直在思考一个问题——怎样将这些技术落地产生闭环的商业价值和产品价值?

2018年,人工智能领域科学家何晓冬正式加入京东。2020年,何晓冬团队就开始关注如何利用深度学习的模型。2021年京东开始组建大模型团队,探索深度学习及语音和语言技术在新兴领域等应用场景的落地。

早在2022年,京东就推出了百亿参数的大模型Vega。但直到今年上半年ChatGPT大火,京东虽然在2月份宣布要做服务产业的大模型,但迟迟没有对外公布。

“百模大战”白热化升级,外界都替京东着急了。“有无数的朋友,最近都会跑过来问我,你们京东有没有大模型?什么时候发大模型?”曹鹏在2023京东全球科技探索者大会暨京东云峰会上打趣道。

但这背后,其实回到一个很严肃的问题上,就是京东最初就思考的那个问题——技术的价值,也可以说成是大模型的价值。

“大模型本身是没有办法直接产生价值的,只有放到场景里才能够产生实际的价值。”曹鹏说,“在京东我们真正讲大模型本身会比较少,更多会讲在产业里面、场景里面,怎么能够利用新的技术带来产业变化,真的给产业不断提升效率、改善体验、降低成本,这才是一个技术真正核心的价值所在。”

关于大模型,京东制定了“三步走”战略。第一步,基于内部实践构建言犀大模型和言犀AI开发计算平台;第二步,在零售、金融、健康、物流等京东内部高复杂场景大规模锤炼,并针对重点场景的标杆客户进行对外服务,主要目的是发现那些看起来“不起眼”,但产业应用中又非常关键的问题;第三步,针对严肃商业场景将大模型能力对外开放。

图片

今年上半年,京东大模型走过了第一步,并在第二个阶段有了初步尝试,处于在第二个阶段的深化和逐步向第三步迈进的状态。

大模型不是一天能炼成的。

在 ChatGPT 证明 AGI(通用人工智能)的可能性之前,AI技术长期面临着技术突破遥遥无期、商业落地困难等问题,甚至AI行业自己也一度质疑过人工智能的价值。

但在今年光锥智能观察到一个现象,就是:

人工智能,已经不再是独立的人工智能实验室,而是泛化到所有业务当中。

当 AI 离开实验室,才是价值绽放的开始。

图片

京东对大模型的价值,有自己的理解。许冉在峰会上提出,“大模型的价值=算法×算力×数据×产业厚度的平方”的公式,她强调,当产业效率和产业的边界得到质的提升后,大模型才有了更重要的实际价值和意义,将不亚于又一次工业革命。

欢迎关注“光锥智能”CSDN号,关注前沿科技!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/503.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

记一次阿里云被挖矿处理记录

摘要 莫名其妙的服务器就被攻击了,又被薅了羊毛,当做免费的挖矿劳动力了。 一、起因 上班(摸鱼)好好的,突然收到一条阿里云的推送短信,不看不知道,两台服务器被拉去作为苦力,挖矿去…

迭代读取文件

使用 torch.utils.data.dataset.Dataset 收集数据信息,创建数据集。 使用 import torch.utils.data.dataloader 创建一个可以批量迭代的数据载入器,并通过 for 循环批量读取所有文件的数据。 import torch.utils.data.dataset as dataset import torch…

光伏并网逆变器低电压穿越MATLAB仿真模型

使用MATLAB 2017b搭建 光伏逆变器低电压穿越仿真模型,boost加NPC拓扑结构,基于MATLAB/Simulink建模仿真。具备中点平衡SVPWM控制,正负序分离控制,pll,可进行低电压穿越仿真。 控制结构完整,波形完美&…

java学习路程之篇二、知识点、配置JAVA_HOME、跨平台、JVM、JRE、JDK

文章目录 1、Java背景介绍2、Java跨平台性3、JDK的下载和安装4、第一个Java程序5、HelloWorld案例详解6、JVM、JRE和JDK7、配置JAVA_HOME 1、Java背景介绍 2、Java跨平台性 3、JDK的下载和安装 4、第一个Java程序 5、HelloWorld案例详解 6、JVM、JRE和JDK 7、配置JAVA_HOME

MySQL(2)

建表 mysql> create table work(-> ‘部门号’ int(11) not null,-> ‘职工号’ int(11) not null,-> ‘工作时间’ date not null,-> ‘工资’ float(8,2) not null,-> ‘政治面貌’ varchar(10) not null default 群众,-> ‘姓名’ varchar(20) not nu…

ELK 企业级日志分析系统

目录 一:ELK 介绍 1、ELK 简介 2、filebeat 结合 logstash 好处 3、为什么要使用 ELK 4、完整日志系统基本特征 5、ELK 的工作原理 二:ELK Elasticsearch 集群部署 1、环境准备 2、部署 Elasticsearch 软件 (1)安装elasti…

在线考试系统

在线考试系统 简介 该系统由C#开发语言开发,数据库是sql server2016,前端用到的前端技术有Bootstrap,js,css等前端技术,同时用到的.Net Core MVC的技术框架。另外本系统也支持mysql,暂未调试。 该系统是…

计算机存储设备

缓存为啥比内存快 内存使用 DRAM 来存储数据的、也就是动态随机存储器。内部使用 MOS 和一个电容来存储。 需要不停地给它刷新、保持它的状态、要是不刷新、数据就丢掉了、所以叫动态 、DRAM 缓存使用 SRAM 来存储数据、使用多个晶体管(比如6个)就是为了存储1比特 内存编码…

Element-UI el-table属性row-class-name用法

文章目录 前言官方示例自定义条件样式设置背景颜色样式stripe属性 设置背景颜色样式设置字体颜色总结 前言 可以通过指定 Table 组件的 row-class-name 属性来为 Table 中的某一行添加 class&#xff0c;表明该行处于某种状态。 官方示例 代码如下&#xff1a; <el-table…

直播美颜SDK与智能美妆:技术融合的未来

对于许多直播主和观众来说&#xff0c;如何在直播中呈现最佳的外貌成为了一个重要问题。为了解决这个问题&#xff0c;直播美颜SDK与智能美妆技术的融合应运而生&#xff0c;为用户带来了前所未有的美妆体验。 简单来讲&#xff0c;直播美颜SDK可以理解为计算机视觉技术和人工…

重磅预告丨Fortinet Demo Day系列实战攻防演练来袭!

随着网络安全形势的日趋严峻&#xff0c;越来越多的企业遭受了勒索、欺诈等危害。在高昂的赎金、生产损失&#xff0c;以及名誉损害的恐惧中&#xff0c;企业已经谈“黑”色变。黑客是如何悄无声息的“越过”重重高墙、道道壁垒进入到生产环境、办公空间&#xff0c;并在内网疯…

hydra详解(仅供学习参考)

一、概述。 Hydra是一款非常强大的渗透工具&#xff0c;由著名的黑客组织THC开发的一款开源工具。 二、使用方法。 hybra基础语法&#xff1a; hydra 参数 IP 服务 参数&#xff1a; -l login 小写&#xff0c;指定用户名进行破解 -L file 大写&#xff0c;指定用户的用户名…

loki技巧 - 结构化log日志文本

将非结构化的log日志信息结构化为JSON格式&#xff0c;以方便在Grafana界面侧的浏览和查询。 0. 目录 1. 需求背景和描述2. 实现&#xff08;Promtail侧&#xff09;3. 注意事项4. 后记5. 参考 1. 需求背景和描述 最近几个月&#xff0c;部门内部开始尝试统一日志收集、查询统…

Zotero翻译插件“zotero pdf translate”——使用时出现广告的问题的解决办法

一、背景&#xff1a; 在Zotero上安装了“zotero-pdf-translate”插件来辅助翻译。今天忽然发现&#xff0c;在使用CNKI翻译引擎的时候&#xff0c;末尾被加上了广告&#xff1a; (查看名企职位领高薪offer&#xff01;--->智联招聘https***dict.cnki.net/ad.html) 如下&…

Netty网络编程

参考文档 https://zhuanlan.zhihu.com/p/550956053 https://zhuanlan.zhihu.com/p/514448867 BIO 读取数据有两个阶段 等待数据就绪&#xff0c;数据到达内核缓冲区读取数据(系统调用)&#xff0c;从内核缓冲区&#xff0c;拷贝至用户缓冲区 BIO两个阶段都会阻塞 BIO编程时&…

分布式数据库HBase,它到底是怎么组成的?

原文链接&#xff1a;http://www.ibearzmblog.com/#/technology/info?id3f432a2451f5f9cb9a14d6e756036b67 前言 大数据的核心问题无非就是存储和计算这两个。Hadoop中的HDFS解决了数据存储的问题&#xff0c;而HBase就是在HDFS上构建&#xff0c;因此Hbase既能解决大数据存…

青岛大学_王卓老师【数据结构与算法】Week05_11_栈与递归_学习笔记

本文是个人学习笔记&#xff0c;素材来自青岛大学王卓老师的教学视频。 一方面用于学习记录与分享&#xff0c; 另一方面是想让更多的人看到这么好的《数据结构与算法》的学习视频。 如有侵权&#xff0c;请留言作删文处理。 课程视频链接&#xff1a; 数据结构与算法基础…

[sqoop]导入数据

一、覆盖导入 例如维度表&#xff0c;每次导入的数据需要覆盖上次导入的数据。 hive-overwrite参数&#xff1a;实现覆盖导入 hive-import参数&#xff1a;表示向hive表导入 hive-table参数&#xff1a;指定目标hive库表 sqoop import \ --connect jdbc:mysql://hadoop1:3…

哈希表的原理

哈希概念 线性表、树结构的查找方式都是以关键字的比较为基础&#xff0c;查找效率比较低&#xff0c;顺序表的时间复杂度是O&#xff08;n&#xff09;&#xff0c;平衡树中为树的高度&#xff0c;即O&#xff08;logn&#xff09;&#xff0c;搜素的效率取决于搜索过程的元素…

Spring-Interceptor拦截器

使用步骤 申明拦截器bean&#xff0c;并实现HandlerInterceptor接口 true为放行&#xff0c;false为拦截 2.定义配置类&#xff0c;继承WebMvcConfigurationSupport&#xff0c;实现addInterceptors方法&#xff0c;该方法调用具体的拦截器进行拦截 也可以在配子类通过实现W…