闲鱼的商品结构化是如何演进的(超详细)

作者:闲鱼技术-吴白

引言

商品的信息结构化程度在某种意义上来说决定导购效率的天花板。闲鱼商品结构化和淘宝/天猫最大的区别在于闲鱼卖家都是个人用户,无论是专业程度还是行动力远不及淘宝卖家。为了不阻碍商品发布,闲鱼一直倡导轻发布,理想状况用户拍完照片输入一段描述即可完成发布。但是这和商品结构化相悖:卖家输入信息越多,越有利于商品结构化,但是用户发布商品的意愿就会越低。
我们要做的就是在不阻碍用户发布商品的前提下提高商品结构化程度。

结构化历程

闲鱼商品结构化的探索一直没有停过。目前为止,可以划分出四个阶段

结构化HLA-商品结构化全链路补全方案-细化-第 11 页.png

  • 2016年及以前:利用文本挖掘算法,从用户输入的标题/描述中提取出结构化信息。
  • 2017年:文本属性依赖用户输入。遗憾的是大部分闲鱼用户输入相当"简洁"。于是我们把目光转向图片:1)从商品图片中提取结构化信息。2)根据商品图片预测商品类目。
  • 2018年:2018年以前闲鱼类目处于刀耕火种的原始状态,发布时需要选择商品应该在哪个类目之下。所以我们建立了闲鱼渠道类目,将类目映射到渠道类目。另一个尝试就是将闲鱼商品直接与天猫的SPU(Standar Product Unit,标准产品单元)映射。
  • 2019年:启动了哥伦布项目,进一步挖掘图像潜力。通过图像相似度识别,直接将闲鱼商品和淘宝/天猫商品进行关联,通过对淘宝同款的结构化信息清洗得到闲鱼商品的结构化信息。

当前结构化策略

目前围绕着算法,我们在商品发布的各个环节都提供了同款关联的入口:从智能发布到发布完成之后的算法识别以及售卖体系。

结构化HLA-商品结构化全链路补全方案-细化-现状 (2).png

现阶段闲鱼商品结构化围绕着算法,在商品发布的各个环节都提供了同款关联的入口:从智能发布到发布完成之后的算法识别以及售卖体系。

  • 端侧智能发布。商品发布过程中,充分利用端侧计算能力,将商品结构化的产品问题,转变成同款商品匹配这样的技术问题。模糊检测,相似度检测,主体识别这些算法都是在端侧实现的。
  • 算法图像识别。商品发布完成后,借助图像识别算法,对于精度较高的识别结果直接和商品建立映射关系。
  • 售卖项目。当图像识别算法只能缩小范围而无法精确给出结果时,借助于售卖任务体系,可以让用户选择完成同款关联。

通过同款关联,闲鱼商品结构化往前走了一大步,使得闲鱼商品结构化的比例有将近47%的提升。尽管如此闲鱼商品结构化现状仍不容乐观,主要体现在

  1. 同款覆盖率。覆盖虽然提升比例较大,但离目标还有一定的距离。
  2. 同款精度。1)部分类目精度低,比如手机和手机壳在图像上相似,但实际是不同的商品。2)整体精度离目标仍有较大gap。
  3. 结构化信息应用。目前只应用在了搜索场景的商品扩招回,结构化信息的应用仍有待充分挖掘。

未来的打法

当前结构化策略面临着一个问题:当算法能力达到上限后,如何继续推进结构化覆盖&精度提升?目前为止起码有三种手段

  • 算法多模态。集团有着众多在各自领域深耕的图像算法团队,比如在女装等垂直类目上沉淀深厚的专家系统。融合多算法团队能在一定程度上提升算法能力的天花板。
  • 文本识别。在下面的case中,单纯凭借图片无法识别是否是同款,因为图像确实非常相似,这个时候就需要文本的辅助。image-20200706140355832.png
  • 输入辅助。文本识别模型依赖用户的输入。输入辅助引导用户输入更多高质量文本的同时降低用户描述成本。另一方面输入辅助也可以承担部分属性补全的能力。

然而在现阶段以算法为中心的工程体系中,上面的策略应用上会面临很多痛点

  • 如何定义结构化。本质上是结构化标准的问题,一方面相同的商品算法识别出来的结果千差万别,相同的商品不同算法识别出来的结果最终如何归一化成相同的同款。另一方面对于算法覆盖不到的领域如何通过其他手段来完成结构化。
  • 算法多模态接入成本飙升。如何抹平多算法之间的差异,算法对大盘的贡献,各个算法之间的效果快速上线对比?
  • 输入辅助。输入辅助需要解决2个问题:1)输入联想素材池来源。2)用户体验,输入辅助对实时响应有着非常高的要求。

这些问题大部分本质还是工程问题(结构化定义,多算法融合,输入辅助等)。所以转换一下结构化思路:以算法为中心转向以工程为中心,把算法当作能力补齐插件。结构化围绕着属性补齐做如下抽象
image-20200703151042563.png

总体策略

结构化HLA-商品结构化全链路补全方案-细化-商品结构化完整方案 (1).png
总结起来做这几件事

  1. 闲鱼vid体系重新定义结构化标准。
  2. 算法多模态接入,提升覆盖&精度。
  3. 引入规则引擎,服务于输入辅助等场景。
  4. 结构化数据持久化&特征计算,提升搜索推荐等导购场景的匹配效率。

重新定义结构化

定义结构化的标准,一方面可以抹平多算法接入带来的差异,另一方面对于拓展算法边界也有重要意义。所以重新给商品结构化下一个定义:如果一个商品的关键属性都有,那我们认为这个商品就是结构化的。
结构化HLA-商品结构化全链路补全方案-细化-第 14 页.png
这套标准称为闲鱼vid(想好名字前暂且叫vid)体系,基于闲鱼渠道类目+属性组成。这套标准有两种方式生成

  1. 天猫spu体系。天猫的spu运营到现在,数据体系已经较为完善,标准品类和闲鱼有很大重叠部分,这部分可以直接实现spu互通。
  2. 对于非标品,从需求侧分析而来。通过搜索推荐等导购场景反向分析可以拿到当前买家关心的品类+属性。这部分可以补齐SPU缺失的数据。

基于这套标准体系,可以很好的解决多算法接入问题:直接以vid体系对应的种子商品集为候选池,实现同款挂靠。除此之外,算法没法覆盖的商品(图文质量较差)如果能确定类目和属性,也能实现vid挂靠。

算法多模态

工程上主要解决算法接入效率问题。当从商品发布到最后的导购主链路搭建完成,算法以插件化的方式运行在主链路之上。

结构化HLA-商品结构化全链路补全方案-细化-第 14 页 (1).png

这里多模态主要包括两方面:1)识别能力从图像扩展到文本,图文结合。2)算法模型从单团队拓展到多团队,能力互补。
解决的问题主要包括

  1. 屏蔽数据差异。不同算法数据产生方式的差异,实时/准实时/离线。
  2. 数据融合。算法快速上线/数据效果对比/结构化信息入引擎。
  3. 算法结果对齐。根据定义的结构化标准,抹平算法结果差异。如果识别出的同款商品本质上是同一个商品,那多算法的识别结果最终应当能归一化。

输入辅助

输入辅助需要解决两个问题:

  1. 联想素材池来源:用户输入具有持续时间很短的特征,所以在较短时间内辅助用户进行有价值的输入很关键。
  2. 用户体验:严苛的实时性要求。用户输入是一个连续且对时效要求极高的过程,所有数据的交互需在极短时间内完成。

第一个问题很好解决,素材池提炼可以包括:

  1. 搜索逆向分析产出。根据用户query统计分析,可以得到买家关心的属性。
  2. 算法产出:算法对动销高的商品进行特征提取得到,并归到对应的渠道类目上。
  3. 运营行业经验产出。

第二个问题最好的解法肯定是把所有的逻辑全部下放到端上本地执行避免响应问题。然而不可能把所有的逻辑放到端上,比如需要算法介入时,我们不可能把复杂的算法模型运行在端上。所以把素材池分成两部分:

  1. 需要算法介入的逻辑放在服务端来完成。
  2. 其余逻辑选择适当时机下发给端上执行,这部分需要保证良好的扩展能力。

通过对输入辅助的执行逻辑进行抽象发现其存在形式类似于规则引擎中的规则。在规则引擎中规则一般包含三要素:事实,规则,模式。
结构化HLA-商品结构化全链路补全方案-细化-第 15 页.png
这里的事实对应着用户的输入,module对应着单个判定条件,rule则对应着条件判定以及对应的action。以运营的行业经验产出为例,手机类目下有两个很重要的属性:1)是否维修过。 2)是否过保。那这条经验可以翻译成两条规则:1)IF 类目=手机 AND 属性不包含 是否维修过 THEN 引导用户选择。2)IF 类目=手机 AND 属性不包含 是否过保 THEN 引导用户选择。
当执行逻辑被抽象成若干条规则时,就可以在适当的时机下发到客户端侧本地执行。整个流程抽象如下
结构化HLA-商品结构化全链路补全方案-细化-商品结构化全链路补全方案 (1).png
当新的运营经验或者分析数据产生时,通过翻译成规则可以很好的实现辅助输入的扩展性。通过规则的共享,客户端的逻辑可以无感知的在服务端执行。

上线效果

商品结构化的目标围绕着结构化信息的覆盖&精度进行,目前已经上线了部分功能(文本同款以及算法多模态),从数据上看取得了不错的效果:1)算法多模态接入能对结构化覆盖占比8%绝对提升。2)文本同款正在分桶测试中,从分桶数据来看覆盖上涨13%绝对值提升。

展望

结构化的愿景是在不影响发布体验的前提下完成商品结构化工作。理想情况下只需要一张照片,一段描述就能完成商品发布,其余工作统统移交给算法以及工程同学。当图像和文本内容能被充分挖掘理解,标签成色甚至类目这些都可以去掉,用户只需要点确认发布按钮即可。我们会不断朝着这个目标努力。

 

原文链接:https://developer.aliyun.com/article/767193?utm_content=g_1000168250
本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/515331.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一文看懂5G射频的“黑科技”

作者 | 小枣君来源 | 鲜枣课堂(ID:xzclasscom)手机,作为移动互联网时代的标配,已经走进了我们每个人的生活。有了它,我们可以随心所欲地聊天、购物、追剧,享受美好的人生。正因为手机如此重要&a…

抖音实战~首页视频~下拉刷新

文章目录1. 配置下拉刷新2. 下拉刷新监听3. tab监听索引4. 控制台监控5. 父子组件调用6. 效果图1. 配置下拉刷新 在pages.json配置文件中添加如下配置: "enablePullDownRefresh":true //开启下拉刷新2. 下拉刷新监听 // 当前页下拉刷新onPullDownRefre…

支付宝研究员王益的建议:“学好语文,才能写好代码”

王益,蚂蚁集团研究员,开源项目SQLFlow 和 ElasticDL 的负责人。他从10岁开始写代码。曾经用自己焊接的电路板扩展“中华学习机”来把自家的老式“威力牌”双筒洗衣机改造成了自动洗衣机;用Apple BASIC语言和6502汇编混合编程写了人生中第一个…

抖音实战~搜索页面~视频详情

文章目录一、前端部分1. 检索关键词短视频列表2. 选中某一个短视频3. 短视频详情二、后端部分2.1. 短视频入口2.2. 短视频接口层2.3. 短视频服务层2.4. 持久层-接口2.5. 持久层- xml三、效果图鉴赏3.1. 搜索页面3.2. 短视频列表3.3. 短视频详情一、前端部分 1. 检索关键词短视…

技术人的灵魂 3 问,阿里工程师如何解答?

作者 | 氐宿 阿里云高级前端技术专家 导读:在业务团队做事的工程师摸爬滚打了一段时间后,一定会有所疑问。团队同学在最初的一段时间都提出这样的疑惑:如何在业务中发现有技术价值的问题?发现问题后如何思考和发起再到解决&…

10+知识图谱开放下载,让你的学习效率提升5倍! | “右脑”开发套餐

简介: 为了让广大开发者清晰了解技术体系,打造属于自己的系统学习路径。今天,开发者社区整理了10知识图谱,供大家交流学习,持续更新中~ 知识的学习从来就不是孤立的,学习任何知识(概念、定义、…

抖音实战~分享模块~短视频下载(保存到相册)

文章目录一、可见范围1. 自己发布短视频2. 其他人发布短视频二、源码分析2.1. 底部窗口popup2.2. 实现组件uni-popup 弹出层2.3. 插件涉及组件2.4. 组件改造2.5. 关键的api三、作品鉴赏3.1. 自己发布视频3.2. 其他人发布视频3.3. 保存短视频一、可见范围 保存到相册、复制链接、…

HDC.Cloud 2021剧透:六大创新产品、开发者年度盛宴即将开启

编辑 | 宋慧 出品 | CSDN云计算 头图来源 | HDC.Cloud官网 今日,华为开发者大会2021(Cloud)(简称HDC.Cloud 2021)媒体预沟通会在京召开,华为技术有限公司高级副总裁、云与计算BG副总裁张顺茂在会上表示&am…

抖音实战~分享模块~复制短视频链接

文章目录一、可见范围1. 自己发布短视频2. 其他人发布短视频二、源码分析2.1. 底部窗口popup2.2. 实现组件uni-popup 弹出层2.3. 插件涉及组件2.4. 组件改造2.5. 关键的api三、作品鉴赏3.1. 自己发布视频3.2. 复制链接一、可见范围 保存到相册、复制链接、二维码 都是前端完成的…

莉莉丝《剑与远征》:基于阿里云全站加速提升用户体验

公司介绍 莉莉丝游戏致力为全球玩家创造好玩的游戏,坚持“全球化”与“品类进化”核心战略,通过对全球市场与品类发展阶段的深度理解,将国产手游带向了世界,代表作:《小冰冰传奇》,《万国觉醒》&#xff0c…

亚马逊云科技首次发布“三驾马车”中国业务战略

2021年3月25日,亚马逊云科技今天在北京举行媒体沟通会,首次正式发布“三驾马车,齐头并进”的中国业务战略。通过亚马逊云科技独一无二的全球优势,发挥亚马逊全球业务体系的强大支撑,并利用亚马逊的创新文化和方略&…

KubeCon 2020 阿里云推出四大企业级容器新品 ,详解云原生操作系统进化

导读:云原生操作系统进化,详解阿里云 ACK Pro、ASM、ACR EE、ACKEdge 等四款企业级容器新品。 KubeCon 2020 中国站,阿里云容器服务负责人易立会在《云原生,数字经济技术创新基石》的演讲中,分享阿里云原生如何助力数字…

抖音实战~分享模块~生成短视频二维码

文章目录一、可见范围1. 自己发布短视频2. 其他人发布短视频二、源码分析2.1. 底部窗口popup2.2. 实现组件uQRCode2.3. 插件涉及组件2.4. 组件改造2.5. 实现原理三、作品鉴赏3.1. 生成短视频二维码3.2. 微信扫描3.3. 抖音扫描一、可见范围 保存到相册、复制链接、二维码 都是前…

轻松处理高于平常10倍的视频需求,还能节省60%的IT成本,蓝墨做对了什么?

近年来,Serverless 一直在高速发展,并呈现出越来越大的影响力。主流的云服务商也在不断地丰富云产品体系,提供更好的开发工具,更高效的应用交付流水线,更好的可观测性,更细腻的产品间集成,但一切…

PassMark 更新排行,苹果 M1 杀疯了

整理 | 寇雪芹出品 | CSDN云计算(ID:CSDNcloud)3月24 日,PassMark 网站更新了单核性能排行榜,苹果 M1 3.2GHz 首次上榜就直逼榜首。苹果 M1 杀疯了以数千个 PerformanceTest 基准测试结果为数据基础,PassMa…

uni-app使用canvas绘制二维码

文章目录1. 插件选型2. 页面部分3.事件部分1. 插件选型 uqrCode 点击安装即可 https://ext.dcloud.net.cn/search?quqrCode 2. 页面部分 template&#xff1a; <view class"canvas-qrcode-box" style"align-self: center;"><canvas id"q…

好物推荐|下载超过 23w 次的 IDE 插件,让效率飞速提升

日常开发运维的过程中&#xff0c;我们总是会遇到各样重复性劳动而这些工作占据了我们大量时间。 我们一定都经历过这样的场景&#xff1a; 每一次产品迭代更新&#xff0c;都要一遍遍「打包-上传-登录服务器-替换-部署-重启」重复的类似工作&#xff1b;在本地 IDE、云产品控…

怕入错行?这群技术人写了本“择业指南”

计算机专业好找工作吗&#xff1f;哪些方向是当前的主流和热门方向呢&#xff1f; 计算机专业的你是不是还在为职业发展纠结犹豫呢&#xff1f; 刚经历完高考选专业的你是不是还在迷茫徘徊呢&#xff1f; 那么福利来啦&#xff01; 《软件技术职业选择之道》重磅来袭&#xff0…

连载:阿里巴巴大数据实践—数据开发平台

数据只有被整合和计算&#xff0c;才能被用于洞察商业规律&#xff0c;挖掘潜在信息&#xff0c;从而实现大数据价值&#xff0c;达到赋能于商业和创造价值的目的。面对海量的数据和复杂的计算&#xff0c;阿里巴巴的数据计算层包括两大体系&#xff1a;数据存储及计算平台&…

真的有无人工厂吗,IoT 怎么在产业界落地?| 赠书

责编 | 寇雪芹头图 | 下载于视觉中国出品 | CSDN云计算&#xff08;ID&#xff1a;CSDNcloud&#xff09;明天&#xff0c;工厂里没有人智能工厂可以灵活应对各种情况的新时代智能化工厂&#xff0c;即便没有人的参与&#xff0c;智能工厂也可以通过联网的制造设备完成信息交换…