极测未来|淘宝千人千面内容下的智能评测技术与实践

背景挑战

全面个性化、内容化的淘宝,构造了基于内容的丰富的导购场景,包括猜你喜欢、有好货、每日好店、必买清单、哇哦视频、微淘、买家秀、头条、洋葱盒子….。个性化,给消费者带来更精准的货品分发。内容化为消费者带来更多惊喜和好的体验,“好的商品,应该以更好的形式展现给消费者”。

不同于传统测试业务,导购业务非确定性的输入输出,给质量工作带来的两大挑战,接下来会从这两个方面介绍:

  • 用户侧--千人千面导购推荐系统如何评估
  • 平台侧--多来源,多类型,高标准下如何高效管控素材质量

个性化评测

1.多维评估体系

推荐系统模型研发过程包含离线特征处理--模型网络设计--离线训练--离线预估--在线部署-- ab 实验--模型优化。

通常的评估手段包含两类:

  • 离线预估:从算法模型视角,包含 auc、f1score、precision、recall、NDCG 等指标
  • 在线评估:从业务效果视角,包含点击率、转化率、互动率、pv、uv 等指标

以上两类评估手段在用户体验方面存在不足,会产生中长期用户体验诟病,比如买了还推,全域趋同等。基于此,我们从五个维度定出了对于导购推荐全局评估指标体系:

  • 丰富度:包含打散度、多样性、覆盖率等指标,打散度为例,指同一坑位或者同一页面,图片主体,商品主体是否过于同质,是否有更丰富的商品推荐。
  • 友好度:包含曝光过滤、购买过滤等指标,买了还推等问题也是用户对电商类推荐系统诟病比较集中的地方。用户有比较,比价等相关延展性的消费诉求,但相比纯内容推荐,用户对电商类推荐疲劳度会更低。
  • 相关度:包含相关性、发现性等指标。推荐系统普遍基于协同过滤策略,相关性对于短期匹配效率和发现性对于中长期兴趣、货品挖掘,各有优劣,需要整体平衡。
  • 可信度:除涉黄、涉政等红线标准,淘宝对于素材是否真实准确描述货品要求极高。包含标题党,主体糅杂,主体模糊,不完整,切割等。
  • 美观度:牛皮藓、构图布局,恶心主体等,比如特写牙齿病,皮肤病等素材不适合在首页、会场等公域场景透出。

2.统计学习评估流程

确定了评估标准,评估流程包含以下几大步骤,通过模型测试集输出推荐结果,利用统计学习方法,进行指标自动计算,各指标相关性分析,进行整体业务评估度量。

为什么采用统计学习方法:

  • 更精准的指标刻画:比如推荐商品打散度,服饰和箱包vs服饰和家装,从传统规则(类目、标签等)分类,他们是一样的差异,但运用word2vec,映射到高维向量空间,能更精准地去刻画距离,用于打散度和多样性等指标计算。
  • 多维度的全局评估:整体指标好坏是一个非凸优化的问题,各指标间有相互的平衡关系,每一个场景在不同业务阶段,关注的核心指标也会存在差异。需要通过统计学习的方法,进行相关性分析,因子分析等,在几十个指标基础上形成置信基线的全局评估。

例:下图为某导购场景评测指标相关性矩阵,横纵分别为各评测指标,例如在某一个阶段,A指标和X指标正线性强相关,却和Y指标负线性强相关。需要对评测指标进行综合统计分析,才能对导购系统做出合理性的评估。

3.当前结果

基于5个维度,建立多评测指标计算服务,产出指标合理性置信区间基线,运用于日常导购和大促会场等个性化评测。在淘宝大促个性化会场,及时发现打散不足、推荐不足、重复推荐、推荐趋同、视觉同图等5类,250+个性化会场问题。提前优化,第一次评测整体通过率90%,通过多轮轮评测验证,会场上线前整体通过率提升到99%。

素材质量管控

1.淘宝素材质量标准

电商平台素材包含商家商品发布、招商报名、导购选品、达人创作等来源,文本、图像、商品、内容类等类型。素材质量对于用户体验、增长转化、平台质量都起到重要作用。而在这其中,图像(图片、视频)作为体验表达的重要媒介,是我们重点管控对象。

电商类业务在素材质量标准上,有以下三个特点(以某会场商品白底图部分基础规范为例):

(1)素材信息表达要求准确:避免图片与实物不符,误导用户,包含主体完整,单主体,无模特等要求。

(2)高质量图片转化效率更高:feeds流下用户视觉输入的信息量大,精美,布局合理的图片更能脱颖而出,有更好的转化,平台也能提供更好的用户体验,包含牛皮藓、纯白底、无阴影和抠图等。

(3)不同场景颗粒度差异:比如商品主图的牛皮藓,在公域会场和性价比营销场景,标准颗粒度不一样(轻微可接受、轻微不可接受)。

2.素材质量管控方案

所以素材质量管控方案,需要考虑不同场景检测能力能够快速生成,甚至是能够让业务运营同学参与进来。基于此,淘宝内容导购质量团队与淘宝基础算法团队合作,基于多任务共享特征网络模型,构建图像质量检测服务方案--水滴。通过快速图像检测能力生成,解决不同场景劣质素材质量运营的问题,提升素材质量和用户体验。

整体方案:

将模型训练研发过程样本获取,特征处理,构建训练模型网络,参数调优等工作通过共享模型训练和统一平台方式消减。快速、复用、灵活泛化的多模型产生。例:牛皮癣检测模型1,牛皮癣检测模型2,牛皮癣检测模型n…,并通过持续样本调整,构建运营业务标准和建模桥梁。

共享模型策略特点:

  • 多任务共享特征提高识别效率:多任务迁移学习网络模型,各个任务共享基础特征,减少基础特征重复计算,提高预测效率;多任务网络模型,各个任务共享基础特征,可以减少深度网络模型对各个任务的训练数据量需求,比如对于牛皮癣、logo、水印等高度相似任务,特征具有高度相似性,可以显著提高各任务识别精度。但当任务间相似程度不是很⼤情况,会增加模型的拟合难度,为此我们采⽤ CurriculumLearning 训练策略、从简到难逐步进行网络学习,同时模型上也结合半监督正则项,充分利用了海量无标签数据,进一步提高精度。

  • 噪声样本识别提高模型精度:循环学习策略识别噪声标签样本,提高训练数据质量,进而提高模型最终识别精度;详见论文《O2U-Net: ASimple Noisy Label Detection Approach for Deep Neural Networks》,已被 ICCV (国际计算机视觉大会)采录。

为了提高模型最终精度,深度网络对于训练数据精度要求很高,然而很多图像质量任务都存在边界定义模糊、难标注等问题,导致训练数据往往存在噪声标签,为了解决图像质量数据难标注、噪声问题,我们提出一种噪声标签识别方法:通过采用循环学习策略方法,使得模型反复在 overfifitting 和 underfifitting 之间相互转换,网络在这种学习过程中干净标签样本和噪声标签样本会出现明显的区分性特征,利用这种方法可以帮助我们很快找到那些训练数据集中的噪声标签样本,提高训练数据质量,最终保证模型精度。

工程架构和运转机制:

3.当前结果

建立牛皮癣、多主体、模特衣架、低俗情趣、水印、二维码等 40+ 劣质素材检测模型,提供离在线检测服务,周均 2 亿+服务运行,对导购业务各类商品、内容劣质素材从供给端进行质量检测,卡口治理,累计检测出劣质素材 7500 万+,并下线过滤。

扩展—无线CVT测试

除了用于素材质量整体管控,我们也在思考是否能将视觉技术引入测试领域,构造检测断言,用计算机代替测试人员的眼睛,这样高效,精准(像素级)发现问题,自动回归。基于此,构造了CVT--基于计算机视觉技术的自动化测试方案并落地实施。

基于feeds流的无线测试通常涉及到这些方面工作

  • 多机多版本下适配测试
  • 容灾测试(当服务端或模型产生异常,兜底数据方案是否会正确透出)
  • 异常检测(是否出现空窗,白屏,错误提示框等)
  • 视觉布局检测(文字截图,重叠,布局留白等,视觉要求像素级标准检测)
  • 性能测试(我们需要准确采集各机型毫秒级真实体感的渲染时间、可交互时间等)

通过目标检测、轮廓提取、ocr、以及快速机器学习多任务模型生成能力,全面运用到以上上线前内部的测试工作中。

例:CVT适配自动化测试

例:CVT视觉异常检测(空窗、白屏、错误框、模糊、截断等...)

3.当前结果

覆盖淘系大促会场、导购、二三方小程序、拍卖、阿里众筹等业务场景,运行总任务数5500+个,发现问题近100个,包括视觉还原像素级、空坑、多余留白、文本覆盖、文本截断、服务异常等问题。

总体展望

大数据系统质量评估需要业务、算法、体验目标三位一体综合衡量。数学思想、统计方法与质量工作结合,很好提升测试效率和科学性。我们今年会持续在更多质量领域,比如数据质量,素材质量运营,无线测试驱动,去深化演进质量体系,为用户带来极致的体验。


原文链接
本文为云栖社区原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/518189.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

新时代 新营销 新增长, 纷享销客重磅发布CRM7.0产品,持续赋能企业数字化未来

2020年4月26日,主题为“新时代 新营销 新增长”的纷享销客2020销售增长大会暨春季战略与新品发布会,在GMIC大会期间成功举办。纷享销客创始人&CEO罗旭发表“新时代 新营销 新增长”的主题演讲,同时重磅发布纷享销客连接型CRM7.0新品。 这…

python3-matplotlib基本使用(以折线图为例)

1、什么是matplotlib Matplotlib 是 Python 中最受欢迎的数据可视化软件包之一,支持跨平台运行,它是 Python 常用的 2D 绘图库,同时它也提供了一部分 3D 绘图接口。Matplotlib 通常与 NumPy、Pandas 一起使用,是数据分析中不可或…

flowable 开源项目

企业级工作流引擎开源项目 文章目录一、工作流引擎flowable1. flowable2. cims3. RuoYi-flowable4. springboot-flowable-modeler5. flowable-diagram二、工作流引擎activiti2.1. RuoYi-Vue-Process2.2. RuoYi-Process2.3. ruoyi-vue-activiti2.4. activiti7-workflow2.5. JeeS…

看!闲鱼在ServiceMesh的探索和实践

背景: 在阿里服务端开发以Java为主的大背景下,其他异构语言业务如何调用现有Java服务,如何与集团中间件打通,就成为使用非Java语言团队必须要解决的首要问题。 已有方案问题: 在ServiceMesh方案成熟之前&#xff0c…

编译错误 错误:PL/SQL: ORA-00932: 数据类型不一致: 应为 DATE, 但却获得 NUMBER 行

文章目录1. 现象2. 分析3. 解决方案通过存储过程将临时B表中的数据同步到轨迹表中 1. 现象 PROCEDURE LABS.ASSET_LOANP 编译错误错误:PL/SQL: ORA-00932: 数据类型不一致: 应为 DATE, 但却获得 NUMBER 行:17 文本:(select n.*, trunc(DBMS_R…

如何保证 HBase 服务的高可用?看看这份 HBase 可用性分析与高可用实践吧!

来源 | 阿丸笔记责编 | Carol头图 | CSDN 下载自视觉中国HBase作为一个分布式存储的数据库,它是如何保证可用性的呢?对于分布式系统的CAP问题,它是如何权衡的呢?最重要的是,我们在生产实践中,又应该如何保证…

python3-matplotlib绘制散点图、绘制条形图

matplotlib 支持的图形 https://matplotlib.org/stable/gallery/index.html 1、绘制散点图 from matplotlib import pyplot as plt from matplotlib import font_manager# y_3是三月每天的最高温度 y_10 是十月每天的最高温度 y_3 [11,17,16,11,12,11,12,6,6,7,8,9,12,…

ORA-01858: 在要求输入数字处找到非数字字符 13行

文章目录1. 现象2. 分析3. 解决方案ORA-01858: 在要求输入数字处找到非数字字符13行 1. 现象 insert /*append*/ into ASSET_LOAN(select * from ASSET_LOANB );commit;2. 分析 由于ASSET_LOANB表和ASSET_LOAN表字段顺序不一致导致的 具体分析:由于ASSET_LOANB表倒数…

牛!Python 全栈必备的 150 个实战案例,一次性获得!

Python 全栈将是你升职加薪的硬通货。我见过很多的 Python 讲解教程和书籍,它们大都这样讲 Python 的:先从 Python 的发展历史开始,介绍 Python 的基本语法规则,Python 的 list, dict, tuple 等数据结构,然后再介绍字符…

数据权限实现

权限框架可以根据用户所属角色决定有权限看到的菜单资源权限。 同一个资源下的同一个菜单的数据权限需要单独处理。 案例:一部门的张三和二部门的李四都是普通用户角色,普通用户都有用户管理的查询权限,但是,一部门的张三只能看到…

遍地开花的 Attention ,你真的懂吗?

阿里妹导读:曾被 paper 中各种各样的 Attentioin 搞得晕晕乎乎,尽管零零散散地整理过一些关于Attention 的笔记,重点和线索依然比较凌乱。今天,阿里巴巴工程师楠易,将 Attentioin 的知识系统性地梳理、回顾、总结&…

Wrapper+map实现页面显示

文章目录1. 查询用户数据map集合2. map集合参数拼装1. 查询用户数据map集合 2. map集合参数拼装 用户角色和部门名称,根据角色ID和部门id分别查询替换,简言之:需要的内容分别通过单独查询数据库得到,然后通过遍历依次对比&#xf…

手淘促活那些事儿 | 智能投放算法框架助力用户增长

导读:本文主要介绍以手淘促活为目的的全链路智能投放算法框架,该框架目前接入以 Pagani 为核心的全链路运营平台,首先使用用户意图识别算法圈选出目标人群,然后借助物料智能推荐和权益动态面额等算法实现全链路上用户的个性化触达…

天天用Redis,持久化方案你又知道哪些?

来源 |码猿技术专栏责编 | Carol头图 | CSDN 下载自视觉中国Redis目前已经成为主流的内存数据库了,但是大部分人仅仅是停留在会用的阶段,你真的了解Redis内部的工作原理吗?今天这篇文章将为大家介绍Redis持久化的两种方案,文章将会…

万万没想到,JVM内存结构的面试题可以问的这么难?

在我的博客中,之前有很多文章介绍过JVM内存结构,相信很多看多我文章的朋友对这部分知识都有一定的了解了。 那么,请大家尝试着回答一下以下问题: 1、JVM管理的内存结构是怎样的? 2、不同的虚拟机在实现运行时内存的…

Serverless 落地挑战与蚂蚁金服实践

目前 Serverless 已成为云原生社区关注的重点之一,有人说它是微服务的继承者,将会彻底改变软件研发的现状,那么真实情况如何呢?本文将介绍 Serverless 市场观察、落地挑战,以及蚂蚁金服对 Serverless 的实践。 Server…

程序员感叹一年只能存下15万太少了……网友:潸然泪下

最近有程序员网友晒出自己的年终奖,税后高达15.7万!看到这个情形,很多网友表示自己“被打鸡血了”。他强调学习的重要性,学习仍然是在这个时代下,普通人能够逆袭,给家人更好生活的一把利器!今天…

机器学习工程师第一年的12点体会

机器学习和数据科学都是广义上的术语,它们涉及超级多的领域以及知识,一位数据科学家所做的事情可能与另一位有很大的不同,机器学习工程师也是如此。通常使用过去(数据)来理解或预测(构建模型)未…

今天下午三点,2020深圳开放数据应用创新大赛将举行第二场线上推介会

4月27日15:00 - 16:30,网易客户端、ZAKER、华为云、南方 plus、虎牙在线直播每场线上推介会设两轮抽奖,欢迎互动。继4月20日首场线上推介会顺利举行后,4月27日下午,以"数聚粤港澳,智汇大湾区"为主题的"…

解决Another app is currently holding the yum lock; waiting for it to exit...问题

在下载安装lrzsz时出现Another app is currently holding the yum lock; waiting for it to exit...问题yum被锁定了可以使用 rm -rf /var/run/yum.pid 强制杀死进程来解决