聊聊工业界做机器学习的里程碑

文 | 吴海波

编 | YY


阅读说明,本文的机器学习领域限制于互联网搜索、推荐、广告场景,仅限于个人观点。

2017年,我和团队的几个核心去了趟北京,找了各大互联网公司一线实战的同学,交流各自在机器学习上的经验。这次交流让我的认知上了一个台阶,开始思考什么是真正优秀的机器学习团队。

感慨一句,百度,特别是凤巢,真是中国机器学习的黄埔军校,门生遍布天下。

系统——经济基础决定上层建筑

工程系统中,提升收益是优化算法的根本动机。 业界流行过这样一句话:“能加几台机器解决的问题,不要让人去优化。”乍一眼看有些反直觉,但是结合语境细想,这句话的核心思想是做事应当把控好大方向。机器便宜,人力昂贵,在业务快速发展的阶段,有很多更重要的事情要去做。能不能比竞争对手快一个周期,就是团队生与死的差别。这种情况下,过度追求算法的提升可能是在舍本逐末,反而不明智。

对比学术界,互联网中搜索推荐及广告的场景,有个明显的特点,就是数据规模大,训练数据丰富,正负反馈获取成本低。这就造成了和传统机器学习算法格格不入的方案,通常模型方案都是不那么经济。

此外,大多数工程系统,是从业务需求侧或者产品需求侧设计的,很少会把算法当做真正的业务方。 工程师对研究者常见的批评,有一条就是开发的算法往往缺少对应的需求。而业务方的要求,就算有时在实现难度上大到不合理,通常也是市场的客观反映。因此,大部分工程上针对算法的设计方案,更像是主流需求外的附加需求,常常是阉割再阉割。

采用机器学习时,有几个问题是共通的:数据质量建设——ABtest怎么做的,流量波动大不大,实验置信度有多少,埋点方案有没有第三方检验,数据口径是否统一。

为什么说大规模Logistics Regression是一个里程碑

这两年,各大公司分别实现了一波少帅的Parameter Server,动不动就号称千亿级的特征规模。这套广告业务的核心技术:点击率 (Click Through Rate, CTR) 。预估任务最开始由Google提出,而国内选择的突破口是在Logistics Regression中引入id类特征,这就造成了极大的运算量。众所周知,LR模型是线性模型,需要做特征交叉,互联网的用户、商品、内容都是一个非常夸张的量级,交叉之后往往会得到一个规模极大的特征集。

大规模首先要解决计算力问题。 很多互联网公司的机器学习团队虽然有很多数据,但是跑不动,就只能用部分数据;又因为训练数据不足,特征工程就不能做多,只好人工进行特征选择,费时费力。如果计算力足够,样本量级上去,这个问题就可以迎刃而解。

同样搞机器学习,大公司可能一天进行十几种尝试,小公司却只能做一两种。冷兵器对上火炮,只有被碾压。少帅在14年提出的SOTA,100T数据,10亿特征,半个小时迭代100轮的计算力,到了现在能实现的公司也寥寥无几。

另一方面是线上服务。 这么大规模的模型,怎么发布上线,更新模型的时候怎么保持线上数据的一致性,处处都是难题。模型大了,相应的特征也很多,那么哪里存储这些特征?离线的特征可以存缓存,实时特征怎么办,数据还要沟通,能做到实时吗?如果模型不能被单机加载到内存,难度又得上一个量级。

综合起来,大规模LR模型非常考验团队工程系统能力。从另一个角度看,这是一种工业级的哲学观,追求通用,追求效率,降低模型对个别算法的依赖,通过堆切大量特征的方式击败小作坊式特征工程,充满暴力美学。

为何要搞深度学习?因为效率

上文的大规模LR看起来是一种“笨方法”。最近这几年工业界投入甚多的深度学习,则是另一条被看好的道路。说实话,大部分的深度学习在推荐和搜索,并没有取得像图像领域那样让人印象深刻的效果。但它拥有一个致命的诱惑——不需要或需要少量的人工特征工程。

就是这个方案对比以前的模型没有提升,但它不需要特征工程,于是能带来巨大的效率提升。如果想做出较通用的解决方案,对业务来讲,原先可能要好几个同学哼哧哼哧搞好几个月的特征工程,现在深度学习方案能快速的搞出来。

写在最后

总的来说,目前的机器学习还有很大的发展空间,让我们把喧嚣留给媒体,自己安安静静地继续探索吧~


文末福利
后台回复关键词【入群
加入卖萌屋NLP/IR/Rec与求职讨论群
有顶会审稿人、大厂研究员、知乎大V和妹纸
等你来撩哦~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479959.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

直通BAT JVM必考题:Minor GC、Major GC、Full GC的区别

Java面试过程,JVM属于必考题系列: 直通BAT必考题系列:深入详解JVM内存模型与JVM参数详细配置 直通BAT必考题系列:JVM的4种垃圾回收算法、垃圾回收机制与总结 直通BAT必考题系列:7种JVM垃圾收集器特点,优…

matplotlib绘制多张图、多子图、多例图

绘制多图 关键: fig plt.figure(1) 表示新建第几个图 import matplotlib.pyplot as pltfig plt.figure(1) plt_rec_loss [1,2,3,4,5,6] plt_rec_recall [4,3,6,5,8,9] plt.xlabel("epoch") plt.ylabel("loss") plt.plot(range(len(plt_re…

jieba分词并做分析

Github:结巴分词地址 https://github.com/fxsjy/jieba 几种分词方法的简单使用:一 . jieba安装、示例 pip install jieba,jieba分词的语料是基于人民日报。分词示例1 import jieba 2 3 str1 江州市长江大桥 4 word_object jieba.cut(s…

研讨会 | CCF TF 第 17 期:认知计算产业化落地

CCF TF 技术前线只为技术专家CCFTF第17期主题 认知计算产业化落地2019年05月11日上海斯波特酒店五楼(上海市南丹路15号,徐汇区政府对面)人类迈入人工智能时代,技术的发展使得机器可以从大数据中提取信息,串联成知识&a…

短网址系统

文章目录1. 短网址服务整体介绍2. 如何通过哈希算法生成短网址?2.1 如何让短网址更短2.2 如何解决哈希冲突?2.3 如何优化哈希算法生成短网址的性能?3. 如何通过ID生成器生成短网址?3.1 相同的原始网址可能会对应不同的短网址3.2 如…

一个神经元的价值和一个神经病的坚持

作者 | 周博磊来源 | 机器之心一个神经元能够催生多少故事?香港中文大学信息工程系助理教授周博磊近日撰文介绍了他自 2015 年开始至今对神经元的研究经历。最近,他与 David Bau、朱俊彦等人合作的神经元研究论文发表在了 PNAS 杂志上。以下是周博磊的原…

直通BAT必考题系列:深入剖析JVM之G1收集器、及回收流程、与推荐用例

金三银四马上到了,即将进入面试的高峰期。在BAT面试中,JVM基本都是必考的系列。你至少需要掌握JVM内存模型与JVM参数详细配置,JVM的4种垃圾回收算法、垃圾回收机制与总结,以及今天重点谈到的JVM垃圾回收算法的实现:JVM…

多任务学习方法

最近一直在做多任务,但是效果好象没什么提升,因为都是凭自己的想法和感觉在做。于是上网查找了一些这方面的资料,寻求一些理论上的支撑和前人经验上的帮助。 多任务学习: 故名思意,就是多个任务一起学习。为什么要进行…

曹羽 | 从知识工程到知识图谱全面回顾

本文转载自公众号:集智俱乐部。文本挖掘和图形数据库 | ©ontotext导语知识工程是符号主义人工智能的典型代表,近年来越来越火的知识图谱,就是新一代的知识工程技术。知识工程将如何影响未来人工智能领域的发展,甚至让计算机拥…

4大JVM性能分析工具详解,及内存泄漏分析方案

谈到性能优化分析一般会涉及到: Java代码层面的,典型的循环嵌套等 还会涉及到Java JVM:内存泄漏溢出等 MySQL数据库优化:分库分表、慢查询、长事务的优化等 阿里P8架构师谈:MySQL慢查询优化、索引优化、以及表等优化…

从 0 搭建一个工业级推荐系统

推荐系统从来没像现在这样,影响着我们的生活。当你上网购物时,天猫、京东会为你推荐商品;想了解资讯,头条、知乎会为你准备感兴趣的新闻和知识;想消遣放松,抖音、快手会为你奉上让你欲罢不能的短视频。而驱…

论文浅尝 | 虚拟知识图谱:软件系统和应用案例综述

本文转载自公众号:DI数据智能。Virtual Knowledge Graphs: An Overview of Systems and Use Cases作者:Guohui Xiao, Linfang Ding, Benjamin Cogrel & Diego Calvanese供稿:Guohui Xiao编者按:Data Intelligence 发表意大利博…

LeetCode 169. 求众数(摩尔投票)

文章目录1. 题目信息2. 解题思路3. 代码3.1 排序3.2 map计数3.3 摩尔投票1. 题目信息 给定一个大小为 n 的数组,找到其中的众数。众数是指在数组中出现次数大于 ⌊ n/2 ⌋ 的元素。 你可以假设数组是非空的,并且给定的数组总是存在众数。 示例 1:输入…

阿里P8架构师谈:JVM的内存分配、运行原理、回收算法机制

不管是BAT面试,还是工作实践中的JVM调优以及参数设置,或者内存溢出检测等,都需要涉及到Java虚拟机的内存模型、内存分配,以及回收算法机制等,这些都是必考、必会技能。 JVM内存模型 JVM内存模型可以分为两个部分&…

我的BERT!改改字典,让BERT安全提速不掉分(已开源)

文 | 苏剑林编 | 小轶背景当前,大部分中文预训练模型都是以字为基本单位的,也就是说中文语句会被拆分为一个个字。中文也有一些多粒度的语言模型,比如创新工场的ZEN和字节跳动的AMBERT,但这类模型的基本单位还是字,只不…

2020年考证时间表汇总!这些证书值得拥有!

原文地址: https://zhuanlan.zhihu.com/p/100824416 2020年考证时间表汇总!这些证书值得拥有!已认证的官方帐号154 人赞同了该文章昨日之日不可留,2019年已然过去,2020年的我们不能再一成不变!快根据自身情…

征稿 | 2019年全国知识图谱与语义计算大会(CCKS2019)第二轮征稿启事

2019年全国知识图谱与语义计算大会China Conference on Knowledge Graph and Semantic Computing (CCKS 2019)2019年8月24日-27日,杭州征稿截止: 2019年5月18日全国知识图谱与语义计算大会(CCKS: China Conference on Knowledge Graph and Semantic Comp…

直通BAT必考题系列:JVM的4种垃圾回收算法、垃圾回收机制与总结

BAT必考JVM系列专题 直通BAT必考题系列:深入详解JVM内存模型与JVM参数详细配置 垃圾回收算法 1.标记清除 标记-清除算法将垃圾回收分为两个阶段:标记阶段和清除阶段。 在标记阶段首先通过根节点(GC Roots),标记所…

遗传算法及其应用实现

使用遗传算法求解函数具有最大值的点X """ Visualize Genetic Algorithm to find a maximum point in a function. """ import numpy as np import matplotlib.pyplot as pltDNA_SIZE 10 # DNA length POP_SIZE 100 # population size CROSS…

论文浅尝 | 一种嵌入效率极高的 node embedding 方式

论文笔记整理:叶群,浙江大学计算机学院,知识图谱、NLP方向。会议:WSDM 2019链接:https://dl.acm.org/citation.cfm?id3290961Motivation基于spring-electrical的模型在网络可视化中取得了非常成功的应用,一…