惊了,掌握了这个炼丹技巧的我开始突飞猛进

文 | 夕小瑶

从不拖稿的小夕今天在知乎上刷到一个问题:

哈?一向求真务实、高逼格讨论的知乎画风怎么突然就不一样了。

我以为回答区会有这张图:

▲如来神掌

结果竟然没有!知乎果然没有让我失望,还是一如既往的认真、严谨、有逼格。咳咳,作为一枚知乎算法圈的老司机小可爱,感觉自己有必要来添砖加瓦一下。


相信我,深刻理解数据的重要性与数据构造&迭代&使用技术,你会从算法小白突飞猛进到即将入门!(认真脸

首先贴出我的算法工程师升级打怪路线:

  1. 最菜的算法工程师靠调学习率

  2. 次菜的算法工程师靠试新模型

  3. 合格的算法工程师会懂得做数据

  4. 不错的算法工程师还会用新paper优化实际问题

  5. 优秀的算法工程师能数据、模型、策略joint design&iterate

  6. 顶级的算法工程师能颠覆行业方法论

仅供参考,请勿对号入座! 尤其是正在看本文的技术leader们,不要将自己的小弟对号入座,毕竟从1到6的形状是个倒金字塔╮(╯▽╰)╭

其实从这里可以看出,1和2其实大部分实习生和应届校招生都能做到,而3就是完成学校->工业界的重要转折点,也就是做数据

关于数据

学生思维中的算法工程师日常可能是这样的:

天上掉下来/老板拍过来/网上download下来一个训练集、测试集,然后我开始调模型&调参,调好了就上线了。

尤其是那些整天吹嘘算法岗门槛低,以为跑个BERT刷个榜单就入门了nlp的人,不是学生就是半路转行的调参侠。

当你开始意识到数据的重要性了,不敢说技术突飞猛进吧,至少可以承认你马上要入门这一行了。比如你开始有以下意识:

  1. 嗯,我不能只关注离线测试集指标涨不涨,我还要判断测试集靠不靠谱,包括采样/数据分布的线上一致性、时效性、标注正确率、评测方差/置信度等。

  2. 嗯,我不能对着同一个测试集做大量没道理的炼丹,比如暴力调参、疯狂改随机种子、暴力乱加策略、暴力魔改、暴力增删改查等。我知道大量的无意义超参调整,只会变相的让模型用超参过拟合这个测试集。最终结果往往是,向上汇报猛如虎,线上用户用脚投票。

  3. wok,准确率从90%一下子涨到99%了!肯定不是我nb,绝对是出bug或者标签泄漏了!

  4. 嗯,新老方法都有其存在的意义和发挥作用的阶段,都是不可缺的。

  5. 嗯,从1到2与从0到1的解法有很大区别。

就至少跟200元/天的实习生划清界限了。。。

那么,具体来说,做数据具体要怎么做呢?或者说需要积累哪方面的能力/经验呢?

简单来讲:

  1. 标注标准

  2. 采样策略

关于标注标准,这其实是个比较吃业务经验的事情。

真实的业务场景数据是非常dirty的,即使是情感分类这种看起来非黑即白的NLP任务,在流量大的真实业务场景中,都会面临大量的边界样本和人都要分辨半天,甚至需要足够学历、阅历才能分辨出情感极性的样本(想象一下知乎评论区那些“阴阳怪气”的评论,可能你都不知道对方是在骂你还是夸你)。

此外,哪怕是同一条样本,同样的分类任务,业务场景稍有变化,那么你期待的标签可能会完全相反。比如,句子“oppo最新款手机多少钱”与句子“vivo最新款手机多少钱”的文本相关性,在搜索场景,就是妥妥的负例,因为用户的出发点是获取真实知识,你如果给用户返回vivo的价格,那用户会有一种被欺骗感。

但是,在搜索广告场景,却完全可以作为正例,因为本身vivo和oppo的大众认知相对比较近,用户在搜索广告场景的出发点可能是买一部不错的安卓机,并且用户觉得oppo可能是不错的选择,那这时候你给出vivo的信息,用户往往不会反感,甚至可能因为发现vivo更合适而下单。

当然了,这种品牌实体的替换导致的文本相关性结论并不是永久成立的,比如同样搜索广告,用户问“劳斯莱斯最新款多少钱”,结果你出了一条“五菱最新款价格”,那用户就会感觉受到了侮辱。。所以深刻理解具体业务场景的优化目标,对于制定正确的标注标准是十分必要的。当然,标注标准很大程度上取决于产品标准,而你就是要将这个产品标准深刻理解且转变成众包平台人员也能轻松看懂的标注标准。

一旦标注标准导向错了,坐拥百万标注数据和100层的预训练模型也可能原地踏步。相反地说,如果标准做得好,那将大大提升标注数据的有效性,每周新返回的标注数据带来的增益可能比你花式炼丹一个月都来的有效。

关于采样策略,这个则同时跟业务目标、技术选型与模型水平相关,在不同的场景有不同的策略。

比如你到了要端到端解决问题的阶段,又能做到大规模标注,那可以考虑直接对齐线上真实分布做同分布采样+端到端标注。但是大部分复杂业务,往往是pipeline的方式,则要考虑对齐上一级分布。涉及到具体场景和阶段时,又会根据这个大原则去微调采样策略,比如精排问题中如何mining负例,多路召回时如何采样来优化下游粗排等,在真实分布的基础上做些微调同样可能带来肉眼可见的提升。

除了标准和采样问题外,数据问题上还可以组合大量预处理策略和训练策略,耦合上模型的特点和输入分布偏好,又是一波空间。总之,在当前的大框架下,数据空间往往比模型空间大得多,这也是当下算法工程师炼丹水平高低的一个重要分水岭。

更进一步

说完了倒金字塔最重要的一层,我们继续往下深入。

3到4的过程相对来说不是很难。如果你有刷paper的习惯,配合着高手速,脑子别太笨,那剩下的20%的疑难问题你也能解的七七八八了。即使不怎么刷paper,在靠谱的算法团队里苟着,通过耳濡目染也能get到不少求解疑难算法问题的高端姿势(误)。能做到这一步的,在大厂核心团队里也称得上不错了。如果再有一些软实力加成,至少不会担心没人要。

而4到5的过程,则需要一些顶层设计能力和工作年限积累。首先要做有挑战性的大业务,那些挖个字典、跑跑textcnn、finetune下BERT就完成目标的业务,说难听点都是demo,至少算法肯定不是这个业务的核心竞争力。当然了,这种挑战大的场景主要集中在搜索、推荐、广告等核心赛道上,顶层设计能力纯靠聪明、看paper和小打小闹的业务是学不来的。怎样的策略方案会预期达到怎样的业务效果,消耗多少成本,有哪些风险,甚至这个事情当下能不能做,应不应该做,前置环节是什么,下个阶段要做什么等,这些问题都要有足够的判断力。毕竟,哪个老板愿意拿着几百上千万的年薪让你去他的命根子业务上成长试错呢?

而5到6的过程,多拍脑袋吧,也需要环境、机遇。如果你做到了,记得回来留个言,给小夕留个好友位。。。

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478899.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 876. 链表的中间结点(快慢指针)

1. 题目 给定一个带有头结点 head 的非空单链表,返回链表的中间结点。 如果有两个中间结点,则返回第二个中间结点。 2. 解题 快慢指针法 class Solution { public:ListNode* middleNode(ListNode* head) {ListNode *fast head, *slow head;while(f…

技术动态 | 多模态知识图谱

本文转载自漆桂林老师的知乎专栏。原文链接:https://zhuanlan.zhihu.com/p/163278672作者:郑秋硕,漆桂林,王萌知识图谱技术已经被广泛用于处理结构化数据(采用本体D2R技术)和文本数据(采用文本信…

美团配送系统架构演进实践

写在前面 美团配送自成立以来,业务经历了多次跨越式的发展。业务的飞速增长,对系统的整体架构和基础设施提出了越来越高的要求,同时也不断驱动着技术团队深刻理解业务、准确定位领域模型、高效支撑系统扩展。如何在业务高速增长、可用性越来越…

Python字符串模糊匹配库FuzzyWuzzy

Python字符串模糊匹配库FuzzyWuzzy 在计算机科学中,字符串模糊匹配(fuzzy string matching)是一种近似地(而不是精确地)查找与模式匹配的字符串的技术。换句话说,字符串模糊匹配是一种搜索,即使…

机器学习梗图大赏

文 | 白鹡鸰图 | 白鹡鸰 小轶大家好呀,我是日常遭到小轶摁头赶稿的白鹡鸰~最近的投稿高峰期各位都过得如何呢?白鹡鸰要偷偷爆料,最近的小轶可是超级辛苦的~不过白鹡鸰还很轻松,毕竟已经决定赶300天以后的dd…

论文浅尝 - ACL2020 | 用于关系三元组抽取的级联二进制标记框架

论文笔记整理:王中昊,天津大学。来源:ACL2020链接:https://arxiv.org/pdf/1909.03227.pdf摘要从非结构化文本中提取关系三元组是构建大规模知识图的关键。然而,对于同一句子中的多个关系三元组共享同一个实体的重叠三元…

美团客户端响应式框架 EasyReact 开源啦

前言 EasyReact 是一款基于响应式编程范式的客户端开发框架,开发者可以使用此框架轻松地解决客户端的异步问题。 目前 EasyReact 已在美团和大众点评客户端的部分业务中实践,并且持续迭代了一年多的时间。近日,我们决定开源这个项目的 iOS Ob…

LeetCode 897. 递增顺序查找树(中序遍历)

1. 题目 给定一个树,按中序遍历重新排列树,使树中最左边的结点现在是树的根,并且每个结点没有左子结点,只有一个右子结点。 示例 :输入:[5,3,6,2,4,null,8,1,null,null,null,7,9]5/ \3 6/ \ \2 4…

谈谈怎样提高炼丹手速

文 | 夕小瑶最近搞定几件焦头烂额的大事后,终于有了一丢丢的时间来写写文章,并且偶尔思考下算法工程师的核心竞争力是什么。前不久一时兴起写了篇标题党文章《惊了!掌握了这个炼丹技巧的我开始突飞猛进》,简单描述了一下我的升级打…

论文浅尝 | 神经协同推理

论文笔记整理:叶橄强,浙江大学计算机学院,知识图谱和知识推理方向。Paper link: https://arxiv.org/abs/2005.08129Github link: https://github.com/Scagin/NeuralLogicReasoning背景:推荐任务推荐作为一种认知智能任务&#xff…

在服务器上安装anaconda遇到的问题总结

1 安装anaconda需要一些安装包,需要提前备准备好,比如bunzip2, gcc编译等软件。 cd /anacondaRElyanacondaREly文件夹下放了anaconda所依赖的安装包,切换到该路径 rpm -Uvh *.rpm --nodeps --force安装好anaconda 需要的依赖环境…

LeetCode 693. 交替位二进制数(位运算)

1. 题目 给定一个正整数,检查他是否为交替位二进制数:换句话说,就是他的二进制数相邻的两个位数永不相等。 输入: 5 输出: True 解释: 5的二进制数是: 101输入: 7 输出: False 解释: 7的二进制数是: 111输入: 11 输出: False 解释: 11的二进…

全栈深度学习第6期: 模型测试和部署

一起追剧鸭简介Berkeley全栈深度学习追剧计划是由夕小瑶的卖萌屋发起的优质公开课打卡项目,通过微信群为同期追剧的小伙伴提供交流平台。关于该计划的详请见这里。Berkeley深度学习追剧群目前已有1000小伙伴加入,公众号后台回复口令 深度学习追剧 入群。…

开源开放 | 欧若科技通过 OpenKG 开放 Nebula Graph 图数据库

开源工具名称:Nebula Graph贡献者:杭州欧若数网科技有限公司 Nebula GraphOpenKG 链接:http://openkg.cn/tool/nebula-graph-database 谣言盐水漱口能预防感染?钟南山院士团队公开辟谣:「盐水漱口有利于…

pkuseg-python的postag.zip在不能联网的服务器上的解决办法

关于pkuseg-python的基本介绍和使用: pkuseg.pkuseg( postag True)时,会触发download.py文件的下载命令,从github中下载,进而会导致服务器报错,如下 进而在pkuseg文件下打开download.py和__in…

数据库的方向 - 行vs列(转自: IBM i 中国开发团队)

转载地址:https://www.ibm.com/developerworks/community/blogs/IBMi/entry/database?langen 原文链接:http://ibmsystemsmag.blogs.com/you_and_i/db2/ 数据库的方向 - 行vs列 如果你是一位数据库专家的话,这篇博客可能帮不了你什么。 …

Android自动化页面测速在美团的实践

背景 随着移动互联网的快速发展,移动应用越来越注重用户体验。美团技术团队在开发过程中也非常注重提升移动应用的整体质量,其中很重要的一项内容就是页面的加载速度。如果发生冷启动时间过长、页面渲染时间过长、网络请求过慢等现象,就会直接…

NLP领域的首次Hard Label黑盒攻击!

文 | 阿毅编 | 小轶背景前段时间已经和大家分享了两篇关于NLP Privacy的文章。今天,我们又来给大家推送优质论文了(公众号学习法)。其实,NLP与其他方向的跨界结合这段时间层出不穷,且都发表到了非常好的顶会上。目前有…

论文浅尝 - ACL2020 | 利用知识库嵌入改进多跳 KGQA

论文笔记整理:吴畏,东南大学硕士研究生。来源: ACL 2020论文地址: https://www.aclweb.org/anthology/2020.acl-main.412.pdf开源代码: https://github.com/malllabiisc/EmbedKGQA动机在多跳KGQA中,系统需要对KG的多个边缘执行推理以推断出正…

MCI:移动持续集成在大众点评的实践

一、背景 美团是全球最大的互联网生活服务平台,为3.2亿活跃用户和500多万的优质商户提供一个连接线上与线下的电子商务服务。秉承“帮大家吃得更好,生活更好”的使命,我们的业务覆盖了超过200个品类和2800个城区县网络,在餐饮、外…