人物志 | KDD Cup 2017双料冠军燕鹏

2017年数据挖掘领域最有影响力的赛事KDD Cup近日揭晓,Convolution队从全球70个国家的3582支队伍里脱颖而出,包揽两项任务的冠军。这支双料冠军队成员名单里,有一个我们熟悉的名字——美团点评高级技术专家燕鹏。

燕鹏

说燕鹏可能大家并不一定知道,但提起燕鹏的网名Eureka,玩算法竞赛的同学一定不会陌生。是的,燕鹏同学就是在世界最大的算法竞赛平台Kaggle总排名第5的Eureka,目前在所有中国同学里排名最高,历史总成绩是16金13银3铜。

现在,就让我们一起来认识一下这位身边的大神吧。

对话燕鹏

Q:Hi燕鹏,请先简单介绍一下自己。

燕鹏:2002年清华硕士毕业,主要做模式识别。2002-2005在创业公司做计算机视觉相关工作,2005-2008年自己创业,2008-2016年在网易做广告相关的事情。2016年4月来到美团,主要负责酒旅排序的工作,现在到了金融服务平台,做机器学习相关的工作。

这几份工作都和数据挖掘专业相关,都是用机器学习来解决不同的问题,前期主要偏向图像,后期偏向数据相关。

Q:那说说你的KDD Cup经历吧。

燕鹏:这个大赛在圈子里还是很有名的,20年悠久历史了。算上这次我已经参加三次了。

第一次是2015年,当时我是队长,和7个不同国家(小编查了一下有美国日本韩国奥地利新加坡……)的人加上另外一个清华的同学,我们9个人组了队伍。队名就叫InterContinental Ensemble(洲际天团)哈哈。

大家在各个国家,用Skype,然后不同的时差,最后在一个时间点上等待着最终成绩的发布,最后我们第一名,这个让我印象很深刻。

等待成绩的时候一开始很忐忑,因为并不知道自己第几名。我们前几名的差距非常非常小,谁都可能是第一名,所以当时知道自己是第一名的时候,我们几个都炸掉了!

Q:所以你已经拿过一次冠军了啊。

燕鹏:是啊。其实这次你们要是不说,也就过去了。这次我不是队长,只是队里的老大哥。

Q:那第二次呢?好像没成绩?

燕鹏:2016年第二次也做完了,但由于算错了时差,答案提交得较晚,错过了获奖机会。

Q:说说这次冠军之路吧。

燕鹏:说实话,第一次赢了之后还是很高兴的。这次就没有那么强感觉了。相当于找人打了一局王者荣耀,赢了也没有值得炫耀的事情,输了也就输了。

另外第一次的前几名都是外国人,这一次比赛多是中国人,基本也没什么好说的。

Q:还是说说细节和感受吧。(小编心理活动:不然我怎么写稿子啊)

燕鹏:今年组队的同学里,有两个微软的(胡可和黄攀),一个是北航的研究生(陈欢),其中微软的小伙子是队长。我们线下认识,就商量说一起玩一下吧。我们几个人都有Kaggle比赛的冠军经验,所以实力还是很强的。

我是抱着玩儿的心态去的,他们比我更想赢,毕竟还没有赢过嘛。很多玩数据挖掘的人,都想赢一次KDD,它是一个相对于知名度较高的比赛,夸张的说,这个比赛是这个圈子里的奥林匹克。

本次大赛的题目,还是有一定挑战性的。具体可以看胡可的分享。

小编从胡可分享Slides里找到这幅图

这次数据比较少,意味着你的方法结果会不稳定,这种不稳定会意味着最后要靠一些运气来争夺输赢。应该是实力+运气的组合,这两个的组合不太好量化,其实很多比赛到了最后比1、2、3名的时候,都会靠一点点运气。曾经我有一次比赛,在十万分位的比别人高一点点,赢了。

Q:你们几个人是怎么合作的?

燕鹏:我们会先从自己的技术积累出发,充分讨论技术点和可能的方案。然后自由探索,分别给出自己的解决思路。这样做的好处是,不会一上来就把思路限制住。最后再进行充分融合。

Q:你觉得在KDD这种比赛取得好成绩,需要哪些能力和素质?

燕鹏:首先数学得好。

第二是实践实践实践。经验很重要,用数据挖掘、机器学习的方法来解决各种各样的问题的经验。多做,多用机器学习解决各种各样的问题,那么你再来一个新问题,哪怕是以前都没有从来没有做过的问题,可能都会做得出来。

在这个比赛之前,我也参加过各种各样的比赛,一方面是看时间,一方面是看问题。我以前喜欢做我擅长的,如广告,后来就越来越杂,比如这次的是交通的问题,我也做过金融、教育、医疗的问题。这个就是兴趣,你可能看到一个新的东西,你就会要解决他,觉得这个还挺高兴的。

除了数学好,对数据得敏感,这个不知道怎么更好的描述,有些人先天看到数据就会很感兴趣,就会找到规律,我们经常会用数据来说明情况。

Q:你是怎么加入美团点评的?

燕鹏:噢,原来的公司搬家了,搬远了。我家就在望京,美团点评离家很近,就来了。(小编心理活动:能不能别尽说大实话啊。)

Q:那来了美团点评以后感觉怎么样?

燕鹏:各方面都挺好的,对公司很满意。Leader对我很信任,能给我一些空间,让我做一些探索性的事情。

Q:对从事算法工作的同学,有什么建议?

燕鹏:我一直的观点,Paper+方法都要有。

机器学习发展的速度非常快,从事算法的同学应该更多的去Follow学术界和工业界的最新研究成果,想办法把这些研究成果运用到自己的工作中去。

另外,我觉得搞数据挖掘的同学可以多参加KDD这样的比赛,这是一个不错的学习的方式。大家从论文能学到东西,确实有很多新的方法,但是这种比赛里面会有很多技巧性的东西,这种技巧性的东西往往可能不是特别的深奥,写不出paper来,但也是非常有用的。

所以这两者不会重叠,会有一些互补。

Q:最后一个问题,有什么优秀的学习资料可以推荐给大家?

燕鹏:我推荐《The Elements of Statistical Learning》,比较难,但我非常喜欢。初级一点的同学,可以去学台大林轩田教授的机器学习课程。

低调,实在,但其实挺牛、挺靠谱。嗯,这就是我们美团点评技术团队。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478493.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

论文浅尝 - IJCAI2020 | KGNN:基于知识图谱的图神经网络预测药物与药物相互作用...

转载公众号 | AI TIME 论道药物间相互作用(DDI)预测是药理学和临床应用中一个具有挑战性的问题,在临床试验期间,有效识别潜在的DDI对患者和社会至关重要。现有的大多数方法采用基于AI的计算模型,通常倾向于集成多个数…

LeetCode 79. 单词搜索(回溯DFS)

1. 题目 给定一个二维网格和一个单词,找出该单词是否存在于网格中。 单词必须按照字母顺序,通过相邻的单元格内的字母构成,其中“相邻”单元格是那些水平相邻或垂直相邻的单元格。同一个单元格内的字母不允许被重复使用。 示例: board [[…

中文BERT上分新技巧,多粒度信息来帮忙

文 | ????????????????自然语言处理实在是太难啦!中文尤其难!相比于英文,中文是以词作为语义的基本单位的,因此传统的中文 NLP 都需要先进行分词。分词这步就劝退了很多人,比如“研究生活很充实”&…

监控平台前端SDK开发实践

监控是提高故障处理能力和保障服务质量必需的一环,它需要负责的内容包括:及时上报错误、收集有效信息、提供故障排查依据。 及时上报错误:发生线上问题后,经由运营或者产品反馈到开发人员,其中流转过程可能是几分钟甚至…

论文浅尝 - WWW2020 | 通过对抗学习从用户—项目交互数据中挖掘隐含的实体偏好来用于知识图谱补全任务...

笔记整理 | 陈湘楠,浙江大学在读硕士。现有的知识图谱补全方法都在试图设计全新的学习算法,来使用已知的事实信息去推理知识图谱中的潜在语义。但随着知识图谱的广泛使用,知识图谱中的许多实体对应着应用程序系统的在线项目。但知识图谱和应用…

LeetCode 24. 两两交换链表中的节点(递归+循环)

1. 题目 给定一个链表,两两交换其中相邻的节点,并返回交换后的链表。 你不能只是单纯的改变节点内部的值,而是需要实际的进行节点交换。 示例: 给定 1->2->3->4, 你应该返回 2->1->4->3.2. 解题 2.1 递归 class Solut…

美团数据平台融合实践

本文根据作者在2017年ArchSummit的分享记录整理而成。 互联网格局复杂多变,大规模的企业合并重组不时发生。原来完全独立甚至相互竞争的两家公司,有着独立的技术体系、平台和团队,如何整合,技术和管理上的难度都很大。2015年10月&…

CMU MILA 谷歌 | 三家巨头发布史上最干文本增强总结

文 | Sherry一直以来,数据都是推动深度神经网络这个人工智能引擎不可或缺的燃料;然而人工收集足量而优质的数据从来不是一件“便宜”的事,数据增强便是一座富有价值的矿山。在CV中,翻转,裁剪,加噪声等方法被…

论文浅尝 - AAAI2021 | 从历史中学习:利用时间感知拷贝生成网络建模时态知识图谱...

笔记整理 | 朱珈徵,天津大学硕士链接:https://arxiv.org/pdf/2012.08492.pdf动机大型知识图通常会增长以存储时态事实,这些时间事实对实体沿时间线的动态关系或交互进行建模。因为这样的时态知识图经常遭受不完全性的困扰,所以开发…

LeetCode 96. 不同的二叉搜索树(DP)

1. 题目 给定一个整数 n,求以 1 … n 为节点组成的二叉搜索树有多少种? 示例:输入: 3 输出: 5 解释: 给定 n 3, 一共有 5 种不同结构的二叉搜索树:1 3 3 2 1\ / / / \ \3 2 1 1 3 2/ …

Android漏洞扫描工具Code Arbiter

目前Android应用代码漏洞扫描工具种类繁多,效果良莠不齐,这些工具有一个共同的特点,都是在应用打包完成后对应用进行解包扫描。这种扫描有非常明显的缺点,扫描周期较长,不能向开发者实时反馈代码中存在的安全问题&…

领域应用 | OMAHA联盟发布“疾病临床表现”、“中毒”知识图谱及OMAHA知识库

转载公众号 | OMAHA联盟资源发布OMAHA已建立“七巧板”医学术语集、“汇知”医学知识图谱、元数据等资源,将于每月发布其中一项。具体各项发布时间为:“七巧板”术语集于每季度第一个月20日发布, “汇知”图谱于每季度第二个月20日发布&#…

聊聊推荐系统中的偏差

文 | 成指导源 | 知乎背景推荐系统中大量使用用户行为数据,作为系统学习的标签或者说信号。但用户行为数据天生存在各式各样的偏差(bias),如果直接作为信号的话,学习出的模型参数不能准确表征用户在推荐系统中的真实行…

云端的SRE发展与实践

本文根据作者在美团点评第21期技术沙龙的分享记录整理而成。 SRE(Site Reliability Engineering)是Google于2003年提出的概念,将软件研发引入运维工作。现在渐渐已经成为各大互联网公司技术团队的标配。 美团点评作为综合性多业务的互联网生活…

一种单独适配于NER的数据增强方法:DAGA

链接:http://www.elecfans.com/d/1468784.html 本文首先介绍传统的数据增强在NER任务中的表现,然后介绍一种单独适配于NER的数据增强方法,这种方法生成的数据更具丰富性、数据质量更高。0 前言 在NLP中有哪些数据增强技术?这一定是…

LeetCode 80. 删除排序数组中的重复项 II

1. 题目 给定一个排序数组,你需要在原地删除重复出现的元素,使得每个元素最多出现两次,返回移除后数组的新长度。 不要使用额外的数组空间,你必须在原地修改输入数组并在使用 O(1) 额外空间的条件下完成。 来源:力扣…

技术沙龙 | 图神经网络(GNN)最新研究进展分享

由于深度学习在可推理和可解释性方面的局限性,结合图计算与深度学习的图神经网络 ( GNN ) 成为近期学术界和工业界研究的热点新方向之一,并在社交网络、推荐系统等领域得到了广泛的应用。本次技术沙龙,由北京邮电大学 GAMMA Lab 博士生纪厚业…

科研福利!国内TOP3的超算中心,免费领2000核时计算资源

长久以来,超级计算机一直是各国竞相角逐的科技制高点,也是国家综合科技实力的体现,尤其是近几年,中国和美国在超算领域的竞争已经进入“白热化”。2020年,我国超级计算机在《全球超级计算机500强榜单》中首次超越美国&…

深度学习在美团推荐平台排序中的运用

美团作为国内最大的生活服务平台,业务种类涉及食、住、行、玩、乐等领域,致力于让大家吃得更好,活得更好,有数亿用户以及丰富的用户行为。随着业务的飞速发展,美团的用户和商户数在快速增长。在这样的背景下&#xff0…