专访Google数据科学家彭晨:大数据成为潮流走近各行各业!

摘要:在“2014中美大数据研讨会”开始之前,CSDN采访了谷歌公司数据科学家彭晨,他表示之所以“大数据”火,是因为人类第一次可以精确的、系统的、实时的、全方位的、永久的获取、记录、分析、并保存海量的数据。

端午节后6月6日, “2014中美大数据研讨会”将于中国(北京)国际会议中心举行。本届峰会由中美创新协会和北京市科协联合举办,聚焦于当前信息产业发展最快、创新最集中的领域:大数据。

众所周知, 近年来云计算和移动互联网的高速发展催生了大批面向消费者的移动应用公司,它们利用庞大的数据量和先进的机器学习算法为用户提供精准周到的产品和服务;与此同时,越来越多的企业也开始运用互联网和移动平台进行市场营销,并通过内部的大数据平台进行业务优化和管理,这其中不乏传统的电信、金融、教育和医疗机构。企业如何驾驭爆发式增长的数据,从中提炼出有用信息用于提升产品和服务;政府和公共事业部门如何通过数据采集和分析制定更为切实高效的民生、城管、和环保政策;创业者如何能够把握机遇,成为大数据时代的弄潮儿 ---- 这些均是峰会所关注的话题。


免费订阅“CSDN云计算”微信公众号,实时掌握第一手云中消息!

CSDN作为国内最专业的云计算服务平台,提供云计算、大数据、虚拟化、数据中心、OpenStack、CloudStack、Hadoop、Spark、机器学习、智能算法等相关云计算观点,云计算技术,云计算平台,云计算实践,云计算产业资讯等服务。


本次峰会的演讲嘉宾既有来自跨国科技企业的高管,也有国企和民营企业的领袖,更不乏创业新星、学术带头人、风险投资商和政府机构代表。其中有中国工程院院士,中国互联网协会理事长邬贺铨,曾任电信科学技术研究院副院长兼总工程师、中国工程院副院长。目前兼任国 家信息化专家咨询委员会副主任、国家标准化专家委员会主任、工信部通信科技委主任、中国互联网协会理事长、中国通信标准化 协会理事长、中国通信学会副理事长、中国电子学会副理事长、国家973计划专家顾问组成员、国家“新一代宽带无线移动通信网”科 技重大专项总师、“中国下一代互联网示范工程”专家委员会主任、国家物联网专家咨询委员会组长、IEEE高级会员。

领英商务分析高级总监张溪梦,他是全球最大的职业社交网络LinkedIn(领英网)的资深商务分析总监。他的团队由60多位分析师、工程师、设计师、 咨询师构成,负责给LinkedIn的各主要产品线和商业部门(如市场部、销售部、运营部等)提供商务数据分析和决策支持, 帮助改善产品体验和增进在线产品营收。张溪梦先生在硅谷有近十年的数据分析经验,曾在eBay等著名公司的数据部门任职。 在美国获得MBA学位之前他曾是一名优秀的脑外科医生。

目前想参加这个会议可以申请,机会难得,同学们不要错过,马上报名吧:http://huiyi.csdn.net/meeting/info/917/tech

在会前我们联系到了中美创新协会会长,谷歌公司数据科学家彭晨,通过邮件做了采访。


以下是采访原文:

先给CSDN的网友自我介绍一下吧?

我叫彭晨,家乡是安徽合肥。2003年进入浙江大学信息学院自动控制专业学习,同时也是浙大竺可桢学院工程教育高级班的学员。2007年本科毕业后考入斯坦福大学管理科学与工程系攻读博士学位,研究运筹学等数理方法在商业运营和决策优化中的应用。2011年9月博士毕业后加入谷歌总部,在谷歌的云计算基础设施和平台部门从事数据分析工作。业余时间也在经营一家叫作中美创新协会(China America Innovation Network,or CHAIN)的非盈利组织,希望能为推动中美两地的创新创业贡献绵薄之力。

你本科专业是自控,怎么博士去研究运筹学和运营管理了?

进入大学后逐渐意识到自己不是一个纯搞工程技术的料(惭愧!),因为对商业运营和企业运作我也有着浓厚的兴趣。自控专业其实有大量的数学训练,也会有机会接触到运筹学、优化等相关领域。我逐渐发现运筹学这个学科可以很好的结合自己的理工科背景和对商科的兴趣,于是通过参加数学建模竞赛、欧莱雅工业大赛等学科竞赛和活动逐渐确立了未来的深造方向,并最终很幸运的被斯坦福管理科学与工程系录取。

在谷歌你的职位是云运营高级量化分析师,好有未来感啊。具体都负责那些工作?谷歌数据科学家的一天是怎样度过的?

在谷歌当下最有未来感的工作是做眼镜、机器人、和无人驾驶汽车:)云平台和数据中心相关的工作其实是the non-sexy part of Google—因为很多工作都是幕后的,虽然卓越的数据中心技术是谷歌的核心竞争力之一,也是谷歌为业内人士称道并好奇的领域,但对于亿万普通互联网用户而言这部分的工作其实是透明的。当然,作为员工我们还是很自豪能够亲身参与到全球最牛逼的云计算平台的创建和发展过程中去的。我在谷歌的主要职责是通过建立数学模型和大规模的数据分析帮助管理层、工程师、和产品人员制定更高效合理的云平台运营和产品策略,具体工作例如流量需求预测,计算资源配置,资源定价,job scheduling algorithm的优化等等。这些工作近期也随着谷歌正式进入公有云市场叫板AWS而变得更加具有战略意义。

谷歌数据科学家的一天,我想取决于所在产品部门、本身的工作内容、和项目进展的不同阶段应该都会略有不同吧。大体上对我而言建模和编程(R、Python、SQL等)等技术性工作占去大概60%的时间;剩下20%的时间在跟各种stakeholder开会--了解问题的商业背景、意义、优先顺序,聆听需求,讨论阶段性的项目进展等等;还有20%的时间是写设计报告,写slides,做dashboard,跟高层做汇报。总的来说,谷歌的数据科学家还是一个对综合能力要求相当高的职位,优秀的数据科学家一定程度上需要是软件工程师、数学家、和咨询师的三位一体;如果再算上数据可视化这一块,那再有一些艺术天赋就更好了:)

前一阵子媒体报道的在数据中心里运用人工智能的Jim Gao你认识吗?在谷歌是不是任何工作都在考虑用算法、AI来解决?

Jim和我在一个大的部门。他的正式职位其实是一名机械设计工程师,负责研究怎样设计最节能省电的服务器和相关技术(谷歌数据中心里所有的服务器都是自产自销)。但就像你说的,谷歌很多的技术人员都是多面手,Jim通过使用人工神经网络算法搭建了一个预测模型,可以根据环境参数非常精确的预估数据中心的能量利用率,对于进一步提高谷歌数据中心的运营效率有很大的意义。

在谷歌不能说所有工作都需要使用人工智能,但可以说绝大部分的决策都需要数据支持:从显而易见的搜索结果排序、广告竞价模型,到不太容易想到的数据中心服务器里的散热片该按什么角度摆放、移动应用上的某个button该是什么颜色、多大尺寸,再到完全难以致信的公司该提供什么福利最能调动员工的工作积极性,可以说但凡是一个正式的决策就需要有数据的支持。事实上谷歌的人力资源部门有一个由十几名名校统计博士组成的分析师队伍,专门研究不同的人力资源政策和员工绩效之间的关联,并根据研究结果随时调整薪资福利、晋升制度,等等,确保员工始终有一个良好的工作状态。这也可以解释为什么谷歌连续四年被评为全美最佳雇主吧!人力资源部门尚且如此,工程技术部门就更不必说了。

中美创新协会是个什么样的组织?

中美创新协会是我和几位朋友2011年夏天在硅谷共同创立的非盈利组织,我们最初的想法很简单,就是想搭建一个跨中美的平台去帮助创业者(尤其是华人创业者)寻找信息、投资、和合作伙伴等各种资源,提高创业的成功率。我们主要通过在硅谷当地举办各种活动来推动和协助创新创业,例如围绕商业和技术热点的圆桌讨论、面向硅谷当地创业者的创业训练营、联系硅谷创业人员和国内投资机构的中美高技术项目视频对接、以及马上将要在北京举办的中美创新链接年会等等。未来我们希望更多的建设和发展网络和移动平台,将更多资源对接和整合的过程从线下向线上转移。我们也希望更多的拓展在国内的影响力和辐射范围,帮助国内更多的区域和城市同硅谷的创业者建立联系。目前中美创新协会在中美两地共有8000多名注册会员,并有包括孵化器、风投、地方政府部门、律所、会计师事务所、媒体等在内的30多家合作机构。

值得一提的是我们的核心团队成员基本都是硅谷各大科技公司的从业人员,大家对推动创新创业和中美交流有极大的热忱,虽然是不拿一分钱的志愿者工作,但大家干的很起劲儿,因为我们相信自己是在为社会创造价值。就我个人而言,我非常相信连接(connection)的力量,把优秀的人和人、人和事、资源和资源连接起来,很多伟大的事情自然而然就会酝酿产生。从这个意义上讲,中美创新协会就是力图在做连接这件事:从点到线,再到网络,始于有形,终于无形。

说说6月6日的大数据会议吧,怎么想到要办这么一个会的?

在中国的年会我们之前已经办过两届,取得了不错的成效。作为一个以搭建跨中美的平台为宗旨的组织,我们需要通过在国内当地的活动来宣传理念,扩大影响,传递价值;同时也想借此为协会自身下一步的发展寻找机会和合作伙伴。当然,我们确实也会带来一些美国硅谷科技公司的高管、从业者和创业者,和国内同行近距离的交流沟通--这也同中美创新协会的宗旨相吻合。

为什么是大数据?其实去年的年会也是围绕大数据,反响很好。我们觉得数据这个话题内涵丰富,外沿宽泛,用作大会的主题非常合适,可以融会贯通把很多不同的行业包揽进来。当然,大数据本身也的确是这两年的技术和商业热点,是目前信息行业创新最活跃最集中的领域。会议将以大数据为纲,触及数据在五个不同商业/技术领域的实际应用和价值体现,可以宏观的展示给大家当前大数据应用的实际状况和所面临的挑战。我认为会是一场非常有价值的干货分享和思维碰撞的活动。

现在大数据非常热,几乎成了每个人的口头禅。作为一个专业搞数据的人你怎么看大数据?它是包治百病的灵丹妙药还是又一个炒作词而已?

都不是。首先不可否认当下的言必谈大数据确有过热、炒作之嫌,那个”big data is like teenager sex”的比方想必很多人也都听说过。炒作的人有些是为了卖产品,有些是为了卖理念,有些纯粹是为了赚吆喝,但对于创业者和数据从业人员来说,投资好拿了,工资涨高了,是好事。

但我认为大数据并不仅仅是一个buzzword,而是一场实实在在正在发生的变革,是科学技术和商业文明发展到一定阶段的必然结果,是人类社会的必然发展方向。数据本身并不新,从结绳纪事时便有之;数据分析的理论方法也不新--统计、概率、优化,甚至机器学习里的基本算法都已经有至少好几十年的历史;人们利用数据的渴望也不新,千百年来不管是夜观天象的天文学家还是尝遍百草的医药学家都是数据收集和整理的先行者;到了最近几十年,现代管理学的精髓就是要把企业管理指标化、数据化,从而优化企业的运营。之所以“大数据”突然闹出这么大的动静,无非是因为这是人类自数百万年前诞生之日起,第一次可以精确的、系统的、实时的、全方位的、永久的获取、记录、分析、并保存海量的数据--关于我们的一切行为以及周遭的所有事物的数据,这种儿童进了糖果店的兴奋是完全可以理解的。这一切得益于移动互联网(包括智能硬件)和云计算技术的发展--前者解决了数据采集的问题,后者解决了数据处理分析和存储的问题。所以,可以说人类文明发展的进程终于等来了移动计算和云计算,使得我们千百年来对于获取信息和提炼信息的各种非分之想一夜之间成为可能。这里所蕴藏的机会,包括商机,是无限大的。我想我们任何一个人目前都很难推测大数据到底会在多快的时间内带来多大的社会变革,因为我们真的只是站在这个新纪元的开端。我们应该感慨自己成为人类世代中的幸运儿,可以目睹并亲身经历人类社会向数据社会和智慧社会的过渡。

当然了,正因为数据和信息不等于人类生活的全部,大数据也不可能是“包治百病的灵丹妙药”--失恋永远都会是痛苦的吧!

在美国业界对大数据的看法是怎样的?已经有哪些成功案例又有哪些困难?

其实对于硅谷的很多互联网公司而言,大数据一点也不新。例如谷歌,从16年前诞生的那天起谷歌就是一家大数据公司,因为谷歌所做的事情是要不断的索引全世界所有的网络信息,并在它们之间建立关联,听起来就让人头大。理所当然的,大数据潮流中奠基性的一些技术框架,例如并行计算的Hadoop,就是基于谷歌11年前发明的Mapreduce和BigTable等技术发展而来的。所以要说大数据应用的成功案例,谷歌搜索就是第一个大案要案。当然,后来的社交网络和电子商务网站也大量使用了大数据分析的技术,例如Facebook,LinkedIn的朋友推荐,Amazon和Netflix的相关商品和电影推荐等等,就是通过在海量数据上使用协同滤波等算法实现的。

而大数据之所以逐渐成为潮流,是因为在美国它已经走出了硅谷的互联网和高科技公司,走入了很多传统的电信、零售、金融、制造、物流、医疗、教育等行业,开始为不同的产业创造巨大价值。前不久美国知名零售商Target因为给一个未成年少女投递婴儿用品广告而遭致少女父亲的投诉和斥责,然而几天后这名父亲又致电Target道歉,因为事实是他的女儿确实未婚先孕了。Target正是通过大量的用户购买行为分析预测出这名少女属于潜在的孕妇群组,因此投递了针对性的广告。且不论这个广告是该投还是不该投,一家零售商已经比一个父亲更了解自己女儿的处境--通过数据。另外一些应用的实例还包括通用电气--通用电气卖出的每一台飞机发动机上都装载了大量的传感器,这些传感器在飞机的飞行途中每分每秒的向基站传递运行数据,通用可以准确的知道什么时候需要对发动机的哪个零部件进行维护,从而大大降低了维护成本并提升了飞行安全。

说到大数据应用的困境,目前业界的共识是用户隐私保护和数据安全会是一大挑战。作为商家,应该给用户提供充分的数据使用透明度,并允许用户自行选择是否愿意贡献自己的数据,在商业利益和用户信任之前做出正确的权衡。

国内的大数据会议已经很多了,包括我们和计算机学会的大数据技术大会,去年已经达到了2000多人的规模。本次会议会带来什么不一样的东西?最值得关注的点有哪些?

作为一家基于硅谷的、全部成员都是志愿者的非盈利组织,我们知道自己的斤两,也并没有试图在规模上和其他的会议直接竞争比较。说到这次会议的特点,首先我们完全侧重于大数据在具体领域的应用实践,包括移动互联、智能商务、金融支付、公共事业、穿戴设备,等等,而不会过多讨论底层的云技术平台和架构;我们希望通过本次会议帮助大家建立起对大数据广泛应用前景的系统性认识,并在不同的产业之间进行横向比较,探索新的潜在商机。其次我们会有几位来自美国硅谷科技公司、战斗在大数据分析最前沿的华人技术骨干和管理者,同大家分享大数据在美国的应用实践,其中包括LinkedIn的资深商务分析总监张溪梦先生和Square的数据科学总监颜嵘博士。其他值得关注的还有大会的开场主题演讲嘉宾,中国互联网协会理事长邬贺铨院士;此外,本次大会还特别邀请了多家新锐创业公司的创始人和核心团队成员,包括快的打车的创始人陈伟星,中文语音助理出门问问的创始人李志飞,国内最大的移动新闻应用今日头条的创始人张一鸣,国内目前声势最火的头戴式虚拟现实游戏头盔ANTVR(蚁视)的创始人覃政,前谷歌员工、现新锐移动后端服务提供商AVOSCloud的CEO江宏博士,国内最大的DSP之一品友互动的CTO沈学华博士等等;本次大会还邀请到了清华大学的智能交通专家吴建平教授和美国哈佛大学生物统计系的郭健教授跟大家探讨大数据在公共领域的应用前景--这些都是峰会值得关注的看点。

本次会议报名链接:http://huiyi.csdn.net/meeting/info/917/tech

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/447564.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

解决:ClassNotFoundException: com.netflix.hystrix.contrib.javanica.aop.aspectj.HystrixCommandAspect

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到教程。 1. 场景,springcloud 学习工程中,把 feign 和 ribbon 工程 作为应用服务,纳入 hystrix-turbine 服务…

解决:com.sun.jersey.api.client.ClientHandlerException: java.net.ConnectException: Connection refused:

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到教程。 1. 场景:启动一个需要注册到 eureka 注册中心的服务 seeParam 报错: com.sun.jersey.api.client.ClientHandle…

springCloud - 第13篇 - 服务监控 集群模式 Hystrix-turbine

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到教程。 1. 在springcloud 体系中,可以用 hystrix-dashboard 实时监控服务的运行状态。上一文记录了单实例的监控,现在实…

解决:Error response from daemon: Cannot restart container xxx: driver failed programming external

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到教程。 1. 我的情况:个人站点访问不了,重启了阿里云ECS服务器后,发现服务器 80端口不通,于是重启…

专访许鹏:谈C程序员修养及大型项目源码阅读与学习

摘要:阅读源码是开源项目最好的学习方式,然而真正的执行起来却并不容易。这里我们为大家分享许鹏的源码阅读经验、C程序员的修养以及Spark和Storm源码走读博文。 对许鹏的第一印象来源于其Bolg的粗读,最早时候更准确说应该是博文的粗略统计—…

解决:mysql 连接报错 Authentication plugin ‘caching_sha2_password‘cannot be loaded

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到教程。 Navicat连接linux上的mysql时报如下错误: 错误原因: 即从mysql5.7版本之后,默认采用了caching_sha2_…

【历史回顾】Linux发展一览

我们周围到处都有Linux的身影,在家中、公司里、大学、实验室,太空空间站。现在的Linux已经从一个个人爱好发展成了一场计算机革命。在这篇文章里,我们向你展示最完整的Linux 23年来发展的历史年表。我们周围到处都有Linux的身影,在…

专访联想谢政维:功耗和价格是天蝎项目最大障碍!

摘要:与国外OpenStack和OCP(开放计算项目)频频见诸报端不同,中国的天蝎计划看起来神神秘秘,今天专访联想谢政维,他帮我们解密了目前天蝎项目的一些基本情况,以及他对未来天蝎发展的观点。 服务…

解决:Chrome 插件安装时提示 程序包无效:“CRX_HEADER_INVALID“

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到教程。 今天在添加谷歌插件的时候,却发现谷歌浏览器显示 程序包无效:"CRX_HEADER_INVALID",现整理…

65种GPU性能测试,AMD开源驱动领先!

摘要:近日,Phoronix测试了65 种不同的GPU使用开源驱动的OpenGL性能,测试的GPU型号包括Intel HD Graphics、AMD Radeon、AMD FirePro和NVIDIA GeForce系列。结果显示,相比之下,AMD开源驱动领先于NVIDIA。 【编者按】20…

指尖上的艺术——如何运用代码发挥无限创意

摘要:计算机为我们的生活带来了不计其数的变化,现在,我们不妨也把它与艺术结合起来,去从机器的角度来为生活增添活力与色彩,开拓一个无限可能的艺术创作新境界。 写在前面 生成的艺术,指尖上的艺术&#…

解决:XXX类存在 却报错 Unkonwn class:‘XXX‘ 、@Autoeired 注入失败

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到教程。 1. 我的情况如图,有一个CuxxxxManager 类明明是就在本工程中的,我想注入到对应 Service 中,却直接报…

精益设计:“纸上谈兵”的说服力

摘要:当你和团队通宵达旦地输出大量完整而精美的方案时,可客户却根本不买帐。这究竟是沟通出了问题,还是我们犯了错?如何提高设计效率、提升沟通及如何设计出更好的用户体验是每个互联网从业者都值得关注的问题。 【编者按】此前…

如何兼职创业并避免风险

大多数人开始创建第一家公司时,仍然有一份正常工作。 这是有道理的:你不需要贷款,并且你并不需要资金。如果你“失败”了,你失去仅仅是时间,但考虑到你得到的乐趣,经历,以及一切你已经学会的东西…

8款最受欢迎的HTML5/CSS3应用及代码

新的一周开始,小编也将继续为大家分享精彩的HTML5应用,还有CSS3和jQuery方面的东西。今天给大家带来的是8款最受欢迎的HTML5/CSS3应用及代码,一起来看看吧。 1、基于HTML5 Canvas的图表插件Chart.js chart.js是一款基于HTML5 Canvas的图表插…

超负荷写代码 = 慢性自杀

本文是html5tricks原创翻译,转载请看清文末的转载要求,谢谢合作! 也许你会认为我是个故弄玄虚的标题党,不过我需要澄清一下。首先,这是真的,超负荷写代码的确意味着慢性自杀。然后问题就来了,“…

程序员必须知道的10大基础实用算法及其讲解

算法一:快速排序算法 快速排序是由东尼霍尔所发展的一种排序算法。在平均状况下,排序 n 个项目要Ο(n log n)次比较。在最坏状况下则需要Ο(n2)次比较,但这种状况并不常见。事实上,快速排序通常明显比其他Ο(n log n) 算法更快&a…

Git远程操作详解

摘要:Git是目前最流行的版本管理系统,学会Git几乎成了开发者的必备技能。本文详细介绍5个Git命令,它们的概念和用法,理解了这些内容,你就会完全掌握Git远程操作。 【编者按】Git是一个分布式版本控制/软件…

深入理解 AMQP 协议

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到教程。 PS:更多详情见 AMQP主页 :http://www.amqp.org/ 。 一、AMQP 是什么 AMQP(Advanced Message Queuing…

广州市科目三电子路考--大观路通过经验

视频:大观路 : http://v.pps.tv/play_3EO9GY.html 大家好,我是2014年5月8日考科目三的,本人是90分通过考试,在掉头的时候死火被扣10分,下面我会说明为什么会被扣10分的。 大观路段考试,总体来…