工业环境中对机器学习的行业视角

147e55f721f1f3405b68c52aed36b696.png

来源:ScienceAI

编辑:凯霞

Google Applied Science 是 Google Research 的一个部门,将计算方法,尤其是机器学习,应用于广泛的科学问题。不久前帕特里克·莱利(Patrick Riley)还是该部门软件工程师之一,现在是 Relay Therapeutics 的人工智能负责人,他与《Nature Reviews Materials》谈论了他在工业环境中从事机器学习项目的经验。

你能告诉我们一些关于你所做的事情以及谷歌机器学习研究的事情吗?

我在 Google Applied Science (https://research.google/teams/applied-science/) 的小组致力于计算方法的各种应用,尤其是机器学习,以解决自然科学问题。我们是更广泛的 Google Research 组织的一部分,该组织在许多计算领域开展工作。我们定期在学术期刊上发表文章,发布开源项目,直接影响 Google 产品。这实际上意味着我们与学术界和工业界以及跨领域的许多不同科学家合作,共同尝试新的想法和方向。

73e2f9e9683b43f29a4c948ac60a375e.png

Robert Gonzalez, Google。

你能举一些谷歌 Applied Science 所从事的项目类型的例子吗?

我们的工作范围非常广泛。例如,我们与 TAE Technologies 公司合作,优化了他们核聚变实验的参数 (https://www.nature.com/articles/s41598-017-06645-7)。他们拥有独特的设备、大量数据,并能够进行多次迭代实验。通过与他们的科学家的密切互动,我们将机器推向了新的性能体系。

f78ff387dd5345f51dfecc45a84f538b.png

C-2U 的中央约束室,一个等离子体约束实验。

另一个例子是我们与 Calico 合作探索酵母基因调控的工作 (https://www.embopress.org/doi/full/10.15252/msb.20199174)。有了大量细胞对特定遗传扰动反应的数据集,我们能够重新发现一些已知的生物相互作用并发现新的相互作用。

我要举的最后一个例子是我们与 X-Chem Pharmaceuticals (https://pubs.acs.org/doi/abs/10.1021/acs.jmedchem.0c00452) 合作的 DNA 编码小分子文库的工作。这些小分子可以为开发药物提供起点。使用来自这些 DNA 编码分子库的数据,我们能够构建出令人惊讶的有效机器学习模型,以找到用于药物开发的有前途的小分子。

216548d174dc92c649d0253399d6f4a9.png

你如何选择要研究的主题,如何选择学术合作者?

这个过程有两个不同的部分。首先,我们如何接触到正确的可能性和人?我们这样做的方式与大多数学者的做法相同:通过我们认识的科学家建立联系、阅读有趣的论文并与作者联系、参加会议,以及偶尔与组织中的科学家或领导者打个电话。

其次,我们与合作伙伴一起提出的基本问题是:我们是否有一种方法或想法,能够让我们利用我们的计算技能来真正影响对该领域至关重要的问题?重要的是,这不是一个我们一次就可以提出和回答的问题;相反,这是一个我们不断重新审视的问题。我有许多项目一开始看起来很令人兴奋,但是当我们深入细节时,我们失去了对我们的方法是否真的有效的信念。相反,有时我们开始时没有清晰的蓝图,当我们与合作伙伴一起工作时,机会就会成为焦点。

我们如何知道机器学习模型何时出现问题?

这是一个非常重要的问题。任何做过实际机器学习工作的人都知道,95% 的实际工作不是在构建和拟合模型上。这是所有其他工作,仔细检查输入和输出,构成一个真正有用的模型。我们必须以怀疑的态度对待我们的所有模型并质疑它们,就像我们对待任何科学结果一样。这种谨慎的怀疑是必不可少的。我在《自然》的评论和谷歌机器学习指南 (https://developers. google.com/machine-learning/guides/good-data-analysis)中写过关于这些主题的实用建议。

d7269a139a1f78dd772c96d7d76a5ad1.png

文章地址:https://www.nature.com/articles/d41586-019-02307-y

你认为机器学习研究中最有前途的方向是什么?

让我感到兴奋的一个方向是,不再将机器学习视为系统的单独模型或组件,而是将其紧密集成到整个算法或系统中。「可微分编程」一词通常用于表达这样一种想法,即我们可以构建系统,其中学习的组件与结构化代码和易于理解的算法紧密集成。换句话说,机器学习模型和学习过程被编织到整个算法的所有其他组件中,而不是作为一个单独的系统被分割出来。例如,在运行良好的分子动力学模拟的基本技术基础上有数十年的工作。我们可以利用现有的工作,通过已知算法添加自动微分,然后将机器学习组件作为整个系统的一部分连接起来。

切换到机器学习的使用方式,我们看到很多情况下,我们的机器学习算法可以更直接地控制下一步要做的实验,例如机械测试和化学反应优化。让科学家定义一个探索区域,算法在有限的空间中找到最有趣的点,这是一个很好的职责分工。不幸的是,这也是一个大肆炒作的领域。许多集成系统还处于早期开发阶段,价值主张没有明确定义。什么时候节省一定比例的实验以达到所需的性能水平是有价值的?通过实施这个复杂的系统,你的产出会提高多少?在研究中超越范例系统时,需要更好地理解这些类型的问题。

根据你的经验,你对进入该领域的研究人员有何启示?

我上面提到的怀疑主义确实需要培养。现代机器学习方法很强大,但这也意味着这些方法有很多与我们预期不同的功能。我们必须将我们的模型视为可以研究的东西,而不仅仅是真理的神奇来源。希望每个从事机器学习工作的人都需要建立数据技能,以便能够进行此类调查。

将机器学习应用于非常不同的系统有哪些优势和挑战?

多选题的好处是有机会了解许多不同的领域。我真的很喜欢这种广泛的接触。它还使我们能够专注于看起来最有希望的领域。如果我们在一个领域没有完全正确的问题或合作伙伴,我们可以将精力集中在另一个领域。当然,这也是一个挑战。不同的领域有不同的技术栈需要理解,一开始并不是很清楚什么是好的问题。这就是为什么我们认为与已深入该领域的伟大科学家合作至关重要的部分原因。

对于那些对机器学习感兴趣并考虑进入行业的学术研究人员,你有什么建议?

首先,「行业」可以有不同的含义。一些工业研究很像学术界,重点是影响整个研究界。其他职位有更实际的关注点:你如何在未来几年帮助该公司或行业?与这些公司的研究人员和潜在的未来经理交谈,找出他们真正的优先事项。同样需要注意的是,大多数行业研究更侧重于一起工作的同行小组,而不是 PI 领导自己小组。了解在新环境中你的同龄人是谁是很重要的。这种团体模式有很多优点,但它是对学术界的改变。

参考内容:https://www.nature.com/articles/s41578-021-00349-1

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

e7c044212289ab6a5c7bce9bb0d166b6.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/483701.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

牛客16429 组合数问题(二维前缀和、杨辉三角)

链接:https://ac.nowcoder.com/acm/problem/16429 来源:牛客网 时间限制:C/C 1秒,其他语言2秒 空间限制:C/C 262144K,其他语言524288K 64bit IO Format: %lld 题目描述 组合数表示的是从 n 个物品中选出 …

IPCC气候变暖最新报告:不要眼见,要“远见”

來源:简书作者:简晶链接:https://www.jianshu.com/p/015a29055b4a2021年8月9日IPCC发布报告,地球气候正在极速广泛地加剧变化,至少在目前的时间范围内部分趋势已经不可挽回。人类导致的气候变化已经极度影响了全球所有…

自监督学习:人工智能中的暗物质,来自Facebook AI Yann LeCun

来源:AI公园作者:Yann LeCun,Ishan Misra编译:ronghuaiyang近年来,人工智能领域在开发能够从大量精心标记的数据中学习的人工智能系统方面取得了巨大进展。这种监督学习的模式在训练专家模型时有着良好的记录&#xff…

动态代理之: com.sun.proxy.$Proxy0 cannot be cast to 问题

转: 动态代理之: com.sun.proxy.$Proxy0 cannot be cast to 问题 2018年05月13日 00:40:32 codingCoge 阅读数:1211 版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_38409944/article/…

牛客16596 计算系数(排列组合)

链接:https://ac.nowcoder.com/acm/problem/16596 来源:牛客网 时间限制:C/C 1秒,其他语言2秒 空间限制:C/C 131072K,其他语言262144K 64bit IO Format: %lld 题目描述 给定一个多项式(axby)k&#xff0…

MIT新研究:过去80年,算法效率提升到底有多快?

来源:MIT,新智元编辑:David【导读】随着摩尔定律走向终结,靠提升计算机硬件性能可能越发难以满足海量计算的需要,未来的解决之道在于提升算法的效率。MIT的这篇新论文总结了过去80年来,算法效率的提升究竟有…

AI 被当做炒作工具?

来源:AI科技大本营(ID:rgznai100)翻译:AI科技大本营编译:禾木木上班路上由于高峰期,眼看就要迟到了,这个时候会想“如果汽车能自动完成这种高度重复的动作,我就可以在路上参加我的会…

第五周助教心得体会

本周心得: 本周为我参加助教工作的第五周。本周同学们要搞定的内容: 作业链接 fork词频统计仓库,创建修改分支对代码进行效能分析,改进后提交将过程写入博客并发布(提交42人 未提交31人 作业平均成绩:6.7分&#xff0c…

牛客16732 序列(排列组合)

同个人网站 https://www.serendipper-x.cn/,欢迎访问 ! 链接:https://ac.nowcoder.com/acm/problem/16732 来源:牛客网 时间限制:C/C 1秒,其他语言2秒 空间限制:C/C 262144K,其他语…

什么是传感器融合?我们从“盲人摸象”讲起……

来源:传感器专家网今天,我们的生活高度依赖传感器。传感器作为人类“五感”的延伸,去感知这个世界,甚至可以观察到我们人体感知不到的细节,这种能力也是未来智能化社会所必须的。不过,单个传感器的性能再卓…

算法竞赛入门经典 例题6-2 铁轨(C、python)

同个人网站 https://www.serendipper-x.cn/,欢迎访问 ! 问题描述: 某城市有一个火车站,铁轨铺设如图所示。有n节车厢从A方向驶入车站,按进站顺序编号为 1~n 。你的任务是判断是否能让它们按照某种特定的顺序进入 B 方…

redis集群的搭建详细教程

1 Redis-cluster架构图 redis-cluster投票:容错 (至少要三个才可以,才能超过半数) 架构细节: (1)所有的redis节点彼此互联(PING-PONG机制),内部使用二进制协议优化传输速度和带宽. (2)节点的fail是通过集群中超过半数的节点检测失效时才生效…

王飞跃 | 面向未来的AI人才应该具备这3种思维

来源:湛庐阅读作者:王飞跃 苇草智酷学术委员、中科院自动化研究所复杂系统与智能科学重点实验室主任、中国科学院社会计算与平行系统研究中心主任当今最好的人工智能程序到底有多智能?它们是如何工作的?能做些什么?我…

Java安全API

java提供了完整的密码学API,我们可以结合密码学相关的概念来系统的学习这些API。 1.密码学简介(crypto) 密码学通俗来说就是研究如何对信息进行加密和破密,如果不是专门研究信息安全,通常我们只需学习和使用加密的方法,所以破密的相关知识我们…

算法竞赛入门经典 例题6-6 小球下落(python、C)

同个人网站 https://www.serendipper-x.cn/,欢迎访问 ! 问题描述: 有一颗二叉树,最大深度为D,且所有叶子的深度都相同。所有结点从上到下从左到右编号为 1,2,3,… ,2D -…

NLPer,是时候重视因果推理了!这有一份杨笛一等撰写的综述

来源:机器之心编辑:张倩在这篇综述论文中,来自佐治亚理工学院的杨笛一等十几位研究者系统阐述了自然语言处理中的因果推理。科学研究的一个基本目标是了解因果关系。然而,尽管因果在生活和社会科学中扮演了重要角色,它…

【报告】2021物联网行业研究报告(附PDF下载)

来源:兴业证券编辑:Zero导语物联网通过智能感知、识别技术与普适计算等通信感知技术,广泛应用于网络的融合中,也因此被称为继计算机、互联网 之后世界信息产业发展的第三次浪潮。1、云管端的硬件升级云、管、端革新带动物联网爆发…

pyecharts 绘制地图

同个人网站 https://www.serendipper-x.cn/,欢迎访问 ! # 导入相关包 from pyecharts import options as opts from pyecharts.charts import Map, Geo, Lindata pd.read_csv(rC:\Users\1979\Desktop\处理后的数据\谷物产量(公吨&#xff0…

斯坦福大学报告称中国AI论文引用率首超美国!但李国杰院士也发文灵魂拷问...

来源:zhihu中国霸榜AI期刊论文发表,论文引用量「首超」美国!然而,中国工程院院士李国杰却戳着国内AI研究的脊梁骨说「顶不了天、落不了地」。近日,如何看待「李国杰院士发文称国内 AI 研究顶不了天、落不了地」这一话题…

刚刚,2021年诺贝尔生理学或医学奖揭晓!

来源:科学网作者:梅进 冯丽妃北京时间10月4日下午5点34分许,2021年诺贝尔生理学或医学奖揭晓。美国科学家David Julius、Ardem Patapoutian获奖,以表彰他们“发现温度和触觉的受体”。2021年的诺贝尔奖单项奖金为1000万瑞典克朗&a…