当物理学遇到机器学习:基于物理知识的机器学习综述

257c735a29ba1c0e5df6cfeb17f9993d.png

来源:集智俱乐部

作者:潘佳栋 

审校:梁金

编辑:邓一雪

摘要

物理信息机器学习(Physics-informed machine learning,PIML),指的是将物理学的先验知识(历史上自然现象和人类行为的高度抽象),与数据驱动的机器学习模型相结合,这已经成为缓解训练数据短缺、提高模型泛化能力和确保结果的物理合理性的有效途径。在本文中,我们调查了最近在PIML方面的大量工作,并从三个方面进行了总结:(1)PIML发展的动机,(2)PIML中的物理知识,(3)PIML中的物理知识整合方法。我们还讨论了当前PIML的挑战和相应的研究机会。

研究领域:机器学习,物理学

ed3dca0318026b9ed41aaa1ef5f0e349.png

论文题目:

When Physics Meets Machine Learning: A Survey of Physics-Informed Machine Learning

论文链接:

https://arxiv.org/abs/2203.16797

1. 简介:物理知识嵌入机器学习

机器学习/深度学习模型已经在一些领域取得了巨大的成功,如计算机视觉[1-5]和自然语言处理[6-14],大量的训练数据和高表现力的神经网络架构给出了超越之前方法的解决问题的方案。因此,研究人员也开始探索应用机器学习模型来推进科学发现和进一步改善传统分析建模的可能性[15-21]。

虽然给定一组输入和输出对,深度神经网络能够在充分的大量数据上通过适当的优化来得到输入和输出之间的复杂关系,但先验知识仍然在寻找最优解方面起着重要作用。作为对数据分布和任务属性的高层次提取,先验知识如果纳入得当,可以提供在有限的训练数据中不存在或难以提取的丰富信息,并有助于提高数据效率、泛化能力和产生模型的合理性。

在漫长的历史中,物理知识在理论和实验上都得到了明确的收集和验证,在许多重要的科学和工程应用中包含了对自然现象和人类行为的抽象和总结。因此本文重点讨论了将先验物理知识整合到机器学习模型中的课题,即物理信息机器学习(PIML)。与其他类型的先验知识,如知识图谱、逻辑规则和人类反馈[22]的整合相比,由于物理知识的特殊属性和形式,物理知识的整合需要特殊设计。

本文调查了最近在PIML方面的大量工作,并从三个方面对其进行总结。(1) PIML的动机,可以进一步归类为使用机器学习来服务于物理领域的任务,和将物理学原理融入到现有机器学习模型中用于现实世界的任务。(2) PIML中的物理知识,每一类都是涵盖广泛问题的一般原则。(3) PIML中物理学知识整合的方法。根据知识整合的位置,我们将这些方法分为数据增强、神经网络架构设计和物理信息优化。

本文的结构如下。第2节使用 PIML分析了两大动机:一类主要服务于物理领域的任务,另一类服务于现实世界的问题。第3节介绍了PIML中广泛使用的几个通用物理原理。第4节研究物理知识整合的方法。第5节讨论了PIML的挑战和潜在的未来研究方向。第6节是整篇论文的总结。

2. PIML的动机:

物理用于机器学习,机器学习用于物理

物理科学问题涉及各种数据密集型任务,包括时空数据建模、因果推理、计算机视觉、概率推理等。由于机器学习方法在这些任务中取得了巨大的成功,近年来使用机器学习模型来促进物理学的科学发现越来越受到关注。

另一方面,与现有的基于数值或纯物理的方法相比,基于物理的机器学习方法在灵活性、通用性和计算成本方面具有优势。同时,它们仍然具有物理上的合理性。本节介绍了将机器学习用于若干物理相关任务的最新进展,包括替代模型模拟、数据驱动的PDE求解器、物理模型的参数化、降维模型和知识发现。

3. PIML中的物理知识

本节介绍了集成在PIML中的几类通用物理知识。虽然有更多的领域/任务特定的知识可以用于相应的解决方案,但我们在本节中介绍的每个类别都涵盖了广泛的问题,并给出了一系列普遍适用的解决途径,而不是仅仅解决一两个特定任务的方案。

首先是经典力学和能量守恒定律。牛顿力学、拉格朗日力学和哈密顿力学是描述经典力学系统的三种典型方法。牛顿力学被广泛用于描述位置、速度、加速度和力之间的关系,而拉格朗日和哈密顿力学则提供了有效的工具,遵守动力学系统建模中的能量守恒定律。

其次是对称性和不变量。定义在一个物体或系统上的对称性是一些保持某些属性不变的变换。典型的对称性包括视觉对象分类问题中的移动、分子属性预测问题中的旋转以及粒子系统中的排列组合。

PIML中的通用物理知识还包括偏微分方程的数值方法和Koopman理论。

4. PIML的方法

机器学习问题的典型解决方案涉及三个关键部分:数据、模型和优化,每个部分都可以与物理知识相结合。接下来的部分分别介绍将物理知识结合到每个部分的现有技术。但是,我们应该注意到,这些技术并不是相互排斥的:物理知识可以集成到机器学习解决方案的多个部分中。

我们根据物理知识的形式和整合方法对现有的工作进行分类。我们注意到,对于具有分析形式的知识,现有的工作可以将知识整合到所有三个方面,包括数据、模型和优化。然而,关于整合其他通用类型物理知识的研究工作,包括能量守恒定律、对称性、偏微分方程的数值方法和Koopman理论,主要侧重于将相应的知识纳入计算图。主要原因是这种通用的物理知识有可能转化为可重复使用的网络架构中的归纳偏差,这在预测性能和数据效率方面比数据增强和基于物理知识的损失函数有优势。这是由于 (1) 通用的物理知识适用于各种问题,从而导致通用的网络架构,(2) 与为特定领域问题(如天气和湍流)设计的复杂数值模拟器相比,归纳偏差具有更简单的形式,可以转化为有限数量的不同可微算子的组合。

5. 挑战和未来的方向

挑战一:手工选择导入的物理知识

现有工作需要对任务特定领域的专业知识有所了解,以选择最合适的物理学知识。虽然这能够利用领域知识缓解纯数据驱动方法的缺陷,但它缺乏根据任务确定正确物理知识的灵活性。因此,一个研究方向是自动识别要纳入的适当的物理知识。这需要在特定领域的知识和纯数据驱动的方式之间找到一个中间点。

挑战二:缺乏PIML方法的基准和评估

综合性的基准已经显示出对相应研究领域发展的巨大推动作用。例如,计算机视觉领域的ImageNet Large Scale Visual Recognition Challenge(ILSVRC)[23]和Common Objects in Context(COCO)[24],自然语言处理领域的Workshop on Statistical Machine Translation(WMT)[25]和 Stanford Question Answering Dataset(SQuAD)[26]。然而,由于问题设置的复杂性,PIML仍然缺乏评估各种知识整合方法的全面基准,这给PIML的发展带来了障碍。首先,PIML中的大多数问题来自于物理或工程应用,在这些应用中,获取数据和形式化任务对于没有领域知识和经验的再搜索者来说可能是一种挑战。其次,现有的工作,有些严重依赖特定领域数据集,这大大增加了公平比较不同PIML方法的难度。构建PIML的综合基准是推动其发展的迫切需要。

挑战三:现有神经网络架构的次优性和PIML的优化方法

神经网络架构和优化方法的理论和经验结论大多是在神经网络方法首先获得优势的领域发展起来的,如计算机视觉和自然语言处理。然而,它们在PIML中可能不再有效。原因是PIML方法通常涉及在前向过程和目标函数中明确使用梯度,导致在反向过程中存在高阶导数,这使得优化空间的形状与典型的深度学习模型明显不同。例如,常规的参数初始化方法,如Kaiming和Xavier是不够的,因为不寻常的优化目标是特殊的非线性的。PIML的新型神经网络设计和传统的深度学习任务在网络结构和目标上存在巨大差异,这意味着PIML的新型神经网络设计在结构和优化方面都很重要。

6. 总结

本文对现有的PIML工作进行了彻底和全面的调查。文章从三个方面进行总结:(1)PIML的动机;(2)PIML中的物理知识;(3)PIML中的知识整合方法。最后讨论了PIML的现有挑战,并相应地指出了未来潜在的研究方向。我们希望本文能成为PIML用户选择合适的物理知识和适当的整合方法的指南,也能成为PIML研究者确定现有差距和有前景的研究方向的指南。

参考文献

[1]  Yann LeCun, Léon Bottou, Yoshua Bengio, and Patrick Haffner. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11):2278–2324, 1998.

[2] Alex Krizhevsky,Ilya Sutskever, and Geoffrey E.Hinton. Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems, pages 1097–1105, 2012.

[3]  Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770–778, 2016.

[4]  Joseph Redmon, Santosh Divvala, Ross Girshick, and Ali Farhadi. You only look once: Unified, real-time object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 779–788, 2016.

[5]  Kaiming He, Georgia Gkioxari, Piotr Dollár, and Ross Girshick. Mask r-cnn. In Proceedings of the IEEE international conference on computer vision, pages 2961–2969, 2017.

[6]  Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient estimation of word representations in vector space. International Conference on Learning Representations, 2013.

[7]  Richard Socher, Alex Perelygin, Jean Wu, Jason Chuang, Christopher D Manning, Andrew Y Ng, and Christopher Potts. Recursive deep models for semantic compositionality over a sentiment treebank. In Proceedings of the 2013 conference on empirical methods in natural language processing, pages 1631–1642, 2013.

[8]  Ilya Sutskever, Oriol Vinyals, and Quoc V Le. Sequence to sequence learning with neural networks. Advances in Neural Information Processing Systems, 2014.

[9]  Yoon Kim. Convolutional neural networks for sentence classification. In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 1746–1751, Doha, Qatar, October 2014. Association for Computational Linguistics.

[10]  Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473, 2014.

[11]  Ankit Kumar, Ozan Irsoy, Peter Ondruska, Mohit Iyyer, James Bradbury, Ishaan Gulrajani, Victor Zhong, Romain Paulus, and Richard Socher. Ask me anything: Dynamic memory networks for natural language processing. In International conference on machine learning, pages 1378–1387. PMLR, 2016.

[12]  Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Ł ukasz Kaiser, and Illia Polosukhin. Attention is all you need. In I. Guyon, U. V. Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, and R. Garnett, editors, Advances in Neural Information Processing Systems, volume 30, pages 5998–6008. Curran Associates, Inc., 2017.

[13]  Matthew E Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, and Luke Zettlemoyer. Deep contextualized word representations. arXiv preprint arXiv:1802.05365, 2018.

[14]  Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. BERT: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4171–4186, Minneapolis, Minnesota, June 2019. Association for Computational Linguistics.

[15]  William W Hsieh. Machine learning methods in the environmental sciences: Neural networks and kernels. Cambridge university press, 2009.

[16]ŽeljkoIvezic ́,AndrewJConnolly,JacobTVanderPlas,andAlexanderGray. Statistics,datamining,and machine learning in astronomy: a practical Python guide for the analysis of survey data, volume 1. Princeton University Press, 2014.

[17]  Anuj Karpatne, Gowtham Atluri, James H Faghmous, Michael Steinbach, Arindam Banerjee, Auroop Ganguly, Shashi Shekhar, Nagiza Samatova, and Vipin Kumar. Theory-guided data science: A new paradigm for scien- tific discovery from data. IEEE Transactions on knowledge and data engineering, 29(10):2318–2331, 2017.

[18]  Anuj Karpatne, Imme Ebert-Uphoff, Sai Ravela, Hassan Ali Babaie, and Vipin Kumar. Machine learning for the geosciences: Challenges and opportunities. IEEE Transactions on Knowledge and Data Engineering, 31(8):1544–1554, 2018.

[19]  J Nathan Kutz. Deep learning in fluid dynamics. Journal of Fluid Mechanics, 814:1–4, 2017.

[20]  Markus Reichstein, Gustau Camps-Valls, Bjorn Stevens, Martin Jung, Joachim Denzler, Nuno Carvalhais, et al. Deep learning and process understanding for data-driven earth system science. Nature, 566(7743):195–204, 2019.

[21] Zhen Wang,Hai bin Di,Muhammad Amir Shafiq,Yazeed Alaudah,and Ghassan AlRegib. Successful leveraging of image processing and machine learning in seismic structural interpretation: A review. The Leading Edge, 37(6):451–461, 2018. 

[22]  Laura von Rueden, Sebastian Mayer, Katharina Beckh, Bogdan Georgiev, Sven Giesselbach, Raoul Heese, Birgit Kirsch, Julius Pfrommer, Annika Pick, Rajkumar Ramamurthy, et al. Informed machine learning–a taxonomy and survey of integrating knowledge into learning systems. arXiv preprint arXiv:1903.12394, 2019. 

[23]Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, Alexander C. Berg, and Li Fei-Fei. ImageNet Large Scale Visual Recognition Challenge. International Journal of Computer Vision (IJCV), 115(3):211–252, 2015.     

[24]Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In European conference on computer vision, pages 740–755. Springer, 2014.

[25]Ondˇrej Bojar, Christian Buck, Christian Federmann, Barry Haddow, Philipp Koehn, Johannes Leveling, Christof Monz, Pavel Pecina, Matt Post, Herve Saint-Amand, et al. Findings of the 2014 workshop on sta- tistical machine translation. In Proceedings of the ninth workshop on statistical machine translation, pages 12–58, 2014.

[26]Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, and Percy Liang. Squad: 100, 000+ questions for machine comprehension of text. In EMNLP, 2016.    

(参考文献可上下滑动查看)

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

01e909384b2a55b5e5c5d7a594a0238a.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/482112.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

图的遍历——深度优先搜索+广度优先搜索

一:图的遍历——深度优先搜索 在本文其他内容中只是大体概括了主要的图论内容,更加详细的代码实现及算法分析在此给出。 深度优先搜索(DFS)类似树的先序遍历。 假设初始状态是图中所有顶点未曾被访问,则深度优先搜索…

RISC-V何以成功?

来源:AI前线作者:BRIAN BAILEY译者:王强策划:刘燕RISC-V 处理器架构的诞生毫无疑问让很多人都为之兴奋不已。然而,尽管许多人都说 RISC-V 预示着我们将迎来更广泛的开源硬件运动,但这种架构究竟为什么取得成…

最小生成树——普里姆算法和克鲁斯卡尔算法

最小生成树 用来解决工程中的代价问题。 一:普里姆算法 具体代码用C语言实现如下: typedef int VRType;typedef char InfoType;#define MAX_NAME 3 /* 顶点字符串的最大长度1 */#define MAX_INFO 20 /* 相关信息字符串的最大长度1 */typedef char Vert…

大雅之美:十位大数学家心中最美的公式

来源:本文译自 http://www.concinnitasproject.org/portfolio/,中译文曾发表于 《中国数学会通讯》2017 年第 1 期。译者:刘云朋,天津大学理学院校译:林开亮大雅之美:十位大数学家心中最美的公式牛顿法Ste…

TabError的解决方法

问题:Python文件运行时报TabError: inconsistent use of tabs and spaces in indentation 原因:说明Python文件中混有Tab和Space用作格式缩进。这通常是使用外部编辑器编辑Python文件时,自动采用Tab进行格式缩进。 解决:将Tab转…

《Nature》:给老年小鼠注射年轻小鼠的脑脊液可以改善记忆力!

来源:生物通一个国际研究团队发现,向老年小鼠注射年轻小鼠的脑脊液可以改善记忆。在发表在《自然》(Nature)杂志上的论文中,该小组描述了一种技术,可以从年轻小鼠体内取出少量脑脊液,并将其注射到年老小鼠的大脑中&…

HashSet存储自定义对象保证元素唯一性图解原理及代码优化

HashSet存储自定义对象保证元素唯一性图解原理及代码优化 1.原理: * 1.HashSet原理 * 我们使用Set集合都是需要去掉重复元素的, 如果在存储的时候逐个equals()比较, 效率较低,哈希算法提高了去重复的效率, 降低了使用equals()方法的次数 * 当Hash…

马斯克:推特发帖机器人太多,现在起搁置440亿美元收购

来源:智能研究院前言直播「尽职调查」,压价还是打退堂鼓?「因为现在要计算推特上虚假账号的数量是否占 5% 以下,所以推特的收购暂时被搁置了,」5 月 13 日晚,全球首富伊隆 马斯克突然发推说道。马斯克与推…

Web 3.0?高成本版的P2P而已

来源:AI前线作者:Marcel Waldvogel译者:核子可乐策划:钰莹最近,Web 3.0 火的不行,有人认为,它将是互联网的未来式, Web 3.0 代表着对互联网的根本性改造,一个新的 Web 世…

JAVA面试题:HashMap和Hashtable的区别

HashMap和Hashtable的区别 1.共同点:都是双列集合,底层都是哈希算法 2.区别: * 1.HashMap是线程不安全的,效率高,JDK1.2版本 * Hashtable是线程安全的,效率低,JDK1.0版本 * 2.HashMap可以存储null键和null值 * Hashtable不可以存…

CICC城市大脑术语规范术语与定义征集

2022年2月,《城市大脑系列建设标准规范》项目由中国指挥与控制学会(CICC)正式启动,4月14日通过立项评审,根据城市大脑标准的前期工作和中国指挥与控制学会《城市大脑系列建设标准规范》立项会的专家意见,形…

最短路径——迪杰斯特拉算法——图的数据结构

最短路径是在工程上经常用到的概念&#xff0c;在这里给出了从单源点到任意顶点的迪杰斯特拉算法。 先来看看基本概念&#xff1a; 用代码C语言实现如下&#xff1a; #include<string.h>#include<ctype.h>#include<malloc.h> /* malloc()等 */#include<…

盖亚假说:地球是一个生命体吗?

来源&#xff1a;微信公众号“集智俱乐部”原文&#xff1a;Is the Earth an organism?https://aeon.co/essays/the-gaia-hypothesis-reimagined-by-one-of-its-key-sceptics。撰文&#xff1a;W Ford Doolittle翻译&#xff1a;Leo审校&#xff1a;赵雨亭在漫长的地球生物的演…

拓扑排序和关键路径

一&#xff1a;拓扑排序 前面讲过拓扑排序只是简单的描述&#xff0c;下面具体的实现。 用顶点表示活动&#xff0c;用弧表示活动间的优先关系的有向图为AOV网。 AOV网中没有环&#xff0c;检测的办法是进行拓扑排序。 步骤&#xff1a; (1)在有向图中选一个没有前驱的顶点…

Science:睡眠医学的突破,大脑会在梦境中巩固积极情绪

来源&#xff1a;学术头条处理情绪&#xff0c;特别是区分危险和安全&#xff0c;对动物的生存至关重要。在人类中&#xff0c;过度的负面情绪&#xff0c;如恐惧反应和焦虑状态&#xff0c;会导致创伤后应激障碍&#xff08;PTSD&#xff09;等病理状态。在欧洲&#xff0c;就…

RISC-V可能不会威胁英特尔,但Arm需警惕

来源&#xff1a;EETOP近期&#xff0c;国外媒体The Register对RISC-V International 首席执行官Calista Redmond 进行了一次采访&#xff0c;在访谈中&#xff0c;Calista Redmond谈及英特尔不太担心自己的x86业务&#xff0c;因此成为了RISC-V ISA联盟的白金会员。Redmond还谈…

超越 GPT-3,DeepMind 推出新宠 Gato,却被质疑“换汤不换药”?

出品&#xff1a;CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09;整理&#xff1a;慧中 责编&#xff1a;屠敏受大规模语言建模的启发&#xff0c;Deepmind应用类似的方法构建了一个单一的「通才」智能体 Gato&#xff0c;它具有多模态、多任务、多具身&#xff08;…

拓扑排序和关键路径课程设计

目录 1. 设计任务书... 3 1.1设计任务... 3 1.2程序功能... 3 1.3运行环境... 3 2. 本组课题... 3 2.1课题... 3 2.2本人任务... 3 3.程序功能简介... 4 3.1拓扑排序算法分析... 4 3.2关键路径算法分析... 4 4.功能实现分析... 5 4.1拓扑排序功能... 5 4.1.…

2万字超长干货,MIT人工智能实验室:如何做研究?

来源&#xff1a;人工智能前沿讲习译者&#xff1a;柳泉波 北京师范大学信息学院2000级博士生 当你初入江湖&#xff0c;迷茫不知道该干什么的时候&#xff0c;不妨去模仿前人是如何进行科研的&#xff0c;并从中归纳出最适合自己的道路。为此&#xff0c;我们推出“学术人生”…

重磅!DeepMind新作Gato:一个模型、一套权重通吃600+视觉文本和决策任务!

来源&#xff1a;量子位&#xff08;QbitAI&#xff09;作者&#xff1a;梦晨 鱼羊通用人工智能&#xff0c;还得看DeepMind。这回&#xff0c;只一个模型&#xff0c;使用相同的权重&#xff0c;不仅把看家本领雅达利游戏玩得飞起。和人类聊聊天、看图写话也不在话下。甚至还能…