OpenAI推出数学推理证明模型,推理结果首次被数学家接受

大数据文摘出品

作者:牛婉杨

 

今年6月,OpenAI发布一款强大的文本生成模型GPT-3,不少网友迅速上手用了起来,有人用它写食谱、写歌词,甚至有人用它写博客,愣是以假乱真登上了新闻平台技术板块热榜第一。

 

前不久,OpenAI再次放出大招。这次,研究人员发布了一篇论文《Generative Language Modeling for Automated Theorem Proving》,推出了一款用于自动定理证明(ATP) 的GPT-f模型。GPT-f基于Transformer语言模型,可以为Metamath形式化语言提供自动证明器和证明助手。

论文地址:

https://arxiv.org/pdf/2009.03393.pdf

 

GPT-f有什么特别之处?

 

论文一作Stanislas Polu在推特上进行了介绍,他们在实验中发现,GPT-f比现有自动定理证明器还要优秀,可完成测试集中56.22%的证明,而现有的SOTA模型MetaGen-IL也只能证明21.16%的定理。

 

此外,GPT-f还发现了新的简短证明,已有23个简短证明被收入Metamath函式库中。这是深度学习模型的定理生成证明首次被数学家接受。

 

那么大家对于GPT-f是怎么看的呢?


网友普遍保持中立,大佬认为没有特别之处

 

文摘菌想在推特上看看网友们的讨论,没想到AI界的一些大佬也发表了自己的看法。

 

Robust.AI、Geometric Intelligence两家AI公司的创始人,研究人工智能领域多年的科学家Gary Marcus认为,“就像GPT-3不是研究真正人类语言的正确方向一样……, GPT-f并不是达到真正人类水平(更不用说超越人了)的数学定理证明的正确研究方向。”

 

 

他还称,人们一直在误用GPT来解决它不适合解决的问题,同样的问题也不断出现。

 

 

美国通用人工智能会议主席、奇点大学顾问、人工智能软件公司 Novamente LLC 公司董事长   Ben Goertzel 也在推特发表了自己的看法,他认为,GPT-f 又是一个在不理解的情况下指导定理证明的古怪实验……

 

 

他还专门写了一篇文章来谈论对于GPT-f的看法,发表在了自己的博客上。

 

博客地址:

http://multiverseaccordingtoben.blogspot.com/2020/09/gpt-f-one-more-funky-experiment-in.html

 

Ben还在博客中写道,“从ATP领域正在进行的工作的总体背景来看,在我看来,GPT-f 不像 GPT-2或GPT-3 那样迈出了一大步——但可以肯定的是,它在ATP方面是有意义的进展,与这一领域其他专家正在进行的大量研究进展相符(然而,这些专家因为没有像OpenAI那样的公关预算而不被媒体报道)。GPT-f 还有一个与其他GPT类似的核心缺点——它在理解数学这方面并不比GPT-2或GPT-3理解语言的能力更强。”

 

那网友们怎么看呢?

 

现阶段网友们普遍是一种吃瓜的态度,并没有对GPT-f大肆夸耀。大部分只是转发了相关推文并陈述了论文中GPT-f实验的成果。

 

也有一部分网友在论坛中发表了自己的疑问。

 

比如网友@Jason Rute 就问到:什么才是有效的证明步骤?Jason Rute曾经是一名数学家,后来成为了数据科学家,他对深度学习很感兴趣。

 

GPT-f将同时返回一个定理和替换,然后它们必须与目标统一。如果替换不统一,那么我确定它被标记为无效。然而,如果这个定理不在先前证明的定理列表中呢?GPT-f是做什么的?

1)试着证明这个定理;

2)认为这是一个无效的证明步骤,还是将输出限制在已知的定理上?

(我想会是第一条,但我还是想验证一下。)

 

论文一作Stanislas Polu也在论坛对此进行了回复,并表示这是个好问题。

 

• 如果统一失败,内核会拒绝验证步骤,甚至在验证树搜索中也不会考虑它(不会添加到树或队列中,也不会由值函数赋值)。

• 如果该定理在数据库中没有被报告,那么该定理也将被拒绝。这就是说,我们正在试验让模型证明这些猜想,如果它们被价值函数认为有趣的话。在这种情况下,我们只需将定理本身添加为子目标(带有一个特殊的标记,以确保一旦找到证据,我们就重新检查不同的变量(DVs是一种元数学技术,可以在您的思维中抽象出来,如果您不知道它们是如何工作的,可以稍后再访问)),然后子目标会相应地被赋值并添加到队列中。

针对这个问题,Jason Rute在论文作者回复后还追加了提问,详细讨论可以看这里:

https://leanprover-community.github.io/archive/stream/219941-Machine-Learning-for-Theorem-Proving/topic/GPT-f.20paper.html#210087032

 

Jason Rute还说,“在许多方面GPT-f类似于之前出现的其他定理证明,HOList/DeepMath, CoqGym/ASTTactic, TacticToe等等。所有这些的共同之处在于它们把定理证明当作树搜索。长期以来,我们所知道的是,采用智能启发式可以避免树(和图)搜索中的组合爆炸。AlphaGo及其后继者告诉我们的是,这些启发式完全可以从例子中学习,也可以从引导和强化学习中学习。GPT-f在这方面没有什么不同。(关于GPT-f使用的特定树搜索算法,我不打算说得太多,因为我不认为他们的方法比其他类似的论文优化很多。)”

 

此外,文摘菌也翻了一下知乎,只有一个相关问题,而且该问题下只有一个回答。由此可见,国内网友可能还不太知道GPT-f,也可能由于发布时间并不长,大家对于GPT-f还处在比较懵的状态。

 

 

如果你对GPT-f有更好的了解或看法,欢迎在评论区分享~

 

GPT-f 由自动证明器和证明助手组成


GPT-f是由两部分组成的,分别是自动证明器和证明助手。

 

自动证明器是为了寻求更简短的证明,研究人员从 Metamath 的 set.mm 库中采样命题证明,并对比 GPT-f 模型找到的解与真值的长度,同时还验证了简短证明不依赖于额外的公理。

 

     

证明搜索包括维护一个证明树,其中从根目标开始探索每个目标的多种策略。

 

OpenAI利用在线证明助手,来帮助模型产生交互式的证明架构。下图展示了 GPT-f 证明助理的界面:

 

 

Metamath是一种用于存档,验证和研究数学证明的语言和计算机程序。研究人员使用Metamath作为正式环境,使用类似于GPT-2和GPT-3的仅解码器的转换器来创建具有各种预训练数据集和不同大小的模型。他们最大的模型具有36层和774m可训练参数。

 

各种模型大小和预训练数据集的性能

 

说了这么多,那什么是自动定理证明呢。

 

百度百科中是这样描述的:自动定理证明是人工智能研究领域中的一个非常重要的课题,其任务是对数学中提出的定理或猜想寻找一种证明或反证的方法。因此,智能系统不仅需要具有根据假设进行演绎的能力,而且也需要一定的判定技巧。

 

研究人员发现,学习证明定理与学习玩棋盘游戏之间有相似之处,因为它们都提供了自动确定成功的方法,并生成新的数据。因此,AlphaZero在围棋领域的成功表明,自动定理证明可能是神经网络推理研究的一个富有成效的领域。

 

相关讨论及参考:

https://www.reddit.com/r/MachineLearning/comments/ipdu7m/r_gptf_a_new_sota_for_automated_mathematical/

https://medium.com/@raevskymichail/gpt-f-neural-network-theorem-proofs-28caacba5468

http://ai.chinabyte.com/239/714875739.shtml

https://syncedreview.com/2020/09/10/openai-gpt-f-delivers-sota-performance-in-automated-mathematical-theorem-proving/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/486768.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

卡苹果6plus在线_@哈尔滨家长:学生卡初次申办,需要到线下网点办理!

去办理业务,就怕人多排队!9月份开学后,不少孩子上下学要赶公交,对没有手机的孩子来说,公交IC卡成了出门必备“神器”。对家长来说,充值、缴费成了难题,缴多了怕卡丢,少了还要总去&am…

dm_php库,dmandwp系统 PHP建站系统+wordpress建站和DM系统区块+安装教程

dmandwp 系统(又名 wordpress 建站和 DM 系统区块)是一款使用 DM 系统的区块功能,让 wordpress 建站更方便的 PHP 建站系统。DM 系统的优势就是区块功能。现在把 DM 的区块功能做为插件,用在 wordpress 系统上。分类和内容,菜单,路…

美国对六种新兴技术实施控制:EUV和5nm相关技术在列

来源:翻译自Global trade and sanctions law。2020年10月5日,美国商务部工业与安全局(BIS)发布了最终规则,对《关于常规武器和两用货物及技术出口管制的瓦森纳安排》2019年12月全体会议上达成的六项“新兴技术”实施新…

spoon无法初始化至少一个步骤_手机怎么设置无线路由器 手机设置无线路由器步骤【详解】...

随着智能手机、平板电脑等无线设备的流行,无线网络也已经逐渐普及。而无线路由器作为无线网络的载体,自然成为必不可少的设备。小编原以为无线路由器只能通过连接电脑才能进行设置,但事实上如今很多路由器都可以通过手机完成设置,…

任正非最新讲话:华为专家队伍怎么建?

版权声明来源:心声社区,书享界作者:任正非书享界导语10月10日,任正非签发华为总裁办电子邮件,向华为全员公布今年7月15日、20日、21日任正非在专委会建设思路汇报、研发专家代表及专委会代表座谈会上的讲话。在这篇讲话…

Fast Paxos

自从Lamport在1998年发表Paxos算法后,对Paxos的各种改进工作就从未停止,其中动作最大的莫过于2005年发表的Fast Paxos。无论何种改进,其重点依然是在消息延迟与性能、吞吐量之间作出各种权衡。为了容易地从概念上区分二者,称前者C…

axios 注册拦截器 cdn引用_PicGo+jsDelivr+GitHub搭建免费cdn加速的图床

PicGojsDelivrGitHub搭建免费cdn加速图床。下面是我写的教程。https://www.sakura521.cn/2020/03/13/picgocdn.html​www.sakura521.cn前言开始使用GitHub+jsDelivr搭建的cdn加速的免费图床,但是发现每次上传图片,然后创建新的版本太麻烦了。…

案例167:基于微信小程序的校园失物招领小程序

文末获取源码 开发语言:Java 框架:SSM JDK版本:JDK1.8 数据库:mysql 5.7 开发软件:eclipse/myeclipse/idea Maven包:Maven3.5.4 小程序框架:uniapp 小程序开发软件:HBuilder X 小程序…

百度自动驾驶出租车服务在北京全面开放 可免费试乘

来源:手机中国【CNMO新闻】10月11日晚,百度官方正式宣布,即日起,百度自动驾驶出租车服务在北京全面开放,北京的朋友们可在北京经济技术开发区、海淀区、顺义区的数十个自动驾驶出租车站点,无需预约&#xf…

itools苹果录屏大师_iTools Pro 1.8.0.4 简单易用的苹果设备 iPhone/iPad 管理工具

iTools Pro是一款Mac上非常好用的iOS设备管理工具,具有应用、照片、音乐、电影、铃声、图书、通讯录、文件管理、实时桌面等基础功能。iTools Pro Mac还有音乐、电影、铃声格式转换、录屏大师、铃声制作、备份还原等功能,支持最新的 iOS和 OS X 系统。iT…

李开复对话彭特兰:AI 不是单打独斗,应避免 AI 冷战!

来源:CSDN近日,创新工场董事长兼CEO李开复博士与阿莱克斯彭特兰教授(Alex Pentland)展开了一场”AI如何重塑人类社会”的精彩对话。《连线》杂志的资深撰稿人威尔奈特(Will Knight)主持了这场对话。阿莱克斯…

iphone最新款手机_iPhone 丢了99.9%能找回?这种做法不可信!!

目前,手机已经成为我们生活中必不可少的一部分,科技发展带来消费场景的变化,到处都能扫一扫,让手机显得更加重要,你可以不带钱包出门,但不能不带手机。丢钱包的概率变低,丢手机的概率变高了&…

唐杰:AI 未来靠迭代

来源 | 北京智源人工智能研究院未来十年人工智能将如何发展?清华大学教授、智源研究院副院长唐杰认为:认知智能将成为一个重要的且可能实现的方向。具体来说,便是 System 1 和 System 2 的循环往复,不断迭代,从而打造出…

linux服务器配置与管理_服务器维护实施步骤

为了有效地维护服务器,服务器管理员必须执行主动的硬件和软件检查。而服务器的维护清单必须包括除尘、日志查看、软件补丁程序测试等。即使具有服务器的性能和冗余功能,增加的工作负载整合和可靠性期望也会对服务器硬件造成损害。服务器维护清单应涵盖物…

量子信息技术研究现状与未来

来源:专知量子信息技术是量子力学与信息科学融合的新兴交叉学科, 它的诞生标志着人类社会将从经 典技术迈进到量子技术的新时代, 本文将阐述量子信息技术的研究现状与未来. 文中描绘了量子技术 发展远景, 即筑建各种类型的量子网络, 包括量子云计算网络、分布式量子…

idea springmvc项目搭建_ssm框架整合搭建流程 - 小白小承

刚学完Mybatis&#xff0c;Spring&#xff0c;SpringMVC尝试进行一个整合开发&#xff0c;记录一下搭建流程1.环境与开发工具IDEAMySQL 8.0.16Tomcat 9.0.21Maven 3.6.12.项目准备1.创建一个maven工程2.依赖注入<dependencies><dependency><groupId>junit<…

21世纪科技生态面临第三次全球标准

来源&#xff1a;中国社会科学报 前言&#xff1a;本文2020年9月29日发表与“中国社会科学报”&#xff0c;原文标题"科技生态面临新全球标准”&#xff08;略有修改&#xff09;。2007年以来&#xff0c;我们对21世纪前沿科技生态发展的规律进行研究。提出互联网从网状…

adb push ,adb pull和adb install的区别

1、用命令行把手机上的文件拷贝到电脑上 1adb pull sdcard/1222073679.png拷贝文件夹命令&#xff0c;如把log文件夹拷贝到电脑当前目录 1adb pull sdcard/log/拷贝文件夹到当前文件夹下的某文件夹里面&#xff0c;如拷贝360文件夹到当前文件夹的360里面 1adb pull sdcard/360/…

php+jquery实现图片上传预览_和拖动位置值,PHP教程:thinkphp jquery实现图片上传和预览效果...

《PHP教程&#xff1a;thinkphp jquery实现图片上传和预览效果》要点&#xff1a;本文介绍了PHP教程&#xff1a;thinkphp jquery实现图片上传和预览效果&#xff0c;希望对您有用。如果有疑问&#xff0c;可以联系我们。PHP学习PHP学习那个file按钮样式先忽略PHP学习点击选择图…

屏幕中间显示已停用缩放_有关标签打印软件缩放工具的介绍

在标签打印软件中设计标签时&#xff0c;为了方便编辑&#xff0c;有时会根据自己的需求放大缩小标签来精确位置大小等&#xff0c;做更细致的调整&#xff0c;这时就会用到缩放工具。下面&#xff0c;主要就是给大家介绍标签打印软件缩放工具的用处&#xff1a;在标签打印软件…