【前沿技术】AI终于攻陷了数学领域!高数考试超过普通博士??

05c980e1dea9fb4487994123f0ff0cf9.jpeg

来源:智能研究院

高数考不好,不知道是多少人的噩梦。

244b88ca174551d944e3475397829855.jpeg

如果说你高数考得还不如AI好,是不是就更难以接受了?

没错,来自OpenAI的Codex已经在MIT的7门高数课程题目中正确率达到81.1%,妥妥的MIT本科生水平。

课程范围从初级微积分到微分方程、概率论、线性代数都有,题目形式除了计算、甚至还有画图。

c9a8f428aac5144a03b5d45f2e496120.jpeg

这件事最近还登上了微博热搜。

b7148db159636f9630d8dc545129282f.jpeg
▲“仅”得81分,对AI的期待也太高了吧

现在,谷歌那边又传来了最新大消息:

不止数学,我们的AI甚至在整个理工科上,都已经拿到最高分啦!

看来在培养“AI做题家”这件事上,科技巨头们已经卷出了新高度。

741e6c8411d08352f5e84a4ca79de6da.jpeg

谷歌这个最新AI做题家,参加了四门考试。

数学竞赛考试MATH,以往只有三届IMO金牌得主才拿过90分,普通的计算机博士甚至只能拿到40分左右。

至于别的AI做题家们,以前最好成绩只有6.9分……

但这一次,谷歌新AI却刷到了50分,比计算机博士还高。

综合考试MMLU-STEM,内含数理化生、电子工程和计算机科学,题目难度达到高中甚至大学水平。

这一次,谷歌AI“满血版”,也都拿到了做题家中的最高分,直接将分数拉高了20分左右。

cd50e7167cfd6dec46a7e3f078dfba57.jpeg

小学数学题GSM8k,直接将成绩拉升到78分,相比之下GPT-3还没及格(仅55分)。

就连MIT本科和研究生学的固体化学、天文学、微分方程和狭义相对论等课程,谷歌新AI也能在200多道题中,答出将近三分之一。

dc4d92a4db60b95fc0b0fe172c67fde4.jpeg

最重要的是,与OpenAI凭借“编程技巧”取得数学高分的方法不同,谷歌AI这一次,走的可是“像人一样思考”的路子——

它像一个文科生一样只背书不做题,却掌握了更好的理工科解题技巧。

值得一提的是,论文一作Lewkowycz还分享了一个论文中没写到的亮点:

我们的模型参加了今年的波兰数学高考,成绩比全国平均分还要高

05a9ef67b9838e461f30d347632d0d03.jpeg

看到这里,有的家长已经坐不住了。

如果告诉我女儿这件事,我怕她用AI做作业。但如果不告诉她,就没有让她对未来做好准备!

5a01f5902daebe59dcc691f55705802f.jpeg

在业内人士看来,只靠语言模型,不对算数、逻辑和代数做硬编码达到这种水平,是这项研究最惊艳的地方。

那么,这是怎么做到的?

AI狂读arXiv上200万篇论文

新模型Minerva,基于Pathway架构下的通用语言模型PaLM改造而来。

分别在80亿、600亿和5400亿参数PaLM模型的基础上做进一步训练。

Minerva做题与Codex的思路完全不同。

Codex的方法是把每道数学题改写成编程题,再靠写代码来解决。

而Minerva则是狂读论文,硬生生按理解自然语言的方式去理解数学符号。

在PaLM的基础上继续训练,新增的数据集有三部分:

主要有arXiv上收集的200万篇学术论文,60GB带LaTeX公式的网页,以及一小部分在PaLM训练阶段就用到过的文本。

02b6b3dbb3d0e2622c37a09eaecae7ec.jpeg

通常的NLP数据清洗过程会把符号都删掉只保留纯文字,导致公式不完整,比如爱因斯坦著名的质能方程只剩下了Emc2。

31a8eb7bb8b6bd1eff1263e05f95e67b.jpeg

但谷歌这次把公式都保留,和纯文本一样走一遍Transformer的训练程序,让AI像理解语言一样去理解符号。

与之前的语言模型相比,这是Minerva在数理问题上表现更好的原因之一。

但与专门做数学题的AI相比,Minerva的训练中没有显式的底层数学结构,这带来一个缺点和一个优点。

缺点,是可能出现AI用错误的步骤得到正确答案的情况。

优点,是可以适应不同学科,即使有些问题无法用正规的数学语言表达出来,也可以结合自然语言理解能力解出来。

到了AI的推理阶段,Minerva还结合了多个最近谷歌开发的新技术。

先是Chain of Thought思维链路提示,今年一月由谷歌大脑团队提出。

具体来说就是在提问的同时给一个分步骤回答的示例来引导。AI在做题时就可以采用类似的思考过程,正确回答本来会答错的题目。

f3f25126d0170b9a101c0f600f607dec.jpeg

再有是谷歌和MIT合作开发的Scrathpad草稿纸方法,让AI把分步计算的中间结果临时存储起来。

43be7bb7667e7f8c78b875666fd9b538.jpeg

最后还有Majority Voting多数表决方法,也是今年3月才发表的。

让AI多次回答同一个题目,选择答案中出现频率最高的。

fce4ec21e26ed64232f031a7048c9c11.gif

所有这些技巧全用上以后,5400亿参数的Minerva在各种测试集中达到SOTA。

甚至80亿参数版的Minerva,在竞赛级数学题和MIT公开课问题中,也能达到GPT-3最新更新的davinci-002版本水平。

f909764b30fefd9a00acbd1ea5b27a24.jpeg

说了这么多,Minerva具体都能做出哪些题目?

对此谷歌也开放出了样例集,一起来看一下。

数理化生全能,连机器学习都会

数学上,Minerva可以像人类一样按步骤计算数值,而不是直接暴力求解。

8659ba07c72e1b1db96520ab954346e9.jpeg

对于应用题,可以自己列出方程式并做简化。

9ad8be2a4d2a071137fca12123b6829f.jpeg

甚至还可以推导证明。

bf1586687171b475274d378d4e252679.jpeg

物理上,Minerva可以求中性氮基态(Z = 7)电子的总自旋量子数这样的大学水平题目。

265dcfe028cd27fdaef8091cadaf662d.jpeg

生物和化学上,Minerva凭借语言理解能力也可以做各种选择题。

以下哪种点突变形式对DNA序列形成的蛋白质没有负面影响?

e0133d7f2cd041a665d2431b3c4fb3da.jpeg

以下哪种是放射性元素?

2bb131d0de0a32ca14cefa563b670390.jpeg

以及天文学:为什么地球拥有很强的磁场?

bc5abf59a99b69124726b0810eb38df3.jpeg

在机器学习方面,它通过解释“分布外样本检测”的具体含义,从而正确了给出这个名词的另一种说法。

6a3b53e95ea0af84210de440b6b454b1.jpeg

……

不过,Minerva有时也会犯一些低级错误,比如把等式两边的√给消了。

2b901a0df067c259b6f6622ac87a1cad.jpeg

除此之外,Minerva会出现的推理过程错误但结果对的“假阳性”情况,比如下面这种,有8%的可能性。

19e424b2922539cb61777c7b65a13e0a.jpeg

经过分析之后,团队发现主要的错误形式来自计算错误和推理错误,只有小部分来自题意理解错误和在步骤中使用了错误的事实等其他情况。

其中计算错误可以轻易通过访问外部计算器或Python解释器解决,但其他种类的错误因为神经网络规模太大就不太好调整了。

235c520b348bb04e7823a791dac7c8fe.jpeg

总的来看,Minerva的表现让很多人感到惊艳,纷纷在评论区求API(可惜谷歌目前并没有公开计划)。

3dfc453f4071b609bb576d66c00b4e9e.jpeg

有的网友想到,加上前几日让GPT-3解题正确率暴涨61%的“哄一哄”大法,它的准确率或许还可以再提高?

c432466c385445e3d261414377d09363.jpeg

不过作者的回应是,哄一哄方法属于零样本学习,再强恐怕也比不上带4个例子的少样本学习。

61a78dd092caa645df910024636e4c84.jpeg

还有网友提出,既然它可以做题,那么能不能反过来出题?

dd96e6a5822839a566b3324837f94f75.jpeg

事实上用AI给大学生出题这件事,MIT已经联合OpenAI在做了。

他们把人类出的题和AI出的题混在一起,找学生来做问卷调查,大家也很难分清一道题是不是AI出的。

a7bd469fc5054f126483070b33e3a6f4.jpeg

总之现在的情况,除了搞AI的在忙着读这篇论文以外。

学生们盼着有一天能用AI做作业。

ab5f6b867e843a0d919c15fea7f959af.jpeg

老师们也盼着有一天能用AI出卷子。

61afb0b5f6ac3228e5038ac3d70af7de.jpeg

论文地址:
https://storage.googleapis.com/minerva-paper/minerva_paper.pdf

Demo地址:
https://minerva-demo.github.io/

相关论文:
Chain of Thought
https://arxiv.org/abs/2201.11903
Scrathpads
https://arxiv.org/abs/2112.00114
Majority Voting
https://arxiv.org/abs/2203.11171

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

061eb28e3e7c97718ba39968d62953f4.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481873.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

中科院院士:几乎没有任何研究课题会完全按照预期发展;如果有,这种研究不会有任何突破、不会给人带来任何惊喜...

来源:科学网作者:Philip Ball(《国家科学评论》特约作者)2001年,唐本忠团队偶然观察到了这一有悖常理的光物理现象,从而在发光材料研究领域取得了重大原创突破。2016年,Nature将AIE点&#xff0…

工业人工智能系统框架、关键技术、典型应用与发展趋势

来源:原文刊载于《机床与液压》2022年5月 作者:唐露新 张儒锋 姜德志 林建文 周书兴近年来,智能制造是很多工业发达国家积极推进和重点发展的领域,美国、欧洲和日本等都将目光转向人工智能等核心技术,并不断取得新的突…

MIT Technology Review 2022年“全球十大突破性技术”解读

来源:中国科学基金自2001年起,MIT Technology Review每年都会评选出年度“全球十大突破性技术”,不少在当年崭露头角的技术,如今已经深刻地改变了我们的生活,推动了人类社会的进步。2022年2月23日,MIT Tech…

长文综述:大脑中的熵、自由能、对称性和动力学

来源:集智俱乐部作者:Viktor Jirsa, Hiba Sheheitli译者:JawDrin审校:彭菘峻 编辑:邓一雪 导语我们的大脑在一定程度上是贝叶斯推理系统,生成内部模型对外部世界作出预测,然后将预测与感官输入不…

统计学和机器学习到底有什么区别?

来源:不止数据分析统计学和机器学习之间的界定一直很模糊。无论是业界还是学界一直认为机器学习只是统计学披了一层光鲜的外衣。而机器学习支撑的人工智能也被称为“统计学的外延”。例如,诺奖得主托马斯萨金特曾经说过人工智能其实就是统计学&#xff0…

谷歌2022学术指标出炉!Nature继续霸榜,CVPR第4,计算机5顶会入Top20

来源:公众号:【新智元】作者:新智元谷歌最新学术指标出炉!今年,AI顶会黑马迭出,CVPR仍保持总榜第4,ICLR和NeurIPS排名继续跃升。值得一提的是,ICCV、ICML直接挤进前20。一年一度的谷…

《自然》揭示:发生意外时,大脑中发生了什么?

来源:学术经纬▎药明康德内容团队编辑 当你需要你关注一些重要的事情时,你的大脑会发生什么?最近,一项发表于《自然》的研究告诉我们一项全新的答案:大脑会释放一股去甲肾上腺素。研究团队发现,去甲肾上腺…

基于嵌入式图像处理平台的实时多目标识别算法

基于嵌入式图像处理平台的实时多目标识别算法 人工智能技术与咨询 昨天 本文来自《科学技术与工程》,作者 王旭辉等 摘 要 提出了一种适用于空间观测任务的实时多目标识别算法,它基于DSP和FPGA组合的图像处理硬件平台,运用散点聚类、轨迹跟…

针对深度学习的“失忆症”,科学家提出基于相似性加权交错学习

来源:AI科技评论作者:Rajat Saxena et al.编译:bluemin编辑:陈彩娴与人类不同,人工神经网络在学习新事物时会迅速遗忘先前学到的信息,必须通过新旧信息的交错来重新训练;但是,交错全…

2021-11-05深度学习

关注微信公众号:人工智能技术与咨询。了解更多咨询 基于YOLOv3 和ASMS 的目标跟踪算法 人工智能技术与咨询 3天前 本文来自《光电工程》,作者吕晨等 1. 引言 目标跟踪一直是计算机视觉的重要应用领域和研究热点。随着硬件设施的完善和人工智能技术…

数字孪生技术在自动驾驶测试领域的应用研究概述

来源:汽车测试网作者:王庆涛 周正等摘 要:研究数字孪生技术在自动驾驶测试领域的应用。旨在构建高度开放的数字孪生自动驾驶测试平台,结合仿真测试工具、通信设备、真实测试车辆等功能单元,形成丰富的测试验证环境&…

2021-11-06深度学习

基于军事知识图谱的作战预案语义匹配方法研究 人工智能技术与咨询 前天 本文来自《指挥与控制学报》 ,作者梁汝鹏等 关注微信公众号:人工智能技术与咨询。了解更多咨询! 摘 要 提出了一种智能化的预案语义匹配方法,基于军事知识图谱,建立…

2022年“菲尔兹奖”,颁给了这四位年轻人

来源:学术头条7 月 5 日,据 2022 国际数学家大会(ICM)官方消息,2022 年菲尔兹奖在芬兰赫尔辛基阿尔托大学正式揭晓。菲尔兹奖被认为是年轻数学家的最高荣誉,和阿贝尔奖均被称为数学界的“诺贝尔奖”。清华大…

DeepMind最新研究:AI击败了人类,设计了更好的经济机制

来源: 学术头条“人类面临的许多问题并不仅仅是技术问题,还需要我们为了更大的利益在社会和经济中进行协调。”“要想人工智能技术能够提供帮助,它需要直接学习人类的价值观。” ——DeepMind 研究科学家 Raphael Koster人工智能(…

字节跳动 AI Lab 总监李航:语言模型的过去、现在和未来

来源:AI科技评论作者:李航编译:李梅、黄楠编辑:陈彩娴从俄国数学家 Andrey Markov (安德烈马尔可夫)提出著名的「马尔科夫链」以来,语言建模的研究已经有了 100 多年的历史。近年来,…

基于军事知识图谱的作战预案语义匹配方法研究

关注微信公众号:人工智能技术与咨询。了解更多咨询 基于军事知识图谱的作战预案语义匹配方法研究 人工智能技术与咨询 前天 本文来自《指挥与控制学报》 ,作者梁汝鹏等 摘 要 提出了一种智能化的预案语义匹配方法,基于军事知识图谱,建立知识图谱与作…

我们的宇宙,在某种意义上,是最好的一个

来源:《那些难以企及的人物:数学天空的群星闪耀》、思庐哲学(siluphilosophy)作者:蔡天新原题:莱布尼茨诞辰|“十七世纪的亚里士多德”在巴黎逗留时期,莱布尼茨除了潜心数学王国之外…

【创新应用】AI搞财富分配比人更公平?DeepMind的多人博弈游戏研究

来源:智能研究院DeepMind这次不下棋,也不搞电子游戏,而是研究了一把多人博弈游戏。最新开发的“Democratic AI”——通过训练学习人类价值观,进而能根据每个人的贡献公平地分配资源。为了论证这一概念,DeepMind设计了一…

重磅!2022年度中国高校技术发明贡献50强出炉!

来源:青塔 2022年度中国高校技术发明贡献50强,重磅出炉!打破国际垄断,攻克世界级技术难题,高校,是“圆科技强国梦”的重要学术力量。斩获国家科学技术发明奖的高校,或填补行业领域空白&#xff…

Celus 使用 AI 实现电路板设计的自动化

来源:ScienceAI编辑:白菜叶几乎您想到的每一个电子装置都至少包含一个印刷电路板 (PCB),它用于容纳和连接各种组件,使设备能够作为一个整体发挥作用。虽然电路板对最终用户来说大多是不可见的,但它们是他们所居住的世界…