人类反超 AI:DeepMind 用 AI 打破矩阵乘法计算速度 50 年记录一周后,数学家再次刷新...

ae6c224947f1253a423b147677eca009.jpeg

来源:图灵人工智能

作者:李梅、施方圆

编辑:陈彩娴

10 月 5 日,AlphaTensor 横空出世,DeepMind 宣布其解决了数学领域 50 年来一个悬而未决的数学算法问题,即矩阵乘法。AlphaTensor 成为首个用于为矩阵乘法等数学问题发现新颖、高效且可证明正确的算法的 AI 系统。论文《Discovering faster matrix multiplication algorithms with reinforcement learning》也登上了 Nature 封面。

然而,AlphaTensor 的记录仅保持了一周,便被人类数学家打破了。

来自奥地利林茨约翰·开普勒大学的研究人员 Manuel Kauers 和 Jakob Moosbauer 在其最新工作中表示,他们已经打破 AlphaTensor 的矩阵乘法记录。他们开发了一种以 95 步执行 5×5 矩阵乘法的方法,比 AlphaTensor 的 96 步记录少了一步,此前的记录为 98 步。论文预印版于 10 月 13 日发布在 arxiv 上。

4e4738157914c0616e005dc2c82c680e.jpeg

论文地址:https://arxiv.org/abs/2210.04045

论文标题中的 “FBHHRBNRSSSHK”其实就是 DeepMind 论文所有作者姓氏的首字母组合,这种命名方式也是很有趣了:

54df54e829b7874be20bb74a02a16f08.jpeg

数学问题的探索永无止境,如作者所说,DeepMind 算法方案 “still not the end of the story”。不过,他们这次的突破是站在巨人也就是 AI 的肩膀上,作者表示,其解决方案是在 DeepMind 方案的基础上应用一系列的转换,从而消除了一步乘法计算。

1

前进 2 步的 AlphaTensor

我们先来简要回顾一下 AlphaTensor 的成绩。

计算机科学中许多数学任务都是通过矩阵乘法来处理的,例如机器学习、计算机图形的创建,各种模拟或数据压缩。而计算机计算乘法的速度要远远慢于加法,因此,即使矩阵乘法的效率提升得很小,也会产生巨大影响,几十年来,数学家们一直在寻找更有效的矩阵乘法算法。

1969 年,德国数学家 Volker Strassen 开发了一种算法,首次将 4×4 矩阵乘法的求解从 64 步减少到 49 步,震动了数学界。

而 Deepmind 这次发布的 AI 系统 AlphaTensor,发现了一种比 Strassen 算法更快的新算法。Demis Hassabis 称,新算法具备在每天数万亿次计算中将效率提高 10% ~ 20% 的潜力。

AlphaTensor 是一次从游戏到数学的飞跃,它基于 2018 年 Deepmind 发布的通用棋盘游戏 AI 系统 AlphaZero。为了训练 AlphaTensor,Deepmind 研究团队将矩阵乘法问题转化成一种 3D 棋盘游戏,每一步都会产生新算法的构建块。AlphaTensor 每次会在数万次移动中进行选择,以尽可能少的步骤生成新算法而获得奖励。Deepmind 将其称为“张量游戏”。

在 5×5 的输入矩阵中,AlphaTensor 独立发现了 Strassen 算法和其他已知的算法。并且,它还开发了比旧算法更有效的新算法。

例如,5×5 矩阵乘法(n=4)以前要计算 80 步,而 AlphaTensor 新算法只需 76 步;当n=5 时,AlphaTensor 将求解从原来的 98 步减少到 96 步。4×4 矩阵乘法由 Strassen 减少到 49 步,AlphaTensor 则将其优化到 47 步。这样的效率是由 AlphaTensor 生成的 70 多个矩阵乘法的算法实现的。

7a316a9c87f3408278fb8663fe419427.jpeg

3b18be39ff47c35897e5781ba4cfaf72.jpeg

图注:AlphaTensor 发现的算法复杂性与已知矩阵乘法算法比较

此外,AlphaTensor 还可开发特定硬件的算法,用于机器学习。据说目前运行速度比谷歌 TPU 和英伟达 V100 上的算法快 20%。

自主调整乘法算法以适应硬件的方法对人类来说很困难,所以 AlphaTensor 对 Strassen 算法的改进创造了 4×4 矩阵乘法的新上限,是 AI 进步为其他学科提供助力的一大证明。它也表明,原本为传统游戏开发的 AlphaZero 系统可以解决领域之外的数学问题。

2

人类再向前 1 步

在 Manuel Kauers 和 Jakob Moosbauer 的最新研究中,他们主要有两个新发现,一是对于 4×4 矩阵,他们提出了另一种 47 步乘法的求解算法,但不同于先前的解决方案;二是对于 5×5 矩阵,他们首次提出了一种需要 95 步乘法的方案。

在这篇文章中,作者简单展示了这两个矩阵乘法的方案,不久后将发表正式论文,更详细地介绍求解算法的搜索技术。

4 × 4 矩阵的新方案共包含 47 次乘法,如下:

881b365528e073e2868848aa5ce7b694.jpeg

ca6959a12dcd7404db5b240735102ba1.jpeg

5×5 矩阵(n=5)的 95 步乘法方案如下:

a284182c1edda75044c4cc09b1736dfd.jpeg

f8d5f6881a970c8e9b9b3000261fd522.jpeg

考虑到 GPU 每天要进行万亿次矩阵计算,所以从 98 步到 96 步以及从 96 步到 95 步这样看起来很小的增量改进,实际上能大大提升计算效率,可以让 AI 应用程序在现有硬件上运行得更快。

作者介绍:

4e1fa0d4c75f9986183fc5df2852a5e3.jpeg

Manuel Kauers,林茨约翰内斯开普勒大学的代数教授,该大学代数研究所的负责人。其研究兴趣是计算机代数、符号求和和积分、特殊函数恒等式等。

1eee94252d774e199e3565fbf6e055eb.jpeg

Jakob Moosbauer,林茨约翰内斯开普勒大学代数研究所博士生。

参考链接:

1.https://the-decoder.com/deepmind-alphatensor-record-for-matrix-multiplication-held-for-a-good-week/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

0868e0f3748fca4b701e6dc920134edc.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481508.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

前沿进展:宏观麦克斯韦妖背后的热力学几何原理

导语热力学强烈限制了静态宏观热扩散系统中的热流动方向,使用时空调制系统能够克服这种限制。近日,科学家提出了时空驱动热扩散的一般理论,揭示了宏观驱动热扩散中潜在的由冷到热的几何热泵效应以及实现热非互易性的限制条件,并实…

文献阅读课16-J-REED: Joint Relation Extraction and Entity Disambiguation,关系抽取实体消歧联合模型,概率图CRF,2017

文章目录abstract1. INTRODUCTION & RELATED WORK2 DOCUMENT PROCESSING3 RELATION PATTERN MINING4 RELATION PATTERN LABELING5 JOINT MODEL6 EXPERIMENTS6.1 Corpora6.2 Systems under Comparison6.3 Experiments on Relation Pattern Extraction6.4 Experiments on Ent…

用 AI 预测 AI,它的未来会是什么?

来源:学术头条人工智能,开始解决越来越多人类尚未解决的问题,且取得了不错的成果。然而,在过去几年中,人工智能领域的科学研究数量呈指数级增长,使得科学家们和从业者们很难及时跟踪这些进展。数据显示&…

文献阅读课17-利用实体BIO标签嵌入和多任务学习进行不平衡数据关系提取,一个句子多关系多实体,ACL2019

文章目录abstract1 Introduction2. Proposed Approach3.实验3.1数据准备3.2 Experiment Settings3.4 分析3.4.1 BIO embedding3.4.2 Effect of Positive/Negative Instance Ratio3.4.3 Effect of Loss Function w/o Multi-tasking4 Related work5 结论Ye, W., et al. (2019). E…

【Brain】登上国际顶刊 PNAS!科学家从理论计算机出发,提出了一个意识模型——「有意识的图灵机」...

来源:墨玫人工智能编译:AI 科技评论组编辑:陈彩娴深度学习三巨头之一的Yoshua Bengio也点头称赞。5月下旬,国际顶刊《美国国家科学院院刊》(PNAS)发表了一篇其于去年10月接收审核的工作,研究非常…

72名图灵奖获得者的成就

来源:图灵教育从“图灵机”到“图灵测试”,从破译德军的 Enigma 到自杀之谜,图灵一生都是传奇,关于图灵的故事我们不在这里赘述,感兴趣的读者请看文末推荐阅读。今天我们更想聊聊,计算机领域最高奖项 —— …

18-Gm-TransH:Group-Constrained Embedding of Multi-fold Relations in Knowledge Bases,嵌入,transH,n-ary

文章目录abstract1. introduction2 Related Work2.1 Binary Relation Embedding2.2 Multi-fold Relation Embedding3 Group-Constrained Embedding3.1 Framework3.2 Optimizing Method3.3 Proposed Model3.4 Complexity Analysis4.实验4.1 数据集4.2 Link Prediction4.3 Instan…

统计学权威盘点过去50年最重要的统计学思想

来源:量化研究方法作者:陈彩娴、Mr Bear编辑:青暮近日,图灵奖得主、“贝叶斯网络之父”Judea Pearl在Twitter上分享了一篇新论文“What are the most important statistical ideas of the past 50 years?”(过去50年中…

19-A Walk-based Model on Entity Graphs for Relation Extraction(句内多对,多关系,多元,2018ACL

文章目录abstract1.introduction2 Proposed Walk-based Model2.1 嵌入层2.2 Bidirectional LSTM Layer2.3 Edge Representation Layer2.4 Walk Aggregation Layer2.5 Classification Layer3.实验3.1数据集3.2 Experimental Settings5.结果6.相关工作6.总结Christopoulou, F., e…

CCCF精选 | 李德毅:机器如何像人一样认知——机器的生命观

如果上一代人工智能可以叫做计算机智能,硬核是算力、算法和数据的话,那么新一代人工智能应该是有感知、有认知、有行为、可交互、会学习、自成长的机器智能,其硬核是交互、学习和记忆,而量子认知机的落地应用,则可能是…

量子混沌:相互作用如何影响量子多体系统的局域化?

导语在量子系统中,相干性会打破单个粒子的遍历性,使之进入一种动态局域化状态。对于包含相互作用的量子多体系统,情况会是怎样呢?近日发表于 Nature Physics 的两项研究通过实验证明,相互作用会破坏量子多体系统的动态…

可能是全网最简明的量子纠缠科普

前两天有位朋友抱怨,说是看了很多学者关于量子纠缠的科普,但还是一头雾水,没有一个人真的讲明白的。我就上网搜了几个看。确实,大多数科普要么是光顾着讲爱因斯坦和波尔打嘴炮的历史了,不讲物理;要么讲着讲…

20-Joint entity and relation extraction based on a hybrid neural network(LSTM-ED+CNN),考虑长距离的实体标签之间的关

文章目录abstract1.introduction2.相关工作2.1. Named entity recognition2.2. Relation classification2.3 联合模型2.4. LSTM and CNN models On NLP3.模型3.1. Bidirectional LSTM encoding layer3.2. Named entity recognition (NER) module:LSTM decoder3.3. Relation cla…

牛津大学团队采用先进机器人技术,推动「人造肌腱」实际应用

你知道“肩袖撕裂”吗?它是肩关节炎疼痛的常见原因之一。作为肩袖撕裂损伤中最为常见的肌腱损伤,每年世界范围内的患者高达几千万人。该病痛给患者带来巨大疼痛,甚至导致肢体功能丧失,无法正常生活和工作,造成极大的家…

finetune与Bert

文章目录一:过拟合1.1 直接finetune1.2 layer finetune1.3ULMFiT2 Bert节省内存3 Bert蒸馏4.post train一:过拟合 1.1 直接finetune 容易过拟合 1.2 layer finetune 拷贝部分预训练参数,而其他随机初始化 两部分一同训练:提升…

《Nature》长期寻找,终于发现直接促进神经递质“弹药库”的蛋白质

来源:生物通俄勒冈健康与科学大学(Oregon Health & Science University)的科学家们发现了一种长期寻找的基因编码蛋白质,这种蛋白质能使大脑在神经元之间的间隙(称为突触)之间传递广泛的信号。科学家们发现了一种长期寻找的基因编码蛋白质&#xff0…

机器翻译

1 模型 1.1 模型 1.2 RNNBeam searchAttention 损失函数:交叉熵 预测:不使用解码器而是beam search #paddlepaddle from __future__ import print_function import os import six import numpy as np import paddle import paddle.fluid as flui…

姚能伟:以邻盛智能为例,如何在行业大脑进行创新实践

报告内容摘要随着技术发展,未来一定是智慧的时代。为此我们提除了感知世界,透视数据,洞察未知为理念的新型技术探索与实践。依托多年项目经验与行业专业积累,形成了一些行业深度的解决方案。在实践过程中形成了客观世界的泛感知和…

Science:已“死亡”的细菌仍能感知来自环境的信息

根据信号强度对细菌孢子进行颜色编码的显微镜图像:颜色越亮,信号越强细菌依靠其顽强的生命力,在包括人类在内的各种生命体和地球的各个角落繁衍生息。细菌之所以难以被杀死,是因为它们具有独特的生存策略,其中一种是在…

Berttransformer

1.transformer transformer self-attention 当前编码的词和整个句子所有词做attention,权重加在所有句子上获得当前的表示 encoder-decoder-attention 当前解码的单元和编码器的所有输出做attention,权重加在所有编码输出上,获得当前的表示…