机器学习重新构想计算的构建块

454b951b9f4f08a566f329280536a9f1.png

来源:ScienceAI

编辑:绿萝

传统算法为机器学习等复杂的计算工具提供动力。一种称为「预测算法」的新方法利用机器学习的力量来改进算法。

e7a55e09edf4a22bf9a66386b581da98.png

算法——允许程序对数据进行排序、过滤和组合等的代码块——是现代计算的标准工具。就像手表里的小齿轮一样,算法在更复杂的程序中执行定义明确的任务。

它们无处不在,部分正因为如此,它们随着时间的推移经过精心优化。例如,当程序员需要对列表进行排序时,他们会使用一种已经使用了几十年的标准「排序」算法。

现在,研究人员正在使用称为机器学习的人工智能分支重新审视传统算法。他们的方法被称为预测算法,它利用了机器学习工具可以为传统算法处理的数据提供的洞察力。这些工具以一种真正的方式重新激发了对基本算法的研究。

MIT 计算机科学家 Piotr Indyk 说,机器学习和传统算法是「两种截然不同的计算方式,而带有预测的算法是连接两者的一种方式」。「这是一种将这两个完全不同的思路结合起来的方法。」

最近对这种方法的兴趣激增始于 2018 年,当时 MIT 计算机科学家 Tim Kraska 和谷歌研究人员团队发表了一篇论文。在这篇论文中,作者建议机器学习可以改进一种经过充分研究的传统算法,称为布隆过滤器(Bloom filter),它解决了一个简单但令人生畏的问题。

ea5e72db9ee46f9c84449a141910c00a.png

论文链接:https://arxiv.org/abs/1712.01208

想象一下,您管理公司的 IT 部门,您需要检查您的员工是否会访问存在安全风险的网站。天真地,您可能认为您需要根据已知站点的黑名单检查他们访问的每个站点。如果列表很大(互联网上不受欢迎的网站可能就是这种情况),问题就会变得难以处理——您无法在网页加载之前的很短的时间内对照庞大的列表检查每个网站。

布隆过滤器提供了一种解决方案,让您可以快速准确地检查任何特定站点的地址或 URL 是否在黑名单上。它实际上是通过将巨大的列表压缩成一个较小的列表来提供一些特定的保证来做到这一点。

布隆过滤器永远不会产生误报——如果他们说网站不好,那就不好了。但是,它们可能会产生误报,因此您的员工可能无法访问他们应该有权访问的某些网站。那是因为他们用一些准确性来换取大量数据压缩——一种叫做「有损压缩」的技巧。布隆过滤器对原始数据的压缩越多,精度越低,但节省的空间越多。

对于一个简单的布隆过滤器,每个网站都同样可疑,直到它被确认不在列表中。但并非所有网站都是平等的:有些网站比其他网站更有可能进入黑名单,这仅仅是因为他们的域名或 URL 中的文字等细节。人们直观地理解这一点,这就是为什么您可能会在单击 URL 之前阅读它们以确保它们是安全的。

Kraska 的团队开发了一种算法,也可以应用这种逻辑。他们称其为「学习型布隆过滤器」,它将小型布隆过滤器与循环神经网络(RNN)结合在一起——这是一种机器学习模型,可在暴露于数十万个安全和不安全的网站后了解恶意 URL 的样子。

当学习到的布隆过滤器检查一个网站时,RNN 首先行动并使用其训练来确定该网站是否在黑名单上。如果 RNN 说它在列表中,则学习到的布隆过滤器会拒绝它。但是,如果 RNN 说该站点不在列表中,那么小型布隆过滤器就会转向,准确但不假思索地搜索其压缩网站。

通过将布隆过滤器放在流程的最后并给予最终决定权,研究人员确保学习的布隆过滤器仍然可以保证没有误报。但是因为 RNN 使用它所学到的东西对真阳性进行预过滤,所以小型布隆过滤器更多地充当备份,也将其误报保持在最低限度。本来可以被更大的布隆过滤器阻止的良性网站现在可以通过更准确的学习布隆过滤器。实际上,Kraska 和他的团队找到了一种方法,可以利用两种经过验证但传统上相互独立的方法来解决同一问题,从而获得更快、更准确的结果。

Kraska 的团队表明新方法有效,但他们没有正式说明原因。这项任务落到了哈佛大学布隆过滤器专家 Michael Mitzenmacher 身上,他发现 Kraska 的论文「创新且令人兴奋」,但从根本上也不能令人满意。「他们进行实验,说他们的算法效果更好。但这究竟是什么意思?」 他问。「我们怎么知道?」

2019 年,Mitzenmacher 提出了学习布隆过滤器的正式定义,并分析了它的数学特性,提供了一个准确解释其工作原理的理论。虽然 Kraska 和他的团队证明了它在一个情况下是可行的,,但 Mitzenmacher 证明它总是可以工作。

b864cab4743b887e3fd6ef122cccc795.png

论文链接:https://arxiv.org/abs/1901.00902

Mitzenmacher 还改进了学习到的布隆过滤器。他展示了在流程中添加另一个标准布隆过滤器,这一次是在 RNN 之前,可以预先过滤负面情况,并使分类器的工作更容易。然后,他使用他开发的理论证明了这是一种改进。

早期的预测算法沿着这条循环轨道前进——创新的想法,比如学习过的布隆过滤器,激发了严谨的数学结果和理解,这反过来又带来了更多的新想法。在过去几年中,研究人员已经展示了如何将具有预测的算法整合到调度算法、芯片设计和 DNA 序列搜索中。

除了性能提升之外,该领域还推进了一种越来越受欢迎的计算机科学方法:通过为典型用途设计算法来提高算法的效率。

目前,计算机科学家经常设计他们的算法以在最困难的情况下取得成功——一个由试图击败他们的对手设计的算法。例如,想象一下试图检查一个网站关于计算机病毒的安全性。该网站可能是良性的,但它在 URL 和页面标题中包含「计算机病毒」。即使是复杂的算法也足以令人困惑。

Indyk 称这是一种偏执的方法。「在现实生活中,」他说,「输入通常不是由对手产生的。」例如,员工访问的大多数网站并不像我们假设的病毒页面那么棘手,因此算法更容易对其进行分类。通过忽略最坏的情况,研究人员可以设计适合他们可能遇到的情况的算法。例如,虽然数据库目前平等对待所有数据,但具有预测的算法可能会导致数据库根据其内容和用途来构建其数据存储。

而这还只是开始,因为使用机器学习来增强其算法的程序通常只会以有限的方式这样做。与学习的布隆过滤器一样,这些新结构中的大多数只包含一个机器学习元素。Kraska 设想一个完整的系统由几个独立的部分组成,每个部分都依赖于具有预测的算法,并且它们的交互由预测增强组件调节。

「利用这一点将影响许多不同的领域。」Kraska 说。

参考内容:https://www.quantamagazine.org/machine-learning-reimagines-the-building-blocks-of-computing-20220315/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

4bb7e77b65c8ccecb4291ef3b6d18f4f.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/482384.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

js实现模糊查询

1、使用indexOf 2、使用match 3、使用test 4、使用stringObject.split(),字符串分割方法&#xff0c;如果字符串可以被分割说明含有这个字符串 <html><head><title>test</title></head><body><input type"text" id"btn&…

丘成桐谈几何:从黎曼、爱因斯坦到弦论

来源 &#xff1a; 超级数学建模著名数学家丘成桐先生发表了题为“几何&#xff1a;从黎曼、爱因斯坦到弦论”的演讲&#xff0c;追溯了为广义相对论发展奠定基础的的黎曼几何&#xff0c;回顾了影响广义相对论发展的物理学突破&#xff0c;并谈及量子力学和引力理论相结合、引…

图卷积网络的五年

来源&#xff1a;ScienceAI作者&#xff1a;Mostafa Haghir Chehreghani编辑&#xff1a;萝卜皮图卷积网络&#xff08;Graph Convolutional Networks&#xff0c;GCN&#xff09;已成为使用图和网络进行学习的流行工具。我们应该反思一下成功故事背后的原因。论文链接&#xf…

【前沿技术】“中国天眼”观测到宇宙极端爆炸起源证据

来源&#xff1a;智能研究院据新华网报道&#xff0c;我国科研团队通过“中国天眼”FAST观察并计算出快速射电暴的起源证据&#xff0c;这一发现于18日刊登于国际权威学术期刊《科学》杂志。中国科学院国家天文台研究员、“中国天眼”首席科学家李菂介绍&#xff0c;快速射电暴…

红黑树存在的合理性

写在前面 主要描述为什么有了二叉查找树/平衡树还需要红黑树 1、二叉查找树的缺点 二叉查找树&#xff0c;相信大家都接触过&#xff0c;二叉查找树的特点就是左子树的节点值比父亲节点小&#xff0c;而右子树的节点值比父亲节点大&#xff0c;如图 基于二叉查找树的这种特点&a…

认清智能化战争的制胜根本

来源&#xff1a;中国军网作者&#xff1a;石海明、裴帅在战争领域&#xff0c;如果说有什么是亘古不变的真理&#xff0c;那就是“变化”。伴随着前沿智能科技的飞速发展&#xff0c;智能化时代扑面而来&#xff0c;智能化战争也初露端倪&#xff0c;冲击着人们对战争的原有认…

DeepMind的AI能指导人类的直觉吗?

来源&#xff1a;AI前线作者&#xff1a;Ben Dickson译者&#xff1a;Sambodhi策划&#xff1a;凌敏DeepMind 研究人员最近发表了一篇题为《通过用人工智能引导人类直觉来推进数学》&#xff08;Advancing mathematics by guiding human intuition with AI&#xff09;的论文&a…

NoSQL那些事--Redis

Redis是个流行的内存数据库(in-momery)。接口好用&#xff0c;性能也很强&#xff0c;还支持多种数据结构&#xff0c;加上各种高可用性集群方案&#xff0c;实在是太太太好用了。 但是就是因为太好用了&#xff0c;好用到让很多人都晕了脑子&#xff1a; 用Redis性能就大大提高…

柳昀哲课题组在Nature Reviews Neuroscience上发表长篇综述提出表征富集理论

来源&#xff1a;北师大脑与认知科学“读心解梦”一直以来是人们追求的梦想&#xff0c;从佛洛依德对于潜意识意义的追寻&#xff0c;到当今神经科学的神经信号解码&#xff0c;人们采用主观或客观的方式理解人类高级智能的脚步从未停止。早期人们理解人类意识的内涵&#xff0…

Excel生成Sql语句 格式如:=字符串1A2字符串2C2字符串3

我们有时候需要根据Excel生成sql语句&#xff0c;可以利用Excel的字符串拼接&。格式如&#xff1a;"字符串1"&A2&"字符串2"&C2&"字符串3" 例如&#xff1a;在一个Excel中&#xff0c;我们要在Data_Company表中&#xff0c;根…

诺奖10年,干细胞领域再突破!华大单细胞技术助力获得人类体外诱导全能干细胞...

来源&#xff1a;生物探索题图来源&#xff1a;The Baltimore Sun排版&#xff1a;文竞择近日&#xff0c;中国科学院和深圳华大生命科学研究院等多家机构的研究者&#xff0c;通过体细胞诱导培养出了类似受精卵发育3天状态的人类全能干细胞&#xff0c;这是目前全球在体外培养…

Django - 模板相关

一.MVC和MTV 1. MVC M: Model : 数据库, 存取数据 V: View: 视图, 信息的展示 C: Controller: 控制器, 逻辑的控制, 负责调度, 传递指令 2. MTV M: model: ORM操作 T: Template: 模板, HTML V: View: , 视图, 业务逻辑相关 二. 变量 {{变量名}} 由字母和下划线组成 (.) def te…

低代码公司黑帕云被字节跳动收购:潮水褪去,曾经爆火的低代码赛道迎来变局?...

来源&#xff1a;AI前线作者&#xff1a;凌敏曾经站在风口的低 / 无代码创业&#xff0c;如今风光不再&#xff1f;低代码公司黑帕云宣布停服&#xff0c;创始人入职飞书3 月 20 日&#xff0c;低 / 无代码创业公司黑帕云宣布&#xff0c;公司将于 2022 年 5 月 31 日停止服务&…

秒懂系列 | 史上最简单的Python Django入门教程

http://www.cnblogs.com/baiboy/p/django1.html 摘要&#xff1a;Django的学习教程也是分门别类&#xff0c;形式不一。或是较为体系的官方文档&#xff0c;或者风格自由的博客文档&#xff0c;或者偏向实例的解析文档。即使官方文档&#xff0c;章节较多&#xff0c;文字阐述累…

清华大学和MIT研究人员使用DeepMind的AlphaFold方法来增强COVID-19抗体

来源&#xff1a;ScienceAI编辑&#xff1a;绿萝利用 DeepMind 先进的蛋白质知识&#xff0c;清华大学的科学家们设计出能够抵抗 COVID-19 免疫逃逸的突变单克隆抗体。2020 年底&#xff0c;AlphaFold 2 的问世震惊了结构生物学界&#xff0c;AlphaFold 2 是谷歌人工智能部门 D…

【秒懂】号称最为简明实用的Django上手教程

https://www.cnblogs.com/baiboy/p/django1.html 阅读目录 1 几个基本概念 2 Django配置准备3 Django基础配置安装摘要&#xff1a;Django的学习教程也是分门别类&#xff0c;形式不一。或是较为体系的官方文档&#xff0c;或者风格自由的博客文档&#xff0c;或者偏向实例的解…

马斯克:今年占全球发射质量65%,星舰5月或首次轨道试飞

来源&#xff1a;澎湃新闻 作者&#xff1a;张静 马斯克透露&#xff0c;星舰有望5月开展首次轨道飞行测试&#xff0c;SpaceX计划今年的发射占全球发射质量的65%左右&#xff0c;“粗略计算是16吨*50次发射800吨。”3月22日&#xff0c;马斯克在社交媒体上表示&#xff0c;星舰…

spring boot 配置文件加密数据库用户名/密码

这篇文章为大家分享spring boot的配置文件properties文件里面使用经过加密的数据库用户名密码&#xff0c;因为在自己做过的项目中&#xff0c;有这样的需求&#xff0c;尤其是一些大公司&#xff0c;或者说上市公司&#xff0c;是不会把这些敏感信息直接透露给你&#xff0c;尤…

菲利普·安德森:凝聚态物理的艺术家

来源&#xff1a;集智俱乐部作者:Andrew Zangwill 译者:董唯元 审校:梁金 编辑:邓一雪 导语物理学家P.W.安德森&#xff08;Philip Anderson&#xff09;因无序和磁性材料方面的工作获得1977年诺贝尔物理学奖&#xff0c;但这并不足以彰显他的贡献。他推动多体理论与固体物理的…

清华刘知远:大模型「十问」,寻找新范式下的研究方向

来源&#xff1a;智源社区作者&#xff1a;刘知远整理&#xff1a;李梦佳大模型的出现迎来了AI研究的新时代&#xff0c;其所带来的结果提升十分显著&#xff0c;超越了很多领域中针对研究问题设计特定算法实现的提升。具体而言&#xff0c;预训练到Finetune的新范式最本质的特…