理论计算机科学家 Boaz Barak:深度学习并非“简单的统计”,二者距离已越来越远...

0096fa192085c5f31d977a52816259a9.jpeg

来源:AI科技评论

作者:Boaz Barak

编译:黄楠

编辑:陈彩娴

上世纪九十年代,斯坦福大学的知名生物信息学教授 Rob Tibshirani 曾拟了一个词汇表,将机器学习与统计学中的不同概念作了简单而粗暴的对应关系:

43630db74f2ae8eaa6853547296f823c.jpeg

一方面,这个表格为理解机器学习提供了基础的认识,但同时,其简单地将深度学习或机器学习中的概念归纳为统计学中的词义,也引起了大多数人对深度学习本质的认知偏差:即深度学习是“简单的统计”。

然而,在深入探讨中,这样的认知在一定程度上阻碍了研究者理解深度学习成功的本质原因。在今年六月的一篇文章“The uneasy relationship between deep learning and (classical) statistics”中,哈佛大学知名教授、理论计算机科学家 Boaz Barak 就将深度学习与统计学进行了对比区分,指出深度学习的根本构成因素就与统计学有诸多不同。

Boaz Barak 提出一个重要的观察:从模型的用途来看,如果是侧重预测与观察,那么具备黑匣子特性的深度学习模型可能是最好的选择;但如果是希望获取对事物的因果关系理解、提高可解释性,那么“简单”的模型可能表现更佳。这与马毅、曹颖、沈向洋三位科学家在上个月提出的构成智能两大原理之一的“简约性”见解不谋而合。

与此同时,Boaz Barak 通过展示拟合统计模型和学习数学这两个不同的场景案例,探讨其与深度学习的匹配性;他认为,虽然深度学习的数学和代码与拟合统计模型几乎相同,但在更深层次上,深度学习中的极大部分都可在“向学生传授技能”场景中被捕获。

统计学习在深度学习中扮演着重要的角色,这是毋庸置疑的。但可以肯定的是,统计角度无法为理解深度学习提供完整的画面,要理解深度学习的不同方面,仍需要人们从不同的角度出发来实现。

下面是 Boaz Barak 的论述:

1

模型拟合中的预测与解释

几千年来,科学家们一直在为观测结果拟合模型。比如在科学哲学书皮中所提到的,埃及天文学家托勒密提出了一个巧妙的行星运动模型。托勒密的模型是地心的(即行星围绕地球旋转),但有一系列“旋钮”(knobs,具体来说就是“本轮”),使其具有出色的预测准确性。相比之下,哥白尼最初的日心说模型则是假设行星围绕太阳的圆形轨道。它比托勒密的模型更简单(“可调节旋钮”更少)、且整体上更正确,但在预测观察方面却不太准确(哥白尼在后来也添加了他自己的本轮,从而与托勒密的表现可以相媲美。)

托勒密和哥白尼的模型是无与伦比的。当你需要一个“黑匣子”来进行预测时,那托勒密的地心模型更胜一筹。而如果你想要一个可以“窥视内部”的简单模型,并作为解释星星运动的理论起点,那哥白尼的模型就更好。

事实上,开普勒最终将哥白尼的模型改进为椭圆轨道,并提出了他的行星运动三定律,这使得牛顿能够使用地球上适用的相同引力定律来解释它们。为此,至关重要的是,日心模型并不仅是一个提供预测的“黑匣子”,而是由几乎没有“活动部件”的简单数学方程给出的。多年来,天文学一直是发展统计技术的灵感来源。高斯和勒让德(独立地)在 1800 年左右发明了最小二乘回归,用于预测小行星和其他天体的轨道;柯西在1847年发明的梯度下降,也是受到了天文预测的推动。

在物理学中,(至少有时)你可以“拥有一切”——找到能够实现最佳预测准确性和数据最佳解释的“正确”理论,这被诸如奥卡姆剃刀原理之类的观点所捕捉,假设简单性、预测能力和解释性洞察力都是相互一致的。然而在许多其他领域,解释(或一般情况下称,洞察力)和预测的双重目标之间存在张力。如果只是想预测观察结果,“黑匣子”可能是最好的选择。但如果你提取因果模型、一般原理或重要特征,那么一个容易理解和解释的简单模型可能会更好。

模型的正确选择取决于其用途。例如,考虑一个包含许多个体的基因表达和表型(比如某种疾病)的数据集,如果其目标是预测个人生病的几率,往往会希望为该任务使用最佳模型,不管它有多复杂或它依赖于多少基因。相比之下,如果你的目标是在湿实验室中识别一些基因来进一步研究,那么复杂的黑匣子的用途将是有限的,即使它非常准确。

2001年, Leo Breiman 在关于统计建模两种文化的著名文章“Statistical Modeling: The Two Cultures”中,就有力地阐述了这一点。“数据建模文化”侧重于解释数据的简单生成模型,而“算法建模文化 ”对数据是如何产生的并不了解,而是专注于寻找能够预测数据的模型。Breiman 认为,统计数据太受第一文化的支配,而这种关注“导致了不相关的理论和有问题的科学结论” 和“阻止统计学家研究令人兴奋的新问题。”

但是,Breiman 的论文充满争议。虽然 Brad Efron 对部分观点表示赞同,但“看第一遍,Leo Breiman 那篇令人振奋的论文看起来像是反对简约和科学洞察力,支持很多旋钮可操纵的黑盒子。而看第二遍,还是那个样子” 。但在近期一篇文章(“Prediction, Estimation, and Attribution”)中,Efron 大方承认“事实证明,Breiman 比我更有先见之明:纯粹的预测算法在 21 世纪占据了统计的风头,其发展方向与 Leo 此前提到的差不多。”

2

经典和现代预测模型

无论机器学习是否“深度”,它都属于 Breiman 所说的第二种文化,即专注于预测,这种文化已流传很长一段时间。例如 Duda 和 Hart 1973 年的教科书《Deconstructing Distributions: A Pointwise Framework of Learning》、以及Highleyman 1962 年《The Design and Analysis of Pattern Recognition Experiments》的论文片段,对于今天的深度学习从业者来说,其辨识度非常高:

02005ea4bcc87af4f6cb768a1e5e0dc7.jpeg

同样地,Highleyman 的手写字符数据集和被用来与数据集拟合的架构 Chow(准确率约为 58%)也引起了现代读者的共鸣。

1f9680188acb3253af34408e26dec4f7.jpeg

3

为什么深度学习不同?

1992 年,Stuart Geman、Elie Bienenstock 和 Rene Doursat 共同写了一篇题为“Neural Networks and the Bias/Varian Dilemma”的论文,其中谈到一些悲观的看法,例如,“当前的前馈神经网络,在很大程度上不足以解决机器感知和机器学习中的难题”;具体来说,他们认为通用神经网络无法成功解决困难的任务,神经网络成功的唯一途径是通过手工设计特征。用他们的话来说,即是:“重要的特征必须是内置的或‘硬连线的’(hard-wired)……而不是通过统计的方法来学习。”

事后看来,他们的观点完全错了。而且,现代神经网络的架构如 Transformer 甚至比当时的卷积网络更通用。但理解他们犯错的背后原因是很有趣的。

我认为,他们犯错的原因是深度学习确实与其他学习方法不同。一个先验的现象是:深度学习似乎只是多了一个预测模型,像最近的邻居或随机森林。它可能有更多的“旋钮”(knobs),但这似乎是数量上而不是质量上的差异。用 PW Andreson 的话来说,就是“more is different”(多的就是不同的)。

在物理学中,一旦规模发生了几个数量级的变化,我们往往只需要一个完全不同的理论就可以解释,深度学习也是如此。事实上,深度学习与经典模型(参数或非参数)的运行过程是完全不同的,即使从更高的角度看,方程(和 Python 代码)看起来相同。

为了解释这一点,我们来看两个非常不同例子的学习过程: 拟合统计模型,与教学生学习数学。

场景A:拟合统计模型

通常来说,将统计模型与数据进行拟合的步骤如下:

1、我们观察一些数据 x 与y。可将 x 视为一个 n x p 的矩阵,y 视为一个 n 维向量;数据来源于一个结构和噪声模型:每个坐标bba96bb921ee2588f37bce12e6144a52.png的得到形式是784ffabe900e179f13376b19e5eab909.png,其中1d3924d4e8921be55260abc157d0ca0b.png是对应的噪声,为简单起见使用了加性噪声,而e986f30b81a048429f7462f217ba6f8c.png是正确的真实标签。)

2、通过运行某种优化算法,我们可以将模型7c352ce2dadc016943af28bc14ec71ed.png拟合到数据中,使c70a243864e2d4e9b7faebc0d5d9675f.png的经验风险最小。也就是说,我们使用优化算法来找到e92e8edd07a05c4e1c323c93c9f8fadf.png的最小化数量fa597cbcedee972c248eb9757fdcce7c.png,其中ab6a6b78da7bcd42b56f9ef7a38fd11b.png是一个损失项(捕捉e57633e5fc32120dd4b8ddaa19924ba6.png距离 y 有多近),9baf4e2d9930fc05935904e0daa14722.png是一个可选的规范化项 (试图使得f578f6c1e3dab6abb08a58b4de8a78ed.png偏向更简单的模型)。

3、我们希望,我们的模型能具有良好的总体损失,因为泛化误差/损失11469abe96daae1a3bed21d7a8a4bae0.png很小(这种预测是基于实验数据所在的总体数据来获得的)。

54a0cdfaec6e0c01d0a18dc32efe2bfe.jpeg

图注:Bradley Efron经过对噪音的观察所复现的牛顿第一定律漫画

这种非常通用的范式包含了许多设置,包括最小二乘线性回归、最近邻、神经网络训练等等。在经典的统计设置中,我们期望观察到以下情况:

偏差/方差权衡:将 F 作为优化的模型集。(当我们处于非凸设置和/或有一个正则器项,我们可以让 F作为这种模型的集合,考虑到算法选择和正则器的影响,这些模型可以由算法以不可忽略的概率实现。)

F 的偏差是对正确标签的最佳近似,可以通过元素1ddbabe6590a420b8e32282ff0227d99.jpeg来实现。F 的类越大,偏差越小,当6f78cad6bf78e3fa96172ecf4a3d956e.jpeg,偏差甚至可以是零。然而,当 F 类越大, 则需要越多样本来缩小其成员范围,从而算法输出模型中的方差就越大。总体泛化误差是偏差项和方差贡献的总和。

因此,统计学习通常会显示偏差/方差权衡,并通过正确模型复杂性的“金发姑娘选择”来最小化整体误差。事实上,Geman 等人也是这么做的,通过说“偏差-方差困境导致的基本限制适用于包括神经网络在内的所有非参数推理模型”来证明他们对神经网络的悲观情绪是合理的。

更多并非总是最好的。在统计学习中,获得更多的特征或数据并不一定能提高性能。例如,从包含许多不相关特征的数据中学习更具挑战性。类似地,从混合模型中学习,其中数据来自两个分布之一(例如539d07f39a5bb44b40608c9525e55270.jpegc5aa11b9cd5ba30460871da104ea692c.jpeg),比独立学习单个更难。

收益递减。在许多情况下,将预测噪声降低到某个参数2ae57483c77c3b611599409c95d349e6.png,其所需的数据点数量在某些参数 k 下以48b5d24943afb559783523f12a04bb6e.jpeg的形式拓展。在这种情况下,需要大约 k 个样本来“起飞”,而一旦这样做,则会面临收益递减的制度,即假设花耗 n 个点来达到(比如)90%的准确度,那么想要将准确度提高到95%,则大约需要另外 3n 个点。一般来说,随着资源增加(无论是数据、模型的复杂性,还是计算),我们希望捕捉到更多更细的区别,而不是解锁新的质量上的能力。

对损失、数据的强烈依赖。在将模型拟合到高维数据时,一个很小的细节就有可能造成结果的很大不同。统计学家知道,诸如 L1 或 L2 正则化器之类的选择很重要,更不用说使用完全不同的数据集,不同数量的高维优化器将具有极大的差异性。

数据点没有自然的“难度”(至少在某些情况下)。传统上认为,数据点是独立于某个分布进行采样的。尽管靠近决策边界的点可能更难分类,但考虑到高维度的测量集中现象,可预计大多数点的距离将存在相似的情况。因此,至少在经典数据分布中,并不期望点在其难度水平上有很大差异。然而,混合模型可以显示这种差异的不同难度级别,所以与上述其他问题不同,这种差异在统计设置中不会非常令人惊讶。

场景B:学习数学

与上述相反,我们来谈谈教学生一些特定的数学题目(如计算导数),给予他们常规指导及要做的练习。这不是一个正式定义的设置,但可考虑它的一些定性特征:

336de232c07a948ec065839f326e351d.jpeg

图注:从IXL 网站学习特定数学技能的练习

学习一项技能,而不是近似分布。在这种情况下,学生是学习一种技能,而非某个数量的估计器/预测器。虽然定义“技能”不是一项微不足道的任务,但却是一个性质不同的目标。特别是,即使函数映射练习不能用作解决某些相关任务 X 的“黑匣子”,但我们相信,学生在解决这些问题时所形成的内部表征,仍是对 X 有用的。

越多越好。一般来说,学生练习更多问题和不同类型问题,会取得更好的成绩。但事实上,“混合模型”——做一些微积分问题和代数问题——不会影响学生在微积分上的表现,反而会帮助他们学习。

“探索”或解锁功能,转向自动表示。虽然在某些时候解决问题也会出现收益递减,但学生似乎确实经历了几个阶段,有的阶段做一些问题有助于概念“点击”并解锁新功能。另外,当学生们重复某一特定类型的问题时,他们似乎将自己的能力和对这些问题的表述转移至较低的水平,使他们能够对这些问题产生某些以前所没有的自动性。

性能部分独立于损失和数据。教授数学概念的方法不止一种,即使学生使用不同书籍、教育方法或评分系统学习,但最终仍可学习到相同的材料和相似的内部表示。

一些问题更难。在数学练习中,我们经常可以看到不同学生在解决同一个问题时所采取的方法存在很强的相关性。一个问题的难度似乎是固定的,解决难题的顺序也是固定的,这就使学习的过程能够优化。这事实上也是IXL等平台正在做的事情。

4

深度学习更像统计估计还是学生学习技巧?

那么,上述两个比喻中,哪个更恰当地描述了现代深度学习,特别是它如此成功的原因呢?统计模型拟合似乎更符合数学和代码。实际上,规范的 Pytorch 训练循环,就是通过如上所述的经验风险最小化来训练深度网络的:

e94d7aa7dfa83be802054804f47d55d4.jpeg

然而,在更深层次上,这两种设置之间的关系并不那么清楚。具体而言,可以通过修复一个特定的学习任务来展开,使用“自监督学习 + 线性探头(linear probe)”的方法训练分类算法,其算法训练如下:

1、假设数据是一个序列779d24703fc56f65bb879c0570cc5213.jpeg,其中1ba341dfe314bf45ada7de1ba301fa28.jpeg是某个数据点(例如具体的图像)、551a34096b9fc137ca04a4f0def3e974.jpeg是一个标签。

2、首先找到一个深度神经网络来表示函数eb38e80ed8418a2e78cc68be776f1209.jpeg,这个函数的训练只使用数据点3eca572d57982d348144b2310744b12f.jpeg而不使用标签,通过最小化某种类型的自监督损失函数。这种损失函数的例子是重建或画中画(从另一个输入 x 的某些部分恢复)或对比学习(找到93bc566a5f2f6833d6c0f8696d75d04d.png使ecebb7623ddf8eb94304d7bd72e45b3c.jpeg显著更小,当fb16d9847088ed38839bc2b85c2a86cb.jpeg是同一个数据点的增量时,并列关系比两个随机点的并列关系要小得多)。

3、然后我们使用完整的标记数据1e0c2a0d2de20d1334cea911e2c355b5.jpeg来拟合线性分类器0cd9f4f4184050d84f4e33a805454817.jpeg(其中 C 是类的数量),使交叉熵损失最小。最终的分类器得出了3c431874d18b5c5603d2733003bc42f2.jpeg的映射。

第 3 步仅适合线性分类器,因此“魔法”发生在第 2 步(深度网络的自监督学习)。在自监督学习中,可以看到的一些属性包括:

学习一项技能,而不是逼近一个函数。自监督学习不是逼近一个函数,而是学习可用于各种下游任务的表示。假设这是自然语言处理中的主导范式,那么下游任务是通过线性探测、微调还是提示获得,都是次要的。

越多越好。在自监督学习中,表征的质量随着数据量的增加而提高。而且,数据越多样越好。

dd76ba19640c6c25147838a8638f7e35.jpeg

图注:谷歌 PaLM 模型的数据集

解锁能力。随着资源(数据、计算、模型大小)的拓展,深度学习模型的不连续改进一次又一次地被看到,这在一些合成环境中也得到了证明。

1f6182502215d6f4565156acaa7d25e4.jpeg

图注:随着模型大小的增加,PaLM 模型在一些基准测试中显示出一些不连续的改进(上述图中只有三个大小的警告),并解锁了一些令人惊讶的功能,比如解释笑话。

性能在很大程度上与损失或数据无关。不止一种自监督损失,有几种对比性和重建性损失被用于图像。语言模型有时采用单面重建(预测下一个标记),有时则是使用掩蔽模型,其目标是预测来自左右标记的掩蔽输入。

也可以使用稍微不同的数据集,这可能会影响效率,但只要做出“合理”的选择,常规情况下,原始资源比使用的特定损失或数据集更能预测性能。

有些实例比其他实例更难。这一点不只限于自监督学习,数据点或存在一些固有的“难度级别”。

事实上,有几个实际证据表明,不同的学习算法有不同的“技能水平”,不同的点有不同的“难度水平”(分类器 f 对 x 进行正确分类的概率,随着 f 的技能单向递增,随 x 的难度单向递减)。“技能与难度”范式是对 Recht 和  Miller 等人所发现的“线上准确性”现象最清晰的解释,在我同 Kaplun、Ghosh、Garg 和 Nakkiran 的合著论文中,还展示了数据集中的不同输入如何具有固有的“难度特征”,常规情况下,该特征似乎对不同的模型来说是稳健的。

d0fa49c3b4052a00830d6bc70d69977f.jpeg

图注:Miller 等人的图表显示了在 CIFAR-10 上训练并在 CINIC-10 上测试的分类器的线现象准确性

5657c95010888b52162499bf8f183380.jpeg

图注:将数据集解构为来自 Kaplun 和 Ghosh 等人在论文“Deconstructing Distributions: A Pointwise Framework of Learning”中的不同“难度概况”点,以获得越来越多的资源分类器。顶部图表描述了最可能类的不同 softmax 概率,作为由训练时间索引的某个类别分类器的全局精度的函数;底部饼图展示了将不同数据集分解为不同类型的点。值得注意的是,这种分解对于不同的神经架构是相似的。

训练即教学。现代对大模型的训练似乎更像是在教学生,而不是让模型适应数据,在学生不理解或看起来疲劳(训练偏离)时采取“休息”或尝试其他方式。Meta 大模型的训练日志很有启发性——除了硬件问题外,还可以看到一些干预措施,例如在训练过程中切换不同的优化算法,甚至考虑“热交换”激活函数(GELU 到 RELU)。如果将模型训练视为拟合数据而不是学习表示,则后者没有多大意义。

7e6adfa2983cdb116c760271ccbb8d9d.jpeg

4a6de802faaf031ff68deffc2debfc86.jpeg

图注:Meta 的训练日志节选

下面探讨两种情况:

情况1:监督学习

到目前为止,我们只讨论了自监督学习,但深度学习的典型例子仍然是监督学习,毕竟深度学习的 “ImageNet时刻”是来自ImageNet。那么,我们上面所探讨的内容是否适用于监督学习呢?

首先,有监督的大规模深度学习的出现,在某种程度上是一个历史性的意外,这得益于大型高质量标记数据集(即 ImageNet)的可用性。可以想象另一种历史:深度学习首先通过无监督学习在自然语言处理方面取得突破性进展,然后才转移到视觉和监督学习中。

其次,有一些证据表明,即使监督学习与自监督学习使用完全不同的损失函数,它们在“幕后”的行为也相似。两者通常都能达到相同的性能。在“Revisiting Model Stitching to Compare Neural Representations”这篇论文中也发现,它们学习了相似的内部表示。具体来说,对于每一个7a123b3d6cd627cb34f2f5595f1bf5f8.jpeg,都可以将通过自监督训练的深度 d 模型的首 k 层数与监督模型的最后 d-k 层数“缝合”起来,并且使性能几乎保持原有水平。

45063c349f5ae21031ac977b3bb7e0b0.jpeg

图注:来自 Hinton 团队论文“Big Self-Supervised Models are Strong Semi-Supervised Learners”的表格。请注意监督学习、微调 (100%) 自监督和自监督 + 线性探测在性能上的普遍相似性

cccf25ebe37d48955382c89534dcf4de.jpeg

图注:摘自论文“Revisiting Model Stitching to Compare Neural Representations”的自监督与监督模型。左图——如果自监督模型的准确度比监督模型低3%,那么,完全兼容的表示将造成 p·3% 的拼接惩罚(p层来自自监督模型时)。如果模型完全不兼容,那么随着更多模型的缝合,预计准确度会急剧下降。右图——拼接不同自监督模型的实际结果。

自监督 + 简单模型的优势在于,它们可以将特征学习或“深度学习魔法”(深度表示函数的结果)与统计模型拟合(由线性或其他“简单”分类器完成,分离出来在此表示之上)。

最后,虽然是推测,但“元学习”似乎通常等同于学习表示这一事实(详情看论文“Rapid Learning or Feature Reuse? Towards Understanding the Effectiveness of MAML”),可以视为另一个支持本文观点的证据,不管模型表面上优化的目标是什么。

情况2:过度参数化

读者可能已经注意到,我跳过了统计学习模型与深度学习模型在实际应用中存在差异的典型例子,即缺少“偏差-方差权衡”以及过度参数化模型出色的泛化能力。

我不详细讲这些例子的原因有两个:

一是如果监督学习确实等于自监督 + 简单的“底层”学习,那么就可以解释它的泛化能力(详情请看论文“For self-supervised learning, Rationality implies generalization, provably”);

二是我认为过度参数化并不是深度学习成功的关键。深度网络之所以特别,并不是因为它们与样本数量相比很大,而是因为它们的绝对值很大。实际上,无监督/自监督学习模型中通常没有过度参数化。即使是大规模的语言模型,它们也只是数据集更大,但这也并没有减少它们性能的神秘性。

cc17bead467c608eefe1a8c280d441d0.jpeg

图注:在“The Deep Bootstrap Framework: Good Online Learners are Good Offline Generalizers”这篇论文中,研究者的发现表明,如今的深度学习架构在“过度参数化”与“欠采样”状态下表现相似(其中,模型在有限数据上训练多代,直到过度拟合:也就是上图所示的“真实世界”),在“参数化不足”与“在线”情况下也如此(其中,模型只训练一代,每个样本只看到一次:也就是上图中的“理想世界”)

5

总结

毫无疑问,统计学习在深度学习中扮演着重要的角色。但是,如果仅仅将深度学习视为一个比经典模型拟合更多旋钮(knobs)的模型,则会忽略其成功背后的许多因素。所谓的“人类学生”隐喻更是不恰当表述。

深度学习与生物进化相似,虽然对同一规则(即经验损失的梯度下降)有许多重复的应用,但会产生高度复杂的结果。在不同的时间内,神经网络的不同组成部分似乎会学习不同的内容,包括表示学习、预测拟合、隐式正则化和纯噪声等。目前我们仍在寻找正确的视角来提出有关深度学习的问题,更别说回答这些问题了。

任重道远,与君共勉。

原文链接:

https://windowsontheory.org/2022/06/20/the-uneasy-relationship-between-deep-learning-and-classical-statistics/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

f81a173a884630de54396c8ab82374f0.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481750.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于并行附加特征提取网络的SSD地面小目标检测模型

人工智能技术与咨询 来源:《电子学报》 ,作者李宝奇等 摘 要: 针对SSD原始附加特征提取网络(Original Additional Feature Extraction Network,OAFEN)中stride操作造成图像小目标信息丢失和串联结构产生的多尺度特征之间冗余度较大的问题&a…

细胞分裂时染色体出现了什么令人惊讶的物理性质?Nature这篇新研究详细讲解...

来源:生物通来自奥地利科学院分子生物技术研究所Gerlich小组的研究人员发现了一种分子机制,该机制在人类细胞分裂时赋予染色体特殊的物理特性,使它们能够精确忠实地传递给后代。研究结果发表在《自然》杂志上。细胞分裂早期有丝分裂染色体(紫…

人人皆可免费造芯?谷歌开源芯片计划已释放90nm、130nm和180nm工艺设计套件

来源:AI前线整理:钰莹这是世界首个开源 PDK,目前已经提供 130nm、90nm 以及 180nm 的工艺设计套件,这些数字听起来没有 3nm 那么让人兴奋,但在物联网的众多硬件设计中被广泛应用。谷歌联手 GlobalFoundries&#xff0c…

面向关系数据库的智能索引调优方法

面向关系数据库的智能索引调优方法 人工智能技术与咨询 来源:《软件学报》 ,作者邱 涛等 摘 要:数据库索引是关系数据库系统实现快速查询的有效方式之一.智能索引调优技术可以有效地对数据库实例进行索引调节,从而保持数据库高效的查询性能.现有的方法…

中国电信张东:数据治理与城市感知网的建设与运营

2022年7月16日,中国指挥与控制学会(CICC)城市大脑专业委会在北京正式成立。在成立大会上也举办了城市大脑前沿学术研讨会,新当选的专委会顾问、主任委员、副主任委员发表了最新研究成果和观点,对城市大脑的未来发展进行…

【前沿技术】270多起车祸,特斯拉Autopilot和自动驾驶被诉虚假宣传

来源:智能研究院「虚假的自动驾驶」(fake self driving),一名网友这样评论道。在自动驾驶领域,特斯拉依靠其 Autopilot 成为业界追赶的标杆。但有时,特斯拉在产品和功能宣传时并不是那么地实事求是。近日&a…

面向区块链的高效物化视图维护和可信查询

面向区块链的高效物化视图维护和可信查询 人工智能技术与咨询 来源:《软件学报》 ,作者蔡 磊等 摘 要:区块链具有去中心化、不可篡改和可追溯等特性,可应用于金融、物流等诸多行业.由于所有交易数据按照交易时间顺序存储在各个区块,相同类型的交易数据…

合力远洋候国军:Web3.0的机遇与挑战

2022年8月6日, 中国指挥与控制学会CICC)“百名专家、百场讲座”第九讲邀请到合力远洋候国军做了主题为Web3.0的机遇与挑战“”的学术讲座。本次讲座也是CICC城市大脑专委会组织的第二期城市大脑系列学术报告。在报告中,候国军师深入解析了什么是Web3.0以…

时间约束的实体解析中记录对排序研究

时间约束的实体解析中记录对排序研究 人工智能技术与咨询 来源:《软件学报》 ,作者孙琛琛等 摘 要:实体解析是数据集成和数据清洗的重要组成部分,也是大数据分析与挖掘的必要预处理步骤.传统的批处理式实体解析的整体运行时间较长,无法满足当前(近似)…

中国自动驾驶政策全球领跑,两城率先开展全无人商业运营

来源:环球时报日前重庆、武汉两地政府部门率先发布自动驾驶全无人商业化试点政策,并向百度发放全国首批无人化示范运营资格,允许车内无安全员的自动驾驶车辆在社会道路上开展商业化服务。此次政策落地,标志着重庆、武汉两地居民将…

基于时空相关属性模型的公交到站时间预测算法

基于时空相关属性模型的公交到站时间预测算法 人工智能技术与咨询 来源:《软件学报》 ,作者赖永炫等 摘 要:公交车辆到站时间的预测是公交调度辅助决策系统的重要依据,可帮助调度员及时发现晚点车辆,并做出合理的调度决策.然而,公交到站时间受交通拥堵…

眼见不一定为实,你的大脑是怎么被骗的?

来源:中科院物理所作者:Meisa Salaita翻译:Nuor审校:zhenni编辑:藏痴原文链接:How Optical Illusions Work1870年,卢迪玛赫尔曼(Ludimar Hermann)首次发现了赫尔曼栅格错…

基于迁移深度学习的雷达信号分选识别

基于迁移深度学习的雷达信号分选识别 人工智能技术与咨询 来源:《软件学报》 ,作者王功明等 摘要: 针对当前雷达信号分选识别算法普遍存在的低信噪比下识别能力差、特征参数提取困难、分类器模型参数复杂等问题,提出了一种基于时频分析、深…

量子计算机即将问世。这对网络安全意味着什么?

来源:IEEE电气电子工程师主流量子计算可能还有几十年的时间,但其破解加密的能力意味着研究人员现在正在研究如何提高量子时代的安全性。现代计算机从根本上改变了人们的日常生活,且每天都在变得更加强大。你现在正在用来阅读这篇文章的智能手…

Demis Hassabis:AI 的强大,超乎我们的想象

有人认为 AI 已经穷途末路,但一些绝顶聪明的人还在继续求索。来源:AI科技评论整理:黄楠、王玥编辑:陈彩娴近日,DeepMind 的创始人 Demis Hassabis 作客 Lex Fridman 的播客节目,谈了许多有趣的观点。在访谈…

某型无人机群的监视覆盖任务航路规划

某型无人机群的监视覆盖任务航路规划 人工智能技术与咨询 来源:《计算机科学与应用》 ,作者冷雄晖等 关键词: 无人机群;监视覆盖航路规划;遗传算法;人工势场法;UAV Group; Surveillance Cove…

马库斯发文炮轰LeCun:只靠深度学习无法实现类人智能

来源:新智元编辑:Joey 桃子【新智元导读】继提出「深度学习撞墙」后,马库斯再发长文称,仅靠深度学习并不能实现类人智能。今年3月,Gary Marcus(加里马库斯)提出「深度学习撞墙」这个观点后&…

基于改进遗传算法的无人机搜索路径规划的研究

基于改进遗传算法的无人机搜索路径规划的研究 人工智能技术与咨询 作者刘江阳等 关键词: 遗传算法;无人机搜索;路径规划;Genetic Algorithms;UAV Search;Route Planning 摘要: 本文针对无人机搜索目标时移动速度的大…

一种改进的高光谱图像CEM目标检测算法

一种改进的高光谱图像CEM目标检测算法 人工智能技术与咨询 来源:《 应用物理》 ,作者付铜铜等 关键词: 高光谱图像;光谱重排;CEM算法;目标检测; 摘要: 约束能量最小化(Constrained Energy Minimizatio…

从生命起源到流行病:复杂系统中的多尺度涌现现象

来源:集智俱乐部 撰文:Oriol Artime, Manlio De Domenico翻译:梁栋栋、梁金涌现是复杂系统的基本特征,从微观到宏观的各个尺度,涌现现象普遍存在。然而,涌现是什么,目前仍没有公认的严格定义。2…