向量将死,哈希是 AI 未来

7e0e1095d8bcfafdc59872214c6e2b63.png

来源:AI科技评论

作者:Hamish Ogilvy

编译:冉启行

校对:青暮

人工智能是建立在向量算法的基础上的,但最新的进展表明,对于某些 AI 应用程序而言,它们可以使用其他二进制来表示(例如神经哈希),以提供更小的内存占用和更快的反馈速度。

事实上,人工智能的许多领域都可以从向量变为基于哈希的结构,带来飞跃的提升。本文将简要介绍哈希背后的应用逻辑,以及它为什么可能会成为 AI 的未来。

1

哈希

哈希函数(Hash function):一个哈希函数H(x)可用于将任意大小的数据 x 映射成固定大小(通常选256bit)的值。返回值(映射后的值)又称为哈希值(hash values)、摘要(digests)或哈希(simply hashes)。

e82236e609b87f644a24be7d2c319462.png

哈希在数据的准确性识别、数据存储大小、性能、检索速度等方面具有突出的优势。更重要的是,它们本质上是概率性的,因此多个输入项可以共享相同的哈希值。

在向量表示中,浮点数往往是首选的数据表示形式,尽管它们在本质上比哈希更绝对,但它们却并不精确。

2

浮点数

要了解 AI,首先需要了解计算机是如何表示非整数数字的。

对于微小的数值变化(关于向量计算),二进制表示也可以有很大的不同,这些数值变化对模型预测几乎没有影响。

例如:取 0.65 vs 0.66 在 float64(64 位浮点)二进制中可以分别用这两个二进制数表示:

  • 11111111100100110011001100110011001100110011001100110011001101

  • 11111111100101000111101011100001010001111010111000010100011111

从这里可以非常清楚看到,虽然从 0.65 到 0.66 仅仅只有 1% 的大小变化,但是转化为二进制后,在 64 位数字中就有 25 位是不同的,差别巨大。

对于神经元来说,这听起来像是一件愚蠢的事情,人类的大脑肯定不会这样工作,它们显然不会使用浮点二进制表示来存储数字,除非有人可以记住圆周率小数点后六万多位。

事实上,我们的大脑神经网络是非常形象的,在处理复杂的小数和分数方面非常擅长。但是,当我们算到一半或四分之一时,就会立即想象出一些东西,比如半杯水、四分之一杯水或者披萨等其他东西,可能根本没有想到尾数和指数。

一个常用的提高浮点运算速度和使用更少空间的方法是将分辨率降低到 float16(16位),甚至是float8 (8位),它们的计算速度非常快,但缺点是,它会造成分辨率的明显下降。

由于浮点数运算很慢,所以它真的没有一点优势吗?

答案是否定的。芯片硬件和它们的指令集被设计来提高效率,并使更多的计算并行处理,而 GPU 和 TPU 现在正在被广泛使用,因为它们处理基于浮点的矢量算法更快。

3

神经哈希

事实证明,二进制的计算速度比基于浮点数的算术快得多。那么,如果可以在局域敏感的二进制哈希空间中表示 0.65 和 0.66,这能使模型在推理方面更快吗?

研究表明,有一系列哈希算法的确可以做到这一点,它被称为局部敏感哈希(LSH)。原始项越接近,其哈希中的位也越接近相同。

336092cdec6c0b286334512c372384e3.png

不过,这个概念并不是什么新鲜事,只是最新的技术发现了更多的优势。从历史上来看,LSH 使用了诸如随机投影、量化等技术,但它们的缺点是需要较大的哈希空间来保持精度,因此其优点在某种程度上被抵消了。

对于单个浮点数来说这是微不足道的,但是具有高维数(多个浮点数)的向量呢?

因此,神经哈希的新技巧是用神经网络创建的哈希替换现有的 LSH 技术,以此得到的哈希值可以使用非常快速的 Hammin 距离计算来估计它们的相似度。

这听起来虽然很复杂,但实际上并不太难。总体来看,神经网络就是优化了一个哈希函数,具体表现如下:

  • 与原始向量相比,几乎完美地保留了所有的信息;

  • 生成比原始向量尺寸小得多的哈希;

  • 计算速度明显更快;

也就是说,以一种较小的二进制表示,它不仅可用于非常快速的逻辑计算,并且信息分辨率也是几乎不变的,是一个两全其美的解决方案。

一般研究用于密集信息检索近似最近邻 (ANN)时,往往可以使用向量表示来搜索信息,这样可以帮助用户找到概念上相似的一些东西。但是,哈希中的局部敏感性却拥有更加强大的优势。

4

密集信息检索

互联网时代,数据库是不可计数的,但搜索索引却寥寥无几,而且大多数索引都是基于相同的老技术,这主要是因为历史上语言是一个基于规则的问题。

标记、同义词、词干提取、词形还原等问题占据了许多天才的整个职业生涯,但仍未完全解决。

谷歌创始人拉里佩奇(Larry Page)曾说过,在我们的有生之年,“搜索”并不能得到解决。

fe5857bc52b1aa356f882dea6eb0e949.png

想想看,这一代如此绝顶聪明的人,投资数十亿美元为何还得不到解决?

很明显,搜索技术落后于数据库主要是由于语言问题,我们在过去几年中看到了语言处理方面的革命,而且还在加速。并且从技术角度来看,我们还将看到基于神经的哈希消除搜索和数据库技术的障碍。

参考来源:

https://medium.com/@hamishogilvy/vectors-are-over-hashes-are-the-future-of-ai-98c4dc33d8ee

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

f252a71c86f2cc48d34ffdba3a45fbbb.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/483666.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【操作系统复习】操作系统的特征

同个人网站 https://www.serendipper-x.cn/,欢迎访问 ! 文章目录一、并发二、共享三、虚拟四、异步一、并发 并发 :指两个或多个事件在同一时间间隔内发生。这些事件宏观上是同时发生的,但微观上是交替发生的。 并行&#xff1a…

评分效果

引用的图片 效果展示 代码 <!DOCTYPE html> <html lang"en"><head><meta charset"utf-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0, maximum-scale1.0, user-scalable0" />&…

为啥辣椒会辣得人嘴巴疼?这个问题竟然和今年诺奖有关

2021年诺贝尔生理学或医学奖得主&#xff1a;戴维朱利叶斯&#xff08;David Julius&#xff09;和阿尔代姆帕塔普蒂安&#xff08;Ardem Patapoutian&#xff09;来源&#xff1a;科研圈2021 年 10 月 4 日北京时间 17 时 30 分许&#xff0c;美国生理学家戴维朱利叶斯&#x…

瞭望|事关未来10~15年工业操作系统主导权之争,工业互联网下一步怎么走?...

来源&#xff1a;工信头条刊于《瞭望》2021年第39期文&#xff1a;李玉玲 王菲工业互联网事关未来10&#xff5e;15年工业操作系统主导权之争&#xff0c;事关我国制造业竞争优势的巩固与强化。近年来&#xff0c;我国工业互联网建设加速推进&#xff0c;产业规模不断扩大。专…

Node.js对MongoDB进行增删改查操作

MongoDB简介 MongoDB是一个开源的、文档型的NoSQL数据库程序。MongoDB将数据存储在类似JSON的文档中&#xff0c;操作起来更灵活方便。NoSQL数据库中的文档(documents)对应于SQL数据库中的一行。将一组文档组合在一起称为集合(collections)&#xff0c;它大致相当于关系数据库中…

【操作系统复习】操作系统的发展与分类

同个人网站 https://www.serendipper-x.cn/&#xff0c;欢迎访问 &#xff01; 操作系统的发展与分类一、手工操作阶段二、批处理阶段 —— 单道批处理系统三、批处理阶段 —— 多道批处理系统四、分时操作系统五、实时操作系统六、其他操作系统一、手工操作阶段 过程&#xf…

诺奖得主本庶佑:CNS这些顶刊观点有九成不正确,不要盲从迷信,搞科研做到六个C更重要...

来源&#xff1a;科研大匠整理翻译&#xff1a;思庐哲学诺奖可说是国人心中一直的痛。目前&#xff0c;在诺贝尔奖获奖国家中&#xff0c;美国堪称当之无愧的领头羊。截止发文&#xff0c;美国人已经获得了384枚诺贝尔奖&#xff01;因此&#xff0c;近代以来&#xff0c;我们一…

常见面试题

python题 1.类方法&#xff08;classmethod&#xff09;&#xff1a;1.在python中.类方法 classmethod 是一个函数修饰符&#xff0c;它表示接下来的是一个类方法&#xff0c;而对于平常我们见到的则叫做实例方法。 类方法的第一个参数cls&#xff0c;而实例方法的第一个参数是…

详解2021诺贝尔物理学奖:他们破译了地球气候及其他复杂系统的隐秘规律

来源&#xff1a;环球科学封面图来源&#xff1a;cjdrexel, CC PDM 1.010 月 5 日北京时间 17 时 45 分许&#xff0c;2021 年诺贝尔物理学奖被授予“对我们理解复杂系统的开创性贡献”&#xff0c;一半授予真锅淑郎&#xff08;Syukuro Manabe&#xff09;和克劳斯哈塞尔曼&am…

shark恒破解笔记3-EAX决定胜负

PEID查壳 od载入 输入假的注册码 查找出错字符串 往上查找是否有关键跳转和关键call 可以看到此处有个je跳转 实现了跳转&#xff0c;并且跳过了我们注册成功的地址 网上查找这个跳转的关键call&#xff0c;这个call很有可能就是判断一系列注册码是否正确然后返回一个代表是否注…

中国智能建造关键领域技术发展的战略思考!

来源&#xff1a;我国智能建造关键领域技术发展的战略思考[J].中国工程科学,2021,23(4):64-70.作者&#xff1a;陈珂&#xff0c;丁烈云 中国工程院丁烈云院士科研团队在中国工程院院刊《中国工程科学》2021年第4期撰文&#xff0c;阐述了智能建造的基本概念与重要性&#xff0…

Java常用的一些容器

转自&#xff1a;https://www.cnblogs.com/LipeiNet/p/5888513.html 前言&#xff1a;在java开发中我们肯定会大量的使用集合&#xff0c;在这里我将总结常见的集合类&#xff0c;每个集合类的优点和缺点&#xff0c;以便我们能更好的使用集合。下面我用一幅图来表示 其中淡绿色…

图灵奖得主杨立昆:AI+时代,未来将会如何被改变

来源&#xff1a;杨立昆《科学之路&#xff1a;人&#xff0c;机器与未来》编辑&#xff1a;蒲蒲人工智能&#xff08;AI&#xff09;近年来的发展可以说包罗万象&#xff0c;几乎涵盖了所有与机器智能化相关的内容。无论是机器人、冰箱、汽车还是软件应用&#xff0c;只要你想…

基于IMAGE法的房间回响模型创建、C++代码实现、matlab仿真

基于IMAGE法的房间回响模型创建、C代码实现、matlab仿真1.模型简介 \qquad在处理声音信号时&#xff0c;我们要对信号先进行采集。那么我们就必须要有&#xff0c;一个发出声音的声源&#xff0c;一个进行声音采集的传感器。并且这两者一般都位于房间之中&#xff0c;处于房间内…

花落有机化学!诺贝尔化学奖不再是“理综奖”

来源&#xff1a;学术头条北京时间 2021 年 10 月 6 日下午 5 点 50 分&#xff0c;2021 年诺贝尔化学奖重磅公布&#xff0c;德国马普煤炭研究所所长 Benjamin List、普林斯顿大学化学教授 David W.C. MacMillan 获奖&#xff0c;以表彰他们对“不对称有机催化做出的贡献”。关…

牛客 16499 解方程 (数学、Python)

同个人网站 https://www.serendipper-x.cn/&#xff0c;欢迎访问 &#xff01; 链接&#xff1a;https://ac.nowcoder.com/acm/problem/16499 来源&#xff1a;牛客网 时间限制&#xff1a;C/C 1秒&#xff0c;其他语言2秒 空间限制&#xff1a;C/C 131072K&#xff0c;其他语…

美军认知技术发展态势

来源&#xff1a;人机与认知实验室摘要&#xff1a;美军正在大力发展人工智能中的认知技术&#xff0c;认知技术的进步将极大的促进人机融合智能的发展。首先&#xff0c;综述了美军认知技术的发展历史&#xff0c;从自然语言处理、环境感知、机器人自主控制、自主编组协调、人…

正则表达式写验证器

package com.office.utility;import java.util.regex.Pattern;/*** 校验器&#xff1a;利用正则表达式校验用户名、密码、邮箱、手机号等* author liujiduo*/ public class Validator {/*** 正则表达式&#xff1a;验证用户名*/public static final String REGEX_USERNAME &qu…

【操作系统复习】中断和异常

同个人网站 https://www.serendipper-x.cn/&#xff0c;欢迎访问 &#xff01; 中断和异常一、中断机制的诞生二、中断的概念和作用三、中断的分类四、外中断的处理过程一、中断机制的诞生 &#x1f481; 早期的计算机&#xff1a;各程序只能串行执行&#xff0c;系统资源利用…

东南亚的招聘骗局,程序员请注意!

阅读本文大概需要 5.2 分钟。 总有些我认为是常识的事情&#xff0c;在别人看来都是第一次接触。很多骗局都是如此&#xff0c;圈内人不上当&#xff0c;圈外人不警惕。毕竟骗子吃的就是信息不对称的生意。关于东南亚的招聘骗局&#xff0c;便是如此。 他们当前主力针对的是程序…