05.C1W4.Machine Translation and Document Search

往期文章请点这里

目录

  • Overview
    • What you’ll be able to do!
    • Learning Objectives
  • Transforming word vectors
    • Overview of Translation
    • Transforming vectors
  • Align word vectors
    • Solving for R
    • Frobenius norm
    • Frobenius norm squared
    • Gradient
  • K nearest neighbors
    • Finding the translation
    • Nearest neighbours
  • Hash tables and hash functions
    • Hash tables
    • Hash function
    • Create a basic hash table
    • Hash function v2
  • Locality sensitive hashing
    • Planes
    • Which side of the plane?
    • Visualizing a dot product
  • Multiple Planes
  • Approximate nearest neighbors
    • Random Planes
    • Multiple sets of random planes
  • Searching documents

往期文章请点 这里

Overview

What you’ll be able to do!

machine translation,例如,英文→法文
document search,例如,根据给定句子:“Can I get a refund?”
搜索文档类似内容:
“What’s your return policy?”
“May I get my money back?”

Learning Objectives

“Transform vector”:转换向量
“K nearest neighbor”:K 最近邻
“Hash tables”:哈希表
“Divide vector space into regions”:将向量空间划分为区域
“Locality sensitive hashing”:局部敏感哈希
“Approximated nearest neighbors”:近似最近邻

Transforming word vectors

Overview of Translation

这里以英语翻译法语为例。
在这里插入图片描述
最笨的方法就是做一个英文与法文对应的列表。
如果要使用计算机来进行翻译,
先要将英文和法文的词向量表示给出来:
在这里插入图片描述
然后检索要翻译单词的词向量,如cat
在这里插入图片描述
将英文单词词向量转化为法文单词空间词向量:
在这里插入图片描述
在法语词向量空间中找到与转化结果最接近(相似)的词向量,最相似的单词就是翻译的候选单词,例如找到chat,就是法语中的cat
在这里插入图片描述
这里涉及到的Transform是用Matrix来完成的。

Transforming vectors

R = np. array([[2,0],[0,2]])
x = np. array([[1,1]])
np.dot(x,R)

最后结果:array([[2,2]]),从图像上看是这样的:
在这里插入图片描述
既然有向量 R R R使得英文词向量能转化为法文词向量,那我们来看看如何找到它。

Align word vectors

我们可以先随机初始化 R R R,然后查看转化的效果与实际法语词向量的差异。
首先要做的是对齐词向量,就是从词库中选择部分词(subsets of the full vocabulary),构造如下两个对齐向量:
在这里插入图片描述

每一行都是对应英法语的对应。

Solving for R

initialize R
in a loop:
L o s s = ∣ ∣ X R − Y ∣ ∣ F Loss=||XR-Y||_F Loss=∣∣XRYF
g = d d R L o s s g r a d i e n t g=\cfrac{d}{dR}Loss\quad gradient g=dRdLossgradient
R = R − α g u p d a t e R=R-\alpha g\quad update R=Rαgupdate
以上步骤中,损失函数求的是预测值 X R XR XR与实际值 Y Y Y之间的差异,我们希望差异越小越好,使用GD进行求解。
损失函数的下标F代表Frobenius范数,求法看下面

Frobenius norm

Frobenius范数是一种在矩阵理论中常用的范数,它定义为矩阵元素平方和的平方根。具体来说,对于一个 m × n m×n m×n的矩阵 A A A,其Frobenius范数表示为:
∥ A ∥ F = ∑ i = 1 m ∑ j = 1 n ∣ a i j ∣ 2 \| A \|_F = \sqrt{\sum_{i=1}^{m}\sum_{j=1}^{n} |a_{ij}|^2} AF=i=1mj=1naij2
robenius范数有时也被称为希尔伯特-施密特范数(Hilbert-Schmidt norm)
例子,假设我们只有2个单词,则矩阵有2行,词向量是2维的,则矩阵有2列, X R − Y XR-Y XRY的结果也是一个矩阵,记为 A A A,矩阵 X 、 R 、 Y X、R、Y XRY A A A都是2乘2的矩阵,假设:
A = ( 2 2 2 2 ) A=\begin{pmatrix} 2 &2 \\ 2 & 2 \end{pmatrix} A=(2222)
∥ A ∥ F = 2 2 + 2 2 + 2 2 + 2 2 = 4 \| A \|_F =\sqrt{2^2+2^2+2^2+2^2}=4 AF=22+22+22+22 =4

A = np.array([[2,2],[2,2]])
A_squared = np.square(A)
A_squared

结果:array([[4,4],[4,4]])

A_Frobenious= np.sqrt(np.sum(A_squared))
A_Frobenious

结果:4

Frobenius norm squared

∣ ∣ X R − Y ∣ ∣ F 2 ||XR-Y||_F^2 ∣∣XRYF2
加上平方会让计算更加方便,去掉根号:
A = ( 2 2 2 2 ) A=\begin{pmatrix} 2 &2 \\ 2 & 2 \end{pmatrix} A=(2222)
∥ A ∥ F 2 = ( 2 2 + 2 2 + 2 2 + 2 2 ) 2 = 16 \| A \|_F^2 =(\sqrt{2^2+2^2+2^2+2^2})^2=16 AF2=(22+22+22+22 )2=16

Gradient

加上平方后,新的损失函数变成:
L o s s = ∣ ∣ X R − Y ∣ ∣ F 2 Loss=||XR-Y||_F^2 Loss=∣∣XRYF2
通过GD计算最小化Loss,变成求偏导操作:
g = d d R L o s s = 2 m ( X T ( X R − Y ) ) g=\cfrac{d}{dR}Loss=\cfrac{2}{m}(X^T(XR-Y)) g=dRdLoss=m2(XT(XRY))

K nearest neighbors

Finding the translation

在翻译英法语言过程中,我们通过R矩阵进行变换,得到的结果不一定与法语词向量空间中的单词完全对应:
在这里插入图片描述
这个时候需要我们找到最相近的词向量:
在这里插入图片描述

Nearest neighbours

先来看一个找朋友的例子,假设你住在三藩市,要找到最近的朋友:
在这里插入图片描述
Bangalore是印度的班加罗尔。
当你的朋友很多的时候,找到最邻近的朋友可能是一个非常耗时的过程。
可以考虑缩写查找范围,例如上例中我们可以将查找范围缩小到美国所在的北美洲过滤掉无关人员。
对于最邻近算法,可以设定一个搜索范围,有效提高算法效率。接下来我们将学习使用哈希表来组织数据集子集。

Hash tables and hash functions

Hash tables

假设有多个数据项,我们想通过某种相似性将它们分组到桶中
在这里插入图片描述
规则:
一个桶可有多个数据项
一个数据项属于某个桶
结果:
在这里插入图片描述

Hash function

其实这块在数据结构中有学过。
对于词向量而言,我们先从一维词向量来看,也就是单个数字,例如:
100 , 14 , 17 , 10 , 97 100,14,17,10,97 100,14,17,10,97
这里我们定义哈希函数来得到哈希值,并用哈希值来决定向量放入哪个桶中。
在这里插入图片描述
假设我们有10个桶,并将哈希函数定义为:
在这里插入图片描述
那么存放结果为:
在这里插入图片描述

Create a basic hash table

将以上内容编程实现:定义一个名为 basic_hash_table 的函数,用于创建一个基本的哈希表。这个哈希表使用一个列表来存储值,并使用一个简单的哈希函数来确定每个值应该存储在哈希表的哪个位置(即“桶”)。

def basic_hash_table(value_l, n_buckets):# 定义哈希函数,使用整数除法的余数来确定桶的位置def hash_function(value, n_buckets):return int(value) % n_buckets# 创建一个哈希表,其中包含n_buckets个空列表作为桶hash_table = {i: [] for i in range(n_buckets)}# 遍历输入值列表value_lfor value in value_l:# 对每个值使用哈希函数计算其哈希值hash_value = hash_function(value, n_buckets)# 将值添加到对应的桶中hash_table[hash_value].append(value)# 返回填充好的哈希表return hash_table# 使用示例:
# values = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
# num_buckets = 3
# hash_table = basic_hash_table(values, num_buckets)
# print(hash_table)

注意:这段代码中的哈希函数非常简单,它只是取输入值的整数形式然后对桶的数量进行取模操作。这可能导致不同的输入值映射到同一个桶中,这种现象称为哈希冲突。在实际应用中,可能需要更复杂的哈希函数和冲突解决策略来提高哈希表的性能。

Hash function v2

排列
之前的哈希函数并没有使得相近的数字在一个桶中,这样并不满足我们的计算邻近算法的要求,我们希望哈希表结果如下(Locality sensitive hashing):
在这里插入图片描述

Locality sensitive hashing

我们使用点来表示向量,并假设我们希望找到一种方法来使得蓝色、灰色向量是强相关的:
在这里插入图片描述
这里使用虚线来进行划分,但这些线称为Plane
在这里插入图片描述
可以看到,蓝色点在蓝色虚线的一侧,灰色点在灰色虚线的一侧。
在这里插入图片描述
也就是说这个划分方式是Locality sensitive的。

Planes

在这里插入图片描述
虽然在二维平面上,这里是一条紫色虚线,但是它实际上代表了所有可能位于该平面上的向量。例如下图中的橙色和蓝色向量
在这里插入图片描述
而紫色那个垂直于平面的,是法向量。
从三维空间上看,两个绿色向量组成一个平面,铅笔是法向量:
在这里插入图片描述

Which side of the plane?

在二维平面中如何判断向量和平面的位置呢?假设有三个示例向量和一个法向量P
在这里插入图片描述
分别求三个示例向量和法向量P的点积:
P V 1 T = 3 P V 2 T = 0 P V 3 T = − 3 PV_1^T=3\\ PV_2^T=0\\ PV_3^T=-3 PV1T=3PV2T=0PV3T=3
总结来说,这三个示例向量与法向量 P 的点积结果表明它们与 P 之间的角度关系分别是锐角、直角和钝角。
第二示例向量是在平面内,而其他两个分别在平面上和下面。

def side_of_plane (P,v):dotproduct = np. dot (P,v.T)sign_of_dot_product = np.sign(dotproduct)sign_of_dot_product_scalar = np.asscalar(sign_of_dot_product)return sign_of_dot_product_scalar

Visualizing a dot product

查看 V 1 V_1 V1到向量P的投影,实际上是求 ∣ ∣ P V 1 T ∣ ∣ ||PV_1^T|| ∣∣PV1T∣∣
在这里插入图片描述
如果对另外一个向量进行投影,则会得到负值,这里的notation和前面不一样,要注意。
在这里插入图片描述
也就是说正负符号代表了向量相对法向量的位置,也决定了向量在平面的哪一侧。

Multiple Planes

由于正负号决定了向量所处平面的位置,因此可以用多个平面来确定某个哈希值。
在这里插入图片描述
从上图可知,通过每个区域的不同信号,可以确定当前向量所处的位置。划分这些区域的过程就是哈希函数,通过哈希函数可以确定哈希值。
例如对于三个平面,某向量对它们的相对位置可以用以下方式计算,注意框框颜色与平面颜色对应:
在这里插入图片描述
该向量的hash值为:
h a s h = 2 0 × h 1 + 2 1 × h 2 + 2 2 × h 3 = 1 × 1 + 2 × 1 + 4 × 0 = 3 hash=2^0\times h_1+2^1\times h_2+2^2\times h_3=1\times1+2\times1+4\times0=3 hash=20×h1+21×h2+22×h3=1×1+2×1+4×0=3
通用的判定写法为:
s i g n i ≥ 0 , → h i = 1 s i g n i < 0 , → h i = 0 sign_i\ge 0,\rightarrow h_i=1\\ sign_i< 0,\rightarrow h_i=0 signi0,hi=1signi<0,hi=0
最终hash值公式:
h a s h = ∑ i H 2 i × h i hash = \sum_i^H2^i\times h_i hash=iH2i×hi
代码:

def hash_multiple_plane (P_l,v)hash_value = 0for i, P in enumerate (P_l):sign = side_of_plane(P,v)hash_i = 1 if sign >= 0 else 0hash_value+=2**i*hash_ireturn hash_value 

Approximate nearest neighbors

Random Planes

在近似最近邻(Approximate Nearest Neighbors,简称ANN)的搜索算法中,“Random Planes” 通常指的是一种基于随机划分空间的方法,用于加速搜索过程。这种方法在一些ANN算法中被用来减少搜索空间,例如在局部敏感哈希(Locality-Sensitive Hashing,LSH)算法中。

在Random Planes方法中,随机平面的组数取决于具体的算法实现和参数设置。在某些实现中,可能只使用一组随机平面来划分空间,而在其他更复杂的实现中,可能会使用多组随机平面。使用多组随机平面可以提高搜索的准确性,因为它们可以从不同的角度对空间进行划分,从而增加找到真正最近邻的可能性。
在这里插入图片描述
可将不同组的Random Planes看做是不同的平行宇宙。

Multiple sets of random planes

假设我们将英法翻译得到词向量用紫色表示,然后使用了三组不同的随机平面进行划分,得到最紫色向量最邻近的结果也有三组,分别用三种颜色表示。
在这里插入图片描述
可以看到,不同组的平面划分得到结果也不一样,这种划分方法在紫色向量找朋友的时候没有与所有的其他向量进行比较,只比较了子集,因此只能称为:Approximate nearest (friendly) neighbors算法
假设词向量有2个维度,要生成三个随机平面:

num_dimensions = 2 #300 in assignment
num_planes = 3 #10 in assignment
random_planes_matrix = np. random.normal(size=(num_planes,num_dimensions))

结果:
array([[ 1.76405235 0.40015721]
[ 0.97873798 2.2408932 ]
[ 1.86755799 0.97727788]])
然后判断向量处于平面集合的哪个位置:

v = np. array([[ 2,2]])

然后判断向量位置:

def side_of_plane_matrix (P, v):dotproduct = np. dot (P, v.T)sign_of_dot_product=np.sign(dotproduct)
num_planes_matrix = side_of_plane_matrix(random_planes_matrix,v)

结果
array([[1.]
[1.]
[1.])

Searching documents

对应文档有以下句子:
I love learning!
其对应的文档向量表示可以从各个单词的sum得来
在这里插入图片描述

word_embedding = {"I": np.array([1,0,1]),
"love": np.array([-1,0,1]),
"learning": np.array([1,0,1]),words_in_document = ['I', 'love', 'learning']
document_embedding= np. array ([0 0 0])
for word ind words_in_document:document_embedding+=
print(document_embedding)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/43730.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Sentinel-1 Level 1数据处理的详细算法定义(二)

《Sentinel-1 Level 1数据处理的详细算法定义》文档定义和描述了Sentinel-1实现的Level 1处理算法和方程&#xff0c;以便生成Level 1产品。这些算法适用于Sentinel-1的Stripmap、Interferometric Wide-swath (IW)、Extra-wide-swath (EW)和Wave模式。 今天介绍的内容如下&…

解决打印PDF文本不清楚的处理办法

之前打印PDF格式的电子书&#xff0c;不清晰&#xff0c;影响看书的心情&#xff0c;有时看到打印的书的质量&#xff0c;根本不想看&#xff0c;今天在打印一本页数不多&#xff0c;但PDF格式的书感觉也不太清楚&#xff0c;我想应该有办法解决&#xff0c;我使用的是解决福昕…

2017年,我成为了技术博主

2017年9月&#xff0c;我已经大三了。 >>上一篇&#xff08;爪哇&#xff0c;我初窥门径&#xff09; 我大二学了很多java技术&#xff0c;看似我一会就把javaweb/ssh/ssm这些技术栈给学了。 这些技术确实不难&#xff0c;即便是我&#xff0c;我都能学会&#xff0c;…

可以添加todo清单桌面小组件的便签哪个好?

在我们快节奏的生活中&#xff0c;有效的时间管理和任务追踪是必不可少的。为了实现这一目标&#xff0c;许多人选择使用桌面便签&#xff0c;尤其是那些具有Todo清单桌面小组件的便签。但是&#xff0c;面对市场上众多选择&#xff0c;可以添加todo清单桌面小组件的便签哪个好…

14 Portainer轻量级图形化监控

目录 Portainer&#xff1a;Docker轻量级可视化工具 1. 安装与访问 2. 使用 3. Portainer配置 nginx Portainer&#xff1a;Docker轻量级可视化工具 Portainer是一款轻量级的应用&#xff0c;它提供了图形化界面&#xff0c;用于方便地管理Docker环境&#xff0c;包括单机…

db期末复习自用[应试向 附习题]

第一章 数据库系统实现整体数据的结构化&#xff0c;主要特征之一&#xff0c;是db区别于文件系统的本质区别。 数据库系统三个阶段&#xff1a;人工、文件、数据库系统。 数据库管理系统的功能&#xff1a;数据库定义、操纵 、&#xff08;保护、存储、维护&#xff09;、数…

Jmeter在信息头中设置Bearer与 token 的拼接值

思路&#xff1a;先获取token&#xff0c;将token设置成全局变量&#xff0c;再与Bearer拼接。 第一步&#xff1a;使用提取器将token值提取出来&#xff0c;使用setProperty函数将提取的token值设置成全局变量&#xff0c;在登录请求后面添加BeanShell取样器 或者 BeanShell后…

数据结构作业/2024/7/9

2>实现双向循环链表的创建、判空、尾插、遍历、尾删、销毁 fun.c #include "head.h" //1.双向循环链表的创建 doubleloop_ptr create_list() …

STM32实战篇:按键控制LED

按键控制LED 功能要求 有两个按键&#xff0c;分别控制两个LED灯。当按键按下后&#xff0c;灯的亮暗状态改变。实物如下图所示&#xff1a; 由图可知&#xff0c;按键一端直接接地&#xff0c;故另一端所对应IO引脚的输入模式应该为上拉输入模式。 实现代码 #include "…

PHP验证日本免费电话号码格式

首先&#xff0c;您需要了解免费电话号码的格式。 日本免费电话也就那么几个号段&#xff1a;0120、0990、0180、0570、0800等开头的&#xff0c;0800稍微特殊点&#xff0c;在手机号里面有080 开头&#xff0c;但是后面不一样了。 关于免费电话号码的划分&#xff0c;全部写…

【前端从入门到精通:第十二课: JS运算符及分支结构】

JavaScript运算符 算数运算符 关于自增自减运算 自增或者自减运算就是在本身的基础上进行1或者-1的操作 自增或者自减运算符可以在变量前也可以在变量后&#xff0c;但是意义不同 自增自减运算符如果在变量前&#xff0c;是先进行自增或者自减运算&#xff0c;在将变量给别人用…

idea集成本地tomcat

由于网课老师使用的是eclipse,但是……本人用的是idea,所以不得不去找教程。 解决方案1&#xff1a; https://blog.csdn.net/weixin_54048131/article/details/131359793 这个地方&#xff0c;路径一定要到这个tomcat 否则不识别&#xff1a; 这里的JRE也要配置一下 新问题&…

ESP32的I2S引脚及支持的音频标准使用说明

ESP32 I2S 接口 ESP32 有 2 个标准 I2S 接口。这 2 个接口可以以主机或从机模式&#xff0c;在全双工或半双工模式下工作&#xff0c;并且可被配置为 8/16/32/48/64-bit 的输入输出通道&#xff0c;支持频率从 10 kHz 到 40 MHz 的 BCK 时钟。当 1 个或 2 个 被配置为主机模式…

数据结构 实验 3

题目一&#xff1a;最短路径dijkstra算法 一、实验目的 熟练图的邻接矩阵和邻接表表示法掌握图的最短路径Dijkstra算法的基本思想用C语言实现Dijkstra算法 二、实验内容 从键盘输入的数据创建图&#xff08;图的存储结构采用邻接矩阵&#xff09;&#xff0c;设计Dijkstra算…

鸿蒙语言基础类库:【@ohos.util.Deque (线性容器Deque)】

线性容器Deque 说明&#xff1a; 本模块首批接口从API version 8开始支持。后续版本的新增接口&#xff0c;采用上角标单独标记接口的起始版本。 Deque&#xff08;double ended queue&#xff09;根据循环队列的数据结构实现&#xff0c;符合先进先出以及先进后出的特点&…

Redis 实现高并发库存扣减方案

背景 公司的电商系统下单 操作库存是一个频繁操作&#xff0c;需要高效地扣减库存&#xff0c;把对销售库存的操作抽出来独立设计一个库存中心系统。 功能包括库存的批量添加、获取、下单、支付、回退等的操作。 解决的业务痛点 需要高效不超卖 方案 一、使用msql乐观锁 …

PostgreSQL 如何解决数据迁移过程中的数据类型不匹配问题?

文章目录 一、了解常见的数据类型不匹配情况1. 整数类型差异2. 浮点数类型差异3. 字符类型差异4. 日期和时间类型差异 二、解决数据类型不匹配的一般策略1. 数据转换2. 调整数据库表结构3. 数据清洗和预处理 三、PostgreSQL 中的数据类型转换函数1. 数值类型转换2. 字符类型转换…

解决虚拟机文件因快照占用硬盘空间较多的情况(压缩虚拟机文件,节省硬盘空间)

在使用虚拟机(Wmware)中&#xff0c;我们经常会在需要的时候拍摄虚拟机快照&#xff0c;尤其是虚拟机运行时的快照&#xff0c;动辄几个G&#xff0c;容易占满硬盘空间&#xff0c;那么有什么方法能够压缩虚拟机文件呢 下面是压缩后的存放虚拟机的文件夹 可以看到节约了大约2…

去除Win32 Tab Control控件每个选项卡上的深色对话框背景

一般情况下&#xff0c;我们是用不带边框的对话框来充当Tab Control的每个选项卡的内容的。 例如&#xff0c;主对话框IDD_TABBOX上有一个Tab Control&#xff0c;上面有两个选项卡&#xff0c;第一个选项卡用的是IDD_DIALOG1充当内容&#xff0c;第二个用的则是IDD_DIALOG2。I…

搜维尔科技:OptiTrack在NAB2024展示了一系列业界领先的媒体技术

广泛的显示和动作捕捉跟踪技术组合涵盖无与伦比的室内和室外 LED 解决方案、前沿技术演示以及最新的软件和硬件产品 可视化技术领域的全球领导者 Planar及其附属公司 3D 跟踪系统的全球领导者OptiTrack宣布&#xff0c;两家公司将在 2024 年全国广播协会 (NAB) 展会上展示其最全…