6 序列数据和文本的深度学习

6.1 使用文本数据

        文本是常用的序列化数据类型之一。文本数据可以看作是一个字符序列或词的序列。对大多数问题,我们都将文本看作词序列。深度学习序列模型(如RNN及其变体)能够从文本数据中学习重要的模式。这些模式可以解决类似以下领域中的问题:

  • 自然语言理解;
  • 文献分类;
  • 情感分类。

        这些序列模型还可以作为各种系统的重要构建块,例如问答(Question and Answering,OA)系统。
        虽然这些模型在构建这些应用时非常有用,但由于语言固有的复杂性,模型并不能真正理解人类的语言。这些序列模型能够成功地找到可执行不同任务的有用模式。将深度学习应用于文本是一个快速发展的领域,每月都会有许多新技术出现。我们将会介绍为大多数现代深度学习应用提供支持的基本组件。
        与其他机器学习模型一样,深度学习模型并不能理解文本,因此需要将文本转换为数值的表示形式。将文本转换为数值表示形式的过程称为向量化过程,可以用不同的方式来完成,概括如下:

  • 将文本转换为词并将每个词表示为向量;
  • 将文本转换为字符并将每个字符表示为向量;
  • 创建词的 n-gram 并将其表示为向量。

        文本数据可以分解成上述的这些表示。每个较小的文本单元称为token,将文本分解成 token 的过程称为分词(tokenization)。在Python 中有很多强大的库可以用来进行分词一旦将文本数据转换为 token序列,那么就需要将每个 token 映射到向量。one-hot(独热)编码和词向量是将 token 映射到向量最流行的两种方法。图6.1总结了将文本转换为向量表示的步骤。

        下面介绍分词、n-gram 表示法和向量化的更多细节。

6.1.1 分词

        将给定的一个句子分为字符或词的过程称为分词。诸如spaCy等一些库,它们为分词提供了复杂的解决方案。让我们使用简单的Python函数(如split和list)将文本转换为 token。
        为了演示分词如何作用于字符和词,让我们看一段关于电影Thor:Ragnarok 的小评论。我们将对这段文本进行分词处理:
        The action scenes were top notch in this movie. Thor has never been this epic in the MCUHe does some pretty epic sh*t in this movie and he is definitely not under-powered anymore.Thor in unleashed in this, I love that.

        1. 将文本转换为字符

        Python的list函数接受一个字符串并将其转换为单个字符的列表。这样做就将文本转换为了字符。下面是使用的代码和结果:

thor review="the action scenes were top notch in this movie.
Thor hasnever been this epic in the McU.
He does some pretty epic sh*t in thismovie and 
he is definitely not under-powered anymore.
Thor in unleashed inthis,I love that."
Print(list(thor_review))

        以下是结果:

        结果展示了简单的 Python 函数如何将文本转换为token。

        2. 将文本转换为词

        我们将使用 Python 字符串对象函数中的 split 函数将文本分解为词。split 函数接受一个参数,并根据该参数将文本拆分为 token。在我们的示例中将使用空格作为分隔符。以下代码段演示了如何使用 Python 的 split 函数将文本转换为词:

print(Thor_review.split())

        在前面的代码中,我们没有使用任何的分隔符,默认情况下,split 函数使用空格来分隔。

        3. n-gram表示法

        我们已经看到文本是如何表示为字符和词的。有时一起查看两个、三个或更多的单词非常有用。n-gram是从给定文本中提取的一组词。在n-gram中,n表示可以一起使用的词的数量。看一下bigram(当n=2时)的例子,我们使用 Python 的 nltk 包为 thor_review 生成一个 bigram ,以下代码块显示了 bigram 的结果以及用于生成它的代码:

from nltk import ngrams
print(list(ngrams(thor_review.split(),2)))

        ngrams 函数接受一个词序列作为第一个参数,并将组中词的个数作为第二个参数。以下代码块显示了 trigram 表示的结果以及用于实现它的代码:

print(list(ngrams(thor_review.split(),3)))

        在上述代码中唯一改变的只有函数的第二个参数n的值。
        许多有监督的机器学习模型,例如朴素贝叶斯(NaiveBayes),都是使用n-gram来改善它的特征空间。n-gram同样也可用于拼写校正和文本摘要的任务。
        n-gram 表示法的一个问题在于它失去了文本的顺序性。通常它是和浅层机器学习模型一起使用的。这种技术很少用于深度学习,因为 RNN 和 Conv1D 等架构会自动学习这些表示法。

6.1.2 向量化

        将生成的 token 映射到数字向量有两种流行的方法,称为独热编码和词向(wordembedding,也称之为词嵌入)。让我们通过编写一个简单的Python 程序来理解如何将 token 转换为这些向量表示。我们还将讨论每种方法的各种优缺点。

        1. 独热编码

        在独热编码中,每个 token 都由长度为N的向量表示,其中N是词表的大小。词表是文档中唯一词的总数。让我们用一个简单的句子来观察每个 token 是如何表示为独热编码的向量的。下面是句子及其相关的 token 表示:

         An apple a day keeps doctor away said the doctor.

       上面句子的独热编码可以用表格形式进行表示,如下所示。

        该表描述了 token 及其独热编码的表示。因为句子中有9个唯一的单词,所以这里的向量长度为9。许多机器学习库已经简化了创建独热编码变量的过程。我们将编写自己的代码来实现这个过程以便更易于理解,并且我们可以使用相同的实现来构建后续示例所需的其他功能。以下代码包含 Dictionary类,这个类包含了创建唯一词词表的功能,以及为特定词返回其独热编码向量的函数。让我们来看代码,然后详解每个功能:

class Dictionary(object):def _init_(self):self.word2idx={}self.idx2word =[]self.length=0def add_word(self, word):if word not in self.idx2word:self.idx2word.append(word)self.word2idx[word]=self.length + 1self.length +=1return self.word2idx[word]def _len_(self):return len(self.idx2word)def onehot_encoded(self,word):vec =np.zeros(self.length)vec[self.word2idx[word]] = 1return vec

        上述代码提供了3个功能。

  • 初始化函数_init_创建一个 word2idx 字典,它将所有唯一词与索引一起存储。idx2word 列表存储的是所有唯一词,而 length 变量则是文档中唯一词的总数。
  • 在词是唯一的前提下,add_word 函数接受一个单词,并将它添加到 word2idx 和 idx2word 中,同时增加词表的长度。
  • onehot_encoded函数接受一个词并返回一个长度为N,除当前词的索引外其余位置全为0的向量。比如传如的单词的索引是2,那么向量在索引2处的值是1,其他索引处的值全为0。

        在定义好了 Dictionary 类后,准备在 thor_review 数据上使用它。以下代码演示了如何构建 word2idx 以及如何调用 onehot_encoded 函数:

die = Dictionary()
for tok in thor_review.split():dic.add_word(tok)
print(dic.word2idx)

        上述代码的输出如下:

        单词were的独热编码如下所示:

        独热表示的问题之一就是数据太稀疏了,并且随着词表中唯一词数量的增加,向量的大小迅速增加,这也是它的一种限制,因此独热很少在深度学习中使用。

        2. 词向量

        词向量是在深度学习算法所解决的问题中,一种非常流行的用于表示文本数据的方式。词向量提供了一种用浮点数填充的词的密集表示。向量的维度根据词表的大小而变化。通常使用维度大小为50、100、256、300,有时为 1000 的词向量。这里的维度大小是在训练阶段需要使用的超参数。
        如果试图用独热表示法来表示大小为 20000 的词表,那么将得到 20000 x 20000 个数字,并且其中大部分都为0。同样的词表可以用词向量表示为 20000 x 维度大小,其中维度的大小可以是 10、50、300等。
        一种方法是为每个包含随机数字的 token 从密集向量开始创建词向量,然后训练诸如文档分类器或情感分类器的模型。表示 token 的浮点数以一种可以使语义上更接近的单词具有相似表示的方式进行调整。为了理解这一点,我们来看看图6.2,它画出了基于 5 部电影的二维点图的词向量。

        图6.2显示了如何调整密集向量,以使其在语义上相似的单词具有较小的距离。由于Superman、Thor 和 Batman 等电影都是基于漫画的动作电影,所以这些电影的向量更为接近,而电影 Titanic 的向量离动作电影较远,离电影Notebook 更近,因为它们都是浪漫型电影。
        在数据太少时学习词向量可能是行不通的,在这种情况下,可以使用由其他机器学习算法训练好的词向量。由另一个任务生成的向量称为预训练词向量。下面将学习如何构建自己的词向量以及使用预训练词向量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/35909.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JVM专题十一:JVM 中的收集器一

上一篇JVM专题十:JVM中的垃圾回收机制专题中,我们主要介绍了Java的垃圾机制,包括垃圾回收基本概念,重点介绍了垃圾回收机制中自动内存管理与垃圾收集算法。如果说收集算法是内存回收的方法论,那么垃圾收集器就是内存回…

【开发者推荐】告别繁琐:一键解锁国产ETL新贵,Kettle的终结者

在数字化转型的今天,数据集成的重要性不言而喻。ETL工具作为数据管理的核心,对企业决策和运营至关重要。尽管Kettle广受欢迎,但国产ETL工具 TASKCTL 以其创新特性和卓越性能,为市场提供了新的选择。 TASKCTL概述 TASKCTL 是一款免…

wget之Win11中安装及使用

wget之Win11中安装及使用 文章目录 wget之Win11中安装及使用1. 下载2. 安装3. 配置环境变量4. 查看及使用1. 查看版本2. 帮助命令3. 基本使用 1. 下载 下载地址:https://eternallybored.org/misc/wget 选择对应的版本进行下载即可 2. 安装 将下载后的wget-1.21.4-w…

算法导论 总结索引 | 第四部分 第十六章:贪心算法

1、求解最优化问题的算法 通常需要经过一系列的步骤,在每个步骤都面临多种选择。对于许多最优化问题,使用动态规划算法求最优解有些杀鸡用牛刀了,可以使用更简单、更高效的算法 贪心算法(greedy algorithm)就是这样的算…

Git 学习笔记(超详细注释,从0到1)

Git学习笔记 1.1 关键词 Fork、pull requests、pull、fetch、push、diff、merge、commit、add、checkout 1.2 原理(看图学习) 1.3 Fork别人仓库到自己仓库中 记住2个地址 1)上游地址(upstream地址):http…

【Qt】Qt多线程编程指南:提升应用性能与用户体验

文章目录 前言1. Qt 多线程概述2. QThread 常用 API3. 使用线程4. 多线的使用场景5. 线程安全问题5.1. 加锁5.2. QReadWriteLocker、QReadLocker、QWriteLocker 6. 条件变量 与 信号量6.1. 条件变量6.2 信号量 总结 前言 在现代软件开发中,多线程编程已成为一个不可…

C语言类型转换理解不同的基本类型为什么能够进行运算

类型转换 1.类型转换1.1隐式转换1.2常用算术转换1.2强制类型转换 1.类型转换 在执行算数运算时,计算机比C语言的限制更多。为了让计算机执行算术运算,通常要求操作数用相同的大小(即为的数量相同),但是C语言却允许混合…

Java基础:常用类(四)

Java基础:常用类(四) 文章目录 Java基础:常用类(四)1. String字符串类1.1 简介1.2 创建方式1.3 构造方法1.4 连接操作符1.5 常用方法 2. StringBuffer和StringBuilder类2.1 StringBuffer类2.1.1 简介2.1.2 …

智能电能表如何助力智慧农业

智能电能表作为智能电网数据采集的基本设备之一,不仅具备传统电能表基本用电量的计量功能,还具备双向多种费率计量功能、用户端控制功能、多种数据传输模式的双向数据通信功能以及防窃电功能等智能化的功能。这些功能使得智能电能表在农业领域的应用具有…

【渗透测试】小程序反编译

前言 在渗透测试时,除了常规的Web渗透,小程序也是我们需要重点关注的地方,微信小程序反编译后,可以借助微信小程序开发者工具进行调试,搜索敏感关键字,或许能够发现泄露的AccessKey等敏感信息及数据 工具…

【SkiaSharp绘图11】SKCanvas属性详解

文章目录 SKCanvas构造SKCanvas构造光栅 Surface构造GPU Surface构造PDF文档构造XPS文档构造SVG文档SKNoDrawCanvas 变换剪裁和状态构造函数相关属性DeviceClipBounds获取裁切边界(设备坐标系)ClipRect修改裁切区域IsClipEmpty当前裁切区域是否为空IsClipRect裁切区域是否为矩形…

JFreeChart 生成Word图表

文章目录 1 思路1.1 概述1.2 支持的图表类型1.3 特性 2 准备模板3 导入依赖4 图表生成工具类 ChartWithChineseExample步骤 1: 准备字体文件步骤 2: 注册字体到FontFactory步骤 3: 设置图表具体位置的字体柱状图:饼图:折线图:完整代码&#x…

国产车规MCU OTA方案总结

目录 1. 旗芯微FC4150 OTA 2. 云途YTM32B1MD OTA 3.小结 今天没有废话,啪一下很快,把目前接触到的国内带eFlash的车规MCU硬件OTA方案做一个梳理。 1. 旗芯微FC4150 OTA 旗芯微FC4150是基于ARM Cortex(快去审核下官网介绍,少了个T)-M4F内…

openGauss Developer Day 2024丨MogDB实现数据库技术跨越,Ustore引擎革新存储新境界

openGauss Developer Day 2024 6月21日,openGauss Developer Day 2024在北京昆泰嘉瑞文化中心成功召开。大会聚集学术专家、行业用户、合作伙伴和开发者,共同探讨数据库面向多场景的技术创新,分享基于 openGauss 的行业联合创新成果及实践案例…

探索PHP中的魔术常量

PHP中的魔术常量(Magic Constants)是一些特殊的预定义常量,它们在不同的上下文中具有不同的值。这些常量可以帮助开发者获取文件路径、行号、函数名等信息,从而方便调试和日志记录。本文将详细介绍PHP中的魔术常量,帮助…

web前端——javaScript

目录 一、javaScript概述 1.javaScript历史 2.JavaScript与html,css关系 二、基本语法 ①放在head中 ②放在 body中 ③写在外部的.js文件中 1.变量 2.数据类型 3.算术运算符 4.逻辑运算符 5.赋值运算 6.逻辑运算符 7.条件运算符 8.控制语句 三、函数 1…

Arduino - 按钮 - 长按短按

Arduino - Button - Long Press Short Press Arduino - 按钮 - 长按短按 Arduino - Button - Long Press Short Press We will learn: 我们将学习: How to detect the button’s short press 如何检测按钮的短按How to detect the button’s long press 如何检测…

重大进展!微信支付收款码全场景接入银联网络

据中国银联6月19日消息,近日,银联网络迎来微信支付收款码场景的全面接入,推动条码支付互联互通取得新进展,为境内外广大消费者提供更多支付选择、更好支付体验。 2024年6月,伴随微信支付经营收款码的开放,微…

Rust: duckdb和polars读csv文件比较

一、文件准备 样本内容,N行9列的csv标准格式,有字符串,有浮点数,有整型。 有两个csv文件,一个大约是2.1万行;一个是64万行。 二、toml文件 [package] name "my_duckdb" version "0.1.0&…

VSCode安装OpenImageDebugger

VSCode安装OpenImageDebugger 1. 官网2. 编译2.1 依赖项2.2 编译 OpenImageDebugger2.3 配置 GDB 和 LLDB 3. 验证安装是否成功 1. 官网 下载路径:OpenImageDebugger 2. 编译 2.1 依赖项 官网上描述, Qt 5.15.1Python 3.10.12 这两个其实配置并不需…