人工智能自然语言处理:N-gram和TF-IDF模型详解

在这里插入图片描述

人工智能自然语言处理:N-gram和TF-IDF模型详解

1.N-gram 模型

N-Gram 是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为 N 的滑动窗口操作,形成了长度是 N 的字节片段序列。

每一个字节片段称为 gram,对所有 gram 的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键 gram 列表,也就是这个文本的向量特征空间,列表中的每一种 gram 就是一个特征向量维度。

该模型基于这样一种假设,第 N 个词的出现只与前面 N-1 个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计 N 个词同时出现的次数得到。常用的是二元的 Bi-Gram 和三元的 Tri-Gram。

当 n=1 时,一个一元模型为:

P ( w 1 ​ , w 2 ​ , ⋯ , w m ​ ) = ∏ i = 1 m ​ P ( w i ​ ) P(w1​,w2​,⋯,wm​)=∏i=1m​P(wi​) P(w1​,w2​,,wm)=i=1mP(wi)

当 n=2 时,一个二元模型为:

P ( w 1 ​ , w 2 ​ , ⋯ , w m ​ ) = ∏ i = 1 m ​ P ( w i ​ ∣ w i − 1 ​ ) P(w1​,w2​,⋯,wm​)=∏i=1m​P(wi​∣wi−1​) P(w1​,w2​,,wm)=i=1mP(wiwi1​)

当 n=3 时,一个三元模型为:

P ( w 1 ​ , w 2 ​ , ⋯ , w m ​ ) = ∏ i = 1 m ​ P ( w i ​ ∣ w i − 2 ​ , w i − 1 ​ ) P(w1​,w2​,⋯,wm​)=∏i=1m​P(wi​∣wi−2​,wi−1​) P(w1​,w2​,,wm)=i=1mP(wiwi2​,wi1​)

一个 n-gram 是 n 个词的序列:
一个 2-gram(bigram 或二元)是两个词的序列,例如 “I love”;
一个 3-gram(trigram 或三元)是三个词的序列,例如 “I love you”。
需要注意的是,通常 n-gram 即表示词序列,也表示预测这个词序列概率的模型。假设给定一个词序列(w1,w2,···,wm),根据概率的链式法则,可得公式 (1.1):

P ( w 1 ​ , w 2 ​ , ⋯ , w m ​ ) = P ( w 1 ​ ) ∗ P ( w 2 ​ ∣ w 1 ​ ) ⋯ P ( w m ​ ∣ w 1 ​ , ⋯ , w m − 1 ​ ) = ∏ i = 1 m ​ P ( w i ​ ∣ w i − 2 ​ , w i − 1 ​ ) P(w1​,w2​,⋯,wm​)=P(w1​)∗P(w2​∣w1​)⋯P(wm​∣w1​,⋯,wm−1​)=∏i=1m​P(wi​∣wi−2​,wi−1​) P(w1​,w2​,,wm)=P(w1​)P(w2​w1​)P(wmw1​,,wm1​)=i=1mP(wiwi2​,wi1​)

公式(1.1)右边的 P(wi | w1,w2,···,wi-1)表示某个词 wi 在已知句子 w1,w2,···,wi-1 后面一个词出现的概率

1.1 马尔科夫假设

在实践中,如果文本的长度较长时,公式(1.1)右边的 P ( w i ∣ w 1 , w 2 , ⋅ ⋅ ⋅ , w i − 1 P(wi | w1,w2,···,wi-1 Pwiw1w2⋅⋅⋅wi1的估算会非常困难,因此需要引入马尔科夫假设。

马尔科夫假设是指,每个词出现的概率只跟它前面的少数几个词有关。比如,二阶马尔科夫假设只考虑前面两个词,相应的语言模型是三元(trigram)模型。应用了这个假设表明当前这个词仅仅跟前面几个有限的词有关,因此也就不必追溯到最开始的那个词,这样便可以大幅缩减上述算式的长度。
基于马尔科夫假设,可得公式 (1.2):

P ( w i ​ ∣ w 1 ​ , ⋯ , w i − 1 ​ ) ≈ P ( w i ​ ∣ w i − n + 1 ​ , ⋯ , w i − 1 ​ ) P(wi​∣w1​,⋯,wi−1​)≈P(wi​∣wi−n+1​,⋯,wi−1​) P(wiw1​,,wi1​)P(wiwin+1​,,wi1​)

当 n = 1 时称为一元模型(unigram model),公式(1.2)右边会演变成 P(wi),此时,整个句子的概率为:

P ( w 1 ​ , w 2 ​ , ⋯ , w m ​ ) = P ( w 1 ​ ) ∗ P ( w 2 ​ ) ⋯ P ( w m ​ ) = ∏ i = 1 m ​ P ( w i ​ ) P(w1​,w2​,⋯,wm​)=P(w1​)∗P(w2​)⋯P(wm​)=∏i=1m​P(wi​) P(w1​,w2​,,wm)=P(w1​)P(w2​)P(wm)=i=1mP(wi)

当 n = 2 时称为二元模型(bigram model),公式(1.2)右边会演变成 P(wi | wi-1),此时,整个句子的概率为:

P ( w 1 ​ , w 2 ​ , ⋯ , w m ​ ) = P ( w 1 ​ ) ∗ P ( w 2 ​ ∣ w 1 ​ ) ⋯ P ( w m ​ ∣ w m − 1 ​ ) = ∏ i = 1 m ​ P ( w i ​ ∣ w i − 1 ​ ) P(w1​,w2​,⋯,wm​)=P(w1​)∗P(w2​∣w1​)⋯P(wm​∣wm−1​)=∏i=1m​P(wi​∣wi−1​) P(w1​,w2​,,wm)=P(w1​)P(w2​w1​)P(wmwm1​)=i=1mP(wiwi1​)

当 n = 3 时称为三元模型(trigram model),公式(1.2)右边会演变成 P(wi| wi-2,wi-1),此时,整个句子的概率为:

P ( w 1 ​ , w 2 ​ , ⋯ , w m ​ ) = P ( w 1 ​ ) ∗ P ( w 2 ​ ∣ w 1 ​ ) ⋯ P ( w m ​ ∣ w m − 2 ​ , ⋯ , w m − 1 ​ ) = ∏ i = 1 m ​ P ( w i ​ ∣ w i − 2 ​ , w i − 1 ​ ) P(w1​,w2​,⋯,wm​)=P(w1​)∗P(w2​∣w1​)⋯P(wm​∣wm−2​,⋯,wm−1​)=∏i=1m​P(wi​∣wi−2​,wi−1​) P(w1​,w2​,,wm)=P(w1​)P(w2​w1​)P(wmwm2​,,wm1​)=i=1mP(wiwi2​,wi1​)

估计 n-gram 模型概率采用极大似然估计(maximum likelihood estimation,MLE)。即通过从语料库中获取计数,并将计数归一化到(0,1),从而得到 n-gram 模型参数的极大似然估计。即:

其中 c o u n t ( W i − n + 1 , ⋅ ⋅ ⋅ , W i ) count(Wi-n+1,···,Wi) countWin+1⋅⋅⋅Wi表示文本序列 ( W i − n + 1 , ⋅ ⋅ ⋅ , W i ) (Wi-n+1,···,Wi) Win+1⋅⋅⋅Wi,在语料库中出现的次数。

1.2 N-gram 模型优缺点

总结下基于统计的 n-gram 语言模型的优缺点:

  • 优点:

    1. 采用极大似然估计,参数易训练;
    2. 完全包含了前 n-1 个词的全部信息;
    3. 可解释性强,直观易理解;
  • 缺点:

    1. 缺乏长期依赖,只能建模到前 n-1 个词;
    2. 随着 n 的增大,参数空间呈指数增长;
    3. 数据稀疏,难免会出现 OOV 词(out of vocabulary)的问题;
    4. 单纯的基于统计频次,泛化能力差

2.TF-IDF

TF-IDF(term frequency-inverse document frequency,词频 - 逆向文件频率) 是一种用于信息检索 (information retrieval)) 与文本挖掘 (text mining) 的常用加权技术。它是一种统计方法,用以评估一个字或词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

在信息检索 (Information Retrieval)、文本挖掘(Text Mining) 以及自然语言处理 (Natural Language Processing) 领域,TF-IDF 算法都可以说是鼎鼎有名。虽然在这些领域中,目前也出现了不少以深度学习为基础的新的文本表达和算分 (Weighting) 方法,但是 TF-IDF 作为一个最基础的方法,依然在很多应用中发挥着不可替代的作用。

TF-IDF 的主要思想是:如果某个单词在一篇文章中出现的频率 TF 高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。

  • TF(全称 TermFrequency),中文含义词频,即关键词出现在网页当中的频次。

  • IDF(全称 InverseDocumentFrequency),中文含义逆文档频率,即该关键词出现在所有文档里面的一种数据集合。

  • TF-IDF 的计算过程为:

    1. 第一步,计算词频。
      词频(TF)= 文章的总词数某个词在文章中的出现次数​
      或者
      词频(TF)= 该文出现次数最多的词出现的次数某个词在文章中的出现次数​

    2. 第二步,计算逆文档频率。
      逆文档频率(IDF)=log(包含该词的文档数 +1 语料库的文档总数​)
      如果一个词越常见,那么分母就越大,逆文档频率就越小越接近 0。分母之所以要加 1,是为了避免分母为 0(即所有文档都不包含该词)。log 表示对得到的值取对数。

    3. 第三步,计算 TF-IDF。
      TF−IDF= 词频(TF)× 逆文档频率(IDF)

可以看到,TF-IDF 与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比。所以,自动提取关键词的算法就是计算出文档的每个词的 TF-IDF 值,然后按降序排列,取排在最前面的几个词。

2.1 TF-IDF 算法总结

TF-IDF 算法是一种常用的文本特征表示方法,用于评估一个词对于一个文档集或语料库中某个文档的重要程度,常用于以下领域:

(1)搜索引擎;
(2)关键词提取;
(3)文本相似性;
(4)文本摘要。

  • TF-IDF 算法优点:

    1. 简单有效:TF-IDF 算法简单易实现,计算速度快,并且在很多文本相关任务中表现良好。

    2. 考虑词频和文档频率:TF-IDF 综合考虑了词频和文档频率两个因素,可以准确表示词语在文档中的重要性。

    3. 强调关键词:TF-IDF 算法倾向于给予在文档中频繁出现但在整个语料库中较少见的词更高的权重,从而能够突出关键词。

    4. 适用性广泛:TF-IDF 算法可以应用于各种文本相关任务,如信息检索、文本分类、关键词提取等。

  • TF-IDF 算法缺点:

    1. 无法捕捉语义信息:TF-IDF 算法仅根据词频和文档频率进行计算,无法捕捉到词语之间的语义关系,因此在处理一些复杂的语义任务时可能效果有限。

    2. 忽略词序信息:TF-IDF 算法将文本表示为词语的集合,并忽略了词语之间的顺序信息,因此无法捕捉到词语顺序对于文本含义的影响。

    3. 对文档长度敏感:TF-IDF 算法受文档长度的影响较大,较长的文档可能会有较高的词频,从而影响到特征权重的计算结果。

    4. 词汇表限制:TF-IDF 算法需要构建词汇表来对文本进行表示,词汇表的大小会对算法的性能和计算开销产生影响,同时也可能存在未登录词的问题。

    5. 主题混杂问题:在包含多个主题的文档中,TF-IDF 算法可能会给予一些频繁出现的词较高的权重,导致提取的关键词并不完全与文档主题相关。

3.关键知识点总结:

  1. 在N-gram模型中,N表示表示每次取出的单词数量

  2. 在N-gram模型中,当N取值越大,模型的效果会不一定变得更好(要合适)

  3. N-gram模型可以用于文本分类、语音识别和机器翻译等自然语言处理任务。

  4. N-gram模型的主要优点是可以捕捉上下文信息,但缺点是无法处理未知的单词。

  5. 在TF-IDF模型中,IDF值越大代表该词对文本内容的区分度越高

  6. 在TF-IDF模型中,词频(TF)指的是某个词在一篇文档中出现的次数。

本分类、语音识别和机器翻译等自然语言处理任务。

  1. N-gram模型的主要优点是可以捕捉上下文信息,但缺点是无法处理未知的单词。

  2. 在TF-IDF模型中,IDF值越大代表该词对文本内容的区分度越高

  3. 在TF-IDF模型中,词频(TF)指的是某个词在一篇文档中出现的次数。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1166.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SpringBoot 整合redis + Aop防止重复提交 (简易)

1.redis的安装 redis下载 解压 安装 # wget http://download.redis.io/releases/redis-6.0.8.tar.gz # tar xzf redis-6.0.8.tar.gz # cd redis-6.0.8 # make 看一下就会有 进入redis-6.0.8下的src目录 [rootVM-16-8-centos redis]# cd redis-6.0.8 [rootVM-16-8-centos re…

HCIP——HCIA回顾及静态实验

HCIP HCIA一、知识回顾1、OSI七层参考模型:2、重要的几个协议报头格式 二、静态实验1、实验拓扑图2、实验要求3、实验思路4、实验步骤1、给接口划分IP地址以及配置环回地址2、交换机配置划分VLAN3、配置静态路由4、配置DHCP服务5、测试6、优化 HCIA 1、七层参考模型…

51单片机学习--独立按键控制LED

功能&#xff1a;按下K1时D1亮&#xff0c;松开时D1灭&#xff0c;P3_1对应K1 , P2_0对应D1 #include <REGX52.H>void main() {while(1) {if(P3_1 0) //按下K1{P2_0 0;}else{P2_0 1;}}} 按下按钮和松开按钮时会有抖动&#xff0c;所以需要用延时函数来避免抖动造成的…

短视频抖音账号矩阵系统源码开发分享

引用&#xff1a;MySQL数据库&#xff0c;NGINX&#xff0c;PHP7.4&#xff0c;MySQL5.7&#xff0c;redis 媒体组件 组件 描述 image 图片 图片。支持 JPG、PNG、SVG、WEBP、GIF 等格式。 video 视频 视频组件。相关 API 请参考 tt.createVideoContext。 开发背景&…

手机快充协议

高通:QC2.0、QC3.0、QC3.5、QC4.0、QC5.0、 FCP、SCP、AFC、SFCP、 MTKPE1.1/PE2.0/PE3.0、TYPEC、PD2.0、PD3.0/3.1、VOOC 支持 PD3.0/PD2.0 支持 QC3.0/QC2.0 支持 AFC 支持 FCP 支持 PE2.0/PE1.1 联发科的PE&#xff08;Pump Express&#xff09;/PE 支持 SFCP 在PP…

计算机网络——三次握⼿、四次挥手

TCP 三次握手 1、第⼀个SYN报⽂&#xff1a; 客户端随机初始化序列号client_isn&#xff0c;放进TCP⾸部序列号段&#xff0c; 然后把SYN置1。把SYN报⽂发送给服务端&#xff0c;表⽰发起连接&#xff0c; 之后客户端处于SYN-SENT状态。 2、第⼆个报⽂SYNACK报⽂&#xff1a; …

MQTT协议在物联网环境中的应用及代码实现解析(一)

MQTT协议全称是Message Queuing Telemetry Transport&#xff0c;翻译过来就是消息队列遥测传输协议&#xff0c;它是物联网常用的应用层协议&#xff0c;运行在TCP/IP中的应用层中&#xff0c;依赖TCP协议&#xff0c;因此它具有非常高的可靠性&#xff0c;同时它是基于TCP协议…

TCP/IP协议是什么?

78. TCP/IP协议是什么&#xff1f; TCP/IP协议是一组用于互联网通信的网络协议&#xff0c;它定义了数据在网络中的传输方式和规则。作为前端工程师&#xff0c;了解TCP/IP协议对于理解网络通信原理和调试网络问题非常重要。本篇文章将介绍TCP/IP协议的概念、主要组成部分和工…

深度学习 / 数据处理:如何处理偏态数据

1 前言 当我们使用一个线性回归模型时&#xff0c;通常这个模型是在很大假设的前提下才有一个很好的结果&#xff1a; 1、假设预测因子和预测目标之间的关系是线性的2、数据不存在外在噪声&#xff1a;不存在一些极端的数据3、非共线性&#xff08; collinearity&#xff09;…

新增进程管理、SSH会话管理功能,1Panel开源面板v1.4.0发布

2023年7月17日&#xff0c;现代化、开源的Linux服务器运维管理面板1Panel正式发布v1.4.0版本。 在这个版本中&#xff0c;1Panel新增了进程管理和SSH会话管理功能&#xff1b;支持容器编辑和升级&#xff0c;数据库兼容MySQL 5.6&#xff1b;备份账号可以添加微软OneDrive&…

github简单使用

留个链接等着吃灰 链接github的使用 举例 先选择需要上传的文件夹 比如db -main文件夹 gitbash 打开shell 进行如下的操作 一般都得写的东西 git init git remote add origin 想要上传的地址 git pull 将远程库拉过来 如果远程没有文件的话 那么shell就显示没有文件 git …

【Vue】 在 vue 中使用 iframe 挂载 html 文件

文章目录 首先需要将要挂载的html文件放到public 文件夹中 路径的引用形式 <iframe ref"sheet" src"/luckysheet.html" width"100%" height"100%"></iframe>通过绑定 ref 获取到 iframe&#xff0c;data为我需要传递的数…

Vscode自定义注释模板

首先安装插件Doxygen Documentation Generator&#xff0c;安装完成之后点击Doxygen插件的设置&#xff0c;按照下面的步骤打开settings.json进行编辑&#xff1a; 在settings.json中追加如下代码&#xff1a; "doxdocgen.file.copyrightTag": ["Copyright (C),…

Python一行命令搭建HTTP服务器并外网访问+-+内网穿透

文章目录 1.前言2.本地http服务器搭建2.1.Python的安装和设置2.2.Python服务器设置和测试 3.cpolar的安装和注册3.1 Cpolar云端设置3.2 Cpolar本地设置 4.公网访问测试5.结语 转载自远程内网穿透的文章&#xff1a;【Python】快速简单搭建HTTP服务器并公网访问「cpolar内网穿透…

FlinkCDC第四部分-同步mysql到mysql,ctrl就完事~(flink版本1.17.1)

本文介绍了不同源单表-单表同步&#xff0c;不同源多表-单表同步。 注&#xff1a;此版本支持火焰图 Flink版本&#xff1a;1.17.1 环境&#xff1a;Linux CentOS 7.0、jdk1.8 基础文件&#xff1a; flink-1.17.1-bin-scala_2.12.tgz、 flink-connector-jdbc-3.0.0-1.16.…

人工智能与Chat GPT

一本书全面掌握ChatGPT&#xff0c;既有向ChatGPT提问的技巧&#xff0c; 也有构建自己的ChatGPT模型的方法&#xff0c;涵盖开发背景、关联技术、使用方法、应用形式、实用案例等 人工智能是我们这个时代最热门的话题&#xff0c;人们既希望它能代替我们做一些工作&#xff0c…

云原生——Docker容器化实战

❄️作者介绍&#xff1a;奇妙的大歪❄️ &#x1f380;个人名言&#xff1a;但行前路&#xff0c;不负韶华&#xff01;&#x1f380; &#x1f43d;个人简介&#xff1a;云计算网络运维专业人员&#x1f43d; 前言 "Docker"一词指代了多个概念&#xff0c;包括开源…

uniapp调接口出现跨域问题。

今天在写uniapp项目的时候&#xff0c;使用在线模拟接口的时候&#xff0c;出现跨域问题。 【问题描述】&#xff1a; ①在内嵌浏览器运行&#xff0c;不会出现跨域问题&#xff0c;好像是内嵌浏览器自动去掉了跨域问题。 ②在外部浏览器调用的时候会出现跨域问题。&#xf…

IDEA 搭建Android 开发环境

项目实战 废话不多说开始创建先第一个 Android 项目 步骤一 FILE → New → Project 步骤二-选择 Android 项目模板 选那个安卓机器人,如果没有这个选项,需要升级IDEA版本或者安装安卓插件 选择*Basic Activity* Next-下一步 步骤三-项目初始化 名称、包名、安装位置自行调整…

3DE重客户端安装

3DE重客户端安装 一、百度网盘下载路径二、详细安装步骤 一、百度网盘下载路径 https://pan.baidu.com/s/16TltMRbrWuSe7p-Vn1x4Dw?pwdfku7 提取码&#xff1a;fku7 二、详细安装步骤 1、将\3deinstall\2022x_install_GA目录下的所有.tar文件全选解压 2.点击\3deinstall\…