TF-IDF(词频-逆文档频率)

文章目录

高频词只能说明词汇在评论中出现的频率高,但并不能说明这个词汇的重要性。利用关键词提取可以弥补这一不足,关键词提取是一种自动化的文本处理技术,它可以从一篇文章中自动抽取出最能代表文章主题和内容的若干个词语或短语。通常情况下,这些词语或短语具有较高的频率和重要性,可以很好地反映出文章所涉及的主题和核心内容。

TF-IDF (Term Frequency - Inverse Document Frequency,词频-逆文档频率)是信息检索中衡量一个词语重要程度的统计指标,广泛应用于文本分析领域。TF 指一个词语的词频,需要先除以文档中的总词数,防止 TF 值更加偏向于长文本中的词语,而 IDF 是这个词语在所有文档中出现的频率,然后取对数,就得到这个词语的 IDF 值。最后,TF 值与 IDF 值相乘就得到了这个词语的 TF-IDF 值,即词语的重要程度,算法公式如下:

词频 Term Frequency (TF) 是指文件中出现某一具体词语的频率

T F = 某个词在文章中出现的次数 文章中词的总数 TF=\frac{某个词在文章中出现的次数}{文章中词的总数} TF=文章中词的总数某个词在文章中出现的次数

逆文档频率(IDF),即文档总数与包含某一具体词语文档数比值的对数值:

I D F = log ⁡ 语料库的文档总数 包含该词的文档数 + 1 IDF=\log\frac{语料库的文档总数}{包含该词的文档数+1} IDF=log包含该词的文档数+1语料库的文档总数
其中加1是为了避免分母为0的情形。

注:当单词A在一个文章中出现的频率很高的时候,我们倾向于认为A是一个重要的词汇。但是,如果没个文章都包含了A,我们又会觉得这个词不重要,没有独特性。

为什么TF-IDF的公式中要使用log函数呢?
1.首先对于那些词频特别高,几乎每个文档都有的停用词(如“的”,“地”,“了”),文档集中含停用词的数量约等于总的文档集数量,即 N / n ≃ 1 N/n \simeq 1 N/n1(N/n恒大于1)。在只使用TF的情况下,停用词所占的权重很大,但是它并没有区分能力,与我们的期望不符。使用IDF(带对数函数)之后,由于log(1)=0,则停用词通过TF-IDF计算出的权重就为0(根号达不到这样的效果),就可以消除很多停用词的影响

2.第二个原因是,使用log可以防止权重爆炸。如果某些词只出现一篇或者少数几篇文档中(比如错别字),在没有log的情况下,IDF就会非常小(分母过小),从而影响其权重,而使用log能减轻这种影响。3.公式中分母+1,是采用了拉普拉斯平滑,避免有部分新的词没有在预料库中出现过而导致分母为0的情况出现,增强算法的健壮性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/619876.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

常用的检测数据异常值方式,以及异常数据如何处理!!

清除数据异常值 1.箱线图检测数据异常值方法2.3σ原则检测数据异常值方法3. 异常数据处理方式:总结(小白看看就行) 1.箱线图检测数据异常值方法 箱线图检测:箱线图是一种常用的异常值检测方法,它以数据的分位数为基础…

常见的加密算法

加密算法 AES 高级加密标准(AES,Advanced Encryption Standard)为最常见的对称加密算法(微信小程序加密传输就是用这个加密算法的)。对称加密算法也就是加密和解密用相同的密钥,具体的加密流程如下图: RSA RSA 加密算法是一种典型的非对称加密算法&am…

正则表达式2 常见模式

继上次的正则表达式速攻1/2-CSDN博客 还有一些常见的匹配模式可以直接使用 电子邮箱 xxxxxx.域名 的情况 \b[A-Za-z0-9._%-][A-Za-z0-9.-]\.[A-Z|a-z]{2,}\bhttp或者https网址 的情况 http[s]?://(?:[a-zA-Z]|[0-9]|[$-_.&]|[!*\\(\\),]|(?:%[0-9a-fA-F][0-9a-fA-F…

DRL入门

目录 1. DRL的核心概念 2. 算法分类 1、免模型学习和有模型学习(理不理解所处的环境) 2、基于策略(概率)的方法和基于价值的方法 3、回合更新和单步更新: 4、在线学习和离线学习 文献 1. Deep Reinforcement L…

Java后端开发——Mybatis实验

文章目录 Java后端开发——Mybatis实验一、MyBatis入门程序1.创建工程2.引入相关依赖3.数据库准备4.编写数据库连接信息配置文件5.创建POJO实体6.编写核心配置文件和映射文件 二、MyBatis案例:员工管理系统1.在mybatis数据库中创建employee表2.创建持久化类Employee…

嵌套的CMake

hehedalinux:~/Linux/multi-v1$ tree . ├── calc │ ├── add.cpp │ ├── CMakeLists.txt │ ├── div.cpp │ ├── mult.cpp │ └── sub.cpp ├── CMakeLists.txt ├── include │ ├── calc.h │ └── sort.h ├── sort │ ├── …

Java language programming:设计一个矩形类Rectangle

&#xff08;源于PTA&#xff09; 题目&#xff1a;设计一个名为Rectangle的类表示矩形。 这个类包括&#xff1a; <1>.两个名为width和height的double型数据域&#xff0c;它们分别表示矩形的宽和高。width和height的默认值都为1。 <2>.一个无参构造方法。 <3&…

网络安全工具大全

通用工具 工具类型 工具地址 更新时间 内网扫描 https://github.com/shadow1ng/fscan 2022-07-06 哥斯拉Webshell管理 https://github.com/BeichenDream/Godzilla 2021-11-01 ARL 资产侦察灯塔 https://github.com/TophantTechnology/ARL 2022-08-25 aliyun-accesskey-Too…

基于面向对象编程,C++实现单链表

链表&#xff1a;在内存空间中是非连续存储 组成&#xff1a;链表是由一个个节点组成的&#xff0c;每个节点都包含两个元素&#xff1a;数据和指针 节点头文件&#xff1a; 建立一个ListNode.h头文件 #pragma once class ListNode { public:int value;ListNode* next;Lis…

杭州经典爬山路线推荐

杭州经典爬山路线推荐爬山地图 【东岳村】路线一&#xff1a;东岳村(上山)——美人峰——龙门山——石人岭——天门山——石门山——棋盘山——天马山——茶叶博物馆&#xff08;下山&#xff09; 【林海亭】路线一&#xff1a;林海亭&#xff08;上山&#xff09;——唐家坞—…

设计模式之并发特定场景下的设计模式 Two-phase Termination(两阶段终止)模式

思考一下 在线程1中如何终止线程2&#xff1f;stop()&#xff1f;还是System.exit()&#xff1f;还是其他方式 方式解答 1.使用stop()不可取 线程对象的stop()方法会直接杀死线程&#xff0c;假设此时使用了线程锁&#xff0c;当此时使用了stop()命令会导致线程锁无法释放&am…

当浏览器输入url的时候会发生什么?

说在前面 当我们在浏览器中输入URL并按下回车时&#xff0c;背后发生了一系列神秘的操作。本文将带您深入了解&#xff0c;从URL解析到页面渲染&#xff0c;揭秘浏览器输入URL的完整流程。 具体步骤 当浏览器输入URL时&#xff0c;一般经过以下细节步骤&#xff1a; 1、引言 …

利用Qt输出XML文件

使用Qt输出xml文件 void PixelConversionLibrary::generateXML() {QFile file("D:/TEST.xml");//创建xml文件if (!file.open(QIODevice::WriteOnly | QIODevice::Text))//以只写方式&#xff0c;文本模式打开文件{qDebug() << "generateXML:Failed to op…

语义分割miou指标计算详解

文章目录 1. 语义分割的评价指标2. 混淆矩阵计算2.1 np.bincount的使用2.2 混淆矩阵计算 3. 语义分割指标计算3.1 IOU计算方式1(推荐)方式2 3.2 Precision 计算3.3 总体的Accuracy计算3.4 Recall 计算3.5 MIOU计算 参考 MIoU全称为Mean Intersection over Union&#xff0c;平均…

Docker五部曲之三:镜像构建

文章目录 前言Docker构建架构构建指令构建上下文本地目录Git存储库压缩文件纯文本文件.dockerignore文件 Dockerfile解析器指令环境变量命令执行格式exec格式shell格式 FROMRUNCMDLABELEXPOSEENVADDCOPYENTRYPOINTVOLUMEUSERWORKDIRARGONBUILDSHELL 多级构建 前言 本文均翻译自…

java-ArrayBlockingQueue详解

在Java并发编程中&#xff0c;ArrayBlockingQueue是一个非常常用的工具类。它是一个由数组支持的有界阻塞队列&#xff0c;提供了线程安全的队列操作。 1.ArrayBlockingQueue概述 ArrayBlockingQueue是一个基于数组实现的阻塞队列&#xff0c;它继承自AbstractQueue并实现了B…

一周速递|全球车联网产业动态(2024年1月14日)

政策法规 1、1月9日&#xff0c;国家发展改革委、商务部、市场监管总局发布《关于支持广州南沙放宽市场准入与加强监管体制改革的意见》&#xff0c;提出加快智能&#xff08;网联&#xff09;汽车多场景试点应用及商业化运营&#xff0c;推动电动垂直起降飞行器&#xff08;e…

对快速排序思想的进一步理解,分而治之,欧几里得算法(常用求最大公约数的方法)

自己找到的最优的快排的代码 快速排序 思想 分而治之使用欧几里得算法&#xff08;辗转相除法&#xff09;来求解一个应用题 假设有一块地&#xff0c;现在用这个同样大小的正方形来铺满&#xff0c;求所可用的最大的正方形地砖的面积 这两个方法放在一起是因为这个欧几里得要…

Linux环境之Ubuntu安装Docker流程

今天分享Linux环境之Ubuntu安装docker流程&#xff0c;Docker 是目前非常流行的容器&#xff0c;对其基本掌握很有必要。下面我们通过阿里云镜像的方式安装&#xff1a; 本来今天准备用清华大学镜像安装呢&#xff0c;好像有点问题&#xff0c;于是改成阿里云安装了。清华安装…

抓交通肇事犯(python)

问题描述&#xff1a; 一辆卡车违反交通规则&#xff0c;撞人后逃跑。现场有三人目击该事件&#xff0c;但都没有记住车号&#xff0c;只记下了车号的一些特征。甲说&#xff1a;牌照的前两位数字是相同的&#xff1b;乙说&#xff1a;牌照的后两位数字是相同的&#xff0c;但…