TF和TF-IDF区别和联系

TF(Term Frequency)和TF-IDF(Term Frequency-Inverse Document Frequency)都是用于文本挖掘和信息检索的统计方法,用于评估一个词在文档或文档集合中的重要性。

一.TF(Term Frequency)

1.定义

  • 词频(Term Frequency,TF):衡量一个词在一个文档中出现的频率。通常,TF值越高,表示该词在文档中越重要。

2.计算公式

TF ( t , d ) = 词t在文档d中出现的次数 文档d中所有词的总数 \text{TF}(t, d) = \frac{\text{词t在文档d中出现的次数}}{\text{文档d中所有词的总数}} TF(t,d)=文档d中所有词的总数t在文档d中出现的次数

3.特点

  • 局部性:TF只考虑单个文档,不考虑该词在整个文档集合中的分布情况。

  • 简单性:TF计算简单,只需统计词在文档中的出现次数。

二.TF-IDF(Term Frequency-Inverse Document Frequency)

1.定义

  • 词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF):是一种衡量词重要性的方法,综合考虑了词在单个文档中的频率和词在整个文档集合中的稀有程度。

2.计算公式

TF-IDF ( t , d , D ) = TF ( t , d ) × IDF ( t , D ) \text{TF-IDF}(t, d, D) = \text{TF}(t, d) \times \text{IDF}(t, D) TF-IDF(t,d,D)=TF(t,d)×IDF(t,D)

其中,

IDF ( t , D ) = log ⁡ ( 1 + N 1 + 包含词t的文档数 ) \text{IDF}(t, D) = \log \left( \frac{1+N}{1 + \text{包含词t的文档数}} \right) IDF(t,D)=log(1+包含词t的文档数1+N)

  • N N N是文档集合中的文档总数。

  • 包含词t的文档数 \text{包含词t的文档数} 包含词t的文档数是词 t \text{t} t在文档集合 D D D中出现的文档数。

3.特点

  • 全局性:TF-IDF考虑了词在整个文档集合中的分布情况,通过IDF降低那些在很多文档中都出现的常见词的重要性。

  • 准确性:TF-IDF在衡量词的权重时更为准确,因为它既考虑了词在单个文档中的频率(TF),也考虑了词在整个文档集合中的稀有程度(IDF)。

三.异同点

1.相同点

  • 目的:两者都用于衡量词在文档中的重要性。

  • 应用场景:广泛应用于信息检索、文本挖掘、文本分类等领域。

2.不同点

  • 计算方式

    • TF:只计算词在单个文档中的频率。

    • TF-IDF:计算词在单个文档中的频率并结合整个文档集合中的稀有程度。

  • 结果影响

    • TF:高频词会有较高的权重,但无法区分常见词和重要词。

    • TF-IDF:通过IDF调整,高频但常见的词(如的、是)会被赋予较低的权重,而那些在少数文档中出现的词会有较高的权重。

四.例子说明

1.文档集合例子

  • 文档1:这是一篇关于自然语言处理的文章。

  • 文档2:自然语言处理是人工智能的一个分支。

  • 文档3:机器学习也是人工智能的一个重要领域。

2.TF的计算过程

  • 文档1中出现1次,文档总词数为7,故TF(自然, 文档1) = 1 7 ≈ 0.14 \frac{1}{7} \approx 0.14 710.14

  • 文档2中出现1次,文档总词数为8,故TF(自然, 文档2) = 1 8 = 0.125 \frac{1}{8} = 0.125 81=0.125

  • 文档3中未出现,故TF(自然, 文档3) = 0

3.IDF的计算过程

包含词"自然"的文档数为2,总文档数为3。使用平滑IDF公式:

IDF ( 自然 , { 文档 1 , 文档 2 , 文档 3 } ) = log ⁡ ( 3 + 1 2 + 1 ) = log ⁡ ( 4 3 ) ≈ 0.124 \text{IDF}(自然, \{文档1, 文档2, 文档3\}) = \log \left( \frac{3 + 1}{2 + 1} \right) = \log \left( \frac{4}{3} \right) \approx 0.124 IDF(自然,{文档1,文档2,文档3})=log(2+13+1)=log(34)0.124

4.TF-IDF的计算过程

  • 对于文档1,TF-IDF(自然, 文档1, {文档1, 文档2, 文档3}) = 0.14 * 0.124 ≈ 0.017

  • 对于文档2,TF-IDF(自然, 文档2, {文档1, 文档2, 文档3}) = 0.125 * 0.124 ≈ 0.016

  • 对于文档3,TF-IDF(自然, 文档3, {文档1, 文档2, 文档3}) = 0 * 0.124 = 0

TF和TF-IDF在衡量词在文档中的重要性时,TF简单直观,但未考虑词在整个文档集合中的分布;TF-IDF则综合考虑了词在单个文档中的频率和整个文档集合中的稀有程度,因而更为准确和有效。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/46908.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CSA笔记1-基础知识和目录管理命令

[litonglocalhost ~]$ 是终端提示符,类似于Windows下的cmd的命令行 litong 当前系统登录的用户名 分隔符 localhost 当前机器名称,本地主机 ~ 当前用户的家目录 $ 表示当前用户为普通用户若为#则表示当前用户为超级管理员 su root 切换root权限…

昇思25天学习打卡营第12天|munger85

基于MindSpore通过GPT实现情感分类 这个实现情感分类意思就是通过一些电影的数据最后知道他对于这个电影的评价,最后知道他对于这个电影的评价到底是好还是不好,零就是不好,一就是好。首先我们肯定是按安装这些依赖包了为了今天这个模型我们…

【Apache Doris】周FAQ集锦:第 14 期

【Apache Doris】周FAQ集锦:第 14 期 SQL问题数据操作问题运维常见问题其它问题关于社区 欢迎查阅本周的 Apache Doris 社区 FAQ 栏目! 在这个栏目中,每周将筛选社区反馈的热门问题和话题,重点回答并进行深入探讨。旨在为广大用户…

深度加速器 为游戏而生

使用深度加速器的基本步骤如下 首先,访问深度加速器的官方网站或授权下载渠道,下载最新版本的深度加速器客户端。 下载完成后,电脑版直接双击打开免安装,将深度加速器安装到您的计算机或移动设备上。 注册与登录: 打…

C# 匿名方法、Lambda、Linq概念及联系

匿名方法、Lambda表达式与LINQ 匿名方法 概念: 匿名方法是没有名称的方法实现,通常与委托关联使用。它提供了一种在不创建独立命名方法的情况下编写代码块的方式。 语法: delegate void MyDelegate(string message);MyDelegate del dele…

如何构建全生命周期的安全体系架构来确保容器的安全?

容器技术在云原生应用和微服务架构中得到了广泛应用,其轻量、灵活和高效的特点使其成为现代IT环境中的重要工具。然而,尽管容器带来了许多优势,但其安全性问题也不容忽视。接下来跟随博主一起探索如何构建全生命周期的安全体系架构以确保容器…

c++二叉搜索数模拟实现(代码)

二叉搜索树又称二叉排序树,它或者是一棵空树,或者是具有以下性质的二叉树: 1.若它的左子树不为空,则左子树上所有节点的值都小于根节点的值 2.若它的右子树不为空,则右子树上所有节点的值都大于根节点的值 3.它的左右子树也分别为…

Vue3 子组件像父组件传递数据 自定义事件 defineEmits

介绍 很多情况下子组件都需要像父组件去传递一些数据,Vue3和Vue2传递值的写法不太一样。 例子 很常见的一个案例,弹出一个商品对话框,用户选择商品后把商品信息返回给父组件,使用自定义事件去做。 子组件 选择商品对话框 &…

音视频中文件的复用和解复用

在音视频处理和传输领域中,文件复用(muxing)和解复用(demuxing)是两个非常重要的概念和过程。它们直接影响到音视频的存储、传输和播放效果。 1. 基本概念 文件复用(Muxing) 文件复用是将多个…

数据库操作太复杂?Python Shelve模块让你轻松存储,一键搞定!

目录 1、基本操作入门 📚 1.1 安装Shelve模块 1.2 创建与打开Shelve文件 2、存储与读取数据 🔐 2.1 写入键值对 2.2 读取存储的数据 3、高级功能探索 🧭 3.1 使用Shelve迭代键和值 3.2 键的管理:添加、删除与更新 4、异…

详解曼达拉升级:如何用网络拓扑结构扩容BSV区块链

​​发表时间:2024年5月24日 BSV曼达拉升级是对BSV基础设施的战略性重塑,意在显著增强其性能,运行效率和可扩容。该概念于2018年提出,其战略落地将使BSV区块链顺利过渡,从现有的基于单一集成功能组件的网络拓扑结构&am…

MySQL面试篇章——MySQL基础复习

文章目录 MySQL基本介绍MySQL数据类型数值类型字符串类型日期和时间类型ENUM和SET MySQL运算符算数运算符逻辑运算符比较运算符 MySQL常用函数字符串函数数值函数时间和日期函数聚合函数 MySQL完整性约束范式第一范式(1NF)第二范式(2NF&#…

有关电力电子技术的一些相关仿真和分析:⑤交-直-交全桥逆变+全波整流结构电路(MATLAB/Siumlink仿真)

全桥逆变+全波整流结构 参数:Vin=500V, Vo=200V, T=2:1:1, RL=10Ω, fs=100kHz, L=1mH, C=100uF (1)给定输入电压,输出电压和主电路参数,仿真研究电路工作原理,分析工作时序; (2)调节负载电阻,实现电流连续和断续,并仿真验证; (3)调节占空比,分析占空比与电…

Java —— static关键字

static关键字 1.静态变量 1、个数:在内存中只有一份,被类的多个对象所共享、 2、加载时机:随着类的加载而加载,由于类只会加载一次,故静态变量也只有一份 3、内存位置:jdk6及之前存放在方法区;…

设计模式总结(设计模式的原则及分类)

1.什么是设计模式? 设计模式(Design pattern)代表了最佳的实践,通常被有经验的面向对象的软件开发人员所采用。设计模式是软件开发人员在软件开发过程中面临的一般问题的解决方案。这些解决方案是众多软件开发人员经过相当长的一段时间的试验和错误总结…

SpringBoot中动态注册Bean的方式

测试环境,本文源码 Java:8SpringBoot:2.5.14示例场景:动态注册ProxyServlet,间接实现类似于Nginx的反向代理功能 先理解如何实现动态注册 Bean 。 由于在 SpringBoot 中,先进行 Bean 的定义,…

企业全历史行为数据助ToB企业决策层开启营销的上帝视角

“上帝视角”是每个企业家都渴望拥有的。上帝视角的能力有多么吸引人呢?通常,一个企业家在技术、产品、营销中的任何一个领域拥有上帝视角的能力,就足可以让他的企业大杀四方,甚至创造历史。 在技术或产品领域,靠“上…

沙袋装袋机的原理和特点_鼎跃安全

在现代工业和建筑领域,沙子等散状物料的包装是一个必不可少的环节。传统的手工包装方式效率低下且劳动强度大,而沙袋装袋机的出现则极大地提高了包装效率和质量。 一、沙袋装袋机的工作原理 沙子通过输送系统从储料仓输送到装袋机的料斗中。输送系统设计…

Eureka——Spring Cloud中的服务注册与发现组件

目录 1. 前言2. Eureka的概述2.1 Eureka的核心功能2.2 Eureka的角色与特点2.3 Eureka的使用优势 3. 创建 Spring Cloud 的注册中心3.1 创建一个父项目3.2 创建Spring Cloud的注册中心Eureka 4. 创建服务提供者5. 创建一个消费者Consumer,调用服务提供者Provider 1. …

java链表常见简单面试算法题

头插法、尾插法 头插法:先待插入指向头结点的next,后头结点的next指向待插入。 尾插法:借助尾指针,直接插入 /*** 头插法* param head* return*/public static Node head_insert(Node head, int t){Node nodenew Node(t);node.set…