TFIDF java实现

代码模板:
jar包下载:https://download.csdn.net/download/dreamzuora/10853842

/*** */
package TFIDF;import java.util.Arrays;
import java.util.List;/*** @author weijie*	作用:用来计算词项对于一个文档集或一个语料库中的一份文件的重要程度* 2018年12月15日*/
public class TfidfUtils {// 词项频率(TF) = 单词在文档中出现的次数 / 文档的总词数public double tf(List<String> doc, String term) {double termFrequency = 0;for (String str : doc) {if (str.equalsIgnoreCase(term)) {termFrequency++;}}return termFrequency / doc.size();}// 文档频率(DF):代表文档集中包含某个词的所有文档数目public int df(List<List<String>> docs, String term) {int n = 0;if (term != null && term != "") {for (List<String> doc : docs) {for (String word : doc) {if (term.equalsIgnoreCase(word)) {n++;break;}}}} else {System.out.println("term can not null or hava not content!");}return n;}// 逆文档率(IDF)= log(文档集总的文档数 / (包含某个词的文档数 + 1)) = log(N / df + 1)public double idf(List<List<String>> docs, String term) {return Math.log(docs.size() / (double) df(docs, term) + 1);}// TFIDF = 词频(tf) * 逆文档率(idf)public double tfIdf(List<String> doc, List<List<String>> docs, String term) {return tf(doc, term) * idf(docs, term);}public static void main(String[] args) {List<String> doc1 = Arrays.asList("人工", "智能", "成为", "互联网", "大会", "焦点");List<String> doc2 = Arrays.asList("谷歌", "推出", "开源", "人工", "智能", "系统", "工具");List<String> doc3 = Arrays.asList("互联网", "的", "未来", "在", "人工", "智能");List<String> doc4 = Arrays.asList("谷歌", "开源", "机器", "学习", "工具");List<List<String>> documents = Arrays.asList(doc1, doc2, doc3, doc4);TfIdfCal calculator = new TfIdfCal();System.out.println(calculator.tf(doc2, "谷歌"));System.out.println(calculator.df(documents, "谷歌"));double tfidf = calculator.tfIdf(doc2, documents, "谷歌");System.out.println("TF-IDF (谷歌) = " + tfidf);}
}

优秀博客:https://www.cnblogs.com/ywl925/archive/2013/08/26/3275878.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/509089.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

KDTree算法

原理&#xff1a; 1.https://www.cnblogs.com/porco/p/4464414.html&#xff08;里面代码不好修改&#xff0c;不建议直接利用&#xff09; 2.https://www.cnblogs.com/zfyouxi/p/4795584.html 实例&#xff1a;可以用来求最短距离的点&#xff0c;例如&#xff1a;根据经纬度求…

【java机器学习】决策树算法

参考文章&#xff1a;https://blog.csdn.net/qq_38773180/article/details/79188510 java代码&#xff1a; package decisionTree; import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.FileInputStream; import java.io.FileNotFoundException; i…

C++ vector用法

C vector用法 在c中&#xff0c;vector是一个十分有用的容器&#xff0c;下面对这个容器做一下总结。 1 基本操作 (1)头文件#include<vector>. (2)创建vector对象&#xff0c;vector<int> vec; (3)尾部插入数字&#xff1a;vec.push_back(a); (4)使用下标访问元素&…

【java机器学习】词向量在贝叶斯中的概念

向量&#xff1a; 在数学中&#xff0c;向量&#xff08;也称为欧几里得向量、几何向量、矢量&#xff09;&#xff0c;指具有大小&#xff08;magnitude&#xff09;和方向的量 词向量&#xff1a; 词向量&#xff08;Word embedding&#xff09;&#xff0c;又叫Word嵌入式自…

【java机器学习】贝叶斯分类

参考文章&#xff1a;https://blog.csdn.net/qq_24369113/article/details/53291867#commentsedit

【java机器学习】支持向量机之拉格朗日乘子法解释

什么是拉格朗日乘子法 按照维基百科的定义&#xff0c;拉格朗日乘数法是一种寻找多元函数在其变量受到一个或多个条件的约束时的极值的方法。用数学式子表达为&#xff1a; 简单理解就是&#xff0c;我们要在满足 这个等式的前提下&#xff0c;求 函数的最小值&#xff08;最大…

字典树(Trie树)

字典树(Trie树)字典树&#xff0c;又称单词查找树&#xff0c;Trie树&#xff0c;是一种树形结构&#xff0c;典型应用是用于统计&#xff0c;排序和保存大量的字符串&#xff0c;所以经常被搜索引擎系统用于文本词频统计。它的优点是&#xff1a;利用字符串的公共前缀来节约存…

【java机器学习】svm入门十讲

博客&#xff1a;http://www.blogjava.net/zhenandaci/archive/2009/03/06/258288.html

Java解析json出现双引号变成转义字符解决办法

Java中&#xff1a;利用StringEscapeUtils.unescapeHtml4强转 String newJson StringEscapeUtils.unescapeHtml4(jsonStr);

棋盘问题 dfs

棋盘问题Time Limit: 1000MS Memory Limit: 10000KTotal Submissions: 38265 Accepted: 18742 Description 在一个给定形状的棋盘&#xff08;形状可能是不规则的&#xff09;上面摆放棋子&#xff0c;棋子没有区别。要求摆放时任意的两个棋子不能放在棋盘中的同一行或者同一列…

JedisConnectionException: java.Net.SocketTimeoutException: Read timed

jedis操作&#xff1a;https://blog.csdn.net/shuaiOKshuai/article/details/23266091 jedisPool操作&#xff1a;https://blog.csdn.net/gongxinju/article/details/53909239

jedisPool的使用

遇到的问题&#xff1a; 一开始做项目一直用的是jedis对象连接&#xff0c;今天发现自己上线的项目抛出了异常:JedisConnectionException: java.Net.SocketTimeoutException: Read timed和和java.lang.ClassCastException: [B cannot be cast to java.util.List。 异常解释&…

ssdb教程

常见问题解答&#xff1a;http://ssdb.io/docs/zh_cn/faq.html https://www.w3xue.com/server/ssdb/ssdb-comlist.html http://ssdb.io/docs/zh_cn/commands/index.html https://www.w3cschool.cn/ssdb/xd2leud8.html

java ssdb 操作link遍历map的两种方式

方法一&#xff1a;不推荐使用&#xff0c;只会返回map中的key Link link ssdb.link; resp link.request("qpush", "q", "a");for(int i1; i<resp.raw.size(); i2){ String s new String(resp.raw.get(i)); System.out.println(s); }方法…

FileOutputStream为false时候注意的问题

今天写代码时候发现&#xff0c;new FileOutputStream(new File(“test.txt”), false)时候test.txt文件内容会清空&#xff0c;记录一下&#xff01;

java文件重命名有趣实验

Testpublic void filetest() throws Exception {//判断文件会写入到哪个文件内File file new File("test.txt");file.renameTo(new File("test1.txt"));FileOutputStream out new FileOutputStream(file);out.write("ok".getBytes());out.clos…

网络流之最大流算法(EdmondsKarp)

网络流之最大流算法&#xff08;EdmondsKarp&#xff09; 标签&#xff1a; 网络流算法EdmondsKarp流量最大流2014-03-11 18:05 34795人阅读 评论(12) 收藏 举报分类&#xff1a;图论~~网络流&#xff08;26&#xff09; 版权声明&#xff1a;本文为博主原创文章&#xff0c;未…

java文件流操作注意

今天做了一个测试&#xff1a; Testpublic void fileOut() throws Exception {FileOutputStream out new FileOutputStream(new File("test.txt"), false);out.write("1".getBytes());out.write("2".getBytes());File file new File("tes…

try代码块中出现异常后try内程序会继续执行还是直接抛出异常?

Testpublic void excp() {try {int i 1/0;System.out.println(1);}catch (Exception e) {e.printStackTrace();// TODO: handle exception}System.out.println(22);}输出&#xff1a; java.lang.ArithmeticException: / by zero at task.ExceedActiveTimeClearTask.excp(Excee…

java文件重命名失败问题

我记得之前也遇到这个问题后来找了几个小时才找到问题&#xff0c;这次又花了一个小时找出这个问题&#xff0c;发现是自己的文件流没有关闭&#xff0c;一定要切记&#xff0c;当对文件重命名操作的时候一定要先把操作改文件的文件流关闭之后再进行重命名的操作&#xff0c;切…