fasttext的基本使用 java 、python为例子

fasttext的基本使用 java 、python为例子

 

今天早上在地铁上看到知乎上看到有人使用fasttext进行文本分类,到公司试了下情况在GitHub上找了下,最开始是c++版本的实现,不过有Java、Python版本的实现了,正好拿下来试试手,

 

python情况:

python版本参考,作者提供了详细的实现,并且提供了中文分词之后的数据,正好拿下来用用,感谢作者,代码提供的数据作者都提供了,点后链接在上面有百度盘,可下载,java接口用到的数据也一样:

 

[html] view plaincopy
  1. http://blog.csdn.net/lxg0807/article/details/52960072  

[python] view plaincopy
  1. import logging  
  2. import fasttext  
  3. logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)  
  4. #classifier = fasttext.supervised("fasttext/news_fasttext_train.txt","fasttext/news_fasttext.model",label_prefix="__label__")  
  5. #load训练好的模型  
  6. classifier = fasttext.load_model('fasttext/news_fasttext.model.bin', label_prefix='__label__')  
  7. result = classifier.test("fasttext/news_fasttext_test.txt")  
  8. print(result.precision)  
  9. print(result.recall)  
  10. labels_right = []  
  11. texts = []  
  12. with open("fasttext/news_fasttext_test.txt") as fr:  
  13.     lines = fr.readlines()  
  14. for line in lines:  
  15.     labels_right.append(line.split("\t")[1].rstrip().replace("__label__",""))  
  16.     texts.append(line.split("\t")[0])  
  17. #     print labels  
  18. #     print texts  
  19. #     break  
  20. labels_predict = [e[0] for e in classifier.predict(texts)] #预测输出结果为二维形式  
  21. # print labels_predict  
  22. text_labels = list(set(labels_right))  
  23. text_predict_labels = list(set(labels_predict))  
  24. print(text_predict_labels)  
  25. print(text_labels)  
  26. A = dict.fromkeys(text_labels,0)  #预测正确的各个类的数目  
  27. B = dict.fromkeys(text_labels,0)   #测试数据集中各个类的数目  
  28. C = dict.fromkeys(text_predict_labels,0) #预测结果中各个类的数目  
  29. for i in range(0,len(labels_right)):  
  30.     B[labels_right[i]] += 1  
  31.     C[labels_predict[i]] += 1  
  32.     if labels_right[i] == labels_predict[i]:  
  33.         A[labels_right[i]] += 1  
  34. print(A )  
  35. print(B)  
  36. print( C)  
  37. #计算准确率,召回率,F值  
  38. for key in B:  
  39.     p = float(A[key]) / float(B[key])  
  40.     r = float(A[key]) / float(C[key])  
  41.     f = p * r * 2 / (p + r)  
  42.     print ("%s:\tp:%f\t%fr:\t%f" % (key,p,r,f))  

 

java版本情况:

githup上下载地址:
[html] view plaincopy
  1. https://github.com/ivanhk/fastText_java  


看了下sh脚本的使用方法,自己简单些了个text的方法,正好用用,后面会拿xgboost进行对比,看看效果,效果可以的写成service进行上线:
[java] view plaincopy
  1. package test;  
  2. import java.util.List;  
  3.   
  4. import fasttext.FastText;  
  5. import fasttext.Main;  
  6. import fasttext.Pair;  
  7.   
  8. public class Test {  
  9.     public static void main(String[] args) throws Exception {  
  10.   
  11.         String[] text = {  
  12.                 "supervised",  
  13.                 "-input",  
  14.                 "/Users/shuubiasahi/Documents/python/fasttext/news_fasttext_train.txt",  
  15.                 "-output", "/Users/shuubiasahi/Documents/faste.model", "-dim",  
  16.                 "10", "-lr", "0.1", "-wordNgrams", "2", "-minCount", "1",  
  17.                 "-bucket", "10000000", "-epoch", "5", "-thread", "4" };  
  18.         Main op = new Main();  
  19.         op.train(text);  
  20.         FastText fasttext = new FastText();  
  21.         String[] test = { "就读", "科技", "学生" ,"学生","学生"};  
  22.         fasttext.loadModel("/Users/shuubiasahi/Documents/faste.model.bin");  
  23.         List<Pair<Float, String>> list = fasttext.predict(test, 6);  //得到最大可能的六个预测概率  
  24.         for (Pair<Float, String> parir : list) {  
  25.             System.out.println("key is:" + parir.getKey() + "   value is:"  
  26.                     + parir.getValue());  
  27.         }  
  28.         System.out.println(Math.exp(list.get(0).getKey()));  //得到最大预测概率  
  29.   
  30.     }  
  31.   
  32. }  


这里设置bucket不适用设置过大,过大会产生OOM,而且模型保存太大,上面的设置模型保存就有1个g,-wordNgrams可以设置为2比设置为1能提高模型分类的准确性,
结果情况:

 

 

key is:0.0   value is:__label__edu

key is:-17.75125   value is:__label__affairs

key is:-17.75125   value is:__label__economic

key is:-17.75125   value is:__label__ent

key is:-17.75125   value is:__label__fashion

key is:-17.75125   value is:__label__game

1.0


 

注意fasttext对输入格式有要求,label标签使用  “__label__”+实际标签的形式,   over

有问题联系我

 

 

 

 

2016年5月26   我的模型已经上线了    效果还不错   

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/258000.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

oracle spring 分页查询,SpringJDBC 调用oracle 通用存储过程分页

我博客前面有写道SpringJDBC调用通用的Oracle存储过程,今天来讲一下通用的Java存储过程带分页的功能,其中里面还有动态查询的SQL拼接,好的,先上代码1.Java代码Autowiredprivate JdbcTemplate jdbcTemplate;/**分页查询* return*/ResponseBodyRequestMapping(value "/find…

宝宝头三年至关重要,不看悔掉肠子

http://www.nowamagic.net/librarys/eight/posts/1885以下是一个早教工作者分享他关于现代父母早期教育中出现的问题和多数父母的误区。正如作者问自己的&#xff1a;“在孩子人生最重要的头三年&#xff0c;我做对了吗&#xff1f;在我的引导下&#xff0c;她能保持强烈的探索…

2015年底总结

2015-12-06 16:17&#xff0c;今天是周日&#xff0c;不需要加班的&#xff0c;到公司看看书&#xff0c;写写代码的&#xff0c;突然想到又是年底了&#xff01;需要写点东西来记录总结一下2015年了 年初的时候&#xff0c;入职现在这家成都游戏公司&#xff0c;到现在差不多也…

python脚本

01.用户三次登录锁定猜年龄游戏02.购物车省县市三级联动03.函数、文件操作实现数据增删改查---low版本04.ATM购物商城05.模拟计算器持续更新中...脚本很low&#xff0c;但我一直在学。。。转载于:https://blog.51cto.com/lyndon/1947437

oracle 命令日志输出,ORACLE常用命令日志

第一章&#xff1a;日志管理1.forcing log switchessql> alter system switch logfile;2.forcing checkpointssql> alter system checkpoint;3.adding online redo log groupssql> alter database add logfile [group 4]sql> (/disk3/log4a.rdo,/disk4/log4b.rdo) …

[VMware WorkStation]虚拟机网络

1、简介&#xff1a; vmware为我们提供了三种网络工作模式&#xff0c;它们分别是&#xff1a;Bridged&#xff08;桥接模式&#xff09;、NAT&#xff08;网络地址转换模式&#xff09;、Host-Only&#xff08;仅主机模式&#xff09;。在我安装了vmware workstation player 1…

阿里查出售假店主并索赔140万,这次是大数据帮的忙

阿里巴巴将平台上一家曾出售假货的网店起诉至深圳市龙岗区法院&#xff0c;以“违背平台不得售假约定、侵犯平台商誉”为由索赔140万元人民币。此案为国内首例电商平台起诉售假店主案。 阿里巴巴目前已经准备了一份超长起诉清单&#xff0c;计划以违背合同约定、侵犯商誉为由&a…

oracle 升级前备份,rac(exadata)升级前的备份及LVM快照的恢复

1、热备所有数据库热备脚本&#xff1a;10.1.1.200&#xff0c;/backup/scripts/whole_db_backup.sh2、在每个计算节点执行dbserver_backup.sh脚本Run script "dbserver_backup.sh" in each compute node. The script takes backup of "/boot" (to ROOT f…

我心中的MySQL DBA

原文网址链接&#xff1a;http://wangwei007.blog.51cto.com/68019/1718311 MySQL是一个跨平台的开源关系型数据库管理系统&#xff0c;目前MySQL被广泛地应用在Internet上的中小型网站中。由于其体积小、速度快、总体拥有成本低&#xff0c;尤其是开放源码这一特点&#xff0c…

Visual Studio 2015 前瞻 属性初始化赋值!

通常我们建立属性的时候如果带初始化值的时候我们经常会这样处理。 class MyClass{private string _name "hello world!";public string Name {get{return _name;}set{_name value;}}} 或者也可以这样写 &#xff1a; class MyClass{public string Name { set; get…

火狐中的CSS Grid Inspector新增强大的功能

2019独角兽企业重金招聘Python工程师标准>>> 上周&#xff0c;我谈到了日常的网站浏览我用Firefox&#xff0c;但是在切图网做前端开发的时候我会用Chrome。 随着每个版本&#xff0c;FF Nightly在开发工具箱中有一些越来越棒的工具&#xff0c;这些更新使Firefox成…

Linux内核态之间进程通信,内核态和用户态通信(二)--实现

本文主要使用netlink套接字实现中断环境与用户态进程通信。系统环境&#xff1a;基于linux 2.6.32.27 和 linux 3.16.36Linux内核态和用户态进程通信方法的提出和实现用户上下文环境运行在用户上下文环境中的代码是可以阻塞的&#xff0c;这样&#xff0c;便可以使用消息队列和…

上下文无关文法

在计算机科学中&#xff0c;若一个形式文法 G (N, Σ, P, S) 的产生式规则都取如下的形式&#xff1a;V -> w&#xff0c;则称之为上下文无关文法&#xff08;英语&#xff1a;context-free grammar&#xff0c;缩写为CFG&#xff09;&#xff0c;其中 V∈N &#xff0c;w∈…

centos 安装mysql时错误unknown variable #39;defaults-file=/opt/redmine-2.6.0-2/mysql/my.cnf#39;...

找到my.cnf所在目录。运行 chmod 664 my.cnf&#xff0c;再启动mysql成功

p5js可以在linux上运行吗,在linux上使用python运行phantomjs

我跟随this link&#xff0c;现在当我输入phan然后输入tab(\t)时&#xff0c;它会自动完成幻影JS。在但是&#xff0c;如果我运行phantomJS -v或phantomJS --version&#xff0c;我得到&#xff1a;bash: /usr/local/bin/phantomjs: /lib/ld-linux.so.2: bad ELF interpreter: …

使用Instant Client配置PL/SQL Developer

之前使用PL/SQL Developer都是直接在本机安装完整版的Oracle Database&#xff0c;一是省事&#xff0c;二是可以在本机做一些demo测试&#xff1b;最近换了台电脑&#xff0c;感觉Instant Client更简单一些&#xff0c;分分钟配好。 先下载Instant Client&#xff0c;注意&…

linux脚本转换exe,Ps1 To Exe(powershell脚本转换EXE工具) V3.0.6 官方版

Ps1 To Exe是款将PowerShell脚本转换为EXE可执行文件的软件。同时软件非常小巧&#xff0c;功能实用&#xff0c;软件还支持各国的语言&#xff0c;有需要的小伙伴们不要错过了。(点击图片查看高清大图)【软件特色】1、Ps1 To Exe 支持多种语言2、Ps1 To Exe使用简单&#xff0…

标C编程笔记day04 预处理、宏定义、条件编译、makefile、结构体使用

预处理&#xff1a;也就是包括须要的头文件&#xff0c;用#include<标准头文件>或#include "自己定义的头文件"宏定义&#xff0c;如&#xff1a;#define PI 3.1415926查看用宏定义的值替换宏名称,如&#xff1a;gcc -E test.c带參数的宏&#xff1a;MAX(x,y) …

java数据结构系列——排列(2):有序阵列

package Array;/*** 对数组排序。当添加到阵列保持有序数组元素&#xff1b;* author wl**/ public class MyOrderArray {private long array[];private int elements;//用于记录数组中实际数据的个数public MyOrderArray(){arraynew long[50];//数组默认长度为50&#xff1b;}…

NSString 练习

//将“⽂文艺⻘青年”改成“213⻘青年”。 NSString *str "文艺青年"; NSString *str1 [str stringByReplacingOccurrencesOfString:"文艺" withString:"213"]; NSLog("%",str1); //将 整数123 转换为字符串“123”。 NSString *s …