中文自然语言处理向量合集(字向量,拼音向量,词向量,词性向量,依存关系向量)

ChineseEmbedding

Chinese Embedding collection incling token ,postag ,pinyin,dependency,word embedding.中文自然语言处理向量合集,包括字向量,拼音向量,词向量,词性向量,依存关系向量.共5种类型的向量.
项目地址:https://github.com/liuhuanyong

项目简介

目前不同于one-hot表示的稠密向量在常见的NLP任务中运用的越来越广,而目前开源的向量资源还比较单一,只有中文和其他语言的词向量.本项目想弥补这一缺陷.

本项目认为

1,NLP中的各种语言单元形态都可以进行向量表示.
2,稠密低维的向量较one-hot这种sparse向量更具备语义信息.
3,中文信息处理中可以进行词向量表示的语言单位包括:

  1. 字符(单个汉字)
  2. 词语(词或词组)
  3. 汉语拼音
  4. 汉语词性
  5. 汉语词语之间的依存关系

本项目要完成的任务

运用词向量建模方法,分别完成以上5种形态的词向量训练, 并检验效果.

训练语料

本项目将使用中文维基百科(zhiwiki)作为训练语料来源.

训练方法

  1. 基于skigram的方法
    对字向量,拼音向量,词向量,词性向量采用此类方法,分别设定词向量的维度及其他超参数
  2. 基于上下文共现与PCA降维的方法
    对依存向量采用此类方法

测试方法

本测试较为简单,直接使用语义最近的语言单元作为检验

代码目录

train_vector.py: 向量训练脚本
test_vector.py: 向量测试脚本

结果展示

向量名称向量含义词数维度例子
de_vec_10依存关系向量1310SBV, ATT
pinyin_vec_300汉语拼音向量146242300ni, hao
postag_vec_30汉语词性向量59300n,v,a,d
token_vec_300汉语字向量20029300刘,焕,勇
word_vec_300汉语词向量673266300刘焕勇

向量测试

    ***********************字符向量************************token:刘('李', 0.7306396961212158),('陈', 0.7201231122016907)('赵', 0.6974461674690247),('杨', 0.6972213983535767)('吴', 0.6851627230644226),('徐', 0.6516467332839966)('郭', 0.6499480605125427),('蔡', 0.6175302267074585)('郑', 0.6092196106910706),('孙', 0.5950524210929871)token:丑('卯', 0.6074919700622559),('酉', 0.5910211801528931)('巳', 0.5581363439559937),('戌', 0.43932047486305237)('戊', 0.41449615359306335),('壬', 0.40456631779670715)('謤', 0.367109090089798),('绯', 0.3643313944339752),('寅', 0.36351141333580017),('旽', 0.3549465537071228)***********************依存向量************************dependency rel:ATT('COO', 0.14239487051963806),('ADV', -0.16987691819667816)('RAD', -0.2357601821422577),('HED', -0.2401314228773117)('SBV', -0.25625932216644287),('WP', -0.27165737748146057)('LAD', -0.2902592420578003),('POB', -0.2990782558917999)('VOB', -0.37553706765174866),('IOB', -0.6669262647628784)dependency rel:POB('IOB', 0.16698899865150452),('DBL', 0.16678886115550995)('FOB', 0.1657436639070511),('CMP', 0.14784857630729675)('VOB', 0.1461176574230194),('SBV', 0.08011472970247269)('LAD', -0.022307466715574265),('WP', -0.022942926734685898)('HED', -0.037264980375766754),('RAD', -0.042251598089933395)***********************拼音向量************************pinyin:wo('shei', 0.6129732131958008)('ta', 0.6081706285476685)('nin', 0.5819231867790222),('!', 0.5435523986816406)('……', 0.48428624868392944),('ai', 0.47832390666007996)('o', 0.4761071801185608),('。』', 0.4598163366317749)('...', 0.45207729935646057),('ni', 0.44975683093070984)pinyin:guo('dang', 0.3908974528312683),('yuan', 0.378823846578598)('zu', 0.35387369990348816),('hua', 0.3405681848526001)('zheng', 0.3355437219142914),('yi', 0.3333034813404083)('ren', 0.3194104731082916),('jun', 0.3187354505062103)('hui', 0.31342023611068726),('xin', 0.3096797466278076)***********************词性向量************************word postag:a('d', 0.7203904986381531),('c', 0.6124969720840454)('v', 0.4963228106498718),('an', 0.4531499147415161)('uz', 0.4459834396839142),('ud', 0.42059916257858276)('r', 0.4090540111064911),('uj', 0.4061364233493805)('i', 0.38707998394966125),('l', 0.3551557660102844)word postag:n('b', 0.7030695676803589),('vn', 0.490166038274765)('p', 0.4858315885066986),('v', 0.4499088227748871)('nt', 0.44155171513557434),('f', 0.26609259843826294)('s', 0.2639649212360382),('l', 0.24365971982479095)('ns', 0.2278469204902649),('m', 0.202927365899086)***********************词向量************************word:爱情('爱恋', 0.6931096315383911),('真爱', 0.6897798776626587)('婚姻', 0.6540514826774597),('浪漫爱情', 0.6535360813140869)('情感', 0.6501022577285767),('感情', 0.6403399705886841)('纯爱', 0.6394841074943542),('爱情故事', 0.6282097101211548)('校园爱情', 0.6078493595123291),('情爱', 0.5976818799972534)word:创新('技术创新', 0.7648976445198059),('不断创新', 0.7172579765319824)('创新型', 0.6573833227157593),('创新能力', 0.6533682942390442)('创新性', 0.6160774827003479),('革新', 0.6159394383430481)('人才培养', 0.6093565821647644),('开拓创新', 0.6015594601631165)('探索', 0.5987343788146973),('技术革新', 0.5949685573577881)

总结

1,本项目完成了中文五种语言单位的向量训练.
2,从以上可以看出,词和字向量的效果看起来还不错.
3,依存向量,依存向量中可以看出,ATT作为定中关系,在依存关系中属于定中结构,COO(联合),ADV(状中)的相似度要比主谓SBV,动宾VOB的相似度要高.另外,作为介宾的POB,相似的有IOB,DBL,FOB,这些关系均与宾语成分相关.
4,拼音向量,从wo,guo的拼音相似拼音来看,我们可以看到,这种相似的拼音更像是一种搭配,很有意思.(词性参照jieba分词词性对照表)
5,词性向量,从a,n的相似词性来看,也似乎更像是一种搭配现象,或许有更好的解释…
4,总之,向量性能的好坏,需要在实际的NLP任务中运用检验,这个是后续需要进行的工作.

If any question about the project or me ,see https://liuhuanyong.github.io/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480559.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

会议 | 2018年全国知识图谱与语义计算大会(CCKS 2018)

2018年全国知识图谱与语义计算大会China Conference on Knowledge Graph and Semantic Computing (CCKS 2018)2018年8月14日-17日,天津征稿截止: 2018年5月18日全国知识图谱与语义计算大会(CCKS: China Conference on Knowledge Graph and Semantic Comp…

C++ Primer 第11章 泛型算法 学习总结

文章目录11.2 算法11.2.1 只读算法**1.find函数****2.accumulate函数****3.find_first_of 函数**11.2.2 写容器元素算法1.fill函数2.fill_n函数3.back_inserter插入迭代器4.copy函数5.算法的 _copy 版本11.2.3 排序算法sort(起始,结束)&#…

到底什么是生成式对抗网络GAN?

时间:2017-05-11 男:哎,你看我给你拍的好不好? 女:这是什么鬼,你不能学学XXX的构图吗? 男:哦 …… 男:这次你看我拍的行不行? 女:你看看你的…

基于法律罪行知识图谱的智能预判与客服问答

CrimeKgAssitant Crime assistant including crime type prediction and crime consult service based on nlp methods and crime kg,罪名法务智能项目,内容包括856项罪名知识图谱, 基于280万罪名训练库的罪名预测,基于20W法务问答对的13类问题分类与法律资讯问答功能. 项目地…

分布式缓存Redis+Memcached经典面试题和答案

Redis相比memcached有哪些优势? (1) memcached所有的值均是简单的字符串,redis作为其替代者,支持更为丰富的数据类型 (2) redis的速度比memcached快很多 (3) redis可以…

卖萌屋福利场:《机器阅读理解》免费送送送!

一只小狐狸带你解锁 炼丹术&NLP 秘籍在送书之前,先来了解一下机器阅读理解是什么~已经很熟悉的小伙伴可以快速下拉进入福利场~机器阅读理解是什么机器阅读理解(Machine Reading Comprehension,MRC)是一种利用算法使…

CCKS 2018 | 工业界论坛报告简介

China Conference on Knowledge Graph and Semantic Computing 天津,2018年8月14日-8月17日主题1:智能交互中的知识图谱时间:2018.08.17 (14:00-15:00)地点:天津滨海一号大会场报告1:报告题目&a…

BAT Java面试笔试33题:JavaList、Java Map等经典面试题!答案汇总!

JavaList面试题汇总 1、List集合:ArrayList、LinkedList、Vector等。 2、Vector是List接口下线程安全的集合。 3、List是有序的。 4、ArrayList和LinkedList数据结构不一样,前者用在查询较多的场合,后者适用于插入较多的场合。 5、ArrayL…

基于在线百科知识库的多义词词义消歧项目

WordMultiSenseDisambiguation WordMultiSenseDisambiguation, chinese multi-wordsense disambiguation based on online bake knowledge base and semantic embedding similarity compute,基于百科知识库的中文词语多义项获取与特定句子词语语义消歧. 项目地址:https://gith…

1数组中重复的数字-面试题目3

题外话:找算法,在线编程在面试中占比50%。 听说上面的题外话,依旧重拾艰难困苦之心,翻开剑指offer按照题目类型以及随机抽取,还是决定开始好好的看看剑指offer的在线编程66道题。没有信心的跟我一起做下去&#xff0c…

文本查询TextQuery类文件编写

读取用户指定的任意文本文件,然后允许用户从该文件中查找单词。查询的结果是该单词出现的次数,并列出每次出现所在的行。如果某单词在同一行中多次出现,程序将只显示该行一次。行号按升序显示,即第 7 行应该在第 9 行之前输出&…

什么是小样本学习?这篇综述文章用166篇参考文献告诉你答案

一只小狐狸带你解锁 炼丹术&NLP 秘籍来源:机器之心什么是小样本学习?它与弱监督学习等问题有何差异?其核心问题是什么?来自港科大和第四范式的这篇综述论文提供了解答。数据是机器学习领域的重要资源,在数据缺少的…

CCKS 2018 | 前沿技术讲习班

时间:8月14日-15日地点:南开大学泰达学院大报告厅日程安排时间主题特邀讲者8月14日上午(8:30 – 10:00)Deep Knowledge Graph Reasoning(10:30-12:00)Exploiting and Reasoning With Open Knowledge GraphW…

Java必考题目之JVM面试题目和答案

JVM内存模型 首先我们来了解一下JVM的内存模型的怎么样的: 1.堆:存放对象实例,几乎所有的对象实例都在这里分配内存 堆得内存由-Xms指定,默认是物理内存的1/64;最大的内存由-Xmx指定,默认是物理内存的1/4…

语言资源的类别、搜索与搭建策略

语言资源的类别、搜索与搭建策略 一、引言 语言资源,本身是一个宽泛的概念,即语言资源,语言指的是资源的限定域,资源资源,是资料的来源或者汇总,加在一起,也就形成了这样一种界定:任…

听说读论文也有trick?这篇文章告诉你深度学习论文阅读最佳姿势

2020年的今天,我们的专业是deep learning,但是我们要keep learning,每天早上一睁眼,arxiv每天更新上百篇的论文,著名微博博主爱可可-爱生活保持也在推送最新的deep learning资讯和论文。我们不缺少计算机视觉论文&…

屏幕Screen类文件编写

注意&#xff1a; inline 定义的函数必须放在 .h 文件中&#xff0c;否则编译器报错&#xff01; 其次&#xff0c;注意写全称在 .h 里&#xff0c;如 std:: screen.h 头文件 #ifndef SCREEN_H #define SCREEN_H #include<string> #include<iostream>class Scre…

机器翻译自动评估-BLEU算法详解

机器翻译自动评估-BLEU算法详解 版权声明&#xff1a;本文为博主原创文章&#xff0c;未经博主允许不得转载。 https://blog.csdn.net/qq_31584157/article/details/77709454 </div><link rel"stylesheet" href"https://csdnimg.cn/re…

论文浅尝 | 利用Lattice LSTM的最优中文命名实体识别方法

本文转载自公众号&#xff1a;机器之心。选自arXiv作者&#xff1a;Yue Zhang、Jie Yang机器之心编译参与&#xff1a;路、王淑婷近日&#xff0c;来自新加坡科技设计大学的研究者在 arXiv 上发布了一篇论文&#xff0c;介绍了一种新型中文命名实体识别方法&#xff0c;该方法利…

最全MySQL面试60题和答案

Mysql中有哪几种锁&#xff1f; 1.表级锁&#xff1a;开销小&#xff0c;加锁快&#xff1b;不会出现死锁&#xff1b;锁定粒度大&#xff0c;发生锁冲突的概率最高&#xff0c;并发度最低。 2.行级锁&#xff1a;开销大&#xff0c;加锁慢&#xff1b;会出现死锁&#xff1b;…