自然语言处理语言资源项目

项目地址:https://github.com/liuhuanyong/LanguageResources
致力于利用web公开信息,采用爬虫脚本,加工处理形成语言资源包括词汇知识库,领域语料等语言资源,该资源可用于自然语言处理任务.
1、 corpus_resources.py:词库,包括:

        name:人民日报语料link:https://pan.baidu.com/s/1_E2YA7u61s_ZSSFV0IrHJApwd:ux12desc:人民日报199801语料name:领域小说文本语料link:https://pan.baidu.com/s/1JC3UyOu8PuJrnn_JUyF9UQpwd:bgufdesc:13个领域的小说文本集合,5000+小说文本name:字幕文本语料link:https://pan.baidu.com/s/19BI81W7rFwvLKEjVBPXaUApwd:mpfzdesc:基于字幕网抓取,70W字幕文本语料name:段子文本语料link:https://pan.baidu.com/s/1go84Pt8O-AHJJOgJhkG89Qpwd:eju6desc:基于内涵段子等短文本网站抓取,约50Wname:歌词文本语料link:https://pan.baidu.com/s/1IOCH9EfZInTdI_GvnuedJApwd:nq69desc:基于歌词网站抓取,歌词数量约20W

2 word_resources.py:领域语料
包括:

	    name:语义词库link:https://pan.baidu.com/s/1b663-MVQ2UG69wvmKg912gpwd:flg8desc:语法信息词典,知网义原、程度副词、现代汉语词典、否定词、同义词词林等name:领域词库link:https://pan.baidu.com/s/1fzwE94sC77PDo-36IKCkWgpwd:x57tdesc:33个领域词词库name:情感词库link:https://pan.baidu.com/s/10KECT0kxiRDt43vuSBOdeApwd:mn5udesc:通用、微博、食物、财经等领域情感词,以及公开情感词(清华、台湾大学、大连理工等)name:敏感词词库link:https://pan.baidu.com/s/1DIkV-RyiEVaNMPNYiiKVsApwd:asoldesc:敏感词词库,可用于敏感信息检测name:搜狗输入法词库link:https://pan.baidu.com/s/11H8L0021TgnWEs8p4cjGkQpwd:wpr8desc:基于搜狗输入法抓取与转换生成,1W+个词库文本

3 wordvector_resource.py:预训练词向量文件

            name:多领域词向量link:https://pan.baidu.com/s/10j2Ozt9rOspVDsn_UNIfdwpwd:cw04desc:基于腾讯历时滚动新闻训练的多领域词向量,包括财经、军事、体育、科技等领域***********name:中文字向量link:https://pan.baidu.com/s/1m7E86igkOglQsl7hwn0QVwpwd:b2mgdesc:基于维基百科生成的字向量

资源已经共享至百度网盘,详细见相应的.py文件
If any question about the project or me ,see https://liuhuanyong.github.io/
项目地址:https://github.com/liuhuanyong/LanguageResources

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480565.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深入理解XGBoost

本文的主要内容概览:1 XGBoost简介XGBoost的全称是eXtreme Gradient Boosting,它是经过优化的分布式梯度提升库,旨在高效、灵活且可移植。XGBoost是大规模并行boosting tree的工具,它是目前最快最好的开源 boosting tree工具包&am…

会议 | ESWC2018 见闻

本文转载自公众号:南大Websoft 。 ESWC2018于2018年6月2日在希腊克里特岛上的伊拉克利翁举行。会议包括两天的前会(workshops, tutorials) 和三天的正会,参会人数约300人。KeynotesKeynote1: Structural S…

POJ 1804 逆序数 解题(归并排序)

文章目录解法1:直接双重循环求解,n*n复杂度解法2:采用归并排序求解,复杂度nlgn题目链接 http://poj.org/problem?id1804题目大意:让一串无序数,在只能相邻数字交换的前提下,最短的次数变成有序…

史上最全memcached面试26题和答案

Memcached是什么,有什么作用? Memcached是一个开源的,高性能的内存绶存软件,从名称上看Mem就是内存的意思,而Cache就是缓存的意思。Memcached的作用:通过在事先规划好的内存空间中临时绶存数据库中的各类数…

深度学习笔记(六):Encoder-Decoder模型和Attention模型

版权声明&#xff1a;本文为博主原创文章&#xff0c;未经博主允许不得转载。 https://blog.csdn.net/u014595019/article/details/52826423 </div><link rel"stylesheet" href"https://csdnimg.cn/release/phoenix/template/css/ck_h…

中文自然语言处理向量合集(字向量,拼音向量,词向量,词性向量,依存关系向量)

ChineseEmbedding Chinese Embedding collection incling token ,postag ,pinyin,dependency,word embedding.中文自然语言处理向量合集,包括字向量,拼音向量,词向量,词性向量,依存关系向量.共5种类型的向量. 项目地址&#xff1a;https://github.com/liuhuanyong 项目简介 …

会议 | 2018年全国知识图谱与语义计算大会(CCKS 2018)

2018年全国知识图谱与语义计算大会China Conference on Knowledge Graph and Semantic Computing (CCKS 2018)2018年8月14日-17日&#xff0c;天津征稿截止: 2018年5月18日全国知识图谱与语义计算大会&#xff08;CCKS: China Conference on Knowledge Graph and Semantic Comp…

C++ Primer 第11章 泛型算法 学习总结

文章目录11.2 算法11.2.1 只读算法**1.find函数****2.accumulate函数****3.find_first_of 函数**11.2.2 写容器元素算法1.fill函数2.fill_n函数3.back_inserter插入迭代器4.copy函数5.算法的 _copy 版本11.2.3 排序算法sort&#xff08;起始&#xff0c;结束&#xff09;&#…

到底什么是生成式对抗网络GAN?

时间&#xff1a;2017-05-11 男&#xff1a;哎&#xff0c;你看我给你拍的好不好&#xff1f; 女&#xff1a;这是什么鬼&#xff0c;你不能学学XXX的构图吗&#xff1f; 男&#xff1a;哦 …… 男&#xff1a;这次你看我拍的行不行&#xff1f; 女&#xff1a;你看看你的…

基于法律罪行知识图谱的智能预判与客服问答

CrimeKgAssitant Crime assistant including crime type prediction and crime consult service based on nlp methods and crime kg,罪名法务智能项目,内容包括856项罪名知识图谱, 基于280万罪名训练库的罪名预测,基于20W法务问答对的13类问题分类与法律资讯问答功能. 项目地…

分布式缓存Redis+Memcached经典面试题和答案

Redis相比memcached有哪些优势&#xff1f; &#xff08;1&#xff09; memcached所有的值均是简单的字符串&#xff0c;redis作为其替代者&#xff0c;支持更为丰富的数据类型 &#xff08;2&#xff09; redis的速度比memcached快很多 &#xff08;3&#xff09; redis可以…

卖萌屋福利场:《机器阅读理解》免费送送送!

一只小狐狸带你解锁 炼丹术&NLP 秘籍在送书之前&#xff0c;先来了解一下机器阅读理解是什么&#xff5e;已经很熟悉的小伙伴可以快速下拉进入福利场~机器阅读理解是什么机器阅读理解&#xff08;Machine Reading Comprehension&#xff0c;MRC&#xff09;是一种利用算法使…

CCKS 2018 | 工业界论坛报告简介

China Conference on Knowledge Graph and Semantic Computing 天津&#xff0c;2018年8月14日-8月17日主题1&#xff1a;智能交互中的知识图谱时间&#xff1a;2018.08.17 &#xff08;14:00-15:00&#xff09;地点&#xff1a;天津滨海一号大会场报告1&#xff1a;报告题目&a…

BAT Java面试笔试33题:JavaList、Java Map等经典面试题!答案汇总!

JavaList面试题汇总 1、List集合&#xff1a;ArrayList、LinkedList、Vector等。 2、Vector是List接口下线程安全的集合。 3、List是有序的。 4、ArrayList和LinkedList数据结构不一样&#xff0c;前者用在查询较多的场合&#xff0c;后者适用于插入较多的场合。 5、ArrayL…

基于在线百科知识库的多义词词义消歧项目

WordMultiSenseDisambiguation WordMultiSenseDisambiguation, chinese multi-wordsense disambiguation based on online bake knowledge base and semantic embedding similarity compute,基于百科知识库的中文词语多义项获取与特定句子词语语义消歧. 项目地址:https://gith…

1数组中重复的数字-面试题目3

题外话&#xff1a;找算法&#xff0c;在线编程在面试中占比50%。 听说上面的题外话&#xff0c;依旧重拾艰难困苦之心&#xff0c;翻开剑指offer按照题目类型以及随机抽取&#xff0c;还是决定开始好好的看看剑指offer的在线编程66道题。没有信心的跟我一起做下去&#xff0c…

文本查询TextQuery类文件编写

读取用户指定的任意文本文件&#xff0c;然后允许用户从该文件中查找单词。查询的结果是该单词出现的次数&#xff0c;并列出每次出现所在的行。如果某单词在同一行中多次出现&#xff0c;程序将只显示该行一次。行号按升序显示&#xff0c;即第 7 行应该在第 9 行之前输出&…

什么是小样本学习?这篇综述文章用166篇参考文献告诉你答案

一只小狐狸带你解锁 炼丹术&NLP 秘籍来源&#xff1a;机器之心什么是小样本学习&#xff1f;它与弱监督学习等问题有何差异&#xff1f;其核心问题是什么&#xff1f;来自港科大和第四范式的这篇综述论文提供了解答。数据是机器学习领域的重要资源&#xff0c;在数据缺少的…

CCKS 2018 | 前沿技术讲习班

时间&#xff1a;8月14日-15日地点&#xff1a;南开大学泰达学院大报告厅日程安排时间主题特邀讲者8月14日上午&#xff08;8:30 – 10:00&#xff09;Deep Knowledge Graph Reasoning&#xff08;10:30-12:00&#xff09;Exploiting and Reasoning With Open Knowledge GraphW…

Java必考题目之JVM面试题目和答案

JVM内存模型 首先我们来了解一下JVM的内存模型的怎么样的&#xff1a; 1.堆&#xff1a;存放对象实例&#xff0c;几乎所有的对象实例都在这里分配内存 堆得内存由-Xms指定&#xff0c;默认是物理内存的1/64&#xff1b;最大的内存由-Xmx指定&#xff0c;默认是物理内存的1/4…