中国古代诗词文本挖掘项目

PoemMining

项目地址:https://github.com/liuhuanyong/PoemMining

Chinese Classic Poem Mining Project including corpus buiding by spyder and content analysis by nlp methods, 基于爬虫与nlp的中国古代诗词文本挖掘项目

项目介绍

中国古代诗词文化无疑是文化瑰宝,如何运用计量语言学方法对古代诗词进行挖掘,将有重要意义,本项目将从以下几个方面进行尝试:
1)基于诗词集合的诗人画像生成
2)基于诗词集合的诗人地点足迹识别
3)基于诗词集合的相似诗人聚类, 基于ATM模型,user2vec模型
4)基于诗词集合的情绪分类,标签自动生成
5)基于诗词集合的意象挖掘

项目结构

项目主要包括两个任务:

  1. 古代诗词语料库的构建
  2. 基于古代诗词语料库的挖掘

脚本结构

1, poem_spider.py:主要完成古代诗词语料库的构建,选取的是古诗文网 (https://so.gushiwen.org),结果已经保存至corpus_poem.zip文件当中
2, poem_process.py:主要基于构建起来的古诗词语料库,进行基础的文本分析,根据网站上的用户交互信息,得到古诗词文本本身的外部信息
3, atm_model.py:利用作者-主题模型,对古诗词进行主题分析,最终目的是实现作者主题分布与风格聚类
4, location_mining.py:基于诗人百科生平记事的地点挖掘与可视化,最终最终实现对诗人关联地点的一键生成.

阶段性成果

1, 古代诗词语料库,一共采集到92127首古代诗词
2, 古代诗词外部计量分析结果,结果保存至result文件夹
3, 诗人足迹一键生成,使用方式如下,结果会直接生成以搜索诗人名字命名的html文件:

from location_mining import *
name = '李白'
handler = PoetWalk()
handler.mining_main(name)

以下是举例结果:
李白足迹
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0HlEtZcN-1620385857536)(https://github.com/liuhuanyong/PoemMining/blob/master/image/libai.png)]
李清照足迹
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-crznPo41-1620385857538)(https://github.com/liuhuanyong/PoemMining/blob/master/image/lqz.png)]
苏轼足迹
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-oaI4cX4T-1620385857539)(https://github.com/liuhuanyong/PoemMining/blob/master/image/sushi.png)]
文天祥足迹
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Hcrw7y5S-1620385857540)(https://github.com/liuhuanyong/PoemMining/blob/master/image/wtx.png)]

项目地址:https://github.com/liuhuanyong/PoemMining

If any question about the project or me ,see https://liuhuanyong.github.io/

在这里插入图片描述
我的公众号:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480577.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

推荐系统的价值观

一只小狐狸带你解锁炼丹术&NLP秘籍 前言 推荐系统作为满足人类不确定性需求的一种有效工具,是具有极大价值的,这种价值既体现在提升用户体验上,又体现在获取商业利润上。对绝大多数公司来说,提升用户体验的最终目标也是为了获…

POJ1003/1004/1005/1207/3299/2159/1083/3094/2388解题(刷一波水题)

POJ 1003 题目链接 http://poj.org/problem?id1003 大意&#xff1a;长度1/21/3…1/n&#xff0c;给定长度值&#xff0c;求n #include<iostream> using namespace std; int main() {float len 0,sum;int n;while(cin >> len && len ! 0){for(n2,sum0;s…

论文浅尝 | 远程监督关系抽取的生成式对抗训练

动机远程监督关系抽取方法虽然可以使用知识库对齐文本的方法得到大量标注数据&#xff0c;但是其中噪声太多&#xff0c;影响模型的训练效果。基于 bag 建模比基于句子建模能够减少噪声的影响&#xff0c;但是仍然无法克服 bag 全部是错误标注的情形。为了换机噪声标注&#xf…

谷歌最强NLP模型BERT官方代码来了!GitHub一天3000星

新智元报道 来源&#xff1a;GitHub 作者&#xff1a;Google Research 编辑&#xff1a;肖琴 【新智元导读】谷歌AI团队终于开源了最强NLP模型BERT的代码和预训练模型。从论文发布以来&#xff0c;BERT在NLP业内引起巨大反响&#xff0c;被认为开启了NLP的新时代。 BERT的官方…

Java经典基础与高级面试36题和答案

在Java面试的首轮&#xff0c;经常会问很多关于Java面试基础以及高级的问题&#xff0c;今天收集相关Java面试36题和答案分享出来。 1.”static”关键字是什么意思&#xff1f;Java中是否可以覆盖&#xff08;override&#xff09;一个private或者是static的方法&#xff1f; …

新闻事件报道重要性判定项目

EventLine 项目地址&#xff1a;https://github.com/liuhuanyong/ImportantEventExtracto An exploration for Eventline (important news Rank organized by pulic time)&#xff0c;针对某一事件话题下的新闻报道集合&#xff0c;通过使用docrank算法&#xff0c;对新闻报道…

论文浅尝 | 问题生成(QG)与答案生成(QA)的结合

本文转载自公众号&#xff1a;徐阿衡。梳理一下 MSRA 3 篇关于 QG 的 paper&#xff1a;Two-Stage Synthesis Networks for Transfer Learning in Machine ComprehensionQuestion Answering and Question Generation as Dual TasksA Joint Model for Question Answering and Qu…

卖萌屋算法岗面试手册上线!通往面试自由之路

一只小狐狸带你解锁 炼丹术&NLP 秘籍作为算法工程师&#xff0c;基础知识的重要性自然不必多说。虽然在有些项目中比较难感受到基础的作用&#xff0c;但扎实的coding能力&#xff0c;对算法本质和适用情况的理解&#xff0c;始终是决定工作效率与未来发展的重要feature。这…

NLP-BERT 谷歌自然语言处理模型:BERT-基于pytorch

原文bert的github地址 https://github.com/google-research/bert 谷歌自然语言处理模型BERT&#xff1a;论文解析与python代码 https://github.com/Y1ran/NLP-BERT--ChineseVersion https://daiwk.github.io/posts/nlp-bert.html NLP必读&#xff1a;十分钟读懂谷歌BERT模型…

linux程序运行耗时shell脚本running_time.sh

对一个程序进行多次运行&#xff0c;求其平均运行时间 function timediff() {# time format:date "%s.%N", such as 1502758855.907197692start_time$1end_time$2start_s${start_time%.*}start_nanos${start_time#*.}end_s${end_time%.*}end_nanos${end_time#*.}# …

2019头条抖音Java 3面真题,含面试题答案!

一面&#xff1a; hashmap&#xff0c;怎么扩容&#xff0c;怎么处理数据冲突&#xff1f;怎么高效率的实现数据迁移&#xff1f; Linux的共享内存如何实现&#xff0c;大概说了一下。 socket网络编程&#xff0c;说一下TCP的三次握手和四次挥手 同步IO和异步IO的区别&#…

自然语言处理语言资源项目

项目地址&#xff1a;https://github.com/liuhuanyong/LanguageResources 致力于利用web公开信息,采用爬虫脚本,加工处理形成语言资源包括词汇知识库,领域语料等语言资源,该资源可用于自然语言处理任务. 1、 corpus_resources.py:词库&#xff0c;包括&#xff1a; name:人民日…

深入理解XGBoost

本文的主要内容概览&#xff1a;1 XGBoost简介XGBoost的全称是eXtreme Gradient Boosting&#xff0c;它是经过优化的分布式梯度提升库&#xff0c;旨在高效、灵活且可移植。XGBoost是大规模并行boosting tree的工具&#xff0c;它是目前最快最好的开源 boosting tree工具包&am…

会议 | ESWC2018 见闻

本文转载自公众号&#xff1a;南大Websoft 。 ESWC2018于2018年6月2日在希腊克里特岛上的伊拉克利翁举行。会议包括两天的前会(workshops, tutorials) 和三天的正会&#xff0c;参会人数约300人。KeynotesKeynote1: Structural S…

POJ 1804 逆序数 解题(归并排序)

文章目录解法1&#xff1a;直接双重循环求解&#xff0c;n*n复杂度解法2&#xff1a;采用归并排序求解&#xff0c;复杂度nlgn题目链接 http://poj.org/problem?id1804题目大意&#xff1a;让一串无序数&#xff0c;在只能相邻数字交换的前提下&#xff0c;最短的次数变成有序…

史上最全memcached面试26题和答案

Memcached是什么&#xff0c;有什么作用&#xff1f; Memcached是一个开源的&#xff0c;高性能的内存绶存软件&#xff0c;从名称上看Mem就是内存的意思&#xff0c;而Cache就是缓存的意思。Memcached的作用&#xff1a;通过在事先规划好的内存空间中临时绶存数据库中的各类数…

深度学习笔记(六):Encoder-Decoder模型和Attention模型

版权声明&#xff1a;本文为博主原创文章&#xff0c;未经博主允许不得转载。 https://blog.csdn.net/u014595019/article/details/52826423 </div><link rel"stylesheet" href"https://csdnimg.cn/release/phoenix/template/css/ck_h…

中文自然语言处理向量合集(字向量,拼音向量,词向量,词性向量,依存关系向量)

ChineseEmbedding Chinese Embedding collection incling token ,postag ,pinyin,dependency,word embedding.中文自然语言处理向量合集,包括字向量,拼音向量,词向量,词性向量,依存关系向量.共5种类型的向量. 项目地址&#xff1a;https://github.com/liuhuanyong 项目简介 …

会议 | 2018年全国知识图谱与语义计算大会(CCKS 2018)

2018年全国知识图谱与语义计算大会China Conference on Knowledge Graph and Semantic Computing (CCKS 2018)2018年8月14日-17日&#xff0c;天津征稿截止: 2018年5月18日全国知识图谱与语义计算大会&#xff08;CCKS: China Conference on Knowledge Graph and Semantic Comp…

C++ Primer 第11章 泛型算法 学习总结

文章目录11.2 算法11.2.1 只读算法**1.find函数****2.accumulate函数****3.find_first_of 函数**11.2.2 写容器元素算法1.fill函数2.fill_n函数3.back_inserter插入迭代器4.copy函数5.算法的 _copy 版本11.2.3 排序算法sort&#xff08;起始&#xff0c;结束&#xff09;&#…