新闻事件报道重要性判定项目

EventLine

项目地址:https://github.com/liuhuanyong/ImportantEventExtracto
An exploration for Eventline (important news Rank organized by pulic time),针对某一事件话题下的新闻报道集合,通过使用docrank算法,对新闻报道进行重要性识别,并通过新闻报道时间挑选出时间线上重要新闻。

项目介绍

目前,网络上针对某一特定热门事件会产生大量的报道,这些报道会随着该事件的发展而发生内容上的变化,这个具体表现在时间轴上对应新闻的差异性。因此,这就产生了关于特定事件报道的三个问题:
1、同质的新闻报道有很多,如何对浩如烟海的新闻报道进行代表性新闻抽取
2、如何检测这种内容上的变化,如何表示这种内容,这个涉及到内容的表示问题
3、如何对这种变化的内容进行有效组织和表示
本项目将对这三个问题进行尝试探索

项目构成

1、输入:关于一个特定事件的文本集合,关于文本集合的采集,可以参照https://github.com/liuhuanyong/EventMonitor 中特定事件文本语料库的构建
2、中间模型:融合文章用词特征的DOC-RANK文本重要性排序模型
3、输出:1)important_doc:根据重要性值大小排序的新闻报道结果。
2)timelines:以新闻报道发布时间为时间轴的关键新闻报道集合
其中关于输出:
1)important_doc:从相关性的角度解决了第一个问题
2)timelines:提供了问题3的一个基本解决方法(还相对较low)

实验

1、输入:以’中兴事件’为例,共采集到562篇新闻,举例如下:

'''
2018-05-11 08:50@联发科:目前没有发布不能向中兴出售芯片的相关声明.txt   
2018-04-28 07:57:47@中兴通信发布一季报:如无制裁成绩本应如此亮眼.txt   
2018-05-24 08:08:37@高管调整、巨额罚款,中兴解决方案代价不菲.txt   
2018-04-18 09:02:01@受伤害的不止中兴,还有美国芯片厂!直刺中国集成电路的脆弱内“芯”.txt   
2018-05-26 08:08:16@中兴小鲜4手机(金属机身香槟金指纹)京东556元(赠品).txt   
2018-05-14 10:41@中兴事件戏剧性转折这三个信号意味深长.txt   
'''

2、中间模型:

算法步骤:
1)新闻报道文本分词,去除停用词,并统计文本词频,设定文本最频繁词频阈值。  
2)基于共词算法,计算新闻报道之间的相关性。相关性的方法如下: 
'''计算文章之间的相关性'''
def calculate_weight(self, word_dict1, word_dict2):score = 0interwords = set(list(word_dict1.keys())).intersection(set(list(word_dict2.keys())))for word in interwords:score += round(math.tanh(word_dict1.get(word)/word_dict2.get(word)))return score
3)将2)得到的结果,结合textrank算法,以新闻报道为一个graph中的一个节点,通过迭代至收敛,最终得到一个稳定的节点权重。  
4)对3)得到的结果,按照权重值(对应新闻报道的重要性)由大到小排序,输出至important_doc.txt中  
5)对3)得到的结果,通过对同一日期下的新闻报道重要性进行排序,输出至timelines.txt中  

3、输出important_doc举例

以下是对562篇中兴事件新闻报道中重要性值TOP10

    '''2018-04-29 09:47:00@中兴一石激千浪中国公司担忧的还有另一个“定时炸弹”.txt 1.0  2018-04-21 12:32@10分钟的新闻发布会,中兴透露出一件大事情.txt 0.9930902016486721  2018-04-23 15:38:30@青年力:由中兴开始的2018中美芯片战.txt 0.9866428387088916  2018-04-18 10:43:54@中兴遭美国制裁,芯片这道门槛必须要跨过去.txt 0.844683540929596  2018-04-18 @探究中兴遭禁售令究竟该如何“拆招”?.txt 0.8196911028266617  2018-04-18 07:41:53@数十类别受波及,中兴遭禁售令.txt 0.8177922162226666  2018-04-19 09:09@中兴渡劫:灭顶之灾与吃力不讨好的芯片行业.txt 0.8133495070021921  2018-04-17 10:09@一文读懂中兴遭遇“禁售令”:台湾联发科也被卷入.txt 0.7833879219280031  2018-04-17 21:43:54@中兴被禁,华为、海康告急!中美贸易战直刺中国“缺芯”软肋.txt 0.7696595419937585  2018-04-18 23:38:27@中兴被禁后的“自救与他救”.txt 0.7531341115076232  '''       

4、输出的timeline举例

从标题上来看,中兴事件共经历制裁->转机->解除反思三个阶段,具体如下:

…中兴遭到美国制裁…

    '''20160406 2016-04-06 12:44:20@中兴换帅风波背后,美国:怪我咯.txt 0.5503254129214843  20180417 2018-04-17 10:09@一文读懂中兴遭遇“禁售令”:台湾联发科也被卷入.txt 0.7833879219280031  20180418 2018-04-18 10:43:54@中兴遭美国制裁,芯片这道门槛必须要跨过去.txt 0.844683540929596  20180419 2018-04-19 09:09@中兴渡劫:灭顶之灾与吃力不讨好的芯片行业.txt 0.8133495070021921  20180420 2018-04-20 15:28@中兴被制裁:前欧美市场员工的一些理解和认识.txt 0.6831555731401355 '''

…中兴遭到美国制裁事件出现转机…

    '''20180514 2018-05-14 07:54@中美大国利益博弈:中兴被美制裁或现重大转机!.txt 0.6903169641746736  20180515 2018-05-15 09:52:30@中兴事件迎戏剧性转折特朗普放过中兴的背后有什么条件.txt 0.6593342519411062  20180516 2018-05-16 18:20@凤凰涅中兴中长期价值将被重估.txt 0.7504873311728248  20180517 2018-05-17 17:30@再谈:中兴事件的受益方和受害者们.txt 0.6626479492925067  20180518 2018-05-18 15:16:17@中兴事件或遇转机,专家提示:"缺芯"问题仍需警惕!.txt 0.6293746010076395 '''

…中兴事件解决的讨论与反思…

    '''20180524 2018-05-24 18:26@禁令解除脉络日渐清晰中兴回归或有所期.txt 0.6831951907962789  20180525 2018-05-25 14:57@要如何才能真正“拯救”中兴?.txt 0.65721685858832  20180526 2018-05-26 19:47:02@【金焱看美国】中兴和解,特朗普围堵中国的胜算和败算.txt 0.6926229637369306  20180528 2018-05-28 16:45@中美贸易战“停火”,但中兴真的可以涅槃重生吗?.txt 0.5194249388979124 '''

总结及下一步的工作:

1、本项目中的文本重要性算法只是一个角度,关于重要性的评估还可以有其他方法。
2、从输出的timeline来看,能粗略地看到一个结果,但如何能够真正快速的发现,实际上还有的做。
3、重点解决项目所述的第二个问题

项目地址:https://github.com/liuhuanyong/ImportantEventExtracto
If any question about the project or me ,see https://liuhuanyong.github.io/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480571.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

论文浅尝 | 问题生成(QG)与答案生成(QA)的结合

本文转载自公众号:徐阿衡。梳理一下 MSRA 3 篇关于 QG 的 paper:Two-Stage Synthesis Networks for Transfer Learning in Machine ComprehensionQuestion Answering and Question Generation as Dual TasksA Joint Model for Question Answering and Qu…

卖萌屋算法岗面试手册上线!通往面试自由之路

一只小狐狸带你解锁 炼丹术&NLP 秘籍作为算法工程师,基础知识的重要性自然不必多说。虽然在有些项目中比较难感受到基础的作用,但扎实的coding能力,对算法本质和适用情况的理解,始终是决定工作效率与未来发展的重要feature。这…

NLP-BERT 谷歌自然语言处理模型:BERT-基于pytorch

原文bert的github地址 https://github.com/google-research/bert 谷歌自然语言处理模型BERT:论文解析与python代码 https://github.com/Y1ran/NLP-BERT--ChineseVersion https://daiwk.github.io/posts/nlp-bert.html NLP必读:十分钟读懂谷歌BERT模型…

linux程序运行耗时shell脚本running_time.sh

对一个程序进行多次运行,求其平均运行时间 function timediff() {# time format:date "%s.%N", such as 1502758855.907197692start_time$1end_time$2start_s${start_time%.*}start_nanos${start_time#*.}end_s${end_time%.*}end_nanos${end_time#*.}# …

2019头条抖音Java 3面真题,含面试题答案!

一面: hashmap,怎么扩容,怎么处理数据冲突?怎么高效率的实现数据迁移? Linux的共享内存如何实现,大概说了一下。 socket网络编程,说一下TCP的三次握手和四次挥手 同步IO和异步IO的区别&#…

自然语言处理语言资源项目

项目地址:https://github.com/liuhuanyong/LanguageResources 致力于利用web公开信息,采用爬虫脚本,加工处理形成语言资源包括词汇知识库,领域语料等语言资源,该资源可用于自然语言处理任务. 1、 corpus_resources.py:词库,包括: name:人民日…

深入理解XGBoost

本文的主要内容概览:1 XGBoost简介XGBoost的全称是eXtreme Gradient Boosting,它是经过优化的分布式梯度提升库,旨在高效、灵活且可移植。XGBoost是大规模并行boosting tree的工具,它是目前最快最好的开源 boosting tree工具包&am…

会议 | ESWC2018 见闻

本文转载自公众号:南大Websoft 。 ESWC2018于2018年6月2日在希腊克里特岛上的伊拉克利翁举行。会议包括两天的前会(workshops, tutorials) 和三天的正会,参会人数约300人。KeynotesKeynote1: Structural S…

POJ 1804 逆序数 解题(归并排序)

文章目录解法1:直接双重循环求解,n*n复杂度解法2:采用归并排序求解,复杂度nlgn题目链接 http://poj.org/problem?id1804题目大意:让一串无序数,在只能相邻数字交换的前提下,最短的次数变成有序…

史上最全memcached面试26题和答案

Memcached是什么,有什么作用? Memcached是一个开源的,高性能的内存绶存软件,从名称上看Mem就是内存的意思,而Cache就是缓存的意思。Memcached的作用:通过在事先规划好的内存空间中临时绶存数据库中的各类数…

深度学习笔记(六):Encoder-Decoder模型和Attention模型

版权声明&#xff1a;本文为博主原创文章&#xff0c;未经博主允许不得转载。 https://blog.csdn.net/u014595019/article/details/52826423 </div><link rel"stylesheet" href"https://csdnimg.cn/release/phoenix/template/css/ck_h…

中文自然语言处理向量合集(字向量,拼音向量,词向量,词性向量,依存关系向量)

ChineseEmbedding Chinese Embedding collection incling token ,postag ,pinyin,dependency,word embedding.中文自然语言处理向量合集,包括字向量,拼音向量,词向量,词性向量,依存关系向量.共5种类型的向量. 项目地址&#xff1a;https://github.com/liuhuanyong 项目简介 …

会议 | 2018年全国知识图谱与语义计算大会(CCKS 2018)

2018年全国知识图谱与语义计算大会China Conference on Knowledge Graph and Semantic Computing (CCKS 2018)2018年8月14日-17日&#xff0c;天津征稿截止: 2018年5月18日全国知识图谱与语义计算大会&#xff08;CCKS: China Conference on Knowledge Graph and Semantic Comp…

C++ Primer 第11章 泛型算法 学习总结

文章目录11.2 算法11.2.1 只读算法**1.find函数****2.accumulate函数****3.find_first_of 函数**11.2.2 写容器元素算法1.fill函数2.fill_n函数3.back_inserter插入迭代器4.copy函数5.算法的 _copy 版本11.2.3 排序算法sort&#xff08;起始&#xff0c;结束&#xff09;&#…

到底什么是生成式对抗网络GAN?

时间&#xff1a;2017-05-11 男&#xff1a;哎&#xff0c;你看我给你拍的好不好&#xff1f; 女&#xff1a;这是什么鬼&#xff0c;你不能学学XXX的构图吗&#xff1f; 男&#xff1a;哦 …… 男&#xff1a;这次你看我拍的行不行&#xff1f; 女&#xff1a;你看看你的…

基于法律罪行知识图谱的智能预判与客服问答

CrimeKgAssitant Crime assistant including crime type prediction and crime consult service based on nlp methods and crime kg,罪名法务智能项目,内容包括856项罪名知识图谱, 基于280万罪名训练库的罪名预测,基于20W法务问答对的13类问题分类与法律资讯问答功能. 项目地…

分布式缓存Redis+Memcached经典面试题和答案

Redis相比memcached有哪些优势&#xff1f; &#xff08;1&#xff09; memcached所有的值均是简单的字符串&#xff0c;redis作为其替代者&#xff0c;支持更为丰富的数据类型 &#xff08;2&#xff09; redis的速度比memcached快很多 &#xff08;3&#xff09; redis可以…

卖萌屋福利场:《机器阅读理解》免费送送送!

一只小狐狸带你解锁 炼丹术&NLP 秘籍在送书之前&#xff0c;先来了解一下机器阅读理解是什么&#xff5e;已经很熟悉的小伙伴可以快速下拉进入福利场~机器阅读理解是什么机器阅读理解&#xff08;Machine Reading Comprehension&#xff0c;MRC&#xff09;是一种利用算法使…

CCKS 2018 | 工业界论坛报告简介

China Conference on Knowledge Graph and Semantic Computing 天津&#xff0c;2018年8月14日-8月17日主题1&#xff1a;智能交互中的知识图谱时间&#xff1a;2018.08.17 &#xff08;14:00-15:00&#xff09;地点&#xff1a;天津滨海一号大会场报告1&#xff1a;报告题目&a…

BAT Java面试笔试33题:JavaList、Java Map等经典面试题!答案汇总!

JavaList面试题汇总 1、List集合&#xff1a;ArrayList、LinkedList、Vector等。 2、Vector是List接口下线程安全的集合。 3、List是有序的。 4、ArrayList和LinkedList数据结构不一样&#xff0c;前者用在查询较多的场合&#xff0c;后者适用于插入较多的场合。 5、ArrayL…