2004-2019十六年热点事件库HistoryHotEventBase项目

HistoryHotEventBase

     historyhotevent projrct ,which concentrate on the dayily hot event covers the time range from 2004 to 2019, 16 years in total,从2004年至2019年共16年的每日热点事件项目,目标包括构建起从2004年至今共16年的历时热点标题数据库,构建16年历时事件热点知识库。

项目介绍

     热点挖掘是舆情分析中十分重要的内容之一,热点刻画了目前我们所生活的社会发展状况。热点从类型上来说,包括热点实体以及热点事件两种,前者主要围绕着热点的实体展开,包括热点人物、热点电影、热点电视剧、热点经典等,描述的是人类对某种事物物体的关注程度。热点事件则在语义上较热点实体更为丰富,往往包括什么人做了什么事情,引起社会的强烈关注。后者的存现载体主要有热点微博,热点新闻等。
     从热点的任务角度上来说,热点挖掘包括热点的表示,热点的发现,热点的演化追踪共三个方面的内容。其中,概括性事件表示上,大多使用话题挖掘的方式,使用热点标签词或短语进行热点表示,还是停留在一个较为抽象的层级上。目前学界关于该热点的任务主要有TDT话题检测语追踪项目以及timeline和storyline的工作,其中如何自动挖掘和生成storyline是目前热点挖掘的重点,同时也是难点所在。在工业界中,搜索公司百度凭借着搜索入口,在热点的挖掘上有先发优势,如每日推出的百度风云榜,以及热点新闻的聚类。如图1,百度每日热点风云榜,图2的热点新闻聚类。
1、百度每日热点风云榜在这里插入图片描述

2、百度热点新闻聚类
在这里插入图片描述
     就第一张图的效果来看,主要在热点名称的概括上,很像是使用了类似频繁热点短语的方式来确定。就第二张图的效果来看,主要涉及到的技术包括热点新闻的聚类技术。
     不过,很遗憾的是,我们只能看到当日的热点,百度并不提供历时的热点查看功能,这对于历史热点的发展和挖掘来是个遗憾,因此,问题来了,如何来解决这个问题?主要有两种方式:一种是从今天开始定时抓取每日热点页面并记录到数据库,另一种是换一个方式,找具有历时热点的网站自己提取。第一种方式来源直接,但过去的数据缺失太多,第二种方式则获取较为间接,需要依靠算法进行提取,但覆盖面很广。比如,新浪新闻给予了从2004年至2019年共16年的语料,这不得不说是一块宝藏,如下图所示:
在这里插入图片描述
     新浪每日都对热点新闻进行了展示,根据点击量、分享数等进行了热点排序,并且按照各类主题(国内、国外、社会、军事)等进行了归类。虽然页面中只展示了几条记录,但根据后台数据接口,可以获取每日每个主题下前100的新闻数量,并且包括新闻的各类信息。在采集的过程中发现,新浪新闻进行了多次改版,分别是2005年04月02日,2017年12月18日。后台上经历了几次变化,有2014年05月09日,2015年04月01日,2017年10月15日都发生了变化。通过更改相关的参数,可以应对这些差异。关于这部分的工作可以参考history_hot.py文件。
     因此,本项目的两个目的:
1、构建起历时热点新闻标题库,年度范围为2004年至2019年。
2、基于构建起的历时热点新闻标题库,提取每日新闻热点,形成历时热点知识库。

项目脚本

     history_hot.py:采集代码
     data/data.json:历时数据,包含了国内新闻和国外新闻标题,从2004年到2019年共16年的新闻标题。
     数据样例为:date:新闻日期,topic:新闻类别,分别为guonei_jd和guowai_dj,titles指每日的新闻列表,格式为新闻标题####url:

{ “_id” : { “$oid” : “5cb88b49831b971bd6bbb0d6” },
“date” : “20100101”, “topic” : “guoji_dj”,
“titles” : [ “解读哥本哈根会议五大争议:体制问题成焦点####http://news.sina.com.cn/w/sd/2009-12-07/160819208146.shtml”,
“日本媒体称韩国将与中日协商建海底隧道(图)####http://news.sina.com.cn/w/2009-12-07/074719204903.shtml”,
“英国越狱逃犯网上公布照片挑衅警方(组图)####http://news.sina.com.cn/w/p/2009-12-30/041819364331.shtml”, “组图:澳大利亚西部大火烧毁数十栋房屋####http://news.sina.com.cn/w/p/2009-12-31/082419374687.shtml”, “法国失踪客机可能是由于电路故障所致####http://news.sina.com.cn/w/2009-06-02/102817934412.shtml”, “英国男子狂减300公斤新年获新生####http://news.sina.com.cn/w/2009-12-31/081619374613.shtml”, “伊朗欲从哈萨克斯坦进口1350吨提纯铀####http://news.sina.com.cn/w/2009-12-30/095616855283s.shtml”, “组图:英国人质在伊拉克被扣押2年半后获释####http://news.sina.com.cn/w/p/2009-12-31/084919374964.shtml”, “罗马尼亚性感女部长手握巨额政府资金遭质疑####http://news.sina.com.cn/w/p/2009-12-30/094519367352.shtml”, “贝卢斯科尼将用挨揍流血照片做竞选海报####http://news.sina.com.cn/w/2009-12-30/174719370367.shtml”, “墨西哥搭建110米高圣诞树创世界纪录####http://news.sina.com.cn/w/2009-12-06/195519201877.shtml”, “朝鲜更换货币 兑换比率为1比100(组图)####http://news.sina.com.cn/w/p/2009-12-09/073719220582.shtml”, “日本研制出机器蜂鸟可在空中悬停####http://news.sina.com.cn/w/2009-12-30/021319363467.shtml”, “波兰称两年后开始从阿富汗撤军####http://news.sina.com.cn/w/2009-12-31/051219372581.shtml”, “美国网站公布男模艳照酷似肯尼迪 美媒全部上当####http://news.sina.com.cn/w/2009-12-30/041819364360.shtml”, “英国解密档案:撒切尔夫人对威士忌情有独钟####http://news.sina.com.cn/w/2009-12-31/075619374302.shtml”, “据称默多克与中国妻子邓文迪分居(图)####http://news.sina.com.cn/w/2009-12-07/021319202357.shtml”, “俄罗斯圣彼得堡降下130年来最强暴雪(组图)####http://news.sina.com.cn/w/p/2009-12-30/111819368219.shtml”, “印度电视台播放86岁高官性爱录像引发争议####http://news.sina.com.cn/w/2009-12-27/032019345529.shtml”, “十年搜索排行榜大事记:印度洋海啸灾难####http://news.sina.com.cn/w/2009-12-24/180719331894.shtml”, “伊朗政府号召支持者走上街头向反对派显示力量####http://news.sina.com.cn/w/2009-12-31/093219375375.shtml”, “朝鲜货币改革后工人工资增百倍####http://news.sina.com.cn/w/2009-12-30/093519367543.shtml”, “苏里南骚乱致25人伤7人失踪####http://news.sina.com.cn/w/2009-12-31/084419374942.shtml”, “以色列前核武技术员与外国女友幽会被捕(图)####http://news.sina.com.cn/w/2009-12-30/140319368665.shtml”, “韩裔美国男子非法入朝系有意而为####http://news.sina.com.cn/w/2009-12-30/065919365575.shtml”, “2009全球十大戏剧性事件盘点:奥巴马伍兹均上榜####http://news.sina.com.cn/w/2009-12-23/125919321727.shtml”, “科威特否认本国油轮遭海盗袭击####http://news.sina.com.cn/w/2009-12-31/044619372260.shtml”, “2010年新年夜北美及欧洲将出现蓝色月亮(图)####http://news.sina.com.cn/w/2009-12-30/150319369297.shtml”, “朝鲜媒体称解决核问题非改善朝韩关系前提####http://news.sina.com.cn/w/2009-12-28/103719352776.shtml”,] }

项目结果

总结

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480413.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

OSI七层模型详解-开放系统互联参考模型详解

原文链接:https://blog.csdn.net/yaopeng_2005/article/details/7064869 OSI 七层模型通过七个层次化的结构模型使不同的系统不同的网络之间实现可靠的通讯,因此其最主要的功能就是帮助不同类型的主机实现数据传输 。 完成中继功能的节点通常称为中继系…

最新天猫Java3轮面试题目:虚拟机+并发锁+Sql防注入+Zookeeper

天猫一面 自我介绍、项目介绍 Spring拦截器、实现了哪些方法?底层原理 AOP如何配置,底层原理、2种动态代理,aop注解实现,xml定义切面 Bean的作用域,单例模式是否线程安全?恶汉模式是否线程安全&#xff…

NLP中的少样本困境问题探究

一只小狐狸带你解锁 炼丹术&NLP 秘籍作者:JayLou娄杰(NLP算法工程师,信息抽取方向)前言在医疗、金融、法律等领域,高质量的标注数据十分稀缺、昂贵,我们通常面临少样本低资源问题。本文从「文本增强」和…

军事武器知识图谱构建与自动问答项目QAonMilitaryKG

QAonMilitaryKG QAonMilitaryKG,QaSystem based on military knowledge graph that stores in mongodb which is different from the previous one, 基于mongodb存储的军事领域知识图谱问答项目,包括飞行器、太空装备等8大类,100余小类&#…

python--从入门到实践--chapter 9 类

类的定义格式: class Name(Father_class):def __init__(self, para, ...):self.para xdef __init__(self, para, ...):super().__init__(para, ...) #调用父类的构造函数class Car():def __init__(self,make,model,year): #构造函数self.make makeself.model mo…

连载 | 知识图谱发展报告 2018 -- 前言

OpenKG 将开始连载《知识图谱发展报告(2018)》,希望该连载能够让更多的人深入了解知识图谱。欢迎各位读者留言讨论。1. 知识图谱的研究目标与意义 知识图谱(Knowledge Graph)以结构化的形式描述客观世界中概念、实体及其关系,将互…

网址(url),域名,ip地址,dns,hosts之间的关系

网址(url),域名,ip地址,dns,hosts之间的关系 什么是ip? 我们知道,在Internet上有千百万台主机,为了区分这些主机,人们给每台主机都分配了一个专门的地址&…

事理图谱概念辨析及其与风险标签分类结合的应用探讨

以事件为描述核心,以揭示事件之间的演化逻辑关系的事理图谱自提出后,引起了工业界的极大兴趣,在积极探索事理图谱本质、事理图谱构建技术细节的同时,如何找到技术与应用场景之间的结合成为目前广泛讨论的问题。我们团队持续对以上…

一篇文章带你熟悉 TCP/IP 协议(网络协议篇二)

涤生_Woo2017年11月11日阅读 15544关注一篇文章带你熟悉 TCP/IP 协议(网络协议篇二)同样的,本文篇幅也比较长,先来一张思维导图,带大家过一遍。一图看完本文一、 计算机网络体系结构分层计算机网络体系结构分层计算机网…

PyTorch数据Pipeline标准化代码模板

前言PyTorch作为一款流行深度学习框架其热度大有超越TensorFlow的感觉。根据此前的统计,目前TensorFlow虽然仍然占据着工业界,但PyTorch在视觉和NLP领域的顶级会议上已呈一统之势。这篇文章笔者将和大家聚焦于PyTorch的自定义数据读取pipeline模板和相关…

2019 最全支付宝高级Java现场面试37题

支付宝现场三面面试题目,文末有福利:阿里经典面试88题目答案 01 支付宝一面 介绍一下自己。 项目参与的核心设计有哪些 ArrayList和LinkedList底层 HashMap及线程安全的ConcurrentHashMap,以及各自优劣势 Java如何实现线程安全 Synchronized和Lock…

腾讯互娱刘伟 | 知识图谱在运维中的应用

本文转载自公众号:InfoQ。随着业务监控建设不断完善,海量业务故障时产生成百上千条告警,如何智能定位故障根源、实时统计业务影响是现阶段运营面临的一个难题。Google 利用知识图谱优化了其搜索服务以来,知识图谱得到了迅速发展。…

中文人物关系图谱构建与应用项目(人物关系抽取,关系抽取评测)

ChinesePersonRelationGraph ChinesePersonRelationGraph, person relationship extraction based on nlp methods.中文人物关系知识图谱项目,内容包括中文人物关系图谱构建,基于知识库的数据回标,基于远程监督与bootstrapping方法的人物关系抽取,基于知识图谱的知识问答等应用…

2019 最新阿里中间件Java 4轮面试题!60万年薪起步~

Java中间件一面 1.技术一面考察范围: 重点问了Java线程锁:synchronized 和ReentrantLock相关的底层实现 线程池的底层实现以及常见的参数 数据结构基本都问了一遍:链表、队列等 Java内存模型:常问的JVM分代模型,以…

0011【冥想】87天冥想感悟汇总

0011【冥想】87天冥想感悟汇总 2018.1.6 Day1图片发自简书App1.7 Day2图片发自简书App❤️1.8冥想Day3❤️听了谷老师的分享,挺受益的。当我们的心越来越柔软,身体也会越来越柔软,所谓相由心生,冥想的时候,身体也会听从…

这个自然语言处理“工具”,玩得停不下来

今天推荐一个有趣的自然语言处理公众号「AINLP」,关注后玩得根本停不下来!AINLP的维护者是我爱自然语言处理(52nlp)博主,他之前在腾讯从事NLP相关的研发工作,目前在一家创业公司带技术团队。AINLP公众号的定…

观点 | 抛开炒作看知识图谱,为什么现在才爆发?

本文转载自公众号:AI前线。 作者 | George Anadiotis 译者 | 无明 导读:知识图谱究竟是什么,都有哪些围绕它们的炒作?如果你想要像 Airbnb、亚马逊…

算法--排序--寻找数组内第K大的元素

此题目,需要用到快速排序里的划分数组操作: 快排参考:https://blog.csdn.net/qq_21201267/article/details/81516569#t2 先选取一个合适的哨兵(三数取中法)将数组分成三部分【小于哨兵的】【哨兵】【大于等于哨兵的】…

淘宝网Java五面:现场面试49题含答案!

淘宝一面: 面试介绍 1)自我介绍? 2)项目介绍? 3)遇到的最大困难是什么?怎么解决的? 4)你觉得你能怎么优化这个项目? 面试题目 1)讲一下JVM 2&#xff…

告别自注意力,谷歌为Transformer打造新内核Synthesizer

一只小狐狸带你解锁 炼丹术&NLP 秘籍作者:舒意恒(南京大学硕士生,知识图谱方向)今天给大家介绍一篇来自Google的最新论文《SYNTHESIZER: Rethinking Self-Attention in Transformer Models》[4],该论文重新探索了T…