ChineseDiachronicCorpus项目,大规模中文历时语料库

ChineseDiachronicCorpus

ChineseDiachronicCorpus,中文历时语料库,横跨六十余年,包括腾讯历时新闻2009-2016,人民日报历时语料1946-2003,参考消息历时语料1957-2002。基于历时流通语料库,可用于历时语言变化计算、语言监测、社会文化变迁研究提供基础性的语料支持。

为什么中文开放数据集如此之难

有的时候我在想,chineseldc基本停滞了,后面除了gluedata benchmark,国内数据集开源为什么这么难?我想了一想,不当当是侵权的问题,有很多原因【不一定对】:
1)研究导向。数据集属于很底层、初级的工作,头部研究注意力放在深度学习上(近年来有好转,比如ccl近2年的best paper 都有侧重),基础数据没人做;
2)版权保护。虽然国家没有出台官方的抓取即违法的政策,但这是大趋势,这个也制约了数据的发布和公开。
3)研究保护。国内开源生态不乐观,发出去,就等着被抄,花费大量人力、物力、财力标注的语料,可能发布出去就直接被使用,形成竞争壁垒。
4)缺乏引导。近年来有意识的在搞平台,比如百度搞千言,民间搞glue benchmark,但最怕做成摆货架。 目前开放了很多的基础评测资源,大大多都是针对英文的【没办法,要国际化,要文章】。
6)缺乏统一的资源开放标准。资源开放标准的制定、推行,是一个自顶向下的行为,制定可行的标准,是今后资源管理、规范化,有效、公正 地评测资源任务的重点。

得语言者得天下,得语言资源者,分得天下。中文语言资源,不应该是这幅模样。

项目的由来

语言是人类重要的交际工具,同时也是社会的镜子,语言记录并反映了社会,对语言记录进行挖掘、计算,可以从各个层面对社会进行解读。例如,基于语料库进行词语考察,以反映单个词语在不同时间周期中的使用及变动情况。 以语料为载体,挖掘出属于某个特定时间周期的社会特点,例如年度关键词、年度人物、年度流行语;对词语进行文化计算,如颜色计算、性别计算、观点计算等,以考察整个社会对某一事物、看法的演变。 当前,开源可用的中文历时语料库较少。代表性的有北京语言大学国家语言资源监测与研究平面媒体中心DCC动态流通语料库,其对国内数十家报纸媒体进行监测,也有中国传媒大学的历时语料库可以使用。

当前,随着网络技术的发展以及采集技术的相对成熟,构建起历时语料库变得越来越容易,这就使得向外界共享历时语料库变得更为便利且必要。 本项目,旨在通过公开收集的方式,从网络媒体和平面媒体两个角度出发,形成腾讯新闻、人民日报、参考消息三大历时语料库,以供社会开放使用。

项目的用途

那么,基于这个语料库,能够做什么呢?总结了下,至少可以从词语考察、语义计算、热度计算、文化计算、媒体对比、语法研究等六个方面开展工作。

用途名称技术手段应用场景
词语考察分词、词频统计通用词表等编写
语义计算共现词、MI搭配、依存搭配搭配等语义词典编写
热度计算流通度计算、术语提取流行语等发布
文化计算颜色计算、性别计算文化变迁
媒体对比媒体差异计算传播学研究
语法研究语法模式检索语法教材与词典编写

项目的获取

对于如何获取数据,下表是对数据集的介绍,需要使用的可以开放下载使用,因涉及版权问题,暂只放数据来源。免责声明:该项目由公开渠道收集而成,不可商用,仅可用于科学研究,若有侵权,可联系删除。

数据名称时间跨度数据大小数据来源
腾讯新闻2009-20165GBhttps://auto.qq.com/l/201104/scrollnews_15.htm
人民日报1946-20033.44GBhttp://www.laoziliao.net/rmrb/
参考消息1957-20021.1GBhttp://www.laoziliao.net/ckxx/

关于作者

刘焕勇,中国科学院软件研究所,兼任数据地平线科技算法总监,专注金融、情报两大领域,从事事件抽取、事件演化、情感分析、事理(知识)图谱、常识推理、语言资源构建与应用等研发工作。如有自然语言处理、知识图谱、事理图谱、社会计算、语言资源建设等问题或合作,可联系我: 1、我的github项目介绍:https://liuhuanyong.github.io
2、我的csdn技术博客:https://blog.csdn.net/lhy2014
3、我的联系方式: 刘焕勇,中国科学院软件研究所,lhy_in_blcu@126.com.
4、我的共享知识库项目:刘焕勇,数据地平线,http://www.openkg.cn/organization/datahorizon.
5、我的工业项目:刘焕勇,数据地平线,大规模实时事理学习系统:https://xueji.datahorizon.cn.
6、我的工业项目:刘焕勇,数据地平线,面向事件和语义的自然语言处理工具箱:https://nlp.datahorizon.cn

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480250.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2019最新拼多多Java面试题:幻影读+分段锁+死锁+Spring Cloud+秒杀

拼多多Java一面 简短自我介绍 事务的ACID,其中把事务的隔离性详细解释一遍 脏读、幻影读、不可重复读 红黑树、二叉树的算法 平常用到哪些集合类?ArrayList和LinkedList区别?HashMap内部数据结构?ConcurrentHashMap分段锁&…

视频问答兴起,多跳问答热度衰退,92篇论文看智能问答的发展趋势

星标/置顶小屋,带你解锁最萌最前沿的NLP、搜索与推荐技术文 | 舒意恒(南京大学硕士生,知识图谱方向)编 | 北大小才女小轶2019年的时候,舒意恒Y.Shu整理了一份《2019年,智能问答有哪些研究方向?…

论文浅尝 | 知识图谱相关实体搜索

本文转载自公众号:南大Websoft。相关搜索(Relevance Search)是信息检索中的一个经典问题,相关搜索是指给定一个查询实体,返回与其相关度最高的实体(一个类似的问题Similarity Search,一般来说指…

最新美团Java面试题目(共3面)

一面 线程池用过哪些,线程池有哪些参数,然后问我几个常用线程池的用法和实际场景问题。 集合框架的知识,hashmap,ArrayList,LinkedList源码相关知识,基本整个介绍了一遍,与hastable&#xff0c…

PersonGraphDataSet近十万的开放人物关系图谱项目

PersonGraphDataSet PersonGraphDataSet, nearly 10 thousand person2person relationship facts that build from extraction method, which can be applied to person kg search and inference applications。 人物图谱数据集,近十万的人物关系图谱事实数据库&am…

图Graph--寻找二度好友(BFS应用)

社交网络可以用图来表示(查阅图的概念)。 寻找二度好友,这个问题就非常适合用图的广度优先搜索BFS算法来解决,因为广度优先搜索是层层往外推进的。 首先,遍历与起始顶点最近的一层顶点,也就是用户的一度好…

java教程-scala教程-带你从菜鸟入门

java教程-菜鸟教程 https://www.runoob.com/java/java-tutorial.html scala教程-菜鸟教程 https://www.runoob.com/scala/scala-intro.html 使用 Scala 语言开发 Spark 应用程序 https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice1/

技术动态 | TechKG:一个面向中文学术领域的大型知识图谱

作者:东北大学-知识图谱研究组 任飞亮TechKG 是一个面向中文、面向学术、多领域的大型知识图谱知识库,知识库由“东北大学-知识图谱研究组”开发完成。和已有知识图谱如 Freebase 或 YAGO 相比,TechKG 具有如下主要特点:1、是一个…

技术总结:图算法、开源工具及其在工业界的应用场景概述

知识图谱本质上是一种图结构,在图内部数据规模大且质量高、外部算力足够的情况下,充分利用好图算法,能够最大程度地发挥出其数据价值。实际上,图(Graph)是一个常见的数据结构,现实世界中有很多很…

SIGIR2020 | 淘宝提出结合知识图谱与大规模推荐的新框架ATBRG

星标/置顶小屋,带你解锁最萌最前沿的NLP、搜索与推荐技术文 | 江城编 | 夕小瑶今天分享一篇淘宝发表在 SIGIR2020 上的关于知识图谱应用于大规模推荐的论文《ATBRG: Adaptive Target-Behavior Relational Graph Network for Effective Recommendation》&#xff0c…

图Graph--农夫过河问题(BFS/DFS应用)

农夫过河问题: /*** description: 农夫过河问题(羊,白菜,狼),一次最多带一个东西过河,* 农夫不在的情况下羊会吃白菜,狼会吃羊,如何平安过河* author…

机器学习之「二分类算法」-----银行营销案例分析

原文地址&#xff1a; <di&#xff1a;https://blog.csdn.net/weixin_44696674/article/details/88231922iv id“article_content” class“article_content clearfix” data-track-view"{“mod”:“popu_307”,“con”:",https://blog.csdn.net/weixin_44696674/…

论文浅尝 | 直译优于翻译?混合语言的知识库问答方法研究

动机作者思考&#xff0c;如果一个人懂多个语言&#xff0c;那么只要他知道某一语言的某个事实&#xff0c;就能以它作为另一语言问题的答案&#xff0c;同时希望证明计算机是否也能做到这一点&#xff0c;并完成混合语言的简单问题知识问答任务&#xff08;Code-Mix Simple Qu…

2018最新Java面试78题:数据结构+网络+NoSQL+分布式架构

算法和数据结构 数组、链表、二叉树、队列、栈的各种操作&#xff08;性能&#xff0c;场景&#xff09; 二分查找和各种变种的二分查找 各类排序算法以及复杂度分析&#xff08;快排、归并、堆&#xff09; 各类算法题&#xff08;手写&#xff09; 理解并可以分析时间和空…

工程实践:基于规则模式的军事和医药领域知识图谱问答快速实现

知识结构化问答是知识图谱的一个重要的应用方向&#xff0c;虽然现在许多真实的使用体验上&#xff0c;会被评价为“鸡肋且智障”&#xff0c;并且在落地上还没有太多的付费场景&#xff0c;但也不乏有不少学生、公司、机构在尝试花时间去做这个事情。当前&#xff0c;医疗知识…

图Graph--最小生成树

文章目录1.概念2.构造最小生成树Prim算法3.构造最小生成树Kruskal算法1.概念 对图运用不同的遍历方法就可能得到图的不同遍历顺序&#xff0c;每一种遍历顺序对应于一棵生成树对于无向连通图&#xff0c;所有的生成树中必有一棵树的所有边的权的总和最小的&#xff0c;称之为最…

随机森林RF、XGBoost、GBDT和LightGBM的原理和区别

随机森林RF、XGBoost、GBDT和LightGBM的原理和区别 https://www.cnblogs.com/hugechuanqi/p/10554156.html

Longformer:超越RoBERTa,为长文档而生的预训练模型

星标/置顶小屋&#xff0c;带你解锁最萌最前沿的NLP、搜索与推荐技术文 | ChrisCao, 小轶前言今天要与大家分享的是AllenAI今年发表的最新工作&#xff0c;Longformer——一种可高效处理长文本的升级版Transformer。作者团队提供了开源代码&#xff0c;大家可快速复现&#xff…

工程实践:基于规则句法的事件关系与主谓宾三元组抽取项目实现

目前&#xff0c;知识图谱在学术界如火如荼地进行&#xff0c;但受限于知识图谱各个环节中的性能问题&#xff0c;还尚未能够在工业界大规模运用。而与知识图谱中以实体为知识节点&#xff0c;实体关系为实体关系边对知识进行组织不同&#xff0c;以事件作为节点&#xff0c;事…

论文浅尝 | LightRNN:存储和计算高效的 RNN

链接&#xff1a;https://arxiv.org/pdf/1610.09893.pdf动机在NLP任务中使用RNN已经被证明是很有用的模型方法。但是传统的RNN在NLP中的应用有一个很大的限制&#xff1a;RNN的输出输入Embedding占用的空间太大&#xff0c;比如1024维10M词表大小的Embedding矩阵就要占掉40GB&a…