高质量新闻数据集OpenNewsArchive:880万篇主流新闻报道,国产大模型开源数据又添猛料

在构建国产大语言模型的道路上,高质量新闻是不可或缺的重要语料之一。这类语料集准确性逻辑性时效性于一体,同时包含丰富的事实知识,可以大幅提升模型的文本生成质量词汇表达能力事件理解分析能力以及时序内容的适应性和预测能力,使其在现实世界的应用中更加准确和可靠。

近日 ,为了更好地满足大模型研发的数据需求,大模型语料数据联盟开源了大规模、高质量新闻数据集——开放新闻库数据集(OpenNewsArchive),提供了多个主流媒体来源、多种主题类型、共计880万篇新闻文章信息,为研究人员和数据科学家提供了丰富的文本数据资源。一起来看看。

一、开放新闻库介绍(OpenNewsArchive)

开放新闻库(OpenNewsArchive)数据集是由OpenDataLab联合蜜度、商汤等多家联盟机构进行开源开发,其中包含了880万篇新闻文章的信息,涵盖了各种不同主题和来源的新闻内容。每篇新闻文章包括字段如标题、内容、发布日期、语言等,且数据集的内容经过数据清洗去重等处理,为研究人员和数据科学家提供了丰富的文本数据资源。

下载链接:https://opendatalab.com/OpenDataLab/OpenNewsArchive

数据集具有三大亮点:

● 内容全面覆盖多个板块:包含财经、健康、军事、体育、房产、社会、学术等多个板块分类的新闻内容,涵盖广泛。

● 无毒性内容和价值偏见:新闻内容不含有害信息或偏见观点,确保信息公正客观。

● 保持新闻内容更新:数据集中包含的新闻发布日期主要集中在2023年,相较于其他已知的开放新闻数据集,具有较高的时效性,有利于提高模型预测的准确性与应对能力。

二、数据处理方法

1. 处理HTML标签:针对文本中含有HTML标签的部分进行清洗,去除标签并保留文本内容的可读性。

2. 清洗无效文本:删除全文无标点的文本和文本长度过短的部分,确保数据集中的文本质量。

3. 清除特殊字符:删除文本中的特殊字符,包括emoj表情、特殊符号等,保持文本干净规范。

4. 处理重复内容:去除重复的段落,确保每个新闻内容唯一。

5. 清洗混入的不明文本:逐行检查处理文本中包含关键词的句子或内容,确保数据集的纯净性。

6. 删除非法语言部分:排除非汉语和英语以外的语言内容,确保数据集的语言合法性。

三、数据信息

1. 基本信息

● 数据模态:纯文本数据

● 主要语言:中文、英文;(中文占比超过99.9%)

● 数据量:27GB;880万篇文章

● 数据格式:以Jsonlines形式存储的语料文本与附加信息

2.  统计信息

图片

(开放新闻库数据集中2023年发布的新闻最多)

3. 数据样例

{"id": "Bl4ERwIANjygAeAMbr6A","content": "如今的NBA,来到一个群雄争霸的时代,因为老一辈超级球星还没完全跌落神坛,像詹姆斯、杜兰特、库里、哈登、欧文等球员,仍能带领球队保持一定的竞争力,与此同时,各新生代年轻球星也冉冉升起,要逐渐成为联盟未来的门面了,最有潜力的当属锡安、亚历山大、福克斯、文班亚马这些球员。此外,联盟还不缺乏那种大器晚成的球星,像现役三大统治级别球员,约基奇、字母哥和恩比德,他们在职业生涯早期并没有大放异彩,如今都已成为联盟TOP5级别的超级球星。在这样的环境之下,新赛季豪门球队众多,竞争相当激烈,大多数球队都拥有两个或以上的明星级别球员。\n不过说实话,有些球队虽然阵容豪华,但球星之间适配性不够强,产生不了良好的化学反应,一个典型的例子就是独行侠。独行侠拥有东契奇和欧文两大球星,他们还是上赛季联盟唯一一支,拥有两个全明星首发球员的队伍。即便如此,独行侠最终位仅列西部第11,季后赛的门票都没拿到。东契奇和欧文个人属性太重叠,都需要持球发动进攻,且两人防守端偏弱,同时在场时外线必然要出现防守漏洞。此外,快船这样的球队也有些华而不实,主要原因在于“卡椒”组合,伤病隐患太大,一到季后赛就出岔子,威少爷也不在巅峰期了。\n还有一些球队,他们阵容好看,硬实力也强,比如说西部这边的太阳,东部这边的凯尔特人,雄鹿。太阳现在是杜兰特+比尔+布克的三巨头坐镇,而凯尔特人经过休赛期的阵容变动之后,目前拥有4名全明星球员,那就是塔图姆、布朗、波尔津吉斯和霍勒迪。然而实际上,绿军主要还是围绕着双探花,塔图姆和布朗两个球员打,他们也是这支球队的绝对核心。塔图姆和布朗这对双人组合,下限真的超级高,自他俩进入NBA加盟凯尔特人以来,还从来都没有缺席过季后赛,过去6个赛季甚至带领球队4次闯进东决,一次闯进总决赛。\n上赛季,塔图姆场均可以砍下30.1分8.8篮板4.6助攻,而布朗场均可以得到26.6分6.9篮板3.5助攻,双探花场均轰出57+15+8,力压湖人詹眉,76人登帝,快船卡椒,勇士库汤等组合,成为联盟场均得分最高的二人组。新赛季,两人也将继续向NBA最强二人组发起挑战,唯一能对他们造成威胁的,可能就是雄鹿的利拉德+字母哥“表字”组合了,不过从季前赛前几场比赛的表现来看,字母哥统治力还在,利拉德的状态却有些堪忧,连拉了两场,刚加盟雄鹿,他也需要一段时间和球队进行磨合,雄鹿能否取得更大突破,还要等常规赛来考证。\n狂轰57+15+8!你们才是NBA最强二人组!东部豪门崛起,新赛季冲冠。话题回到凯尔特人,双探花组合下限确实足够高,但他们还从未联手拿到过总冠军,最可惜的是21-22赛季,凯尔特人与金州勇士在总决赛舞台一决高下,当时那支勇士队,被认为是巅峰已落幕,所有人都在看好绿军夺冠,最终他们却没能达到这一目标。其实这几年,凯尔特人屡次止步于季后赛后几轮,双探花的一些短板也显露了出来。塔图姆的缺点就在于自己不太稳定,关键球总是处理不好,容易上头。而布朗控运球能力太差,毫无组织能力,球商也不高,只有做二当家的命了。\n尽管如此,双探花现在也算年轻,还有上升空间,而凯尔特人依然属于联盟第一梯队的球队,媒体《体育画报》邀请部分球探及专家,对各个赛区的球队新赛季排名进行了预测,凯尔特人就稳居东部第一,在GM调查中,绿军新赛季的夺冠支持率与丹佛掘金并列第一,为33%,他们仍是冲冠机会最大的球队之一。根据球队队记说法,首发五虎+普理查德+霍福德+豪瑟+科内特大概率作为新季绿军9人轮换,值得一提的是,普理查德这名平民球员也值得关注,季前赛他的表现非常出色,场均能得到接近20分。你们来预测一下,绿军新赛季可以走多远呢?","title": "轰57+15+8!你们才是NBA最强二人组!东部豪门崛起","language": "zh","date": "2023-10-19","num_words": 870,"max_word_length": 6,"frac_chars_non_alphanumeric": 0.10888443553774214,"frac_chars_dupe_5grams": 0,"frac_chars_dupe_9grams": 0}

(左右滑动查看全部)

4. 数据字段格式

以下表格记录了数据各字段的字段名,意义,数据类型和取值说明:

图片

四、许可

开放新闻库数据集整体采用CC BY 4.0许可协议。您可以自由共享、改编该数据集,唯需遵循以下条件:

● 署名:您必须适当地标明作者、提供指向本协议的链接,以及指明是否(对原始数据集)做了修改。您可以以任何合理的方式这样做,但不能以任何方式暗示许可人同意您或您的使用。

● 没有附加限制:您不得使用法律条款或技术措施来限制他人执行许可证允许的任何操作。完整协议内容,请访问CC BY 4.0协议全文。

特别注意事项

请注意,本数据集的某些子集可能受制于其他协议规定。在使用特定子集之前,请务必仔细阅读相关协议,确保合规使用。更为详细的协议信息,请在特定子集的相关文档或元数据中查看。

OpenDataLab作为非盈利机构,倡导和谐友好的开源交流环境,若在开源数据集内发现有侵犯您合法权益的内容,可发送邮件至(OpenDataLab@pjlab.org.cn),邮件中请写明侵权相关事实的详细描述并向我们提供相关的权属证明资料。我们将于3个工作日内启动调查处理机制,并采取必要的措施进行处置(如下架相关数据)。但您应确保您投诉的真实性,否则采取措施后所产生的不利后果应由您独立承担。


开放新闻库数据集已上架OpenDataLab官网,浏览器访问:https://opendatalab.com/OpenDataLab/OpenNewsArchive

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/838429.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《Python编程从入门到实践》day29

# 昨日知识点回顾 修改折线图文字和线条粗细 矫正图形 使用内置格式 # 今日知识点学习 15.2.4 使用scatter()绘制散点图并设置样式 import matplotlib.pyplot as plt import matplotlib matplotlib.use(TkAgg)plt.style.use(seaborn-v0_8) # 使用内置格式 fig, ax plt.subpl…

Linux写个脚本执行一系列命令

问题 很多时候需要执行一些列重复的命令,手动执行太麻烦,可以使用写个脚本依次执行。 解决 在Linux中,你可以编写一个Bash脚本文件,其中包含一系列命令,然后一次执行这些命令。 1.使用vim创建你的脚本 vim myscri…

LeetCode494:目标和

题目描述 给你一个非负整数数组 nums 和一个整数 target 。 向数组中的每个整数前添加 ‘’ 或 ‘-’ ,然后串联起所有整数,可以构造一个 表达式 : 例如,nums [2, 1] ,可以在 2 之前添加 ‘’ ,在 1 之…

力扣刷题 day2

快乐数 202. 快乐数 - 力扣(LeetCode)   图: java // 快乐数 --> 19 > 1^2 9 ^2 82 > 82 > 8 ^ 2 2 ^ 2 ......public boolean isHappy(int n) {// 使用快慢指针int slow n, fast getSum(n);while (slow ! fast) {slow getSum(slo…

Coins与Tokens的理解与区别

目录 前言 一、Coins 二、Tokens 三、区别 总结 前言 在区块链和加密货币领域,"coins"(硬币)和"tokens"(代币)是两个常见的术语,它们虽然经常被互换使用,但在区块链领…

【计算机毕业设计】springboot二手家电管理平台

时代在飞速进步,每个行业都在努力发展现在先进技术,通过这些先进的技术来提高自己的水平和优势,二手家电管理平台当然不能排除在外。二手家电管理平台是在实际应用和 软件工程的开发原理之上,运用java语言以及前台VUE框架&#xf…

gorm log with traceId 打印带有traceId信息的日志,通过context实现

背景 无论是单体项目,还是分布式项目,一个请求进来总会有一定的链路,单体项目中会调用各种方法,分布式服务中更麻烦一点,跨服务调用。于是乎,我们就希望有一个全局的traceId可以把一个请求过程中经过的所有…

2024OD机试卷-游戏分组 (java\python\c++)

题目:游戏分组 题目描述 部们准备举办一场 王者荣耀 表演赛,有 10 名游戏爱好者参与,分为两队,每队 5 人。 每位参与者都有一个评分,代表着他的游戏水平。为了表演赛尽可能精彩,我们需要把 10 名参赛者分为实力尽量相近的两队。 一队的实力可以表示为这一队 5 名队员的…

基于SSM的婚恋网站的设计与实现(有报告)。Javaee项目。ssm项目。

演示视频: 基于SSM的婚恋网站的设计与实现(有报告)。Javaee项目。ssm项目。 项目介绍: 采用M(model)V(view)C(controller)三层体系结构,通过Spri…

std::remove-----std::remove_if

std::remove和std::remove_if 是 C11 标准库中的一个算法函数. std::remove 作用 遍历一遍容器,将容器中所有不是指定元素的元素往前复制。 总之就是一句话: 把不该删除的移动到前面,后面的就是应该删除的。 注意: 1&#…

Netty-面试题(上)(四十九)

为什么Netty适合做网络编程? Netty 是由 JBOSS 提供的一个 Java 开源框架。Netty 提供异步的、基于事件驱动的网络应用程序框架,用以快速开发高性能、高可靠性的网络 IO 程序。Netty 主要用来做网络通信,一般可以用来作RPC框架的通信工具、实现即时通讯…

函数递归练习

目录 1.分析下面选择题 2.实现求第n个斐波那契数 3.编写一个函数实现n的k次方,使用递归实现。 4.写一个递归函数DigitSum(n),输入一个非负整数,返回组成它的数字之和 5.递归方式实现打印一个整数的每一位 6.实现求n的阶乘 1.分析下面选择…

算术平均数

算术平均数(average)是一组数据相加后除以数据的个数而得到的结果,是度量数据水平的常用统计量,在参数估计和假设检验中经常用到。比如:用职工平均工资来衡量职工工资的一般水平,用平均体重来观察某一人群体…

HTML中打开窗口的类型及使用方法

HTML中打开窗口是Web开发中常用的功能之一,可以通过不同的方式打开窗口,以满足不同的需求。本文将介绍HTML中打开窗口的类型及使用方法。 一、使用target属性打开窗口 target属性是HTML中打开窗口最常用的方式之一,可以通过设置target属性的…

基于LeNet5实现手写数字识别,可视化卷积层。

LeNet5 CNN卷积网络的发展史 1. LetNet5(1998) 2. AlexNet(2012) 3. ZFNet(2013) 4. VGGNet(2014) 5. GoogLeNet(2014) 6. ResNet(2015) 7. DenseNet(2017) 8. EfficientNet(2019) 9. Vision Transformers(2020) 10. 自适应卷积网络(2021) 上面列出了发展到现在CNN的一些经典…

Spring STOMP-用户的目的地

应用程序可以发送针对特定用户的消息,并且Spring的STOMP支持识别以/user/为前缀的destination。例如,客户端可能会订阅/user/queue/position-updates的destination。UserDestinationMessageHandler处理此destination,并将其转换为特定于用户会…

单位个人如何向期刊投稿发表文章?

在单位担任信息宣传员一职以来,我深感肩上的责任重大。每月的对外信息宣传投稿不仅是工作的核心,更是衡量我们部门成效的重要指标。起初,我满腔热血,以为只要勤勉努力,将精心撰写的稿件投至各大报社、报纸期刊的官方邮箱,就能顺利登上版面,赢得读者的青睐。然而,现实远比理想骨…

Java入门基础学习笔记23——For循环结构

1、for循环: 控制一段代码反复执行很多次。 2、For循环语句的基本结构: for(初始化表达式;判断表达式;递增(递减)表达式) {循环体语句(重复执行的代码) } 例&#xff1…

【碎片知识】2024_05_15

char int long float double运算的时候是从低转到高的&#xff0c;表达式的类型会自动提升或者转 换为参与表达式求值的最上级类型. 关于代码的说法正确的是&#xff08; &#xff09; #include <stdio.h> int main() {int x -1;unsigned int y 2;if (x > y){printf…

论文合集整理推荐2024.5.15

‍2012年论文合集&#xff1a;论文入口 ‍2019年论文合集&#xff1a;论文入口 2022年论文合集&#xff1a;论文入口 2023年论文合集&#xff1a;论文入口 2024年论文合集&#xff1a;论文入口