景联文科技高质量大模型训练数据汇总!

3月25日,2024年中国发展高层论坛年会上,国家数据局局长刘烈宏在“释放数据要素价值,助力可持续发展”的演讲中表示,中国10亿参数规模以上的大模型数量已超100个。

当前,国内AI大模型发展仍面临诸多困境。其中,较为突出的就是高质量数据集的匮乏,这极大阻碍了大模型效果提升。特别是专业的行业应用数据集,其获取难度更大,这导致大模型可使用的数据量受到限制,进而对大模型效果形成阻碍。

景联文科技是大语言模型数据供应商,致力于为不同阶段的模型算法匹配高质量数据资源。

世界知识类书籍、期刊、论文及高价值社区文本数据:

  1. 中文书籍 250W本
  2. 高质量外文文献期刊 8500W篇
  3. 英文高质量电子书 200W本

教育题库:

  1. K12教育题库 1800万
  2. 大学题库 1.1亿,800万带解析
  3. 英文题库 500W

专业知识类期刊、专利、代码:

  1. 中文数字专利 4000万
  2. 程序代码(代码注释) 20万

多轮对话:

  1. 文本多轮对话 1500万
  2. 中英文剧本(电影、电视剧、剧本杀) 6万

音频数据:

  1. 普通话 65W小时

图片生成及隐式/显示推理多模态数据:

  1. 图文复杂描述 600万
  2. 图文推理问答对 600万

生物数据

  1. 核酸库 4000W
  2. 蛋白库 50W
  3. 蛋白结构库 19W
  4. 通路库 1000W
  5. 生信工具

药学数据:

  1. 药物研发数据库 1300万
  2. 全球上市数据库 80万
  3. 一致性评价数据库 25万
  4. 生产检验数据库 40万
  5. 合理用药 300万
  6. 多维文献 1亿
  7. 原料药数据库 1100万

化学数据:

  1. 化合物数据库 1.6亿
  2. 反应信息数据库 4100万
  3. 物化性质数据库 1.6亿
  4. 谱图数据库 20万
  5. 晶体信息数据库 100万
  6. 安全信息数据库 180万
  7. 商品信息数据库 740万

材料数据:

  1. 金属材料数据 20万
  2. 纳米材料数据 30万
  3. 相图数据 6万
  4. 材料性能数据 20万
  5. 材料腐蚀数据
  6. 表面处理数据
  7. 焊接材料数据

专利数据:

  1. 全球专利基础著录数据 1.3亿
  2. 全球专利原文数据 1亿
  3. 全球专利附图数据
  4. 全球专利法律状态数据
  5. 全球专利法律状态数据
  6. 全球专利引文数据
  7. 全球专利分类索引数据
  8. 全球专利重点申请人工商关联数据
  9. 全球生化医药专利深加工数据
  10. 全球专利全文数据

医疗器械数据:

  1. 国内政策法规数据 3k条
  2. 行业标准数据
  3. 中国医疗器械审评数据 20W条
  4. 中国医械临床试验数据 5K条
  5. 全球医械临床试验数据 7W
  6. 医用耗材中标数据 1400W
  7. 医用耗材带量采购数据 400W
  8. 医用设备招投标数据38W

同时景联文科技提供大模型训练数据的标注服务,致力于为全球数千家人工智能从业公司和高校科研机构交付海量、高质量的多模态大模型训练数据。

景联文科技|数据采集|数据标注|大语言模型训练数据

助力人工智能技术,赋能传统产业智能转型升级

文章图文著作权归景联文科技所有,商业转载请联系景联文科技获得授权,非商业转载请注明出处。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/775644.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

spring安全框架之Shiro

Shiro 一、现存问题 1.1 现存问题 认证(登录):认证操作流程都差不多,但是每次都需要手动的基于业务代码去实现,很麻烦! 授权:如果权限控制粒度比较粗,可以自身去实现&#xff0c…

VBA高级应用30例应用2:MouseMove鼠标左键按下并移动鼠标事件

《VBA高级应用30例》(版权10178985),是我推出的第十套教程,教程是专门针对高级学员在学习VBA过程中提高路途上的案例展开,这套教程案例与理论结合,紧贴“实战”,并做“战术总结”,以…

实测梳理一下kafka分区分组的作用

清空topickafka-topics.sh --bootstrap-server localhost:9092 --delete --topic second创建分区kafka-topics.sh --create --bootstrap-server localhost:9092 --replication-factor 1 --partitions 3 --topic second发kafka-console-producer.sh --bootstrap-server localhos…

OCP NVME SSD规范解读-15.DSSD set feature功能要求-2

启用IEEE1667隔离区(Enable IEEE1667 Silo):特征标识符C4h允许开启符合IEEE1667标准的安全存储区功能,以实现数据的隔离和安全存储。 4.15.9章节描述了启用IEEE1667 Silo(通过Feature Identifier C4h标识的Set Feature命令)的相关…

一个基于.NET Core构建的简单、跨平台、模块化的商城系统

前言 今天大姚给大家分享一个基于.NET Core构建的简单、跨平台、模块化、完全开源免费(MIT License)的商城系统:Module Shop。 商城后台管理端功能 商品:分类、品牌、单位、选项(销售属性)、属性、属性模…

面向对象语言的全局认识

学习一门语言,就像在一座陌生的城市旅游,第一步应该找一张这座城市的地图,对这座城市有个整体的了解,然后寻找自己的目的地,不至于迷失方向。 一句话:先整体,再局部。 一.从面向过程到面向对象…

Go-js,css,html压缩和混淆(可直接使用)

前提条件: 本地安装nodejs环境然后配置全局环境变量。 运行以下命令安装uglify压缩工具 npm install uglify-js -g 测试是否安装成功 uglifyjs -v 使用方式: 根据不同的操作系统取对应的压缩工具,然后将压缩工具放到项目根目录下,然后执行即可 工具文件: https://gitee.com…

2024年springboot+vue毕业设计选题推荐

2024年,随着技术的发展和市场需求的变化,基于Spring Boot和Vue的毕业设计选题可以更加注重新兴技术的融合和解决实际问题。以下是一些建议的选题方向: 1. 基于Spring Boot和Vue的智能健康管理系统 - 设计并实现一个集成了运动数据、睡眠监…

CCF-CSP真题202206-2《寻宝!大冒险!》

题目背景 暑假要到了。可惜由于种种原因,小 P 原本的出游计划取消。失望的小 P 只能留在西西艾弗岛上度过一个略显单调的假期……直到…… 某天,小 P 获得了一张神秘的藏宝图。 问题描述 西西艾弗岛上种有 n 棵树,这些树的具体位置记录在…

【目标检测】西红柿成熟度数据集三类标签原始数据集280张

文末有分享链接 标签名称names: - unripe - semi-ripe - fully-ripe D00399-西红柿成熟度数据集三类标签原始数据集280张

Etcd 基本入门

1:什么是 Etcd ? Etcd 是 CoreOS 团队于2013年6月发起的开源项目,它的目标是构建一个高可用的分布式键值(key-value)数据库。etcd内部采用raft协议作为一致性算法,Etcd基于 Go 语言实现。 名字由来,它源于两个方面,…

《安富莱嵌入式周报》第335期:大量嵌入式书籍免费下载,CNC电机同步,智能家居比赛作品,EMF2024电子胸牌,Swift语言单片机编程,UDS Boot

周报汇总地址:嵌入式周报 - uCOS & uCGUI & emWin & embOS & TouchGFX & ThreadX - 硬汉嵌入式论坛 - Powered by Discuz! 视频版: https://www.bilibili.com/video/BV151421Q7P4/ 《安富莱嵌入式周报》第335期:大量嵌入…

渗透测试:主机发现和端口扫描的方法总结(nmap+arp-scan+ping命令+nc.traditional+伪设备连接)

目录 nmap环境 方法一:nmap扫描 1.主机发现: 2.端口扫描: ​编辑 非nmap环境 方法二:arp-scan-主机发现 方法三:ping命令-主机发现 方法四:netcat-端口扫描 方法五:伪设备-端口扫描 信息搜集是渗透…

未能加载文件或程序集socutdata或它的某一个依赖项试图加载格式不正确的程序

未能加载文件或程序集socut data或它的某一个依赖项试图加载格式不正确的程序 Socut.Data.dll找不到类型或命名空间名称 把bin目录下面 的socut.data.dll删除就行了 C#报错未能加载文件或程序集socut data或它的某一个依赖项试图加载格式不正确的程序 "/"应用程序…

Navicat 干货 | 通过检查约束确保 PostgreSQL 的数据完整性

数据完整性对于任何数据库系统来说都是很重要的一方面,它确保存储的数据保持准确、一致且有意义的。在 PostgreSQL 中,维护数据完整性的一个强大工具是使用检查约束。这些约束允许你定义数据必须遵守的规则,以防止无效数据的插入或修改。本文…

机器人寻路算法双向A*(Bidirectional A*)算法的实现C++、Python、Matlab语言

机器人寻路算法双向A*(Bidirectional A*)算法的实现C、Python、Matlab语言 最近好久没更新,在搞华为的软件挑战赛(软挑),好卷只能说。去年还能混进32强,今年就比较迷糊了,这东西对我…

[flask]执行上下文的四个全局变量

flask上下文全局变量,程序上下文、请求上下文、上下文钩子 -- - 夏晓旭 - 博客园 (cnblogs.com) 执行上下文 执行上下文:即语境,语意,在程序中可以理解为在代码执行到某一行时,根据之前代码所做的操作以及下文即将要…

Stable Diffusion XL之使用Stable Diffusion XL训练自己的AI绘画模型

文章目录 一 SDXL训练基本步骤二 从0到1上手使用Stable Diffusion XL训练自己的AI绘画模型2.1 配置训练环境与训练文件2.2 SDXL训练数据集制作(1) 数据筛选与清洗(2) 使用BLIP自动标注caption(3) 使用Waifu Diffusion 1.4自动标注tag(4) 补充标注特殊tag(5) 训练数据预处理(标注…

neo4j相同查询语句一次查询特慢再次查询比较快。

现象&#xff1a; neo4j相同查询语句一次查询特慢再次查询比较快。 分析&#xff1a; 查询语句 //查询同名方法match(path:Method) where id(path) in [244333030] and NOT path:Constructor//是rpc的方法match(rpc_method:Method)<-[:DECLARES]-(rpc_method_cls:Class) -…

从零开始为香橙派orangepi zero 3移植主线linux——1.uboot

从零开始为香橙派orangepi zero 3移植主线linux——1.uboot 0.前言一、准备二、制作引导文件1.BL312.SCP firmware (Crust)3.uboot 三、烧录四、运行 0.前言 之前买了块香橙派zero3&#xff0c;CPU是全志H618&#xff0c;四核cortex-A53&#xff0c;烧录了官方的ubuntu系统后就…