近日,数据智能产业创新服务媒体数据猿联合上海大数据联盟共同发布《2024中国AI大模型产业图谱1.0版》,从大数据和人工智能等智能技术的核心出发,全面覆盖整个产业链,为行业提供更为精细且直观的专业导向。
景联文科技凭借高质量数据集,入选通用数据集核心服务板块。
景联文科技是一家专业的大模型数据服务商,提供海量优质大模型数据集,致力于为不同训练阶段的算法精准匹配高质量数据资源。
目前大模型训练数据产品主要包括:
世界知识类期刊及高价值社区文本数据:
- 高质量外文文献期刊
- 英文高质量电子书
教育题库:
- K12教育题库
- 大学题库
- 英文题库
专业知识类期刊、专利、代码:
- 中文数字专利
- 程序代码(代码注释)
多轮对话:
- 文本多轮对话
- 中英文剧本(电影、电视剧、剧本杀)
音频数据:
- 普通话
图片生成及隐式/显示推理多模态数据:
- 图文复杂描述
- 图文推理问答对
生物数据:
- 核酸库
- 蛋白库
- 蛋白结构库
- 通路库
- 生信工具
药学数据:
- 药物研发数据库
- 全球上市数据库
- 一致性评价数据库
- 生产检验数据库
- 合理用药
- 多维文献
- 原料药数据库
化学数据:
- 化合物数据库
- 反应信息数据库
- 物化性质数据库
- 谱图数据库
- 晶体信息数据库
- 安全信息数据库
- 商品信息数据库
材料数据:
- 金属材料数据
- 纳米材料数据
- 相图数据
- 材料性能数据
- 材料腐蚀数据
- 表面处理数据
- 焊接材料数据
专利数据:
- 全球专利基础著录数据
- 全球专利原文数据
- 全球专利附图数据
- 全球专利法律状态数据
- 全球专利法律状态数据
- 全球专利引文数据
- 全球专利分类索引数据
- 全球专利重点申请人工商关联数据
- 全球生化医药专利深加工数据
- 全球专利全文数据
医疗器械数据:
- 国内政策法规数据
- 行业标准数据
- 中国医疗器械审评数据
- 中国医械临床试验数据
- 全球医械临床试验数据
- 医用耗材中标数据
- 医用耗材带量采购数据
- 医用设备招投标数据
其他成品数据集还包含200TB计算机视觉数据,65万小时多语种语音识别数据,上亿条自然语言理解数据,涵盖智能教育、智慧医疗、智能安防、智能家居、智能互联网、智慧金融、自动驾驶等主要行业应用场景。
致力于推进数据资源标准体系建设,从数据生产、数据管理平台、数据资产市场化流通、数据资源规划等方面提供高质量的数据要素供给服务。
同时景联文科技提供大模型训练数据的标注服务,建立了数据分发、清洗、标注、质检、交付的标准化操作流程,为全球数千家人工智能从业公司和高校科研机构交付海量、高质量的大模型训练数据。
此次入选《2024中国AI大模型产业图谱1.0版》,是对景联文科技在大模型训练数据领域的肯定。未来,景联文科技会继续打造通用数据集、数据标注平台及数据管理工具,更加专注于高质量、场景化的大模型AI数据服务!