Croissant:Google新推出的一个为机器学习准备的数据集元数据格式

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

在机器学习领域,实践者在使用现有数据集训练模型时,经常需要花费大量时间去理解数据、梳理其组织结构,或确定哪些子集用作特征。这种情况严重阻碍了机器学习领域的进展,因为数据表示形式的多样性构成了一个基本障碍。

机器学习数据集包括了从文本、结构化数据到图像、音频和视频等广泛的内容类型。即使是涵盖相同类型内容的数据集,每个数据集也都有其独特的文件安排和数据格式。这个挑战降低了整个机器学习开发流程的效率,从寻找数据到训练模型,以及开发处理数据集的工具的过程都受到了影响。

虽然存在诸如schema.org和DCAT这样的通用元数据格式,但这些格式主要设计用于数据发现,而不是满足机器学习数据特定需求,比如能够从结构化和非结构化源中提取和结合数据的能力,包括能够促进数据负责任使用的元数据,或描述机器学习使用特性,例如定义训练、测试和验证集的能力。

现在,业界引入了一个名为Croissant的新元数据格式,专为机器学习准备的数据集设计。Croissant是由来自工业界和学术界的社区协作开发的,作为MLCommons努力的一部分。Croissant格式并不改变实际数据的表现形式(如图像或文本文件格式),而是提供了一种标准化的方式来描述和组织数据。Croissant在schema.org的基础上进行了扩展,该标准已被超过4000万个数据集所使用,为机器学习相关的元数据、数据资源、数据组织和默认机器学习语义增加了全面的层次。

此外,业界还宣布了对Croissant格式的广泛支持。从现在起,三个广泛使用的机器学习数据集库——Kaggle、Hugging Face和OpenML——将开始支持他们托管的数据集使用Croissant格式;数据集搜索工具允许用户在网上搜索Croissant数据集;流行的机器学习框架,包括TensorFlow、PyTorch和JAX,可以通过TensorFlow数据集(TFDS)包轻松加载Croissant数据集。

Croissant的1.0版本包括了格式的完整规范、一套示例数据集、一个用于验证、消费和生成Croissant元数据的开源Python库,以及一个用于以直观方式加载、检查和创建Croissant数据集描述的开源视觉编辑器。

从一开始,支持负责任的人工智能(Responsible AI,简称RAI)就是Croissant努力的一个核心目标。业界也发布了Croissant RAI词汇扩展的首个版本,该扩展增加了描述关键RAI使用案例(如数据生命周期管理、数据标注、参与式数据、机器学习安全和公平评估、可解释性和合规性)所需的关键属性。

为什么需要一个共享的机器学习数据格式?大部分机器学习工作实际上是与数据相关的。训练数据是决定模型行为的“代码”。数据集可以是用于训练大型语言模型的文本集合,也可以是用于训练汽车碰撞避免系统的驾驶场景(标注视频)的集合。然而,开发机器学习模型的步骤通常遵循相同的迭代数据中心过程:寻找或收集数据、清理和精炼数据、在数据上训练模型、在更多数据上测试模型、发现模型不起作用、分析数据找出原因、重复直到获得一个可用的模型。由于缺乏一个共同的格式,这些步骤变得更加困难,尤其是对资源有限的研究和早期创业努力而言。

像Croissant这样的格式旨在简化整个过程。例如,元数据可以被搜索引擎和数据集仓库利用,以便更容易地找到合适的数据集。数据资源和组织信息简化了开发用于清理、精炼和分析数据的工具的过程。这些信息和默认的机器学习语义允许机器学习框架以最少的代码使用数据进行训练和测试。这些改进显著减轻了数据开发的负担。

此外,数据集作者关心他们的数据集的可发现性和易用性。采用Croissant可以提高他们数据集的价值,同时只需付出最小的努力,得益于可用的创建工具和机器学习数据平台的支持。

去看看:Croissant - MLCommons

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/728985.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【易飞】易飞ERP自动审核程序功能

易飞ERP自动审核程序功能 一、 使用场景二、 操作说明三、 安装方式 一、 使用场景 OA系统集成 与第三方OA系统软件集成,在OA软件审核完成后,直接将ERP中的单据审核。MES系统集成 MES系统生成单据写入到易飞ERP中,并需要自动审核单据&#x…

如何学习、上手点云算法(三):用VsCode、Visual Studio来debug基于PCL、Open3D的代码

写在前面 本文内容 以PCL 1.14.0,Open3D0.14.1为例,对基于PCL、Open3D开发的代码进行源码debug; 如何学习、上手点云算法系列: 如何学习、上手点云算法(一):点云基础 如何学习、上手点云算法(二):点云处理相…

跟无神学AI之Tensorflow笔记搭建网络八股

虽然Pytorch在论文中使用较多,但是像Alphafold在蛋白质结构预测的模型,仍然是用Tensorflow写成,遂近期在学其中的语法。 本系列来自慕课北大软微曹健老师的Tensorflow笔记,摘选其中重要部分。 1.导包 2.定义训练集测试集和数据…

Android随手记

activity的生命周期 创建时 onCreate() - onStart() - onResume() - onPause() - onStop() - onDestroy() 切换时 a切换到b a.onCreate() - a.onStart() - a.onResume - a.onPause - b.onCreate() - b.onStart() - b.onResume() - a.onStop() b切换回a b.onPause() - a.onR…

C#与python交互(flask发送Get/Post请求)

先运行python,再运行C# **ps: 注意修改端口号**python发送Get/Post请求 # -*- coding: utf-8 -*- # Time : 2024/1/25 15:52 # Author : YY # File : post_test.py # Content:提交数据给客户端 from flask import Flask, request, jsonify, redirect…

华为OD机试 - 字符串统计(Java 2024 C卷 100分)

目录 专栏导读一、题目描述二、输入描述三、输出描述1、输入2、输出3、说明 四、解题思路五、Java算法源码六、效果展示1、输入2、输出3、说明 华为OD机试 2024C卷题库疯狂收录中,刷题点这里 专栏导读 本专栏收录于《华为OD机试(JAVA)真题&a…

智慧灯杆-智慧城市照明现状分析(2)

作为城市照明的主体,城市道路照明伴随着我国城市建设的高速发展,获得了快速的增长。国家统计局数据显示,从2004年至2014年,我国城市道路照明灯数量由1053.15万盏增加到3000万盏以上,年均复合增长率超过11%,城市道路照明行业保持持续快速发展的趋势。 近几年,随着中国路灯…

如何排查合并问题——《OceanBase诊断系列》之七

1. 前言 OceanBase数据库的存储引擎以 LSM-Tree 架构为基础,区分静态基线数据(存储在只读SSTable)和动态增量数据(存储在可读写MemTable)。其中 SSTable 是只读的,一旦生成就不再被修改,存储于…

C++程序设计-第四/五章 函数和类和对象【期末复习|考研复习】

前言 总结整理不易,希望大家点赞收藏。 给大家整理了一下C程序设计中的重点概念,以供大家期末复习和考研复习的时候使用。 文章目录 前言第四章 函数 函数和类和对象4.1 说明带参数的宏与内联函数有什么不同4.2 全局变量和局部变量有什么区别是怎么实现的…

C语言-----qsort函数的功能以及模拟实现

1.冒泡排序 (1)冒泡排序就是数据两个两个的进行比较每一趟都是一个数和其他的所有的数字比较, (2)这个要的是升序排列,所以前面的大的话,就会调换位置 (3)冒泡排序的缺…

【开源】JAVA+Vue.js实现高校宿舍调配管理系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能需求2.1 学生端2.2 宿管2.3 老师端 三、系统展示四、核心代码4.1 查询单条个人习惯4.2 查询我的室友4.3 查询宿舍4.4 查询指定性别全部宿舍4.5 初次分配宿舍 五、免责说明 一、摘要 1.1 项目介绍 基于JAVAVueSpringBootMySQL的…

【C语言基础】:深入理解指针(三)

文章目录 深入理解指针一、冒泡排序二、二级指针三、指针数组3.1 指针数组模拟二维数组 四、字符指针变量五、数组指针变量5.1 数组指针变量是什么?5.2 数组指针变量的初始化 六、二维数组传参的本质 深入理解指针 指针系列回顾: 【C语言基础】&#xf…

UOS 与 Ubuntu 命令行打开安装包界面,双击打开界面调用安装包界面展示

UOS 使用deepin-deb-installer安装程序 deepin-deb-installer xxxxxxx.deb & Ubuntu snap-store --local-filename /home/seven/wps-office_1xxxxxxx.deb &

ubuntu20.04安装ros并配置相关环境以及驱动AUBO i5机械臂

ubuntu20.04安装ros并配置相关环境以及驱动AUBO i5机械臂 安装ros安装rosdep(小鱼的rosdepc,又快又好用)环境配置下载并编译aubo roslib库环境变量配置aubo gazeboaubo rviz驱动真实机械臂 安装ros 搜索鱼香ros网站https://fishros.com/,根据一键安装ros里提供的指…

Chromium内核浏览器编译记(四)Linux版本CEF编译

转载请注明出处:https://blog.csdn.net/kong_gu_you_lan/article/details/136508294 本文出自 容华谢后的博客 0.写在前面 本篇文章是用来记录编译Linux版本CEF的步骤和踩过的坑,以防止后续再用到的时候忘记,同时也希望能够帮助到遇到同样问…

Crow 编译和环境搭建

Crow与其说是编译,倒不如说是环境搭建。Crow只需要包含头文件,所以不用编译生成lib。 Crow环境搭建 boost(可以不编译boost,只需要boost头文件即可)asio (可以不编译,直接包含头文件。不能直接…

【Linux】软件管理器yum和编辑器vim

🔥博客主页: 小羊失眠啦. 🎥系列专栏:《C语言》 《数据结构》 《C》 《Linux》 《Cpolar》 ❤️感谢大家点赞👍收藏⭐评论✍️ 文章目录 一、Linux下安装软件的方案1.1 源代码安装1.2 rpm安装1.3 yum安装 二、Linux软件…

Spring Boot 配置热部署

前言 对于 Spring Boot 项目之中, 在刚开始学习的时候, 每当代码进行变动的时候, 想要生效那就必须要手动重启. 为什么要重启呢 ? 原因在于写的代码是依靠运行之后的 class 文件运行的, 当我们的代码更新以后, 如果不去手动重启, 那么就无法生成新的 class 文件, 执行的就是旧…

蓝桥杯物联网竞赛_STM32L071_11_知识体系的查漏与补缺

太久没学单片机了,再重新过一遍查漏补缺,对其中之前没怎么在意的,而现在又发觉的问题进行再分析与补充 1. debug serial wire是干什么用的 这个东西我勾选不勾选都对我的程序没有什么影响,我很好奇是干什么用的,网上查…

vue3+elementPlus:el-table-column表格列动态设置单元格颜色

:cell-style属性 //html<el-tableempty-text"暂无数据":data"datalist.table":max-height"height"row-key"id"border:cell-style"cellStyle"> <el-table>//js //动态设置单元格颜色 const cellStyle ({ row, c…