Croissant:Google新推出的一个为机器学习准备的数据集元数据格式

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

在机器学习领域,实践者在使用现有数据集训练模型时,经常需要花费大量时间去理解数据、梳理其组织结构,或确定哪些子集用作特征。这种情况严重阻碍了机器学习领域的进展,因为数据表示形式的多样性构成了一个基本障碍。

机器学习数据集包括了从文本、结构化数据到图像、音频和视频等广泛的内容类型。即使是涵盖相同类型内容的数据集,每个数据集也都有其独特的文件安排和数据格式。这个挑战降低了整个机器学习开发流程的效率,从寻找数据到训练模型,以及开发处理数据集的工具的过程都受到了影响。

虽然存在诸如schema.org和DCAT这样的通用元数据格式,但这些格式主要设计用于数据发现,而不是满足机器学习数据特定需求,比如能够从结构化和非结构化源中提取和结合数据的能力,包括能够促进数据负责任使用的元数据,或描述机器学习使用特性,例如定义训练、测试和验证集的能力。

现在,业界引入了一个名为Croissant的新元数据格式,专为机器学习准备的数据集设计。Croissant是由来自工业界和学术界的社区协作开发的,作为MLCommons努力的一部分。Croissant格式并不改变实际数据的表现形式(如图像或文本文件格式),而是提供了一种标准化的方式来描述和组织数据。Croissant在schema.org的基础上进行了扩展,该标准已被超过4000万个数据集所使用,为机器学习相关的元数据、数据资源、数据组织和默认机器学习语义增加了全面的层次。

此外,业界还宣布了对Croissant格式的广泛支持。从现在起,三个广泛使用的机器学习数据集库——Kaggle、Hugging Face和OpenML——将开始支持他们托管的数据集使用Croissant格式;数据集搜索工具允许用户在网上搜索Croissant数据集;流行的机器学习框架,包括TensorFlow、PyTorch和JAX,可以通过TensorFlow数据集(TFDS)包轻松加载Croissant数据集。

Croissant的1.0版本包括了格式的完整规范、一套示例数据集、一个用于验证、消费和生成Croissant元数据的开源Python库,以及一个用于以直观方式加载、检查和创建Croissant数据集描述的开源视觉编辑器。

从一开始,支持负责任的人工智能(Responsible AI,简称RAI)就是Croissant努力的一个核心目标。业界也发布了Croissant RAI词汇扩展的首个版本,该扩展增加了描述关键RAI使用案例(如数据生命周期管理、数据标注、参与式数据、机器学习安全和公平评估、可解释性和合规性)所需的关键属性。

为什么需要一个共享的机器学习数据格式?大部分机器学习工作实际上是与数据相关的。训练数据是决定模型行为的“代码”。数据集可以是用于训练大型语言模型的文本集合,也可以是用于训练汽车碰撞避免系统的驾驶场景(标注视频)的集合。然而,开发机器学习模型的步骤通常遵循相同的迭代数据中心过程:寻找或收集数据、清理和精炼数据、在数据上训练模型、在更多数据上测试模型、发现模型不起作用、分析数据找出原因、重复直到获得一个可用的模型。由于缺乏一个共同的格式,这些步骤变得更加困难,尤其是对资源有限的研究和早期创业努力而言。

像Croissant这样的格式旨在简化整个过程。例如,元数据可以被搜索引擎和数据集仓库利用,以便更容易地找到合适的数据集。数据资源和组织信息简化了开发用于清理、精炼和分析数据的工具的过程。这些信息和默认的机器学习语义允许机器学习框架以最少的代码使用数据进行训练和测试。这些改进显著减轻了数据开发的负担。

此外,数据集作者关心他们的数据集的可发现性和易用性。采用Croissant可以提高他们数据集的价值,同时只需付出最小的努力,得益于可用的创建工具和机器学习数据平台的支持。

去看看:Croissant - MLCommons

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/728985.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

优雅应对商业谈判中的软件质疑

在软件开发的道路上,商业谈判是不可避免的一环。然而,当他人指出软件UI设计或功能存在问题时,如何优雅而有效地应对成为了关键。以下是一些建议,帮助你在类似情况中妥善处理,维护好你的软件开发声誉。 1. 保持冷静与专…

【易飞】易飞ERP自动审核程序功能

易飞ERP自动审核程序功能 一、 使用场景二、 操作说明三、 安装方式 一、 使用场景 OA系统集成 与第三方OA系统软件集成,在OA软件审核完成后,直接将ERP中的单据审核。MES系统集成 MES系统生成单据写入到易飞ERP中,并需要自动审核单据&#x…

Java流:释放顺序与并行数据处理的潜能

引言: Java Streams API 是 Java 编程语言中处理集合数据的重要工具,它提供了一种简洁、灵活的方式来操作数据,大大提高了代码的可读性和可维护性。Streams API 的出现为数据处理带来了革命性的变化,使得开发者能够以一种更为直观…

如何学习、上手点云算法(三):用VsCode、Visual Studio来debug基于PCL、Open3D的代码

写在前面 本文内容 以PCL 1.14.0,Open3D0.14.1为例,对基于PCL、Open3D开发的代码进行源码debug; 如何学习、上手点云算法系列: 如何学习、上手点云算法(一):点云基础 如何学习、上手点云算法(二):点云处理相…

数据挖掘案例分析

数据挖掘是指从大量数据中挖掘出有价值的信息和知识的过程。在当今信息爆炸的时代,各个领域都积累了大量的数据,而这些数据中蕴藏着许多有价值的信息,可以帮助企业做出决策、优化运营等。因此,数据挖掘应用已经成为了企业和组织中…

网络编程(3/7)

网络聊天室 服务器 #include <myhead.h> #define SER_IP "192.168.125.64" #define SER_PORT 6666 typedef struct Msg {char user[32]; //用户名int type; //1.登录、2.发消息、0.退出char text[1024]; //消息 } msg_t; typedef struct List {stru…

跟无神学AI之Tensorflow笔记搭建网络八股

虽然Pytorch在论文中使用较多&#xff0c;但是像Alphafold在蛋白质结构预测的模型&#xff0c;仍然是用Tensorflow写成&#xff0c;遂近期在学其中的语法。 本系列来自慕课北大软微曹健老师的Tensorflow笔记&#xff0c;摘选其中重要部分。 1.导包 2.定义训练集测试集和数据…

Android随手记

activity的生命周期 创建时 onCreate() - onStart() - onResume() - onPause() - onStop() - onDestroy() 切换时 a切换到b a.onCreate() - a.onStart() - a.onResume - a.onPause - b.onCreate() - b.onStart() - b.onResume() - a.onStop() b切换回a b.onPause() - a.onR…

C#与python交互(flask发送Get/Post请求)

先运行python&#xff0c;再运行C# **ps: 注意修改端口号**python发送Get/Post请求 # -*- coding: utf-8 -*- # Time : 2024/1/25 15:52 # Author : YY # File : post_test.py # Content&#xff1a;提交数据给客户端 from flask import Flask, request, jsonify, redirect…

华为OD机试 - 字符串统计(Java 2024 C卷 100分)

目录 专栏导读一、题目描述二、输入描述三、输出描述1、输入2、输出3、说明 四、解题思路五、Java算法源码六、效果展示1、输入2、输出3、说明 华为OD机试 2024C卷题库疯狂收录中&#xff0c;刷题点这里 专栏导读 本专栏收录于《华为OD机试&#xff08;JAVA&#xff09;真题&a…

Spring Boot 3项目集成Swagger3教程

Spring Boot 3项目集成Swagger3教程 &#x1f31f; 前言 欢迎来到我的小天地&#xff0c;这里是我记录技术点滴、分享学习心得的地方。&#x1f4da; &#x1f6e0;️ 技能清单 编程语言&#xff1a;Java、C、C、Python、Go、前端技术&#xff1a;Jquery、Vue.js、React、uni-…

智慧灯杆-智慧城市照明现状分析(2)

作为城市照明的主体,城市道路照明伴随着我国城市建设的高速发展,获得了快速的增长。国家统计局数据显示,从2004年至2014年,我国城市道路照明灯数量由1053.15万盏增加到3000万盏以上,年均复合增长率超过11%,城市道路照明行业保持持续快速发展的趋势。 近几年,随着中国路灯…

Lua学习笔记:分享一个用纯Lua写的位操作(异或)

前言 Lua在5.3版本之前没有进行位操作的运算符&#xff0c;如果想用一些位操作没有那么容易&#xff0c;可以使用BIt库来处理&#xff0c;这里分享几个使用纯Lua写的异或运算 local floor math.floor function bxor (a,b)local r 0for i 0, 31 dolocal x a / 2 b / 2if x…

如何排查合并问题——《OceanBase诊断系列》之七

1. 前言 OceanBase数据库的存储引擎以 LSM-Tree 架构为基础&#xff0c;区分静态基线数据&#xff08;存储在只读SSTable&#xff09;和动态增量数据&#xff08;存储在可读写MemTable&#xff09;。其中 SSTable 是只读的&#xff0c;一旦生成就不再被修改&#xff0c;存储于…

C++程序设计-第四/五章 函数和类和对象【期末复习|考研复习】

前言 总结整理不易&#xff0c;希望大家点赞收藏。 给大家整理了一下C程序设计中的重点概念&#xff0c;以供大家期末复习和考研复习的时候使用。 文章目录 前言第四章 函数 函数和类和对象4.1 说明带参数的宏与内联函数有什么不同4.2 全局变量和局部变量有什么区别是怎么实现的…

2024年华为OD机试真题-停车场车辆统计-Java-OD统一考试(C卷)

题目描述: 特定大小的停车场,数组cars[]表示,其中1表示有车,0表示没车。车辆大小不一,小车占一个车位(长度1),货车占两个车位(长度2),卡车占三个车位(长度3),统计停车场最少可以停多少辆车,返回具体的数目。 输入描述: 整型字符串数组cars[],其中1表示有车,0…

C语言-----qsort函数的功能以及模拟实现

1.冒泡排序 &#xff08;1&#xff09;冒泡排序就是数据两个两个的进行比较每一趟都是一个数和其他的所有的数字比较&#xff0c; &#xff08;2&#xff09;这个要的是升序排列&#xff0c;所以前面的大的话&#xff0c;就会调换位置 &#xff08;3&#xff09;冒泡排序的缺…

【开源】JAVA+Vue.js实现高校宿舍调配管理系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能需求2.1 学生端2.2 宿管2.3 老师端 三、系统展示四、核心代码4.1 查询单条个人习惯4.2 查询我的室友4.3 查询宿舍4.4 查询指定性别全部宿舍4.5 初次分配宿舍 五、免责说明 一、摘要 1.1 项目介绍 基于JAVAVueSpringBootMySQL的…

【C语言基础】:深入理解指针(三)

文章目录 深入理解指针一、冒泡排序二、二级指针三、指针数组3.1 指针数组模拟二维数组 四、字符指针变量五、数组指针变量5.1 数组指针变量是什么&#xff1f;5.2 数组指针变量的初始化 六、二维数组传参的本质 深入理解指针 指针系列回顾&#xff1a; 【C语言基础】&#xf…

L2-008 最长对称子串(java题解)

对给定的字符串&#xff0c;本题要求你输出最长对称子串的长度。例如&#xff0c;给定Is PAT&TAP symmetric?&#xff0c;最长对称子串为s PAT&TAP s&#xff0c;于是你应该输出11。 输入格式&#xff1a; 输入在一行中给出长度不超过1000的非空字符串。 输出格式&a…