【深度学习】DataComp论文,数据集介绍,大数据模型的数据集介绍

参考:
https://laion.ai/blog/datacomp/
论文:https://arxiv.org/abs/2304.14108

文章目录

  • 论文报告的一些内容
  • datacomp-1B 数据质量比lainon2B要好
  • 不同规模数据有多少数据
  • 数据处理
  • 数据来源

论文报告的一些内容

摘要
多模态数据集是近期如CLIP、Stable Diffusion和GPT-4等突破的关键组成部分,但它们的设计并没有得到与模型架构或训练算法相同的研究关注。为了解决这一机器学习生态系统中的不足,我们引入了DATACOMP,这是一个围绕来自Common Crawl的新候选池的128亿图像-文本对进行数据集实验的测试平台。参与者在我们的基准设计中开发新的过滤技术或策划新的数据源,然后通过运行我们的标准化CLIP训练代码并在38个下游测试集上测试结果模型来评估他们的新数据集。我们的基准包括涵盖四个数量级的多个计算规模,这使得研究不同资源的研究者可以使用该基准。我们的基线实验显示,DATACOMP工作流导致更好的训练集。我们的最佳基线DATACOMP-1B使得使用相同的训练程序和计算从头开始训练CLIP ViT-L/14在ImageNet上的零射击准确率为79.2%,超过OpenAI的3.7个百分点。我们在www.datacomp.ai上发布DATACOMP和所有相关代码。

1 引言
近期多模态学习的进步,如CLIP、DALL-E、Stable Diffusion、Flamingo和GPT-4,在零射击分类、图像生成和上下文学习方面提供了前所未有的泛化能力。尽管这些进步使用了不同的算法技术,例如对比学习、扩散或自回归建模,但它们都依赖于一个共同的基础:包含成对图像-文本示例的大型数据集。尽管图像-文本数据集起着核心作用,但人们对它们知之甚少。许多最先进的数据集是专有的,即使对于公开数据集,如LAION-2B,设计选择的影响也不清楚。在这篇论文中,我们提出了DATACOMP,这是一个新的多模态数据集设计基准。DATACOMP的焦点是在组装大型训练数据集时出现的两个关键挑战:训练的数据源以及如何过滤给定的数据源。我们的第三项贡献是对数据集设计的规模趋势进行调查。我们的第四项贡献是超过三百个基线实验,包括查询标题以获取相关关键词、基于图像嵌入进行过滤以及在CLIP分数上应用阈值。最后,我们的第五项贡献是DATACOMP-1B,一个新的多模态数据集。为了使DATACOMP成为一个控制数据集实验的共享环境,我们在www.datacomp.ai上公开发布了所有相关的代码。

2 相关工作
我们回顾了最相关的工作,并在附录C中包括了更多相关工作。

数据策划的影响。经典工作考虑数据集清理和异常值移除,以排除可能导致不良模型偏见的样本。相关的工作发展了核心选择算法,旨在选择导致与整个数据集训练相同性能的数据子集。最近的努力经常在已经策划过的数据集上进行。DATACOMP通过将数据中心的调查与大规模图像-文本训练对齐,弥合了这一差距。

DATACOMP 基准测试

DATACOMP 旨在促进以数据为中心的实验。传统的基准测试重点在于模型设计,而 DATACOMP 则围绕数据集开发,以便使用这些数据集训练高准确度的模型。我们专注于大型图像-文本数据集,并通过从头开始训练 CLIP 模型[111]并在 38 个下游图像分类和检索任务上评估其来量化数据集提交。此外,我们还有三个秘密测试集,将在一年后发布,以防止过拟合。为了方便这样的研究,我们提供了一个来自公共互联网的未筛选图像-文本对的候选池。我们的基准测试提供两个轨迹:一个要求参与者从我们提供的池中筛选样本,另一个则允许参与者使用外部数据。此外,DATACOMP 的结构可以适应具有不同计算资源的参与者:每个轨迹分为四个规模,计算要求各不相同。接下来,我们将讨论高级设计决策、构建一个 1280 亿的图像-文本数据池以促进比赛、基准测试轨迹、模型训练和评估。

3.1 比赛设计

概述。在许多机器学习领域,更大的数据集通常导致性能更好的模型[87, 79, 73, 107, 66, 28, 19, 111, 112]。因此,仅比较大小相同的数据集是一个自然的起点。但这种方法有缺陷,因为控制数据集大小忽略了关键的筛选约束:候选池大小(即要收集的图像-文本对的数量)和训练计算。为了使 DATACOMP 成为一个真实的基准测试,我们在筛选轨迹中固定候选池,但允许参与者控制训练集的大小。

计算成本是另一个相关的约束。为了使不同大小的数据集处于同一水平,我们规定了总的训练样本数。例如,在 1280 亿的计算规模和筛选后的数据集 A 和 B 中,A 和 B 分别有 64 亿和 32 亿的图像-文本对。在这个规模上,我们对 A 进行两次训练,而对 B 进行四次。我们实验的一个关键结果是,规模较小、筛选得更为严格的数据集可以导致更好的泛化模型。

比赛轨迹。组装训练数据集的两个关键过程是筛选数据源[128, 129, 20]和聚合数据源[36, 37]。为反映这种结构,DATACOMP 有两个轨迹:筛选轨迹,参与者从 COMMONPOOL 中选择样本的子集;自带数据轨迹 (BYOD),参与者可以使用任何数据源。每个轨迹的关键决策在第 3.2 和 3.3 节中描述。有关完整比赛轨迹规则,请参见附录 A。

比赛计算规模。为了研究扩展趋势并适应具有不同计算资源的参与者,我们使用四个计算规模构建 DATACOMP:小、中、大和超大。每个新规模都将训练过程中看到的样本数增加 10 倍(从 1280 万到 1280 亿样本),并且我们提供的池也按同样的因子增加(从 1280 万样本到 1280 亿样本)。表 2 提供了每个规模使用的实验配置。对于小规模,我们在 A100 GPU 上运行了 4 小时,对于超大规模,我们在 512 个 GPU 上运行了 81 小时。

3.2 筛选轨迹的 COMMONPOOL 生成

我们从 Common Crawl[3] 构建了一个大规模的图像-文本对池,称为 COMMONPOOL。CommonPool 作为图像 url-文本对索引在 CC-BY-4.0 许可下分发。我们的池构建流程有四个步骤:url 提取和数据下载、NSFW 检测、评估集去重和人脸模糊处理。我们还为每个样本提供了元数据(例如,CLIP 特征)。从超大的 COMMONPOOL 开始,我们获取连续的随机子集以创建大、中和小的 COMMONPOOL。

3.3 自带数据轨迹 (BYOD) 轨迹

尽管 COMMONPOOL 可以用于研究不同的筛选技术,但现代的顶级模型通常训练于来自不同来源的数据。为了促进从多个来源筛选数据的非专有研究,我们实例化了一个独立的 DATAC

5.2 DATACOMP 设计分析

COMMONPOOL 和 LAION 使用相同的过滤方式具有可比性。为了验证我们的数据集构建,我们展示了在我们的数据池上采用 LAION-2B 的过滤技术可以构建与其相当的数据集。LAION-2B 选择所有英文标题的样本,并使用训练有素的 ViT-B/32 CLIP 模型的余弦相似度得分超过 0.28 的样本。我们使用相同数量的样本(大规模,130M)在我们的数据池上比较这种过滤方法。结果显示,不同的数据源表现相当:在 ImageNet 上的准确率分别为 55.3% 和 55.7%,在我们的池和 LAION-2B 上的平均性能分别为 0.501 和 0.489。

各种规模之间的一致性:我们发现在不同规模上,过滤策略的排名通常是一致的。如图 3 所示,小规模和中规模的基线是正相关的。此外,在附录表 22 中显示,不同规模对之间的性能排名相关性很高,介于 0.71 和 0.90 之间。

在训练变化中的一致性:DATACOMP 固定了训练过程,所以一个自然的问题是 DATACOMP 的更好的数据集在 DATACOMP 之外是否更好。尽管 DATACOMP-1B 是在 xlarge 规模上训练的,但我们在附录表 23 中展示了即使在 ViT-B/16 或 ViT-B/32 上替换训练,DATACOMP-1B 的性能优于 OpenAI 的 WIT 和 LAION-2B。此外,我们发现修改如训练步骤和批次大小的超参数对下游性能上不同的数据筛选方法的相对顺序影响很小。超参数消融的详细信息在附录 L 中。

5.3 评估趋势

ImageNet 的准确性是指示性的,但不是完整的图景。与 Kornblith 等人类似,附录图 25 中我们发现 ImageNet 的性能与我们研究的所有数据集的平均性能高度相关,总体相关性为 0.99。但是,ImageNet 的性能并不代表所有评估任务,因为 ImageNet 准确性与其他个别数据集上的准确性之间的相关性有很大的变化。

鲁棒性和公平性:在数据分布变化下,典型的目标任务训练模型往往性能大幅下降,而零射击 CLIP 模型已知在许多分布上表现强劲。在附录图 26 中,我们展示了使用我们数据池中的数据训练的 CLIP 模型比 Taori 等人的测试床中的 ImageNet 训练模型更具鲁棒性。

6 限制和结论

在社会风险方面,从公共互联网创建图像文本对索引可能存在问题。因此,我们希望未来的工作将进一步探索 COMMONPOOL 和 DATACOMP-1B 的偏见和风险。我们看到 DATACOMP 作为改进训练数据集的第一步,并希望我们的新基准将促进进一步的研究。

datacomp-1B 数据质量比lainon2B要好

在这里插入图片描述

不同规模数据有多少数据

在这里插入图片描述

数据处理

NSFW过滤:使用Detoxify模型[60],特别是多语言XLM-RoBERTa变体,扫描与每个图像相关的文本,以识别并过滤可能被视为不安全或不适当的内容。

人脸模糊:为了保护我们数据集中的个人隐私,我们使用SCRFD人脸检测器[53]识别并提取图像中的面部区域,并对这些区域进行模糊处理,确保个人的身份得到匿名保护。

去重:为了确保数据的完整性并防止冗余,我们使用Yokoo提出的去重模型[150],通过余弦相似度阈值0.604169识别并从COMMONPOOL中移除重复或近似的图像。

数据来源

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/579066.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

TCP服务器的演变过程:IO多路复用机制select实现TCP服务器

IO多路复用机制select实现TCP服务器 一、前言二、新增使用API函数2.1、select()函数2.2、FD_*系列函数 三、实现步骤四、完整代码五、TCP客户端5.1、自己实现一个TCP客户端5.2、Windows下可以使用NetAssist的网络助手工具 小结 一、前言 手把手教你从0开始编写TCP服务器程序&a…

洛谷——【数据结构1-2】二叉树

文章目录 题目【深基16.例1】淘汰赛题目描述输入格式输出格式样例 #1样例输入 #1样例输出 #1基本思路:代码 【深基16.例3】二叉树深度题目描述输入格式输出格式样例 #1样例输入 #1样例输出 #1基本思路:代码 [USACO3.4] 美国血统 American Heritage题目描…

算符优先语法分析设计原理与实现

前言: 作者的词法分析程序以及算符优先语法分析设计程序仓库链接 1、目标任务 **[实验项目] **以专题 1 词法分析程序的输出为语法分析的输入,实现算符优先分析算法,完成以下描述算术表达式的算符优先文法的算符优先分析过程。 G[E]:E→E…

Spark编程实验三:Spark SQL编程

目录 一、目的与要求 二、实验内容 三、实验步骤 1、Spark SQL基本操作 2、编程实现将RDD转换为DataFrame 3、编程实现利用DataFrame读写MySQL的数据 四、结果分析与实验体会 一、目的与要求 1、通过实验掌握Spark SQL的基本编程方法; 2、熟悉RDD到DataFram…

2024免费的数据恢复软件EasyRecovery14自己操作就能恢复的方法

而今天小编为大家还是带来了同系列软件easyrecovery14,这是easyrecovery数据恢复软件中的技术员版本,不仅包含家庭版和专业版的所有功能,而且还旨在简化技术人员的数据恢复过程。软件拥有强大的数据恢复功能,支持使用的恢复场景有…

KNN与KD树博客总结

目录 总结小结: 总结 原始篇:KNN算法及其优缺点算法思想改进篇:KD树(KNN的plus版算法实现第一篇:平衡二叉树的构建(递归算法实现第二篇:KD树的构建(递归算法实现第三篇:…

CentOS 7 设置网络

CentOS 7 设置网络 正常情况 ①登陆进去之后使用下面的命令修改文件 echo ONBOOTyes >> /etc/sysconfig/network-scripts/ifcfg-ens33②如果是虚拟机重启后使用如下命令进行查看IP地址 ip addr注:到这里如果显示有两部分,则代表网络设置成功&a…

华为设备VRP系统管理

为了满足企业业务对网络的需求,网络设备中的系统文件需要不断进行升级。另外,网络设备中的配置文件也需要时常进行备份,以防设备故障或其他灾害给业务带来损害。在升级和备份系统文件或配置文件时,经常会使用FTP和TFTP来传输文件。…

服务器系统时间不同步如何处理

在分布式计算环境中,服务器系统时间的同步至关重要。然而,由于各种原因,服务器系统时间不同步的问题时有发生,这可能会导致严重的问题,如日志不准确、证书验证失败等。下面我们可以一起探讨下造成服务器系统时间不同的原因以及解决…

【Vue2+3入门到实战】(5)Vue基础之Computed计算属性 详细示例

目录 一、今日学习目标1.computed计算属性 二、computed计算属性1.概念2.语法3.注意4.案例5.代码准备 三、computed计算属性 VS methods方法1.computed计算属性2.methods计算属性3.计算属性的优势4.总结 四、计算属性的完整写法五、综合案例-成绩案例六、Computed计算属性总结 …

揭秘Pod状态与生命周期管理的秘密(中)

上一篇文章中主要介绍了Pod的基础概念与使用、删除。本文将带你一起学习Pod的几种容器(Init、Pause) 点击 这里 可以查看所有相关文章。 Init 容器 本文讲解 Init 容器的基本概念,这是一种专用的容器,在应用程序容器启动之前运行,用来包含…

住宅代理妙用:网络抓取的必备工具

什么是住宅代理? 要准确理解什么是住宅代理,首先需要了解什么是住宅IP。IP 地址是连接到网络时分配给单个设备的唯一标识符。这允许设备或端点直接相互通信,而无需跨线。 住宅IP是指分配给特定设备(例如计算机、手机、平板电脑等…

新版IDEA中Git的使用(二)

说明:前面介绍了在新版IDEA中Git的基本操作,本文介绍关于分支合并、拉取等操作; 例如,现在有一个项目,分支如下: main:主分支; dev:开发分支; test&#x…

CNVD原创漏洞审核和处理流程

一、CNVD原创漏洞审核归档和发布主流程 (一)审核和归档流程 审核流程分为一级、二级、三级审核,其中一级审核主要对提交的漏洞信息完整性进行审核,漏洞符合可验证(通用型漏洞有验证代码信息或多个互联网实例、事件型…

k8s的二进制部署1

k8s的二进制部署:源码包部署 k8smaster01:192.168.176.61 kube-apiserver kube-controller-manager kube-scheduler etcd k8smaster01:192.168.176.62 kube-apiserver kube-controller-manager kube-scheduler node节点01:192.…

promise的使用和实例方法

前言 异步,是任何编程都无法回避的话题。在promise出现之前,js中也有处理异步的方案,不过还没有专门的api能去处理链式的异步操作。所以,当大量的异步任务逐个执行,就变成了传说中的回调地狱。 function asyncFn(fn1, fn2, fn3) {setTimeout(() > {//处理第一个异步任务fn1…

element步骤条<el-steps>使用具名插槽自定义

element步骤条使用具名插槽自定义 步骤条使用具名插槽: <el-steps direction"vertical" :active"1"><el-step><template slot"description">//在此处可以写你的插槽内容</template>/el-step> </el-steps>步骤…

STM32 cubeMX 直流电机控制风扇转动

本文使用的是 HAL 库。 文章目录 前言一、直流电机介绍二、直流电机原理图三、直流电机控制方法四、STM32CubeMX 配置直流电机五、代码编写总结 前言 实验开发板&#xff1a;STM32F051K8。所需软件&#xff1a;keil5 &#xff0c; cubeMX 。实验目的&#xff1a;了解 直流电机…

远程宠物喂食系统:开启宠物护理新纪元

智能化远程宠物喂食系统正在革新宠物业&#xff0c;宠物用品店、宠物托管服务商&#xff0c;宠物健康检测机构、宠物社区运营方等相关企业可能将因此取得更高效的运营&#xff0c;更深入的客户关系。这个系统不仅增强了宠物行业的智能化元素&#xff0c;还通过其精确和有效的管…

软件测试自学还是报班好?

如果你学软件测试&#xff0c;是以就业为目的&#xff0c;而且是以高薪就业为目的&#xff0c;那我们就要去反推&#xff0c;为了这个目标&#xff0c;我们要去做什么事情。 为了“将高薪就业为目的&#xff0c;我们要做什么事情”阐述清楚&#xff0c;本文行文结构如下&#x…