OpenAI曾转录100万小时视频数据,训练GPT-4

4月7日,纽约时报在官网发布了一篇名为《科技巨头如何挖空心思,为AI收集数据》的技术文章。

纽约时报表示,OpenAI曾在2021年几乎消耗尽了互联网有用的文本数据源。为了缓解训练数据短缺的难题,便开发了知名开源语音识别模型Whisper。

随后在OpenAI副总裁Greg Brockman的带领下,从视频平台YT、有声播客/读物等转录了超过100万小时的视频数据,然后转化成文本数据用于训练GPT-4

虽然这一举措游走在法律的边缘处于灰色地带,但也直接反映出了大模型厂商对于训练数据的饥渴程度。

图片

纽约时报指出,不只是OpenAI,谷歌、Meta等科技巨头因为想搜集高质量训练数据而修改隐私数据条款,来避免版权法的制裁

例如,Meta为了追赶OpenAI、微软,使用了互联网上几乎所有公开的英语书籍、散文、诗歌和新闻文章等内容。

甚至想直接买下一家大型出版社,来获取更高质量的有版权、付费数据。不过没有人敢轻易相信Meta的数据隐私条例。

这是因为2018年的“剑桥分析丑闻”让Meta的信誉陷入低谷(那时的名字是Facebook)。

该事件是,一家英国剑桥分析公司通过一款心理测试程序,非法获取了大约8700万Facebook用户的个人隐私数据,包括未经用户明确同意的信息。

图片

用户在参与测试时,不仅自己的数据被收集,就连Facebook好友的信息也被抓取。该丑闻爆发后,Facebook面临了前所未有的审查,该公司的数据隐私政策和管理不当受到严重处罚。

最后,以扎克伯格出面道歉、参加听证会才收场。

高质量数据,是生成式AI领域的“黄金”

当你向ChatGPT、Gemini、Claude等提问获得文本答案时,心里是否会想过,这种内容的写法好像在哪里见过?

居然可以轻松写出古龙、金庸、莫言、莎士比亚、泰戈尔、芥川龙之介、夏目漱石等国内外知名作家风格的内容。

没错,大模型最擅长的便是抄袭然后二次创新,但整体框架、叙述方法还是以模仿为基石

如果只用一句大白话来解释大模型的原理——通过海量预训练数据让大模型学会人类的写作技巧和习惯(视频、音频、图片架构会更复杂一些,但基本同理),然后进行排列组合、预测生成全新的内容(大模型的文本提示,相当于搜索引擎的关键字)。

所以,相比几千亿甚至上万亿的参数,在架构、算法差不多的情况下,训练数据对于大模型更重要。微软、Stability AI发布的Orca 2、Stable LM 2等模型也充分证明了——通过高质量数据训练的小参数模型,性能可以强过大参数模型

就像上面的作家举例一样,A厂商的模型学习了夏目漱石的写作数据,而B没有,两家又都是基于Transformer架构,明显A的写作能力要大于B。

也可以把训练数据看成“内功心法”,当两位剑客的招式几乎差不多时,在关键时刻比拼的就是谁的内功高,谁便能技高一筹。

此外,为了获取高质量数据,2023年7月5日,谷歌 修改了数据隐私条款,将会抓取用户公开或来自其他公共来源的数据,用于训练Gemini(当时用名Bard)、谷歌翻译和云AI等产品。

图片

但好景不长,在公布消息的15天后,谷歌就接到了美国克拉克森律师事务所的起诉。在这份长达90页的诉讼书中,指控谷歌从网络秘密窃取大量数据来训练其AI产品。指控其疏忽、侵犯隐私、盗窃、侵犯版权以及从非法获取的个人数据中获利。

谷歌为了获取高质量数据铤而走险,可见数据对于大模型的重要性。

合成数据正成为主流

4月2日,华尔街日报在官网发布了一篇名为《对于大量消耗数据的AI企业来说,互联网太小了》的内容。

华尔街日报指出,对于大模型厂商来说互联网那点数据,就像一口被挖干的油井根本不够用

尤其是对于训练视频、音频、图像这些比文本更复杂的模型,就像一个“数据黑洞”可以无限吸收各种数据。

图片

但常在河边走哪有不湿鞋的事,各家科技巨头当然也清楚,游走在灰色地带只是无奈之举。所以,他们想了一个新办法使用合成数据。

合成数据是通过算法、机器学习模型自动合成的“虚拟数据”,以模拟真实世界数据的统计特性。基本上也是以模仿为主,但在法律和应用场景等方面有很多优势

良好的隐私保护,合成数据可以在不暴露个人或敏感信息的情况下生成数据,这对于遵守GDPR或HIPAA等隐私法规非常重要。

无限数据源,理论上,可以生成无限量的合成数据,这对于需要大量数据但现实世界数据不足以支持的场景非常有用。

控制数据分布,可以精确控制合成数据的分布,能定制数据以探索特定的情况或增强模型在特定任务上的性能。

成本低,收集和标注大量真实世界数据比较贵,而生成合成数据的成本通常较低,主要由AI自动完成。

但合成数据也并非完美无缺,最致命的缺点便是过度拟合:如果合成数据过于简化或未能捕捉到真实数据的关键特征、表示,用于训练AI模型可能会过度拟合输出的内容同质化且繁重无用。

在合成数据应用方面,OpenAI在今年2月15日重磅发布的视频模型Sora,很多技术大咖就分析,Sora能生成如此高清的视频和时长,可能使用了虚幻引擎5生成的合成数据。

事实上,根据内测用户发布Sora生成的视频,然后与虚幻引擎5的示例视频进行了多维度对比,大概率是使用了合成的视频数据来训练Sora。

所以,使用合成数据训练AI模型,将成为未来主要趋势之一。

本文素材来源纽约时报、维基百科、谷歌官网、Meta官网、theverge官网,如有侵权请联系删除

END

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/803818.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

019——IIC模块驱动开发(基于EEPROM【AT24C02】和I.MX6uLL)

目录 一、 IIC基础知识 二、Linux中的IIC(韦东山老师的学习笔记) 1. I2C驱动程序的层次 2. I2C总线-设备-驱动模型 2.1 i2c_driver 2.2 i2c_client 三、 AT24C02 介绍 四、 AT24C02驱动开发 实验 驱动程序 应用程序 一、 IIC基础知识 总线类…

Idea中 maven 下载jar出现证书问题

目录 1: 具体错误: 2: 忽略证书代码: 3: 关闭所有idea, 清除缓存, 在下面添加如上忽略证书代码 4:执行 maven clean 然后刷刷新依赖 完成,撒花!&#x…

解决:Cannot read properties of undefined (reading ‘validate‘)问题

问题&#xff1a;Element UI使用表单校验功能控制台出现Cannot read properties of undefined (reading validate)报错 解决&#xff1a;在 <el-form :model"form" :rules"rules">添加 ref"form"&#xff0c;form为自定义的表单名称 <…

A Learning-Based Approach for IP Geolocation

下载地址:Towards IP geolocation using delay and topology measurements | Proceedings of the 6th ACM SIGCOMM conference on Internet measurement 被引次数:185 Abstract 定位IP主机地理位置的能力对于在线广告和网络攻击诊断等应用程序是非常吸引力的。虽然先前的方…

ruoyi-nbcio-plus基于vue3的flowable的自定义业务单表例子的升级修改

更多ruoyi-nbcio功能请看演示系统 gitee源代码地址 前后端代码&#xff1a; https://gitee.com/nbacheng/ruoyi-nbcio 演示地址&#xff1a;RuoYi-Nbcio后台管理系统 http://122.227.135.243:9666/ 更多nbcio-boot功能请看演示系统 gitee源代码地址 后端代码&#xff1a…

SQL查询:UNION用法详解

在SQL查询中&#xff0c;UNION是一种非常有用的操作符&#xff0c;它可以将两个或多个SELECT语句的结果集合并成一个结果集。每个SELECT语句必须拥有相同数量的列&#xff0c;且相应的列也必须具有相似的数据类型。UNION的结果集自动去除了重复的行&#xff0c;如果要包含重复行…

JVM指令:方法调用之解析调用

文章目录 介绍-方法调用指令1.invokestatic静态方法测试类反编译字节码 2.invokespecial特殊方法测试类反编译字节码 3.invokeinterface接口方法测试类反编译字节码 4.invokedynamic动态调用方法测试类反编译字节码 5.invokevirtual虚方法测试类反编译字节码 介绍-方法调用指令…

[Kubernetes集群:master主节点初始化]:通过Calico和Coredns网络插件方式安装

文章目录 前置&#xff1a;Docker和K8S安装版本匹配查看0.1&#xff1a;安装指定docker版本 **[1 — 7] ** [ 配置K8S主从集群前置准备操作 ]一&#xff1a;主节点操作 查看主机域名->编辑域名->域名配置二&#xff1a;安装自动填充&#xff0c;虚拟机默认没有三&#xf…

程序员如何搞副业?在线教育!

程序员如何搞副业&#xff1f; 程序员不仅拥有将抽象概念转化为实际应用的能力&#xff0c;还通常具备强大的逻辑思维和问题解决能力。然而&#xff0c;许多程序员并不满足于仅仅在一家公司工作&#xff0c;他们渴望通过副业来实现个人价值的最大化&#xff0c;增加收入&#…

深度学习-多尺度训练的介绍与应用

一、引言 在当今快速发展的人工智能领域&#xff0c;多尺度训练已经成为了一种至关重要的技术&#xff0c;特别是在处理具有复杂结构和不同尺度特征的数据时。这种技术在许多应用中发挥着关键作用&#xff0c;例如图像识别、自然语言处理和视频分析等。 多尺度训练的定义 多尺…

使用C++语言构建基于mysql API的统一数据库访问接口

文章目录 基本设计理念mysql的基本API基本的demo示例自增的处理架构设计代码DataRecord接口DataRecord代码TABLE A数据结构类DBAdaptermysql Adapterbusiness层在java这种web领域的后台语言里,操作数据库的框架已经炉火纯青,非常的成熟,包括了关系型数据库和非关系型等。 关…

「44」直播间换脸,揭开神秘的面纱……

「44」换脸神器 让你瞬间秒变「明星脸」带货 DeepFace是Facebook的人脸识别系统之一&#xff0c;旨在在照片和视频中准确识别和标识人脸。它使用深度学习和神经网络技术来进行高度精确的人脸匹配和验证。 DeepFace利用了大量的训练数据和先进的人脸识别算法&#xff0c;能够…

小程序中展示富文本 图片不适配?视频不显示?

最近遇到一个问题在小程序中渲染富文本的内容&#xff0c;如果里面有图片和视频&#xff0c;渲染的时候图片大小超屏幕了&#xff0c;而视频完全没有显示&#xff01;&#xff01;&#xff01; 最后通过正则匹配替换后 图片可以了视频还是不行&#xff0c;看了微信小程序api官…

react项目中需要条形码功能,安装react-barcode使用时报错

react项目中需要条形码功能&#xff0c;用yarn add安装react-barcode后&#xff0c;在项目中使用import Barcode from ‘react-barcode’&#xff0c;页面中一直白屏&#xff0c;加载中 查看控制台报以下错误 load component failed Error: Module "./react-barcode"…

Word 画三线表模板---一键套用

1、制作三线表 1&#xff09;设置为无边框 选中表格&#xff0c;点击「右键」——「边框」——「无框线」。 2&#xff09;添加上下边框线 选中表格后&#xff0c;点击【右键】——【表格属性】——【边框和底纹】&#xff0c;边框线选择【1.5磅】&#xff0c;然后点击【上框…

【数组】【最长距离】使循环数组所有元素相等的最少秒数

本文涉及知识点 数组 最长距离 LeetCode2808. 使循环数组所有元素相等的最少秒数 给你一个下标从 0 开始长度为 n 的数组 nums 。 每一秒&#xff0c;你可以对数组执行以下操作&#xff1a; 对于范围在 [0, n - 1] 内的每一个下标 i &#xff0c;将 nums[i] 替换成 nums[i] …

react17+18 中 setState是同步还是异步更新

在类组件中使用setState&#xff0c;在函数式组件中使用hooks的useState。 setstate目录 1. 类组件1.1 react 17版本1.2 react 18版本 2、函数式组件 1. 类组件 1.1 react 17版本 参考内容&#xff1a;第十一篇&#xff1a;setState 到底是同步的&#xff0c;还是异步的&…

【BUG】element-ui表格中使用video标签,数据翻页,video中的视频仍然显示第一页的视频,没有重新加载

BUG描述 遇到一个问题&#xff0c;使用element-ui构建的管理端后台&#xff0c;表格里面每一行都有一个video标签&#xff0c;里面有视频&#xff0c;当我翻页了以后&#xff0c;视频不会重新加载&#xff0c;仍然显示的是第一页的视频&#xff0c;代码如下&#xff1a; <e…

24.Linux下程序调试分析工具`Valgrind`

Linux下程序调试分析工具Valgrind 文章目录 Linux下程序调试分析工具Valgrind1.基本介绍2.下载编译安装Valgrind C程序内存扫描示例reference 欢迎访问个人网络日志&#x1f339;&#x1f339;知行空间&#x1f339;&#x1f339; 1.基本介绍 Valgrind是开源的Linux程序调试工…

Openstack(T)openstack event list 验证panko,显示为空

部署完panko,通过执行openstack event list 显示为空 表示没有获取到事件数据 排错思路: 1.保障ceilometer panko服务都是正常的 2.保障ceilometer 到 panko 的数据传输&#xff0c;是正确配置从采集点到存储点的 下面展示配置详情&#xff0c;执行openstack event list 事…