微软、OpenAI用上“数据永动机” 合成数据是晨曦还是暮光?

微软、OpenAI、Cohere等公司已经开始测试使用合成数据来训练AI模型。Cohere首席执行官Aiden Gomez表示,合成数据可以适用于很多训练场景,只是目前尚未全面推广。

  已有的(通用)数据资源似乎接近效能极限,开发人员认为,网络上那些通用数据已不足以推动AI模型的性能发展。Gomez便指出,网络极为嘈杂混乱,“它并不能为你提供你真正想要的数据,网络无法满足我们的一切需求。”

  今年5月的一场活动上,OpenAI首席执行官Sam Altman曾被问及,是否担心监管部门调查ChatGPT可能侵犯用户隐私的事。Altman对此不置可否,并表示自己“非常有信心,很快所有数据都将是合成数据”

▌人类真实数据售价高昂

  为了大幅提高AI模型的性能,提升它们在科学、医学、商业等领域的水平,AI模型需要的是“独特且复杂”的数据集。而这类数据或是需要来自科学家、医生、作家、演员、工程师等“内行人”,或是需要从药企、银行、零售商等大型企业获取专业数据。

这也就带来了让AI公司们转向合成数据的另一层原因——数据太贵了。

  且不说那些技术含量极高的制药、科学数据,光是之前Reddit和推特给出的数据采集要价,都被Gomez“嫌弃”价格太高。

  在这种情况下,合成数据自然成了一个实惠方案,不仅可以避开这些数据的高昂售价,还能生成一些更复杂的数据来训练AI。

▌如何用合成数据训练?

  具体如何用合成数据训练AI大模型?Gomez举了一个例子:

在训练一个高级数学模型时,Cohere可能会使用两个AI模型进行对话,其中一个扮演数学老师,另一个则充当学生。之后这两个模型就会就三角函数等数学问题对话,“其实一切都是模型‘想象’出来的”。

如果在这个过程中,模型说错了什么,人类就会在查看这段对话时作出纠正。

  而微软研究院最近的两项研究,也表明合成数据可以用来训练AI模型,这些模型一般比OpenAI的GPT-4、谷歌的PaLM-2更小更简单。

  在其中一篇论文中,GPT-4生成了一个名为“TinyStories”的短篇故事合成数据集,里面使用的单词全部非常简单,一个四岁儿童都能理解。这一数据集被用来训练一个简单的大语言模型,后者能生成流畅且语法正确的故事。

晨曦还是暮光

  想要合成数据的客户有了,供应商自然也如雨后春笋般涌现,例如Scale AI、Gretel.ai等初创公司。Gretel.ai由来自美国国安局和中情局的前情报分析师成立,其已与谷歌、汇丰银行、Riot Games、Illumina等公司合作,用合成数据来扩充现有数据,帮助训练人工智能模型。

Gretel.ai首席执行官Ali Golshan表示,合成数据的关键在于,它既能保护数据集中所有个人的隐私,又能保持数据的统计完整性

同时,合成数据还可以消除现有数据中的偏差和不平衡

不过,也有人不看好合成数据。

  反对派认为,并不是所有合成数据都经过精心调试,并能反映或改进真实世界。

  来自牛津、剑桥、帝国理工等机构研究人员发现,合成数据的负面影响甚至堪比“毒药”。如果在训练时大量使用AI内容,会引发模型崩溃(model collapse),造成不可逆的缺陷

  新一代模型的训练数据会被上一代模型的生成数据所污染,从而对现实世界的感知产生错误理解。随着时间推移,模型就会忘记真实基础数据部分。即使在几乎理想的长期学习状态下,这个情况也无法避免——研究人员也将此形容为“AI大模型患上‘痴呆症’”。

 

  即便是合成数据从业人员Golshan也坦承,在劣质合成数据上进行训练可能会阻碍进步。

“网上越来越多的内容都是由AI生成的。随着时间推移,这确实会导致退化,因为这些大模型产生的知识都是重复的,没有任何新的见解。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/10550.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

DoS攻击

DoS攻击(拒绝服务攻击) 拒绝服务攻击DoS(Denial of Service):使系统过于忙碌而不能执行有用的业务并且占尽关键系统资源。 它是基于这样的思想:用数据包淹没本地系统,以打扰或严重阻止捆绑本地的服务响应外来合法的请…

Java类的默认构造函数

什么情况下存在默认构造函数 说明 如果一个Java类没有显式包含构造函数的声明,那么隐含着有一个默认构造函数。 示例 定义一个类B,没有显式声明构造函数,所以存在一个默认构造函数: package com.thb;public class B {public …

selenium浏览器驱动下载

Chrome谷歌浏览器 下载地址:http://chromedriver.storage.googleapis.com/index.html 不同的Chrome的版本对应的chromedriver.exe 版本也不一样,下载时不要搞错了。 如果是最新的Chrome, 下载最新的chromedriver.exe 就可以了。 Firefox火狐浏览器 驱…

扫地机语音提示芯片,智能家居语音交互首选方案,WT588F02B-8S

智能家居已经成为现代家庭不可或缺的一部分,而语音交互技术正是智能家居的核心。在智能家居设备中,扫地机无疑是最受欢迎的产品之一。然而,要实现一个更智能的扫地机,需要一颗语音提示芯片,以提供高质量的语音交互体验…

Android Studio 的版本控制Git

Android Studio 的版本控制Git。 Git 是最流行的版本控制工具,本文介绍其在安卓开发环境Android Studio下的使用。 本文参考链接是:https://learntodroid.com/how-to-use-git-and-github-in-android-studio/ 一:Android Studio 中设置Git …

深度学习:梯度裁剪简介

深度学习:梯度裁剪简介 梯度裁剪简介设置范围值裁剪通过 L2 范数裁剪 附 在深度学习领域,梯度裁剪是一个常用的技巧,用于防止梯度过小或过大。下面简单介绍一下 梯度裁剪的原理与方法。 梯度裁剪简介 在深度学习模型的训练过程中&#xff0…

Linux系统安装部署Jenkins详细教程(图文讲解)

前言:最近需要使用Jenkins部署项目,所以想出一篇关于如何使用Linux系统安装部署Jenkins的相关教程,整体部署过程还是挺顺利的,特此分享一下! 目录 一、安装JDK11和Tomcat11 二、准备Jenkins安装包 三、部署Jenkins…

安全杂记 - js中的this关键字

javascript里什么是this this是js中的一个关键字&#xff0c;它是函数在运行时生成的一个内部对象&#xff0c;是属性和方法。 this就是属性或方法“当前”所在的对象&#xff0c;也就是调用函数的那个对象 this的使用场合 1.函数调用 <script>var a100;function test…

访问:http://localhost:8070/actuator/bus-refresh 问题

1、请求发送不出去 原因&#xff1a; 自己 config-server端 application.yml 配置的端口号是8888&#xff0c;访问server修改为配置的端口号 2、请求报错405 几个解决办法&#xff1a; 1、版本问题变为busrefresh 2、bus-refresh加单引号或双引号尝试 3、加配置尝试&#xff1a…

TypeScript -- 基础类型

文章目录 TypeScript -- 基础类型let 和 const基本类型写法布尔类型 -- boolean数字类型 -- number字符串类型 -- string数组类型元组类型枚举类型 -- enum任意类型 -- any空值 -- voidNull 和 Undefined不存在的类型 -- never对象 -- object类型断言 TypeScript – 基础类型 1…

【Linux下6818开发板(ARM)】SecureCRT串口和交叉编译工具(巨细版!)

(꒪ꇴ꒪ ),hello我是祐言博客主页&#xff1a;C语言基础,Linux基础,软件配置领域博主&#x1f30d;快上&#x1f698;&#xff0c;一起学习&#xff01;送给读者的一句鸡汤&#x1f914;&#xff1a;集中起来的意志可以击穿顽石!作者水平很有限&#xff0c;如果发现错误&#x…

h5应用调用企业微信api过程(获取当前外部联系人userId方法)

调用过程: 通过OAuth2授权链接进入页面并完成登录调用后台获取企业签名接口 并进行 wx.config() 注册在 wx.ready() 中继续 企业微信应用身份认证, 调用后台企业微信应用签名接口获取签名&#xff0c;在 wx.agentConfgi() 中注册在 wx.invoke() 中调用需要使用的api方法 下面…

【网络编程】(TCP流套接字编程 ServerSocket API Socket API 手写TCP版本的回显服务器 TCP中的长短连接)

文章目录 网络编程TCP流套接字编程ServerSocket APISocket APITCP中的长短连接手写TCP版本的回显服务器 网络编程 TCP流套接字编程 TCP提供的API主要是两个类:ServerSocket 和 Socket . TCP不需要一个类来表示"TCP数据报"因为TCP不是以数据报为单位进行传输的.是以…

管理类联考——数学——趣味篇——可视化

Manim: 一个数学可视化的动画引擎 官网&#xff1a;https://3b1b.github.io/manim/index.html 名词解析 python3.7是python语言的解释器, 运行python程序的环境必备品. 这个没啥说的,大家都能懂. 虽然官方建议3.7,但是我用3.8发现也没问题.考虑未来的历史进程,大伙最好还是装…

html中使用Vue+element UI动态创建表单数据不显示问题

直接上代码&#xff1a;html代码如下 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible" content"IEedge"><meta name"viewport" content&…

面试知识点整理

计算机的物理内存是有限的&#xff0c;所以操作系统在遇到内存不足时&#xff0c;会通过换页机制暂时把 某个进程未使用的内存中的数据搬移到硬盘上&#xff08;比如 Linux 的 swap 分区&#xff09;&#xff0c;并在系统页表中 删除相应的表项。当该进程访问数据已经被搬移到硬…

LeetCode 2569. Handling Sum Queries After Update【数组,线段树】困难

本文属于「征服LeetCode」系列文章之一&#xff0c;这一系列正式开始于2021/08/12。由于LeetCode上部分题目有锁&#xff0c;本系列将至少持续到刷完所有无锁题之日为止&#xff1b;由于LeetCode还在不断地创建新题&#xff0c;本系列的终止日期可能是永远。在这一系列刷题文章…

Ansible的应用

Ansible简介 Ansible是一个基于Python开发的配置管理和应用部署工具&#xff0c;现在也在自动化管理领域大放异彩。它融合了众多老牌运维工具的优点&#xff0c;Pubbet和Saltstack能实现的功能&#xff0c;Ansible基本上都可以实现。 Ansible能批量配置、部署、管理上千台主机…

Io进、线程——进程的基础

进程的基础 进程是计算机中最基本的执行单位&#xff0c;是程序在操作系统中的一次执行过程。每个进程都有自己的地址空间、数据栈、程序计数器等&#xff0c;相互之间独立运行&#xff0c;互不干扰。进程间的通信通过特定的机制来实现&#xff0c;进程的创建和撤销由操作系统…

[AWD靶场搭建]

文章目录 [AWD靶场搭建]前言AWD平台搭建靶机搭建Cadinal添加靶机 连接Asteroid大屏默认ssh账号密码参考 [AWD靶场搭建] 前言 觉得好玩搭建了一下AWD靶场&#xff0c;使用了vidar-team编写的 Cardinal AWD平台搭建 这里我是在kali搭建的&#xff0c;所以我下载了这个压缩包&…