AI巨头争相与Reddit合作:为何一个古老的论坛成为AI训练的“宝藏”?

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

在今年二月,谷歌宣布与Reddit达成每年6000万美元的协议,允许谷歌使用Reddit的数据来训练其AI系统。上周,OpenAI也宣布了类似的合作协议,无疑也具有相当的商业价值。

为何全球最强大的AI公司会如此热衷于一个传统用户眼中充满偏见和嘲讽的老旧论坛?这背后的原因与当今大型语言模型(LLM)的训练方式息息相关。因其独特的设置,Reddit恰好为LLM生成了完美的训练数据。

这家成立已有29年的公司正在借助这一波兴趣,进入了巨大的盈利浪潮——尽管这对用户而言代价不小。

LLM训练数据的需求

为了继续进步,像OpenAI的ChatGPT和谷歌的Gemini这样的LLM需要持续摄入大量的书面语言数据。尽管这些模型已经从维基百科、几乎所有已出版的书籍、公开网站以及任何可公开获得的语言数据中获得了惊人的能力,但这些数据并未完全捕捉到人类日常使用的口语化语言。

这也是为什么像ChatGPT和Gemini这样的系统的输出往往显得僵硬和过于正式。为了让AI更像人类,LLM迫切需要更多真实的人类写作。然而,很多这样的写作都被锁在私人空间中,比如WhatsApp对话、短信、个人邮件等。即使AI公司能够获得这些数据,它们也会面临另一个问题:大多数口语化写作未经过滤和注释。

相比之下,出版的书籍等至少经过了一定的筛选和编辑,质量有保证。而口语化写作则没有这样的过程,很难评估其质量和连贯性。

Reddit的独特价值

Reddit的设置巧妙地解决了这些问题。作为一个匿名平台,用户可以快速创建账户,用化名发布信息。这种匿名性鼓励了随意、往往充满嘲讽和未经过滤的写作。更重要的是,Reddit还有一个独特的投票系统,用户可以对每个帖子进行评价,优秀的帖子会被顶上去,而无用的垃圾信息、营销内容和极端观点会被埋没或删除。

这种投票系统使得Reddit的数据在AI训练中具有无与伦比的价值。Reddit不仅提供了丰富的口语化写作,还内置了一个评价这些写作质量的系统。

Reddit的盈利风潮

由于其数据的完美性,Reddit正从大公司的AI投资中获得巨大收益。社交网络通过内容许可交易积累了数亿美元的收入,这帮助它在今年早些时候成功上市,并可能吸引更多投资者。随着LLM的商品化,Reddit也有可能创建自己的LLM,凭借其丰富的训练数据,比大公司竞争对手以更低的成本构建模型。

潜在风险

尽管有巨大的机会,AI公司对Reddit的痴迷也带来了严重的风险。Reddit之所以成功,是因为用户认为它是一个分享真实、不加修饰意见的地方。但这种匿名性也意味着数据不具有代表性,充满偏见和不准确的信息。AI公司可能会利用Reddit的投票数据来展示什么是受欢迎的,而不是事实。

LLM擅长检测模式,这些系统可能会从Reddit学习到偏见、分裂言论和网络喷子的模式,并在其他上下文中重复这些模式。这些偏见难以被检测到,甚至连系统的创建者也难以发现。

未来的解决方案

解决这些偏见需要更多的数据,而不是更少的数据,也需要更好地注释现有的、更少极端的口语化对话数据。更多来自不同背景和观点的数据将有助于改进LLM的训练。然而,企业如谷歌和OpenAI从哪里获得这种数据仍不明确。Slack等公司的开放数据训练引发了用户的愤怒,使得AI公司面临两难境地。

尽管如此,AI公司仍愿意为Reddit的数据支付数亿美元,因为这是他们目前能找到的最佳选择。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/14612.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

debian nginx upsync consul 实现动态负载

1. consul 安装 wget -O- https://apt.releases.hashicorp.com/gpg | sudo gpg --dearmor -o /usr/share/keyrings/hashicorp-archive-keyring.gpg echo "deb [signed-by/usr/share/keyrings/hashicorp-archive-keyring.gpg] https://apt.releases.hashicorp.com $(lsb_r…

MariaDB 给指定列值自动加密(持久数据加触发器)

文章目录 代码插入时,自动加密更新时,自动加密查看触发器数据操作示例update数据取出解密取 注意一次尝试,看加密后数据长度 参考链接: 一篇非常好的讲解触发器的文章:示例、原理MySQL/MariaDB触发器。 用触发器自动加…

前端工程化07-常见的包管理工具npm、yarn、cnpm、npx、pnpm

8、包管理工具 8.1、包管理工具概述 npm包管理工具、在安装node的时候这个东西就已经安装过了,通过npm去管理包的时候这个时候回有一个配置文件叫做package.json,他是以json的方式来书写对应的一个配置文件,这个配置文件是可以添加特别多的一些字段的&…

input输入多行文本,保存为.dot文件和对应的.txt文件

需求 不管是上面的dot还是这个dot 变成 input输入文本按“# ꧂ ꧁”结束保存在dot文本文件夹下,用txt保存每个文件文件名: 编号. 第二行有字文字 时间戳 代码 首先,我会创建一个Python脚本,它将接受用户的输入,直到…

案例题(第二版)

案例题目 信息系统架构设计 基本概念 信息系统架构(ISA)是对某一特定内容里的信息进行统筹、规划、设计、安排等一系列的有机处理的活动。特点如下 架构是对系统的抽象,它通过描述元素、元素的外部可见属性及元素之间的关系来反映这种抽象…

css属性之间总是有换行

问题 在create-next-app创建项目的时候,只要我没有选择eslint的时候,就不会在保存的时候每个属性之间有换行,但是创建项目的时候选择eslint,保存的时候就会在每条属性间有换行 回答 当你使用 create-next-app 创建项目并选择使用 ESLint 时…

k8s 1.28.10 浏览器访问6443查看api,需要证书

添加证书 使用client-certificate-data和client-key-data生成一个p12文件 1.生成client-certificate-data grep client-certificate-data ~/.kube/config | head -n 1 | awk {print $2} | base64 -d >> kubecfg.crt2.生成client-key-data grep client-key-data ~/.kub…

万象生图,一个windows文生图的软件

网址 https://support.qq.com/products/637894/?id155553 支持文生图,支持提示词本地翻译,支持提示词权重语法,支持样例和风格 支持图处理,包括去除背景和图像放大 支持各种快速生图模型,如LCM、TCD、Lightning、…

为什么self-attention要除以一个根号dk

简单说法是为了让方差到1,推公式也好推。但是没几个人说为什么方差要到1. 如果不除以根号dk,显然QK有可能很大,这就让softmax更有能力得到接近one-hot的结果。这本应是好的,但是从实践来看,我们并不要求一定要输出one-…

K8S中YAML案例

目录 案例:自主式创建service并关联上面的pod 案例:部署redis 案例:部署myapp 案例:部署MySQL数据库 总结 1.K8S集群中访问流向 K8S集群外部:客户端——nodeIP:nodeport——通过target port——podIP…

Java入门基础学习笔记44——String

为什么要学习String的处理呢? 开发中,对字符串的处理是非常常见的。 String是什么?可以做什么? java.lang.String 代表字符串。可以用来创建对象封装字符串数据,并对其进行处理。 1、创建对象 2、封装字符串数据 3…

Linux安装zsh并配置oh-my-zsh

配置oh-my-zsh 查看当前shell安装zsh切换到zsh配置ohmysh 查看当前shell cat /etc/shells# /etc/shells: valid login shells /bin/sh /bin/bash /usr/bin/bash /bin/rbash /usr/bin/rbash /bin/dash /usr/bin/dash安装zsh sudo apt install zsh# /etc/shells: valid login s…

blender 烘焙渲染图片,已经导出fbx,导出贴图。插件生成图片

1.新建一个模型。选择资产浏览器的材质,并拖动到模型身上,如下图。资产浏览器的材质可以网上找。 2.打开着色器面板。正下方着色器窗口中,点击空白取消选择,然后右击-添加-着色器-原理化BSDF,右击-添加-纹理-图像纹理。…

报错 Attempt to assign to const or readonly variable 前端 const

Attempt to assign to const or readonly variable 遇到这个错是因为给const声明的变量进行第2次赋值。 因为const声明的变量只能进行一次赋值,即常量。 ES6标准引入了新的关键字 const 来定义常量,const 与 let 都具有块级作用域。 const 定义的是常量…

宝塔Linux下安装EMQX服务并设置匿名访问

简述 之前有在Windows和Linux下搭建过EMQX服务并且使用方面都没问题,但那都是使用的用户和密码方式访问,且前提都是通过浏览器进入EMQX的配置页面设置的属性; 但这次使用的是腾讯云租用的宝塔Liniux,由于没有浏览器只能通过命令行方式修改EMQX配置以达到目的;由于事先没看…

【博主推荐】HTML5实现520表白、情人节表白模板源码

文章目录 1.设计来源1.1 表白首页1.2 甜蜜瞬间11.3 甜蜜瞬间21.4 甜蜜瞬间31.5 甜蜜瞬间41.6 甜蜜瞬间51.7 甜蜜瞬间61.8 永久珍藏 2.效果和源码2.1 页面动态效果2.2 页面源代码2.3 源码目录2.4 更多为爱表白源码 3.源码下载地址 作者:xcLeigh 文章地址:…

国内安装Axure RP Extension for Chrome插件

1、到项目的当前目录来 2、后缀改成.rar 3、解压成文件夹 4、拖入chrome中 我这里直接准备好了文件 链接:https://pan.baidu.com/s/1V98tx5LgXZRoKY7XjnIcrA 提取码:gh13

中国上市公司融资约束指数数据上市公司SA指数与WW指数(2000-2023年)

上市公司融资约束指数,是用来评估公司面临的融资限制程度的工具。SA指数由Hadlock和Pierce开发,基于公司规模和年龄计算,其中较小且较年轻的公司通常会有更高的指数值,表明其融资约束较大。另一方面,WW指数由Whited和W…

Win11彻底关闭“同意个人数据跨境传输”

Win11彻底关闭“同意个人数据跨境传输” 1 关闭对话框2. 修改Microsoft.CloudExperienceHost.winmd 1 关闭对话框 SHIFTF10WinEWinR输入taskmgr关闭Microsoft账户进程 2. 修改Microsoft.CloudExperienceHost.winmd 找到C:\Windows\SystemApps\Microsoft.Windows.CloudExperi…

【静态分析】在springboot使用太阿(Tai-e)03

参考:使用太阿(Tai-e)进行静态代码安全分析(spring-boot篇三) - 先知社区 1. JavaApi 提取 1.1 分析 预期是提取controller提供的对外API,例如下图中的/sqli/jdbc/vuln 先看一下如何用tai-e去获取router…