【Deep Dive: AI Webinar】数据合作和开源人工智能

25c3d1c1f4094062b00993cd0d0e6ad6.jpeg

3bbbc9155b8535ef693463253430645a.png

【深入探讨人工智能】网络研讨系列总共有 17 个视频。我们按照视频内容,大致上分成了 3 个大类:

1. 人工智能的开放、风险与挑战(4 篇)

2. 人工智能的治理(总共 12 篇),其中分成了几个子类:

a. 人工智能的治理框架(3 篇)

b. 人工智能的数据治理(4 篇)

c. 人工智能的许可证(4 篇)

d. 人工智能的法案(1 篇)

3. 炉边对谈-谁在构建开源人工智能? 

今天发布的是第 8 个视频,亦即第二个大类别 “人工智能的治理” 里的第二个子类别 “人工智能的数据治理” 的第一个视频:数据合作和开源人工智能。

我们期盼如此分类,对读者的易读性有帮助,也欢迎读者们的反馈和指正。

                   --- 开源社.国际接轨组 ---

895cdf6a10947d98f05d5f9978f2a243.png

c60e043606730b9df285b1cdf66ab044.png

Stefano Maffulli

大家好,欢迎来到由开源促进会主办的《深入探讨人工智能》网络研讨会。今天,我们将听到  Siddharth ManoharTarunima Prabhakar 谈论数据合作和开源人工智能。祝大家愉快,最后我们会留时间来回答大家的提问。

Tarunima Prabhakar :

 大家好。我是来自 Tattle 社区的 Tarunima ,今天和我一起的是我的同事 Siddharth 。 

我们是印度的民间科技组织,专门制造软件工具以及应对国内不准确和有害内容的数据集。我们的工作包括制作工具,用来从印度流行的研究平台收集数据以及分析印度语言和多媒体数据的机器学习模型。比如我们有像 Flutter 这样的项目,我们也通过一个名为 Uli 的工具来部署机器学习模型,用于检测印度语言的滥用。 

我们从一开始就是开源的,但我们的机器学习和数据校正工作在不断发展。在这种情况下,我们发现自己进入了一个模糊的领域,但是我们正试图对自己和他人阐述我们如何践行开源的价值观,一如我们启动这个项目时所陈述的初心以及这在机器学习的背景下意味着什么? 我们决定参与这一系列的讨论,在这里其他演讲者也在思考类似的问题, 我们的谈话主要围绕我刚刚提到的项目 Uli 。但这是一个初步的实践,我们要为我们的机器学习和人工智能工作制定一个全面的方法。 

在我开始之前,我们应该提一下这次演讲中表达的观点是一些讨论和阅读的结果。最值得注意的是,我想呼吁将人工智能系统作为数字公共产品组织起来的实践社区,由数字公共产品联盟 (DPGA) 组织。特别是和我们的同事的谈话, Arnav Arora ,他是我们的数据科学家,为我们提供数据科学方面的建议。 

我们在 Irene Solaiman 的关于“生成 AI 发布梯度”的论文中借鉴了很多内容。正如你们将看到的,这在我们谈论机器学习许可证的方式中是一个相当关键的部分。好吧,开放是闲谈的核心价值,但我们也把开源看作是达到目的的一种手段。 

现在,对于开源,可以有几种不同的目的。ChatGPT 列出了12个原因,其中包括:法律保护,防止锁定,提供学习和发展的机会。在我们的案例中,当我们将开放定义为我们的五大核心价值观之一时,我们在一篇博客文章中阐述了这样做的动机。我们说过,错误信息既是一个全球性问题,也是一个地方性问题,它比任何单一平台或任何单一团队都还重要。在这个领域,任何持久的解决方案都必须是参与性的,也是多学科的。我们说过,开放是一种承诺,任何人、每个人都可以使用、改变,并分享他们在 Tattle 为自己独特的目的而制作的工具。 

最后,我们提到开放不仅仅是开源软件,它也与交流有关,但它基本上是开发这些工具的一种手段,这些资源是公共的。所以我们在 Tattle 最关心的结果,当我们谈论开源是适应、扩展和透明时,它最终成为了社区共同所有权和社区发展的代理。我们现在在这个目标的背景下谈论我们的项目 Uli , Uli 是一个浏览器插件,可以检测和调整印度地区语言中的性别滥用,它还为集体响应提供了工具。 

这个项目由两个因素推动,其中之一是印度边缘化性别的人受到的骚扰比其他国家的人高得多。我的意思是,边缘化性别的人是全球范围内的目标,但在印度,顺序是,对于某些研究来说,看到这个的骚扰程度要高一些,比美国和英国同行收到的要多。第二,审核工具很少,包括开源工具,而且缺乏适用于印度语言者,其它许多缺乏资源的语言也一样。

我们去年推出了一个基于机器学习的功能,它从一个人的推特,现在是 X,的时间轴上编辑辱骂式的推文。这个模型依赖 18 名活跃人士所注释的分为三种印度语的 24,000 条推文, 每 6 位活跃人士负责一种语言的注释。然后我们用这些数据对现有的模型进行微调。因此,最适合我们使用的是出色的 Twitter-RoBERTa 。基于去年部分数据所做的所有工作都将被公布, 并在最大限度的开放政策下被释放。数据将被共享或已经被共享 OdBL 许可证下进行了共享。代码遵循的是 GPL 3.0 许可。这个模型放在 Hugging Face 上,当模型和数据结合在一起时就可以下载。它可以被调查、复制和发布。 

但展望未来,我们正在考虑改变许可条款,特别是数据的许可条款,这就对该模型授权给下游的方式产生了影响。数据许可和模型许可之间的紧张关系是本次演讲的主旨。由于我们花了很多时间讨论数据许可或对数据许可替代方案的需求,我认为理解这些数据的含义很重要。Uli 数据基本上是数据集的集合,每个数据集都描述了滥用的实例。目前,这个 Uli 数据包括 450 多个侮辱性词汇的列表,这是针对印度边缘化性别人群的。这个列表包含印地语、泰米尔语和印度英语中的单词。我们现在正在众包元数据,例如,这个术语的含义是什么? 这个侮辱性或冒犯性的词汇,针对的是哪些不同的身份? 这也包含了来自于支持本项目的活跃分子社区的众包元数据。另一个被纳入 Uli 数据的数据集是我之前提到的, 这是一组由活跃者和研究人员注释的 24,000 条推文。未来,Uli 的数据可能会扩展到包括来自其他社交媒体平台的图片和帖子,而不仅仅是 Twitter/X 。

考虑从现有的开放数据许可协议出发,来制定替代的数据许可政策主要有两个原因, 我们很快就会讲到。但在我把它交给 Siddharth 之前,我还想做一些背景介绍,亦即我们如何看待我们目前建立的机器学习模型。所以这个模型是通过微调我提到的现有模型中基于特定环境的数据所建立起来的。这个模型正在被 Uli 插件使用, 但我们不会把这个机器学习模型作为产品来推销给其他团体和公司。我们确实认为数据本身是其他平台可以用来查找其内部技术和研发的相关消息。

 所以在我们找到相反的证据之前,我们正在研究一种机器学习模型,任何关于许可证或整体机器学习模型的对话,都是为了进行审查并获得反馈。正如我们所说,某种程度上使共同所有权成为可能,如果人们愿意的话,他们也可以对这个模型做出贡献或进行深入了解。说到这里,我将把麦克风交给 Siddharth 。

Siddharth Manohar:

我们考虑过的一种形式是按目的区别访问。这就区分了学术研究机构、政府机构、非营利组织或对数据有商业应用的公司对数据的使用。

所以这里的区别在于上述这些合作对象,谁可以将这些数据用于研究或某种对社会有益的目的,例如防止滥用,或研究这些滥用是如何起作用的,也许可以改进网路滥用语言的列表等。这些都是免许可证的,而任何想要将其产品化的人,任何想要建立商业解决方案的人,将被加上关于补偿或付款的许可证条款。 

这与我们之前讨论的一致,我解释了如何正确认知创建这些数据注释的劳动投入,这将使任何一种产品,或任何一种对这个数据集有用的应用成为可能。 

当然,另一方面也是关于防止滥用,并确保这些数据有防止高风险事件发生,或者任何对数据滥用的高风险影响的闸门。一方面,它防止了这种情况的发生,但另一方面,它也迫使我们的许可证有一个有效的审查过程,以更多了解这些数据在世界上是如何被使用的,如何影响其他社区,如何影响平台和社会,一旦它在某种意义上脱离了管理。 

这又回到了数据公正的概念,这些框架的价值是建立在数据公正的基础上的,是一种很重要的表达和解释。现在由 Tarunima 接着讲述机器学习模型。

Tarunima Prabhakar :

所以,这对我们来说意味着,既然没有向公众完全发布数据集,这种模式将不可避免地成为一种面向公众的模式。这里有三个选择。有托管访问,也就是说,我们把模型放在一个网络界面后面,然后人们就可以用特定的帖子查询它,模型会吐出来回答这是否是网络语言的滥用。有基于云的 API 访问,其中模型托管在云上,人们可以在基于云的模式上进行一些实验和调整。第三,它是可下载的,也就是说人们可以下载整个 Uli 模型,你可能会找到一个单位,摆弄、研究它。所以它将不会完全开放。

所以,没有数据集。这是最开放的了。既然我们不打算将我们的机器学习模型产品化,我们不打算在讨论中考虑基于云的 API 访问模型,那么,在我们的例子中,比较的结果是托管访问的模型与可下载的模型之间的比较。在这个阶段,重要的是要强调,我们不是在谈论对机器学习模型的不同访问。Siddharth 前面描述的所有场景都是关于对数据的不同访问,以及关于机器学习模型许可的决定(无论是商业实体还是非商业实体),如何统一适用于所有人。 

但是,您使用该许可模型所能做的事情显然会发生变化。这取决于你是否可以访问数据以及你可以访问的数据的形式。Siddharth 会描述另一种不同的数据访问方式,也就是按时间对数据的区别访问。

Siddharth Manohar:

按时间差异访问数据,这将是一种完全不同的构建区别访问的方式,然后我也会强调这是对数据的访问,而不是模型。这里的前提是为 Uli 提供动力的数据库的新子集。由于网络滥用的本质,这部分数据实际上更有价值。因为滥用行为演变的方式,语言演变的方式以及在线使用的方式。这种价值在某种程度上反映在我们处理数据许可的方式上,也就是说,旧的数据不是当前的问题领域,比如说不是时下热点话题,也就是说,这不是在线材料持续状态的一部分,不管它是什么,它都不是一个有问题的领域,因此可以是开放的。 

而更新的数据从注释中获得了某些特定的附加价值,这甚至可能需要一定程度的专业知识在某一语言滥用领域的专业知识,某一种滥用,在某个冲突地区,这类数据的许可将受到限制。这种专业知识,这种劳动投入,这两种东西都反映在这种许可模式中。真正的体验是在接收端,真正获得这种专业知识,也反映在这上面。 

就网络语言滥用而言,它是如何反映在我们对滥用的理解中,这种数据集的门控防止了误用,阻止了我之前描述的那种防止滥用的消除。它可以防止访问这种特定数据集可能导致的任何类型的滥用放大。这就是对时间差异的访问类型的理解,或者根据数据的相关性或时间相关性。

Tarunima Prabhakar :

在这种情况下,拥有最新的数据是有好处的,但至少对于每个人都能获得的旧数据来说,我们可以探索一种完全开放的机器学习模型的可能性,在这种模型中,任何人都无法获得更新的数据。我们又回到了之前的情景,不同目的的区别访问,我们必须决定是否要释放机器学习模型链,在托管访问或可下载模型下。 

所以,我认为这可能是显而易见的,但是,我们将重新为自己重申一下。也就是说,如果数据是可用的,可下载的模型就是一个完全开放的模型。 

因此,可下载模式允许更高程度的扩展。它允许更大的透明度,但也允许更大的滥用。托管访问允许没有数据,允许最小的扩展性,适应性和透明度,滥用也少了。

但是,即使一般数据是可用的,在扩展和透明度方面,可下载比托管访问更好。我们会在哪里考虑使用托管模型而不是可下载模型,因为我们担心滥用,但在这里我们应该反思我们如何看待滥用机器学习模型。 

所以 Siddharth 说了一些关于数据滥用的问题,但是机器学习模型本身是对某事是否为滥用提供影响的载具。我们不认为我们的主要威胁媒介,比如个人社交媒体。你知道,印度的内容创作者或喷子或喷子农场正在骚扰人们,我们并不认为他们会花时间在一个高度专业化的模型上,以滥用侦查去追踪其他人。 

因此在这个阶段,我们还不清楚这个模型是如何被滥用的。这就是为什么对我们来说,可下载的模型才是更好的选择。可下载比托管访问更好。这在实践中意味着什么? 假设在情形一中,有不同的数据访问方式,通过某人请求数据的目的。 

对于那些拥有数据的人来说,它提供了与开源模型类似的优势。他们可以调查,给我们反馈以改进它。但对于那些没有数据的人来说,他们所能做的就是微调模型,可以进行一些调查,并将我们的模型与其他模型进行比较。 

当我们讨论按时间区别访问数据时,它使机器学习模型将旧数据完全开源,所以它不是最新的模型。但在某种程度上,它是一个开源模式,这第一种按目的对数据的区别访问是不被允许的。这个将对公众开放,并在 Uli 中使用的模型,是一个浏览器插件。在这两个模型之间,Uli 模型用最新数据更新可能会有滞后,但公众可用的模型是在旧数据上训练的。 

但是人们仍然可以把旧的数据附加到他们自己的数据集上,你知道,在某些方面创建和研究模型,这绝对是一个比按目的区别访问数据更开放的解决方案。我们并不是说,我们会选择其中之一。这个对话是考虑我们如何授权数据的一部分。这对机器学习的开放和扩展意味着什么,或者机器学习模型的透明度? 这是我们实际上如何授权数据需要考虑的。 

我们有可能将这两种模型结合起来,这是为了某些目的,有不同的考虑,或者可以访问不同时间范围的数据,某些用例,获得实际的最新数据。这对机器学习模型来说意味着非常混乱,就像矩阵变得非常复杂一样。 

请随时给我们反馈。我们来这里也是为了问答。谢谢! 

8e07190064ee2b6dd00c0bade1a90b65.png

75c11d02a8241568583b779dbc885a1f.png

Siddharth Manohar

Data Governance Consultant

bdaab8d406c18003ff9b01eac027c2a5.png

Tarunima Prabhakar
Research Lead/ Co-Founder, Tattle Civic Tech

作者丨Siddharth Manohar 、Tarunima Prabhakar

翻译丨李思颖

审校丨刘天栋

视频丨陈玄

策划丨李思颖、罗蕊艳

编辑丨张若珊    

相关阅读 | Related Reading

【Deep Dive: Al Webinar】开源人工智能中赋能、透明性和可重复性三者之间的关系

【Deep Dive: AI Webinar】将SAFE-D原则应用于开源人工智能中

【Deep Dive: AI Webinar】基于LLM的推荐系统中的公平与责任:确保人工智能技术的使用合乎道德

【Deep Dive: AI Webinar】在开放开发的开源项目中引入 AI 的挑战

开源社简介

开源社(英文名称为“KAIYUANSHE”)成立于 2014 年,是由志愿贡献于开源事业的个人志愿者,依 “贡献、共识、共治” 原则所组成的开源社区。开源社始终维持 “厂商中立、公益、非营利” 的理念,以 “立足中国、贡献全球,推动开源成为新时代的生活方式” 为愿景,以 “开源治理、国际接轨、社区发展、项目孵化” 为使命,旨在共创健康可持续发展的开源生态体系。

开源社积极与支持开源的社区、高校、企业以及政府相关单位紧密合作,同时也是全球开源协议认证组织 - OSI 在中国的首个成员。

自2016年起连续举办中国开源年会(COSCon),持续发布《中国开源年度报告》,联合发起了“中国开源先锋榜”、“中国开源码力榜”等,在海内外产生了广泛的影响力。

7772498e34c8be68e4b5b2f5aad1af28.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/659032.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

02、全文检索 ------ Solr(企业级的开源的搜索引擎) 的下载、安装、Solr的Web图形界面介绍

目录 Solr 的下载和安装Solr的优势:Lucene与Solr 安装 Solr1、下载解压2、添加环境变量3、启动 Solr Solr 所支持的子命令:Solr 的 Core 和 Collection 介绍Solr 的Web控制台DashBoard(仪表盘)Logging(日志&#xff09…

代码随想录算法训练营29期|day34 任务以及具体任务

第八章 贪心算法 part03 1005.K次取反后最大化的数组和 class Solution {public int largestSumAfterKNegations(int[] nums, int K) {// 将数组按照绝对值大小从大到小排序,注意要按照绝对值的大小nums IntStream.of(nums).boxed().sorted((o1, o2) -> Math.ab…

华为1.24秋招笔试题

华为1.24秋招笔试题 1.题目1 题目详情 - 2024.1.24-华为秋招笔试-第一题-计算积分 - CodeFun2000 1.1题解 import java.util.Scanner;class Main{public static void main(String[] args){Scanner scnew Scanner(System.in);String ssc.next();char[] chs.toCharArray();in…

qt语言国际化(翻译),并实现多窗口同时翻译

一、.pro文件中添加支持的语言 在.pro文件中添加下面几句,支持中文和英文 TRANSLATIONS lanague_cn.ts\lanague_en.ts二、通过qt语言家更新翻译生成.ts文件 完成以后在工程目录可以看到.ts文件 三、通过linguist翻译文件 打开文件 将两个文件同时选中&#xf…

【WPF.NET开发】优化性能:图形呈现层

本文内容 图形硬件呈现层定义其他资源 呈现层为运行 WPF 应用程序的设备定义图形硬件功能和性能级别。 1、图形硬件 对呈现层级别影响最大的图形硬件功能包括: 视频 RAM - 图形硬件中的视频内存量决定了可用于合成图形的缓冲区大小和数量。 像素着色器 - 像素着…

【优秀案例】回本周期缩短10%!日安装量级高达5000以上!看NetMarvel如何赋能Ball Sort达成多项目标

“合成大西瓜在海外火了” 没想到,在国内已经过气的玩法转战到海外后,还能够翻红的这么彻底? 实际上,市面上很多在本土市场不温不火但转战海外赛道却盈利感人的应用不在少数,比如我们今天的重头戏《Ball Sort - Colo…

【云上建站】快速在云上构建个人网站4——网站备案

快速在云上构建个人网站4——网站备案 一、为网站配置域名1、使用域名的原因2、域名使用逻辑3、域名配置流程 二、域名注册1、查询域名:2、确认订单:3、实名认证域名4、域名解析配置解析域名:解析设置:访问域名: 一、为…

【深度学习:多关节嵌入模型】 Meta 解释的 ImageBind 多关节嵌入模型

【深度学习:多关节嵌入模型】 Meta 解释的 ImageBind 多关节嵌入模型 Meta 发布开源人工智能工具的历史分段任何模型DINOv2 什么是多模态学习?什么是嵌入?什么是 ImageBind?集成在 ImageBind 中的模式图像绑定架构特定模式编码器跨…

Flask框架开发学习笔记《6》前后端不分离基础框架

Flask框架开发学习笔记《6》前后端不分离基础框架 Flask是使用python的后端,由于小程序需要后端开发,遂学习一下后端开发。 主要包含如下文件: static 目录中存储了图片templates 目录中存储了 html 文件utils.py 包含了 log 函数server.p…

资深Android逆袭、华为鸿蒙为安卓程序员开辟了一条新道路

本文章主要从以下5个方面来展开聊聊这个话题: 1.什么是鸿蒙 2.鸿蒙系统发展时间线 3.鸿蒙是套壳Android吗? 4.鸿蒙的生态(用户以及开发者) 5.一些建议 1月18日,在鸿蒙生态千帆启航仪式上,华为宣布了继鸿蒙4…

实现单点登录

指再多系统应用群中登录一个系统,便可在其他所有系统中得到授权而无需再次登录,包括单点登录与单点注销两部分。 相比于单系统登录,sso需要一个独立的认证中心,只有认证红心能接受用户的用户名密码等安全信息,其他系统…

C#,打印漂亮的贝尔三角形(Bell Triangle)的源程序

以贝尔数为基础,参考杨辉三角形,也可以生成贝尔三角形(Bell triangle),也称为艾特肯阵列(Aitkens Array),皮埃斯三角形(Peirce Triangle)。 贝尔三角形的构造…

大创项目推荐 题目:基于深度学习的中文对话问答机器人

文章目录 0 简介1 项目架构2 项目的主要过程2.1 数据清洗、预处理2.2 分桶2.3 训练 3 项目的整体结构4 重要的API4.1 LSTM cells部分:4.2 损失函数:4.3 搭建seq2seq框架:4.4 测试部分:4.5 评价NLP测试效果:4.6 梯度截断…

鸿蒙 ArkTS 从数组内查找指定的数据

let arr [1, 2, 3, 4, 5]; let target 3; let result arr.filter(item > item target); let a String(result) 将数字转换成文本型 console.log(a); 亲爱的读者: 首先,我要感谢您抽出宝贵的时间阅读这篇文章。我深知,您的每一分每一…

05 MyBatis之表关系的声明+事务+SqlSession三件套的作用域

MyBatis 支持一对一,一对多,多对多查询。XML 文件和注解都能实现关系的操作。多对多实质就是一对多 1. 表关系的维护 1.1 One一对一 一对一查询和多表(两表)查询很相似, 都能查询两表的全部属性 区别是一对一可以在对象中嵌套对象, 呈现包含关系; 多表…

行为型设计模式—迭代器模式

迭代器模式:也叫作游标模式,能在不暴露复杂数据结构内部细节的情况下遍历其中所有的元素。在迭代器的帮助下, 客户端可以用一个迭代器接口以相似的方式遍历不同集合中的元素。 当集合背后为复杂的数据结构,且希望对客户端隐藏其复…

Qt扩展-muParser数学公式解析

muParser数学公式解析 一、概述1. 针对速度进行了优化2. 支持的运算符3. 支持的函数4. 用户定义的常量5. 用户定义的变量6. 自定义值识别回调7. 其他功能 二、内置函数三、内置二元运算符四、三元运算符五、内置常量六、源码引入1. 源码文件2. 编译器开关1. MUP_BASETYPE2.MUP_…

【中关村开源生态论坛暨大模型智能应用技术大会】—— 探索AI和开源在未来的应用

🌈个人主页: Aileen_0v0 🔥热门专栏: 华为鸿蒙系统学习|计算机网络|数据结构与算法 ​💫个人格言:“没有罗马,那就自己创造罗马~” #mermaid-svg-9ttR7rpX3BzyF2C4 {font-family:"trebuchet ms",verdana,arial,sans-serif;font-siz…

阿赵UE学习笔记——13、贴花

阿赵UE学习笔记目录 大家好,我是阿赵。   继续学习虚幻引擎的使用。这次介绍一种特殊的材质类型,贴花。 一、获取贴花资源 在没有分析贴花的原理之前,可以先去获得一些免费的贴花资源来使用,比如在Quixel上面就有专门的一个资源…

初识C语言·文件操作

目录 1 关于文件 i)文件的基本知识 ii)数据文件的分类 2 文件打开和关闭 i)流和标准流 ii)文件指针 iii)文件打开和关闭 3 文件的顺序读写 i) fgetc fputc ii) fgets fputs iii) fscanf fprintf iv) fwrite fread 4 对比一组函数 scanf/fscanf/sscanf/printf/fpri…