GitHub 遭抵制!AI 代码生成神器竟成“抄袭工具”?

整理 | 郑丽媛

出品 | CSDN(ID:CSDNnews)

上周,微软、GitHub、OpenAI 三方联手推出的 AI 代码生成神器 GitHub Copilot 一经官宣便引起巨大关注:试问哪个开发者不想要这么一位“虚拟程序员”来解放自己的双手?

因此即使目前 GitHub Copilot 处于并不完美的技术预览版阶段,许多开发者们还是迫不及待地体验尝试。

可这一试,试出问题来了:GitHub Copilot 生成的代码为何这么眼熟,就连注释都“原汁原味”,这是抄袭吗?

真 · 雷神之“

其实有关 GitHub Copilot 直接复制代码的问题,微软早在官宣时就曾回应:“只有 0.1% 的情况下,GitHub Copilot 提供的代码建议中可能包含一些来自训练集的字符或片段。”

但微软口中的这个“0.1% 的情况”,已经出现了。

一位开发者 @mitsuhiko 在推特上公布了他的发现:让 GitHub Copilot 生成快速平方根倒数算法(Fast Inverse Square Root),结果出来的代码竟与《雷神之锤 3》中那段“传奇代码”一模一样!(注:快速平方根倒数算法也被称为平方根倒数速算法,此算法由于出现在《雷神之锤3》源代码中被人们所熟知。)

这段代码无疑是“抄袭”:不仅包含了快速平方根倒数算法中至今都无人理解的神奇数字“0x5f3759df”,就连当年《雷神之锤 3》开发者对这串数字的吐槽都保留得“原汁原味”。

如此一来,GitHub Copilot “抄袭代码”不仅实锤,还是真 · 雷神之“锤”,无法开脱,由此引发的代码版权问题也愈演愈烈。

GitHub Copilot 算是 GPL 协议中规定的衍生作品吗?

在 GitHub Copilot 直接复制快速平方根倒数算法这个过程中有个矛盾点,即这段代码是遵循 GNU GPL 2.0 协议进行开源的,而 GitHub Copilot 却要在未来扩展为付费服务提供。

(注:GNU GPL 2.0 协议要求任何包含该开源许可证的衍生作品,即使仅有几行代码,也必须免费提供全部源代码以及修改和分发它们的权利。)

在此基础上,就产生了一个巨大争议:这个现象表示 GitHub Copilot 在训练过程中必定使用过 GPL 协议下的代码,那么机器学习系统产生的作品,甚至机器学习系统本身,都算是 GPL 协议中规定的衍生作品吗?

  • 如果答案是“否”,那是不是说明开发者可以利用 GitHub Copilot 来“清除”代码的 GPL 协议,从此再也无需遵循该协议

  • 如果答案是“是”,那么不仅 GitHub Copilot 应该免费开源,整个 GitHub 都要成为一个开源项目:据 GitHub 博客中“在 GitHub Copilot 的早期开发过程中,作为内部试用的一部分,近 300 名员工在日常工作中使用了它”的说法,这些员工很有可能已经将 GitHub Copilot 生成的代码整合到 GitHub 的方方面面,那么 GitHub 就也应该是个开源项目。

为此,长期关注版权保护问题以及开源和自由软件的有力推动者 Julia Reda 写了一篇文章并坚定认为:GitHub Copilot 并未侵犯开发者的版权

她指出,简单地阅读和处理信息并不需要版权许可。举个例子,如果你去书店,从书架上拿一本书开始阅读,在这个过程中你是没有侵犯任何版权的,而人工智能这类数字技术的训练过程就是如此,它们需要大量内容数据。

Julia Reda 在文中表示:“版权和数字技术之间的确因此会有许多冲突,所幸政策制定者和法院早就意识到:如果每个技术副本都需要许可,那么数字技术将完全无法发展使用。

早在 2001 年,欧盟就允许这种作为技术过程一部分的临时性复制行为不受版权限制,尽管当时反对的声音颇多。

后来到 2019 年,欧盟研究协会更是要求欧洲版权法明确许可所谓的文本和数据挖掘,即永久存储受版权保护的作品以实现自动化分析。也就是说,根据欧洲版权法,无论使用何种许可协议,抓取 GPL 许可的代码或任何其他受版权保护的作品都是合法的。

此外,Julia Reda 还认为机器自动生成的代码不能视为衍生作品

  • 首先,有人认为即使复制受版权保护作品的最小摘录也构成侵犯版权,这很不合理。按这种说法,就算不提 GitHub Copilot 从训练数据中复制的短代码片段本来就不太可能达到原创标准,如果两个或多个开发人员在各自的程序中使用相同的基本代码,岂不是会产生无穷无尽的争议?

  • 其次,版权法只适用于智力创作——没有创作者,就没有作品。也就是说像 GitHub Copilot 这样的机器生成代码根本不符合版权保护的条件,因此也并不是衍生作品。

争议颇多,甚至有开发者决定退出 GitHub

即便 Julia Reda 如此主张,但广大开发者对此并不买账。GitHub Copilot 的版权争议引发了很多人对 Github 的不满,甚至有开发者因此决定退出 GitHub:

“我认为这是对版权持有人权利的严重侵犯,因此我不能继续依赖 GitHub 的服务。”

也有开发者批评 GitHub Copilot 将免费代码用作商业 AI 应用的资源:

“GitHub Copilot 自己也承认,他们接受过大量 GPL 代码的训练,所以我不知道为什么这不是一种将开源代码转化为商业作品的形式。”

那么对此你有什么看法吗?

参考链接:

  • https://juliareda.eu/2021/07/github-copilot-is-not-infringing-your-copyright/

  • https://news.ycombinator.com/item?id=27736650

  • https://twitter.com/mitsuhiko/status/1410886329924194309

更多精彩推荐
直击“上云”痛点的 MSP 新生意
到底要不要报考“通信工程”?
Gartner:2020年全球IaaS公有云服务市场增长40.7%新零售:从上云到云原生 Serverless
点分享点收藏点点赞点在看

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/514658.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

阿里云性能测试工具PTS介绍

简介: 性能测试 PTS(Performance Testing Service)是具备强大的分布式压测能力的 SaaS 压测平台,可模拟海量用户的真实业务场景,全方位验证业务站点的性能、容量和稳定性。 阿里云 阿里云智能GTS-平台技术部-SRE团队 1…

php微信公众号的服务器配置,微信公众号服务器配置选项PHP示例代码

最近微信公众号遇到有点奇怪的问题,使用的是tp框架,之前配置都ok的,最近有需求重新填写url选项,可配置时一直显示token失败,解决方案,参考以下php示例代码来修改,同时最好把输出注释掉。最后通过…

Dubbo 3.0 前瞻系列 | 2020双11,Dubbo3.0 在考拉的超大规模实践

很多开发者一直以来好奇:阿里自己有没有在用Dubbo,会不会用Dubbo?在刚刚结束的双11,我们了解到阿里云今年提出了“三位一体”的理念,即将“自研技术”、“开源项目”、“商业产品”形成统一的技术体系,最大…

OpenStack管理界面开源啦!

日前,木兰开源社区TOC召开了孵化项目审议会议,其项目分别覆盖数据库、大数据处理、网络、流媒体、云计算等关键领域。其中,浪潮数据纯自研产品Skyline成功入围。 自开源至今,OpenStack常被诟病的一点是原生界面不太好用&#xff…

厂商 push 不通排查指南

简介: MPS 集成多个三方渠道,保障 push 使命必达的必须知道的几件事。 为了提升「MPS 消息推送」的推送的到达率,mPaaS 集成了华为、小米等厂商的推送功能,从而有效地提高用户留存率,提升用户体验。在日常运维过程中&a…

Hologres助力飞猪双11实时数据大屏秒级响应

简介: 本文重点介绍Hologres如何落地阿里巴巴飞猪实时数仓场景,并助力飞猪双11实时数据大屏3秒起跳,全程0故障。 摘要:刚刚结束的2020天猫双11中,MaxCompute交互式分析(下称Hologres)实时计算F…

燧原科技首发国内第二代人工智能训练芯片“邃思2.0”

7月7日,燧原科技发布第二代人工智能训练产品——“邃思2.0”芯片、基于邃思2.0的“云燧T20”训练加速卡和“云燧T21”训练OAM模组,全面升级的“驭算TopsRider”软件平台以及全新的“云燧集群”,成为国内首家发布第二代人工智能训练产品组合的…

高德最佳实践:Serverless 规模化落地有哪些价值?

作者 | 何以然(以燃) 导读:曾经看上去很美、一直被观望的 Serverless,现已逐渐进入落地的阶段。今年的"十一出行节",高德在核心业务规模化落地 Serverless,由 Serverless 支撑的业务在流量高峰期…

Java全能手册火了!Redis/Nginx/Dubbo/Spring全家桶/啥都有

前言本文是为了帮大家快速回顾了Java中知识点,这套面试手册涵盖了诸多Java技术栈的面试题和答案,相信可以帮助大家在最短的时间内用作面试复习,能达到事半功倍效果。本来想将文件上传到github上,但由于文件太大有的都无法显示所以…

存储计算解耦合,构建中国人英语语音数据库

简介: 通过阿里云为流利说量身打造的数据湖解决方案,解决了流利说多种应用的各类数据的统一存储,帮助流利说构建数据规模高达上千亿的“中国人英语语音数据库”。 公司介绍 流利说是世界领先的科技驱动的教育公司,作为智能教育的…

Hologres+Flink流批一体首次落地4982亿背后的营销分析大屏

简介: 本篇将重点介绍Hologres在阿里巴巴淘宝营销活动分析场景的最佳实践,揭秘FlinkHologres流批一体首次落地阿里双11营销分析大屏背后的技术考验。 概要:刚刚结束的2020天猫双11中,MaxCompute交互式分析(下称Hologr…

Service Mesh微服务熔断、限流的骚操作

在微服务架构中,随着服务调用链路变长,为了防止出现级联雪崩,在微服务治理体系中,熔断、限流作为服务自我保护的重要机制,是确保微服务架构稳定运行的关键手段之一。那么什么是熔断、限流?在传统Spring Clo…

pca主成分分析用matlab实现,PCA (主成分分析)详解 (写给初学者) 结合matlab

一、简介PCA(Principal Components Analysis)即主成分分析,是图像处理中经常用到的降维方法,大家知道,我们在处理有关数字图像处理方面的问题时,比如经常用的图像的查询问题,在一个几万或者几百万甚至更大的数据库中查…

微服务最佳实践:MSE 微服务引擎

简介: 微服务引擎 MSE(Microservice Engine)是一个面向业界主流开源微服务框架 Spring Cloud 和 Dubbo 的一站式微服务平台。其由四个主要部分组成:微服务治理中心、微服务注册中心、微服务配置中心、微服务网关。 MSE 是什么 微…

异地多活之企业架构案例

简介: 异地多活之企业架构案例 1. 前言 多活容灾 MSHA(Multi-Site High Availability),是在阿⾥巴巴电商业务环境演进出来的多活容灾架构解决⽅案,可以将业务恢复和故障恢复解耦,有基于灵活的规则调度、跨…

WAIC|高精准、低成本,九章云极DataCanvas突破AutoML难题

2021 年世界人工智能大会(WAIC)于 7 月 8 日 在上海世博中心拉开帷幕。九章云极DataCanvas董事长方磊受邀参加由世界人工智能大会组委会主办、机器之心承办的“2021 WAICAI开发者论坛”,并发表“Hypernets:自动化机器学习的基础框…

matlab样条插值如何用,三次样条插值matlab实现

%三次样条差值-matlab通用程序 - zhangxiaolu2015的专栏 - CSDN博客 https://blog.csdn.net/zha%【图文】三次样条插值算法详解_百度文库 https://wenku.baidu.com/view/14423f2e1711cc7931b716clcclearxinput(请按照格式[x1,x2,x3...]格式输入yf(x)函数已知点的横坐标xi); %三…

在阿里淘系6个月能有哪些收获成长?

本文作者:刘博文(Berwin),花名“玖五”,畅销书《深入浅出Vue.js》作者、知名技术博主、讲师、阿里巴巴淘系技术部前端技术专家,现负责淘系618、双11等超大型营销活动主会场的终端渲染架构。 回想起年初刚来…

matlab 向前欧拉公式,向前欧拉公式在Matlab解微分方程初值解的问题

向前欧拉公式在Matlab解微分方程初值解的问题0fuqilin1202013.07.04浏览527次分享举报用向前欧拉公式(10.8)求解初值问题,dy/dx-3x8x-7,y(0)1,分别取n10,n100,并将计算结果与精确解作比较,写出在每个子区间[xk,xk1]上的局部截断误差公式&…

我在阿里巴巴做 Serverless 云研发平台

简介: Serverless 云研发平台经过这半年多的蜕变,已经从简单的解决工程链路的平台演进成一个面向研发、上线、运维的全生命周期研发平台,后续要解决的命题会集中在用户低门槛上。 作者 | 林昱(苏河) 技术的成熟度源自大规模的实践&#xff0…