AI时代数据之争,我们需要什么样的“数据权”?

来源: 腾讯研究院

作者:田小军  腾讯研究院高级研究员


1、未来是AI云端的数据竞争时代


“兵无常势,水无常形”,今年11月4日,我国《反不正当竞争法》历时24年后首次修订,专设“互联网专条”用以规制互联网行业竞争生态,但此时,互联网行业的竞争形态已由产品服务竞争、平台生态竞争发展到数据竞争阶段。


时间倒回2003年,在3712与百度搜霸案中,周鸿祎与李彦宏赤膊交锋中文搜索市场。再到2013年开始的3Q、3百与3狗大战,以及优酷系列广告屏蔽案,不同的产品服务跨界进行平台竞争,此时,这些争议可以利用新反法专设的“互联网专条”进行有效规制。然而,互联网江湖风云乍起,AI新贵今日头条未获平台授权批量抓取、同步新浪微博用户数据,硬件巨头华为在Magic手机中利用微信用户聊天记录进行AI服务推荐,凡此种种,创新的产业与稳定的法律反差强烈,“互联网专条”稍显力不从心。


进入“互联网+”与“人工智能”时代,随着算力与算法的突破,人工智能在多次往复突破后,终于迎来新机,我们看到,微软小冰可以写诗,腾讯的DreamWriter在奥运会期间写了800篇新闻报道,今日头条的AI算法实现了千人千面的推荐,AlphaGo、腾讯绝艺等实现了人工智能在单一领域的人类超越,人工智能已经能写诗、作画、创作小说、剪辑电影、制作创意海报。而这一切,都依赖于海量数据的喂养训练,特别是,算力、算法的突破为互联网上流动的海量数据提供了最完美的商业可能。


未来的竞争,将是在云端之上,依赖大数据的AI竞争。


2、数据竞争问题在全球引发争议


在美国加州的Computer History Museum陈列着世界上第一台采用了人工智能学的移动机器人Shakey,意为摇摇晃晃的机器人,其在1966年到1972年间由Stanford Research Institute研制,体积庞大,但运算速度缓慢,需要数小时的时间来分析环境并规划行动路径。但是,未来或许,机器人总动员中的Wall•E,《西部世界》中的“高科技成人乐园”会在不远的将来出现。借用当今流行的一句话,“我们只知未来将至,却不知未来已来”,以数据为生产资料的新经济形态也被多国认可,并且写进了《G20数字经济发展与合作倡议》。


当前,BAT与华为、京东、今日头条、搜狗等国内企业以及Alphabet、微软、Facebook等全球科技巨头均倾全力押注人工智能技术,甚至百度提出了“All in AI”的战略,数据作为AI时代的新石油,谁掌控了数据,谁就掌控了竞争格局,其重要性不言而喻。自新世纪以来,在全球范围内,有关数据的争议与案件频发,遍及民事、行政与刑事各个领域,甚至从反不正当竞争领域到延伸到了反垄断领域。


在国内,从2008年开始,大众点评诉爱帮网系列案件最早涉及“数据竞争”的问题,大众点评指责爱帮网大量复制其网站内容,主要是商户介绍与用户点评内容信息。大众点评不惜先后在京沪两地以著作权侵权、不正当竞争等为诉由起诉,其代理人于国富律师在其博客中写到,“爱帮网如此长时间大范围的恶性侵权如果不被判令承担高限赔偿,法律难容”,可见当时争议的激烈程度。


继大众点评案之后,有关“数据竞争”的争议不断出现。诸如,2013年百度诉360违反robots协议案、2015年新浪诉脉脉非法抓取微博用户数据案、2016年大众点评诉百度地图抓取用户点评信息案、2017年运满满诉货车帮盗取用户信息案,以及淘宝屏蔽百度搜索,顺丰与菜鸟有关物流数据接口的争议,新浪与今日头条有关微博内容爬取的争议,华为在Magic手机中利用微信用户聊天记录进行AI服务推荐等,这些争议无一例外,均与平台的海量数据有关。


而在国外,有关数据竞争的争议已经延伸至反垄断领域。2017年6月,数据分析公司hiQ向加州北部法院提起诉讼,主张Linkedin拥有市场支配地位,推动法院于8月份发出临时禁令,要求Linkedin在24小时内容移除引人妨碍hiQ获取其公开数据的技术障碍,目前此案并未审结。在此之前,2016年在评估批准微软公司收以260亿美元收购LinkedIn的交易时,欧盟委员会重点关注领英的数据价值以及对手网站是否可以复制这些数据等问题。



3、保护与数据流动存在先天冲突


数据本身是一个复杂、模糊与开放的概念,此文无意对其进行清晰界定,其实,数据大体与作为知识产权客体的知识产品具有相似特性。物理上的无形性与可传输性,经济学上的非竞争性与非排他性,这些特性使得数据同多数知识产品一样,可以进行法律拟制的财产权保护与无损的数据流动。


事实上,基于商业竞争的考虑,具有数据优势的平台倾向于将“数据”资源作为竞争优势在自有体系与合作伙伴之间流动,有学者认为这可能会产生数据拒绝交易和歧视对待的问题,但于竞争政策的视角去讨论可能更加复杂。不管是因为,基于既有的若干判例,如新浪诉脉脉案与大众点评诉百度案,法院明确承认,数据平台对于平台内的信息具有一定的控制权,即使在现阶段是否赋予其“劳动成果权”还存有一些争议。还是因为,互联网与数据反垄断问题本身就是一个在现阶段很难明确,并需要谨慎对待与慎言的问题。


分析既有的争议,我们发现,数据竞争不仅仅是一个上游之治的问题,除了诸如华为magic读取用户微信聊天信息的争议外,顺丰与菜鸟关于物流数据API接口的争议则发生在同阶平台之间,而新浪微博与脉脉、新浪微博与今日头条的争议则反映了后进入市场者对既有平台海量数据的垂涎。“罗马不是一日建成的”,数据平台方的数据优势建立需要长期的成本投入,其他市场竞争者在未获数据平台方授权的情况下,非法抓取平台数据,直接触及对方核心商业资源,显然不妥。


北京知识产权法院张玲玲法官在新浪诉脉脉案提出了数据流动与使用的三重授权原则,也即平台之间的数据流动(Open API模式)需通过“用户同意+平台同意+用户同意”的模式,较为周延的平衡了用户与平台利益保护以及数据流动的关系。事实上,因为平台数据多涉及用户隐私、数据安全、消费者利益以及平台利益等问题,数据平台方可以通过平台协议、robots协议、API限制以及技术保护措施等手段控制、限制数据合作与数据保护的范围与方式。数据抓取方如未获授权,则必然动辄得咎,除了行政与民事风险,甚至面临刑事风险。


4、竞争关键在于公共领域的研究


当前数据争议的核心在于,我们是否要为数据赋权?以及,我们需要什么样的“数据权”?在此问题讨论前,我们借用Jessica litman教授在在论述版权法制度的经典表述,私以为,“公共领域才真正是“数据权”法的前提和基础,离开了公共领域,人类根本无法容忍“数据权”制度的存在。”那么,我们讨论数据赋权以及“数据权”范畴设定的关键就变为,“数据权”的公共领域是什么?我们反其道而行之,可以打开通往“数据权”制度的一扇“后窗”,借此窥探“数据权”的边界,以有效平衡用户、数据平台、数据使用方以及其他参与方与社会利益的关系,并基于用户权利、公共利益与竞争政策的协调为数据定章立规。


当前,欧美等国家与地区均在探索建立数据产权与流动规则。基于用户权利考虑,隐私权利、用户遗忘权、数据可携权、数据安全等在国内外立法实践中均有讨论,并已分别在GDPR(General Data Protection Regulation,欧盟通用数据保护条例)、《网络安全法》《民法总则》等国内外立法中有所体现。


基于公共利益考虑,我们认为政府公共数据、自然气象数据、医疗数据等关系国计民生福利的数据在产权设定与流动使用应更多考虑社会福利与公民福祉。而基于竞争政策考虑,为了防范市场失灵,除了在反不正当竞争领域的司法探索外,我国应重点研究建立“数据权”的限制与例外制度,当然,我们首先要考虑数据是否可以成为市场力量的来源?不同数据类型、不同产业领域,以及不同竞争主体间的特定行为是否在竞争减损方面有所区别,以及此类竞争减损与效率促进之间如何平衡,以及如何救济。至于在数据经济驱动下的网络效应评估、相关市场界定、市场支配力衡量,甚至于反垄断理论更新等问题,研究工作任重而道远。


此外,近期关注两个问题,其实与“数据权”公共领域问题的研究关系密切。


其一,“数据权”设定的有效路径是什么?我国《民法总则》征求意见稿的最初文本将“数据信息”一体纳入“知识产权”进行保护,后遭多数专家反对,最终全国人大将数据信息与虚拟财产单列进行财产概括性保护,这是我国立法在“数据权”设定方面的谨慎尝试,也反应了数据与知识产权的复杂关系。其实,知识产权在诸多学术著作中被表述为“信息产权”。


而从域外经验来看,早在1992年,欧盟委员会通过《数据库指令草案(Commission Proposal for a Council Directive on the Legal)》确立了数据库权(database right)。数据库权衍生于版权体系,以保护实质投资为目的,赋予数据库控制者对抗它人对数据库内容提取的排他权利,并存在着若干平衡性安排,如对合法利用人的非实质性部分的提取或再利用行为进行限制性排除,并规定了若干“法定许可”,虽存争议,但仍可为借鉴之有益经验。私以为,借鉴“数据库权”模式可以解决多数的与“数据权”相关的财产性权益争议。


其二,用户同意与平台协议的关系,也即在未经数据平台方同意,甚至是平台协议反对的情况下,第三方仅获用户授权,能否大批量、自动化抓取用户已在数据平台方发布的数据内容。


今年8月9日,今日头条突然开始通过用户授权直接把新浪微博的内容自动搬家到今日头条。面对大量用户与数据溢出的情况,新浪坚决切断了与今日头条的内容接口,并在海淀区法院立案起诉,此案尚未审结。私以为,即使搜索引擎与抓取技术中立,但从技术伦理与商业伦理角度,此类行为的规制应在技术创新与数据平台方激励之间寻求平衡。新浪在微博用户数据的整个生命周期中持续投入,如新浪法律专家王磊所言,“数据的集体涌现性使得“大数据”出现了系统组成前单个要素所不具有的性质”,平台为数据赋能,法律保护应有所倾斜。


此问题的讨论并未结束,才是刚刚开始。


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。由互联网进化论作者,计算机博士刘锋与中国科学院虚拟经济与数据科学研究中心石勇、刘颖教授创建。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎支持和加入我们。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/497781.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

预测性智能的力量:AI 和机器学习将如何改变美国政府决策?

来源:36Kr在每个联邦机构中,重要的见解都隐藏在这些年来收集的大量数据集中。 但是由于美国联邦政府数据科学家的匮乏,如果真的要这么做的话,那么从这些数据中提取价值是非常耗时的。 然而,随着数据科学,人…

android 源码分析notification,# Notification 源码分析

引言notification.jpgNotification 在v7版本下从4.0后增加了Media Style. 今天我们分析下Notification在v7版本的源码。有助于我们针对不同版本的Notification做出合适样式选择。Notification使用流程现在我们使用Notification基本都是如下步骤:NotificationCompat.Builder bui…

广州签发全国首张微信身份证,AI成主要证明技术

来源:人工智能学家AItists概要:12月25日,广州市公安局南沙区分局、腾讯、建设银行等10余家单位发起的“微警云联盟”在广州南沙成立,现场签发了全国首张微信身份证“网证”。12月25日,广州市公安局南沙区分局、腾讯、建…

android 视频做背景图片,视频后面怎么加背景图片?安卓手机给视频添加背景图片的方法...

狸窝是帮助用户解决问题 提供教程解决方案 在这个过程中有使用我们自己开发的软件 也有网上找的工具 只要帮助用户解决问题就好!同意则往下继续了解学习 ...注意此教程方案是:『安卓手机端教程方案』。很多手机视频分享平台对视频参数都会有要求,手机上大…

量子计算远没到可收割的时候

来源:风云之声概要:我们重视量子计算,是因为它的潜力,而不是它的现状。它确实有革命性的潜力,只是还需要艰苦的努力,绝不是一蹴而就的,更不是已经处在商业盈利的边缘,等着大家一哄而…

2017,AI偏见为何如此受关注?

来源:亿欧概要:从荒谬到令人不寒而栗,算法偏见在社会中产生越来越大的影响,而且这一问题已经暴露多年。但直到2017年,人们对AI算法偏见的公众意识似乎才达到了一个临界点。佛罗里达州的一项犯罪预测算法错误地将黑人罪…

android aidl工具,【Android】AIDL介绍和实例讲解

前言为使应用程序之间能够彼此通信,Android提供了IPC (Inter Process Communication,进程间通信)的一种独特实现: AIDL (Android Interface Definition Language, Android接口定义语言)。网上看了几篇关于AIDL的文章,写…

机器学习 TOP 10 必读论文 | 资源

来源:AI科技大本营编辑 | DonnaMedium上的机器学习深度爱好者必关注的账号Mybridge照例对11月发表的学术论文进行了排名,整理出了10篇必读论文,建议收藏深读。1. Alpha Zero:用强化学习算法对中国象棋和国际象棋进行自我修炼&…

爱奇艺首页底部导航按钮android,仿爱奇艺/腾讯视频ViewPager导航条实现

仿爱奇艺/腾讯视频ViewPager导航条实现,支持自定义导航条高度,宽度,颜色变化,字体大小变化。支持多种滚动模式,支持自定义每个TabView的样式。项目地址:https://github.com/KCrason/DynamicPagerIndicatord…

详解MYSQL数据库密码的加密方式及破解方法

来源:http://www.heibai.net/articles/hacker/mimapojie/2009/0908/841.html MYSQL数据库用户密码跟其它数据库用户密码一样,在应用系统代码中都是以明文出现的,在获取文件读取权限后即可直接从数据库连接文件中读取,例如asp代码中…

亚马逊等智能音箱“偷听”用户 被指收集隐私

来源:中国评论通讯社概要:近日,美国消费者保护组织Consumer Watchdog出具的一份报告显示,来自亚马逊和谷歌的专利申请曝光了其智能音箱是如何“偷听”用户的。据英国《每日邮报》报道,近日,美国消费者保护…

android camera捕捉,通过android camera2 API捕捉4:3相机图片与16:9传感器阵列相机

我想从使用Camera2 API(Android 5.0版本中添加)的Android fron-facing相机以4:3的宽高比捕捉视频。它工作正常,除非相机有16:9传感器阵列(作为三星Galaxy S5上的前置摄像头)。在这种情况下,图像看上去就像是16:9图像被…

基于互联网云脑架构分析百度的现状与未来

前言:这是未来智能实验室基于互联网云脑架构,对世界科技企业的未来发展趋势进行分析的文章。因为百度排在BAT的首位,因此这个系列研究文章就从百度开始进行研究。作者:刘锋 计算机博士,互联网进化论作者互联网云脑&am…

华为鸿蒙操作界面,华为鸿蒙被“实锤”,操作界面曝光,为何被吐槽是换皮安卓?...

4月已经进入尾声,但鸿蒙系统的消息最近却变少了,记得此前发布Mate X2的时候,余承东表示要在4月份开始推送鸿蒙系统,Mate X2会成为首批升级机型。然而目前有不少用户吐槽称,依然还没有等到鸿蒙系统的推送,毕…

将文件内含有的特殊字符还原

如下文件内容: 这里有特殊字符:\n 、\t 、\u4e0a 、\/ 我要做的事,就是恢复其特殊字符的作用(而不是打印被转义后的效果) 直观的看,很容易:直接替换不就行了 line line.replaceAll("\\n&…

【深度】谭铁牛院士谈人工智能发展新动态

来源: Frontiers11月25日,模式识别与人工智能学科前沿研讨会在自动化所召开。会上,谭铁牛院士做“人工智能新动态”报告,回顾了近代以来历次科技革命及其广泛影响,并根据科学技术发展的客观规律解释了当前人工智能备受…

智能产品AI服务智商的权重研究|未来研究

作者:刘锋 计算机博士 互联网进化论作者前言:本文是未来智能实验室关于智能产品智商的最新研究文章,在提出人工智能的三种智商后,通过德尔菲法,对智能产品AI 服务智商的权重进行了确定,为2018年智能产品的…

深入理解闭包

详细出处参考:http://www.jb51.net/article/24101.htm 一、变量的作用域 要理解闭包,首先必须理解Javascript特殊的变量作用域。 变量的作用域无非就是两种:全局变量和局部变量。 Javascript语言的特殊之处,就在于函数内部可…

机器视觉行业的现状和未来

来源:科济天下网概要:在智能制造过程中,机器视觉主要用计算机来模拟人的视觉功能,也就是把客观事物的图像信息提取、处理并理解,最终用于实际检测、测量和控制。实现“中国制造2025”,完成从制造大国向制造…

代数拓扑的数学方法正在变革脑科学

来源: 中国数学会概要:没有人彻底了解大脑各部分间的连接图全貌,但是代数拓扑的工具正逐渐帮助人们管中窥豹。没有人彻底了解大脑各部分间的连接图全貌,但是代数拓扑的工具正逐渐帮助人们管中窥豹。人的连接体指的是大脑中不同部分…