警惕!AI正在“吞食”你的数据

      视觉中国供图

□ 科普时报记者 陈 杰

AI大模型的热度,已然开始从产业向日常生活渗透,并引起不小的舆论旋涡。近日,网友指出国内某智能办软件有拿用户数据“投喂”AI之嫌,引发口水的同时,再度把公众对AI的关注转移到数据安全上。

身处智能时代,我们在使用或跟AI交互时,该如何保护自己的数据安全?我们的个人数据可以被AI产品或平台随意收集和使用吗?科普时报记者就这些公众关心的问题采访了产业相关人士及行业专家。

AI普遍缺乏“营养”

此次舆论事件,以修改引发误会的隐私政策并承诺不会拿用户文档训练AI而暂告一段落。但清华大学人工智能研究所博士、独到科技CEO张文浩告诉记者,“以用户数据训练AI,在大模型行业普遍存在。”

今年7月份,谷歌及其AI子公司DeepMind、视频会议平台Zoom均因收集用户数据用以训练和开发AI产品而引发用户强烈担忧……

“数据被比作信息时代的‘石油’,重要性不言而喻。”文渊智库研究员王超告诉记者,用于训练数据的丰富程度和质量决定了AI的优劣,也只有优质海量的数据“投喂”,才能培养出更聪明、更先进的版本。

iEnglish智能英语学习解决方案技术研发负责人贾先好表示,2018年GPT迭代使用了1.1亿学习参数,到2020年GPT-3已达到惊人的1750亿参数。“这些迭代的背后是45TB的海量文本数据,AI其实是一场包含海量学习参数在内的纯粹工程化的胜利。”

当下,全球各大科技公司发布的AI大模型已超数百个,而用于训练这些大模型的数据虽然海量但缺少精细“营养”,这也让快速迭代中的AI普遍都“吃”得不怎么好。

用户的数据“真香”

训练AI所需的海量数据,目前主要的来源包括互联网抓取的数据、网络百科全书、书籍文献,以及一些开源数据集等公开数据。但新壹科技技术副总裁陈鹏认为,这些数据仅有数量优势,而缺少让AI变得更聪明的高质量数据。“鉴于用户数据的多样性、真实性,以及个性化等特征,很多公司和机构会收集一定的用户数据来进行训练,提高AI模型的准确性和可靠性。”

“在AI训练中,普遍使用的RLHF(基于人类反馈的强化学习)技术就需要在迭代过程中不断根据人类反馈来优化自身行为,有助于提高机器在不同场景下的泛化能力,使其行为更加符合人类期望。”张文浩表示,RLHF技术在模仿学习阶段需要使用用户的交互数据来改进其策略,这也是优化用户体验的一种方式。

用户数据之所以被AI相中,是因为这些数据的内容非常丰富,基本上涵盖了各个领域和主题,正是AI训练所急需的“精料”。

训练AI要守“底线”

对于AI而言,用户数据确实很“美味”,但对于用户而言,过度的采集可能对个人信息安全和财产安全造成不小的威胁。

“用户数据用于训练AI时会被分析和解读,并揭示出用户诸如个人喜好、行为习惯、健康状况等隐私信息。”陈鹏表示,这些信息一旦被非法利用,就会导致用户身份盗窃、网络诈骗等情形的发生。

中国广告主协会互联网电商分会秘书长张俊良提醒,用户数据被“投喂”给AI,非常容易带来用户核心信息的泄漏。“所以,我们在使用大模型或者跟大模型交互时,尽量避免透露自己的隐私信息。”

用户数据可以用于AI训练吗?陈鹏认为,过度收集用户数据不可避免地会面临诸如隐私安全、数据合规性的挑战。“不过,现在行业内已经开始通过数据脱敏、加密技术和审计技术等来保护用户数据隐私了。”

贾先好表示,在数据的生产、保存、读取、更改、迁移、存档等生命周期内,AI企业应该采取相应的安全措施,以确保这些数据不会被未经授权的访问、篡改或者滥用。

其实,今年8月15日起实施的《生成式人工智能服务管理暂行办法》就明确,应当依法开展预训练、优化训练等训练数据处理活动,使用具有合法来源的数据和基础模型;涉及个人信息的,应当取得个人同意或者符合法律、行政法规规定的其他情形。

张文浩建议,各大科技公司应遵守相关法律法规,确保数据收集、处理和使用的合法性。“总之,企业在做AI训练时,应严格遵循个人数据使用‘最小化原则’,要守得住‘底线’。”

王超则认为,《生成式人工智能服务管理暂行办法》给国内AI产业指明了方向,也划定了范围。“但仅凭一部暂行办法并不能解决所有问题,AI是一次底层的技术革命,未来一定会碰到更多的问题,这就需要监管部门及时有效制定出监管措施,进一步规范产业的发展。”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/173934.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用paddledetection的记录

首先在这里使用的是是paddle--detection2.7的版本。 成功进行训练 目录: 目录 数据集准备 配置文件的修改 使用的是BML的平台工具: !python -m pip install paddlepaddle-gpu2.5 -i https://mirror.baidu.com/pypi/simple --user %cd /home/aistudio…

Rust语言入门教程(七) - 所有权系统

所有权系统是Rust敢于声称自己为一门内存安全语言的底气来源,也是让Rust成为一门与众不同的语言的所在之处。也正是因为这个特别的所有权系统,才使得编译器能够提前暴露代码中的错误,并给出我们必要且精准的错误提示。 所有权系统的三个规则…

Anaconda安装教程(超详细版)

目录 一、Anaconda简介 二、运行环境 三、安装Anaconda 四、手动配置环境变量(重点) 五、测试Anaconda环境是否配置成功 一、Anaconda简介 Anaconda,一个开源的Python发行版本,可用于管理Python及其相关包,包含了…

慕尼黑电子展采访全程 | Samtec管理层对话电子发烧友:虎家卓越服务

【摘要/前言】 今年的慕尼黑上海电子展上,Samtec大放异彩,特装展台一亮相就获得了大家的广泛关注,展台观众络绎不绝。 作为深耕连接器行业数十年的知名厂商以及Electronica的常客,Samtec毫无疑问地获得了大量媒体朋友的关注和报…

【数据结构】二叉树之链式结构

🔥博客主页: 小羊失眠啦. 🎥系列专栏:《C语言》 《数据结构》 《Linux》《Cpolar》 ❤️感谢大家点赞👍收藏⭐评论✍️ 文章目录 一、前置说明二、二叉树的遍历2.1 前序遍历2.2 中序遍历2.3 后序遍历2.4 层序遍历 三、…

如何在本地安装部署WinSCP,并实现公网远程本地服务器

可视化文件编辑与SSH传输神器WinSCP如何公网远程本地服务器 文章目录 可视化文件编辑与SSH传输神器WinSCP如何公网远程本地服务器1. 简介2. 软件下载安装:3. SSH链接服务器4. WinSCP使用公网TCP地址链接本地服务器5. WinSCP使用固定公网TCP地址访问服务器 1. 简介 …

送PDF书 | 豆瓣9.2分,超250万Python新手的选择!蟒蛇书入门到实践

在此疾速成长的科技元年,编程就像是许多人通往无限可能世界的门票。而在编程语言的明星阵容中,Python就像是那位独领风 骚的超级巨星, 以其简洁易懂的语法和强大的功能,脱颖而出,成为全球最炙手可热的编程语言之一。 …

Gitea和Jenkins安装

Gitea Gitea:https://dl.gitea.com/gitea/1.21.0/ Jenkins:https://www.jenkins.io/download/ 数据库配置 可以参考官方文档-https://docs.gitea.cn/1.20/installation/database-prep,这里以MySQL作为讲解 MySQL 在数据库实例上&#xf…

智能物流时代:快递物流信息订阅与推送API自动推送物流变更信息

引言 在当今数字化和智能化的时代,物流行业也在迅速演变,通过技术创新提高效率、提升服务质量。其中,快递物流信息订阅与推送API的自动推送功能成为推动物流领域发展的重要驱动力。本文将深入探讨这一趋势,并分析快递物流信息订阅…

完美解决:vue.js:6 TypeError: Cannot read properties of undefined (reading ‘0‘)

Vue项目出现以下报错: 原因: 在渲染的时候,不满足某个条件而报错,或者某个属性丢失或后台没传过来导致 我这里出现的原因是后台给我传递过来的数组中,其中有一条少传了一个我在渲染时需要用的属性,没让后台…

如何使用Java支付宝沙箱环境并公网调用sdk创建支付单服

Java支付宝沙箱环境支付,SDK接口远程调试【内网穿透】 1.测试环境 MavenSpring bootJdk 1.8 2.本地配置 获取支付宝支付Java SDK,maven项目可以选择maven版本,普通java项目可以在GitHub下载,这里以maven为例 SDK下载地址:https://doc.open.alipay.com…

阻塞队列及简单实现,生产者消费者模型

文章目录 阻塞队列阻塞队列是什么生产者消费者模型阻塞队列的实现 阻塞队列 阻塞队列是什么 阻塞队列是一种特殊的队列. 也遵守 “先进先出” 的原则. 当队列满的时候, 继续入队列就会阻塞, 直到有其他线程从队列中取走元素当队列空的时候, 继续出队列也会阻塞, 直到有其他线…

有效实施的五条教学策略

作为老师,是否曾为如何提高教学质量而苦恼?也为如何引导学生而思考?如果你正面临这些困扰,那么这篇文章将对你有帮助。为你介绍五条教学策略,帮你实施教学,提高效果。 明确教学目标 你是否知道你的教学目标…

针对操作系统漏洞的反馈方法

一、针对操作系统漏洞的反馈方法 漏洞扫描指基于漏洞数据库,通过扫描等手段对指定的远程或者本地计算机系统的安全脆弱性进行检测,发现可利用漏洞的一种安全检测(渗透攻击)行为。在进行漏洞扫描后,需先确定哪些是业务…

Go 内置运算符

一、算数运算符 1、算数运算符使用 package mainimport ("fmt" )func main(){fmt.PrintIn("103",103) //10313fmt.PrintIn("10-3",10-3) //10-37fmt.PrintIn("10*3",10*3) //10*330//除法注意:如果运算的数都是…

视频后期效果制作工具Mocha Pro 2022 Plugins mac中文版软件介绍

Mocha Pro 2022 mac是一款专业的三维摄像机反求摩卡跟踪插件,同时也是一款视频后期效果制作工具,Mocha Pro 2022下载能够给数字媒体艺术家提供强大的、直观的和创新的追踪解决方案用简化的界面、加速的工作流程以及轻松追踪和操作镜头的强大性&#xff0…

js moment时间范围拿到中间间隔时间

2023.11.27今天我学习了如何对只返回的开始时间和结束时间做处理,比如后端返回了: [time:{start:202301,end:202310}] 我们需要把中间的间隔渲染出来。 [202301,202302,202303,202304,202305,202306,202307,202308,202309,202310] 利用moment的add进…

Linux下使用Docker部署MinIO存储服务实现远程上传

📑前言 本文主要是Linux下通过Docker部署MinIO存储服务实现远程上传的文章,如果有什么需要改进的地方还请大佬指出⛺️ 🎬作者简介:大家好,我是青衿🥇 ☁️博客首页:CSDN主页放风讲故事 &#…

【AD9371 AD9375 概要总结】A ...

目录 工作原理发射器 TRANSMITTER(Tx)接收器 RECEIVER (Rx)观测接收器 OBSERVATION RECEIVER (ORx)嗅探接收器 SNIFFER RECEIVER(SnRx)时钟输入 CLOCK INPUTSYNTHESIZERS合成RF PLL射…

推动企业数字化转型,如何更好地规避失败风险?

随着科技的飞速发展,数字化转型已成为企业持续发展的必然选择,然而有相关数据显示,超过80%的企业在数字化转型过程中都遭遇失败。本文将揭示企业数字化转型常见的失败原因,并探讨如何帮助企业规避转型失败风险。 一、企业数字化转…