人工智能黑暗面

640?wx_fmt=jpeg

来源:大数据文摘

编译:DonFJ、蒋宝尚


机器学习是现在大家都打了鸡血想用或者在用的技术。

但是,你以为只有好人能用它吗?Too young too simple!

接下来,我将揭秘AI技术黑暗的一面——犯罪份子和人工智能的孽缘。


640?wx_fmt=png


当计算科学发展的不够完善,还没能解决启发式问题的时候,很多安全问题都是利用规则来解决的,这些规则都是“死”的。


那时候没人觉得计算机能够破解密码、读出来验证码内容或者掌握马路交通的规律。但是现在,人工智能发展极快,老掉牙的基于规则的安全保障系统轻而易举的就被AI秒成渣。


验证码和AI的不解情缘


当我们上网的时候,最烦的就是验证码,它老是来让你填。这是计算机在确定你却是是个“大活人”,而不是一个程序在恶意攻击访问它。


这样做是因为咱们人类用户通过鼠标键盘访问某个网站或资源的这个操作,计算机都能用一段程序来同样做到。


比如说,当你连续三次在登陆Facebook的时候输错密码,网站肯定会跳出来一个验证码来确定你是个活人而不是恶意暴力破解密码的程序(当然了,我会首先想到梯子被踹了)。Facebook还有很多公司的服务器都是这种安全措施,而这种安全措施都是用验证码的,比如常见的验证码长成这样:


640?wx_fmt=png


多年以来,验证码都能有效的区分恶意攻击代码还有人类用户。但是现在聪明AI时代到来了,验证码在它面前仿佛就是送分题。


CNN(卷积神经网络)就是一个很简单的技术来破解验证码,只要你能给他大量的验证码学习数据集。每张验证码都有一个特定的目标,识别文字或者识别物体之类的。


但是,这些问题在CNN面前都将形同虚设。上述说的只是一个简单的栗子,没太多的技术术语,只要知道简单的神经网络的原理就能看懂。


既然验证码的保护都不起作用了,暴力破解的威胁就更可怕了。你也许会说,我看到过更难的那种验证码,就是从一堆图片里找出个公交车或者找出路牌儿之类的那种(你肯定没少上Youtube!) 。但其实,它们对于AI来说也不难,你肯定听说过谷歌大法的目标检测有多伟大,虽然谷歌仅仅把它作为搜索引擎的一个基础功能来用。


GAN和密码的那些事


640?wx_fmt=png


注:GAN = Generative Adversarial Networks,读音:干!翻译是对抗生成网络。


咱们的密码一般不会设的特别奇怪,长这样的毕竟是少类: 5f2#V0”P?oz3(几乎就是异类了)。


差不多咱们的密码都长成这样:kronebourg1664,名字加数字大小写什么好记还好输入。


当然了,也有少部分不怕死的这么设密码:password(肯定老被盗)。


对于猜到第一种密码,我天,太难了,不论是对人脑来说还是对一块GTX 1080 GPU来说都太难猜中了(GTX 1080是一块英伟达家的GPU,不只是能用来玩游戏,现在更多人用来跑深度学习工程)。


但是其他的密码嘛,相对来说就容易一些了。所以我们怎么猜这些密码呢?最简单的方法就是翻一本厚厚的字典,然后将每个单词都当成密码去试。这种情况下如果你也就能猜中用“password”当密码的童鞋了。


什么?你真的拿“password”当密码?哥们儿,英语不错呀,你怎么不试试拼音“mima”当密码?赶紧换一个靠谱的吧……


现在,来点高科技的,用AI来猜你的密码。你以为AI还会翻字典?当然不是,神经网络会自己产生一大堆密码候选项。我们就用这堆候选来攻破你的密码。很玄幻?读一读PassGAN这篇文章吧,下面这个图讲了这堆候选项是怎么产生的。


PassGAN:A Deep Learning Approach for Password Guessing的arxiv链接是:

https://arxiv.org/abs/1709.00440


640?wx_fmt=png


就算你对神经网络很熟,这篇论文可能看起来也不是那么轻松。 这不是简单的通过输入来预测结果,它是先从数据里面学习数据的特点,然后让生成器生成一些具有类似特点的样本出来的特殊网络结构。


专业上叫Generative Adversarial Network(对抗生成网络,一般简写成GAN,提出GAN的就是那个写深度学习花书的大神古德菲洛)。GAN里面包括了两个神经网络,一个生成器和一个检查器。


检查器用于检验输入的数据是否合理,生成器用于来回折腾演化自己让生成的数据能在检查器眼皮子底下蒙混过关。


译者注:这里有个链接,我觉得可以不加,因为就是在一个门户里搜了一下神经网络关键词的结果,毫无营养……然后那个啥,GAN的解释我没用原文,因为太枯燥了怕别人看不懂,我就结合自己的认识写了一个,如果翻译的不好的话再联系我翻译这句。


为了使用PassGAN,我们要有一个不知道哪儿来的真实的密码数据集(也许是某东某讯某度泄漏的?)。从这个数据集里起码能知道人们真正使用的数据集大概长成什么样。一般就是有一些大写字母,一些日期,一些随机的数字,一些名字之类的。


然后呢,我们要用到一个噪声产生器,就是生成一些随机数用的。噪声产生器和密码数据集就是咱们神经网络模型的输入了。


网络的输出就是二分类值,也就是说在有监督训练的时候,网络模型会被告诉说这个密码是真实的还是假的。


在每次神经网络前向传递的时候,网络的输出都会跟真实的标签值进行比较,然后带着这个误差值反向传递回去迭代修改网络的权重。生成器也会跟着模型的训练而成长,因为随着网络模型变化,生成器根据噪声所产生的结果也越接近真实的密码。


当生成器训练完毕之后,之后我们再输入一个噪声,网络就能输出一个特别真实的密码。所以我们只要让PassGAN运行几个小时,就能得到一堆密码候选项了。


AI和网络钓鱼的那些事儿


640?wx_fmt=jpeg


钓鱼是很常见的黑客技术。你肯定收到过一些看着不太对劲的邮件,自称是银行、移动联通或者微博的人。然后邮件里面还给你一个链接,跳到一个能让你中毒的网页。


想做这样一个钓鱼邮件,你只要照着Facebook或者什么其他大公司的邮件样式外观和语言仿造一封即可。然后又见里面说你的软件得更新,或者点开看看这里有什么惊喜,或者让你填写登陆信息等。


简单粗暴还老套。不论你写了什么,结果都会被发送到不法分子的服务器上。先不说这个,AI是怎么跟钓鱼勾搭上的?


机器学习里面有个利器叫爬虫,它能通过爬取目标网站的各种信息来改进钓鱼技术。通过爬虫保存下来的数据,黑客们能够学习到这些网站的外观,还有文字书写的风格,然后据此产出大量的假邮件然后大规模发送。但是有邮件不知道往哪儿发也是个问题。所以聪明的黑客还能通过前面咱们说的GAN技术来猜测邮件地址,这就增加了让人上当的机会。


有的童鞋可能说了,现在我们用的邮箱里面都有反钓鱼的安全措施~安全的很。但悲剧的是,现在的机器学习已经知道怎么产生能够通过钓鱼检查的钓鱼邮件了!


训练集是这样婶儿的,一大堆邮件,一些邮件是被反钓鱼拦住的,还有一些是能成功发送的。然后我们就能据此训练处一个神经网络模型,来知道钓鱼算法是怎么检测的。在不久的将来,钓鱼邮件也许都是这种反钓鱼巨网下的“漏网之鱼”。


640?wx_fmt=png


咳咳,总结一下


好消息是,目前只有三种被AI攻克的安全领域。坏消息是,还有巨多的场景正面临着AI黑客的威胁,比如诈骗广告等。但是我相信AI在合法的领域中应用所带来的好处要远大于不法之徒将它们用于作恶上的坏处。


其实,挺讽刺的,现在有很多将人工智能用于侦破犯罪活动的案例,从街头的巡查到网络诈骗都有所设计。最后总结一下:

1.如果你觉的自己的密码能让GAN给猜到的话,赶紧换个密码吧,比如wenzhaizhenshuai就很不错(因为没人觉得文摘菌帅,所以GAN学不到这个信息)。

2.别点开不知道谁发给你的链接,除非你十分确定发邮件的人没问题;

3.千万别用AI做恶呀!


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/493747.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

认识蚁群算法

好像是看罗胖的罗辑思维,看到过一种说法,越是准入门槛高的,难以取代的行业,所需的工具是越简单的。摄影师需要昂贵的镜头,而画家却只需要简单的纸笔,尽管照片比画逼真得多,但是却无法取代绘画的…

薛定谔的猫跳进了生物学界,化学家表示:没有我可能办不到

来源:原理摘要:在生物科学界流传着“物理学家累了就来生物界玩一玩”的调侃。确实,现今学科之间密不可分,生物学的发展对特定物理技术的需求也越大。但是这样化学家却不满意了?1943年,物理学家薛定谔在都柏…

图像配准之特征点匹配的思考

最近赶时髦,看了一些智能优化算法如蚁群算法,还有机器学习的一些东西,就想着怎么把这些先进的东西用在图像配准中。头脑风暴了一下,觉得在已经检测到两幅图像的特征点的基础上,就如何对它们进行匹配似乎有优化的空间。…

指针%p输出的一些认识

还是看源码发现的问题 static int import_lowe_features( char*filename, struct feature** features ) 这个函数的作用是将txt文件中的Lowe的特征点导入到feature结构体中。在这个函数中第二个参数是指向结构体的指针的指针。 f calloc( n, sizeof(struct feature) );//在内存…

全球智慧医疗产业发展现状

来源:无锡情报所摘要:全球智慧医疗市场主要集中在美国、欧洲、日本和中国,而产品生产主要集中在美国、欧洲和日本。 随着大数据、云计算、物联网和人工智能技术快速发展和普及,运用互联网应用平台提升医疗资源的使用效率、提高救治和服务水平…

2018AI和机器学习界的12个重大收购案

来源:网络大数据据IDC声称,到2018年,全球人工智能(AI)和认知系统支出将达到190亿美元,这比2017年的支出总额增加约54%。并购在不断发生。仅2017年就见证了几起大宗收购,比如雅虎被Verizon收购、苹果收购Shazam等。知名…

PCA对特征点描述子降维

降维在机器学习领域其实是很重要的一部分,因为在高维情形下回出现样本稀疏,计算距离、内积困难,是所有机器学习面临的共同问题,被称为维数灾难(Curse of dimensionality),而降维就是解决的一个办…

C语言基础知识整理

一、 关于sizeof和strlen。Sizeof()用于计算某类型或者某变量在内存中所占空间。比如整数分为short型,int型,long整型,分别占2,2/4,4个字节,int型具体占用几个字节和编译系统有关。我们输入字符串时通常用c…

【2017-2019】Gartner战略技术趋势一览

来源:学术plus 、装备参考近期,Gartner公布了2019年十大战略技术趋势的预测,值此之际,本文总结回顾并简要分析了2017-2019三年的战略趋势变化。Gartner副总裁兼研究员David Cearley指出:在智能、数字、网格三大领域下的…

目标检测必看——RCNN是怎样融合了分类与回归,CNN与SVM

人和动物的区别之一是人能使用工具,而在人开始使用磨制石器时人类进入新石器时代。在目标检测领域,也有一个划时代的算法,在它之后目标检测开始进入深度学习的时代——它就是今天的主角:R-CNN。在RCNN之后,出现了更多优…

《自然》杂志:面对“电车难题”,不同国家的人有不同的道德选择

来源:36Kr电车难题原本只是一个思想实验。但是无人车的发展却绕不开这个问题。因为机器在无论如何都会撞死人的情况下必须靠预先植入的道德代码做出判断:该牺牲谁,该保谁。但是一项有全球230万人参与的调查表明:这个问题并不存在普…

Mac OS X Terminal 101:终端使用初级教程

文章目录1 为什么要使用命令行/如何开启命令行?2 初识Command Line3 关于 man 命令4 命令行,文件和路径 4.1 两种路径:绝对路径和相对路径4.2 切换到其他路径和目录4.3 处理特殊字符4.4 查看隐藏文件4.5 前往其他卷5 用Command-Line管理文件 …

Fast R-CNN整体把握

RCNN很好地解决了目标检测分类和定位的问题。但是缺点是速度太慢。 原因1:2k个候选区域都要经过变形成统一的正方形才能依次输入CNN进行特征提取。候选区域可能是互相包含的,这就导致原图同一个区域特征的重复提取。 原因2:RCNN的分类和回归…

2万字看完腾讯最纯粹的一届WE大会:从黑洞、虫洞到克隆猴

来源:虎嗅APP腾讯还有梦想,因为腾讯还有WE大会。5年来,腾讯从全世界邀请了几十位难得一见的科学家不远万里来到北京展览馆,比如去年邀请的剑桥大学教授、著名宇宙学家霍金(视频演讲),不想成为绝…

Fater R-CNN 整体把握

在R-CNN中提到过,候选区域的提取和之后的目标检测其实是独立的,所以我们可以使用任意的算法如SS。Fast-RCNN改进的是目标检测部分,但是其实候选区域的提取也挺费时的,Faster R-CNN就把改进方向放在了这里。 我们已经领略到了CNN的…

马斯克,特斯拉首席小白鼠

来源:量子位伊隆马斯克,比你想的还要激进。作为特斯拉CEO,马斯克经常一边自己坐在Model S上,一边召开电话会议。车辆的驾驶交给Autopilot,也就是那个时不时会出次意外的自动驾驶系统。他这么做不仅仅是想节约时间&…

windows下caffe+CPUOnly实现MNIST手写分类

工具下载 微软官方移植的Caffe&#xff1a;https://github.com/Microsoft/caffe 对属性表的操作需要把实例属性表的后缀改成vs可用的.props 打开同一个文件夹下的Caffe.sln&#xff0c;查看其中的属性表<CpuOnlyBuild>true</CpuOnlyBuild><UseCuDNN>false<…

Yann LeCun专访:我不觉得自己有天分,但是我一直往聪明人堆里钻

来源&#xff1a;AI 科技评论摘要&#xff1a;纽约大学教授、Facebook 副总裁与首席 AI 科学家 Yann LeCun 由于对深度学习的突出贡献&#xff0c;被誉为深度学习的「三驾马车」之一&#xff0c;更被称为「CNN」之父。Yann LeCun 也一直非常活跃&#xff0c;发论文、教学、创立…

任务分配调整

在经过新一轮分工讨论后&#xff0c;我们将我们最初的分工做了一次更新。截图于此。但是同样&#xff0c;基于敏捷开发的原则&#xff0c;任务将会在过程中为适应遇到的情况而不断更新。 请大家及时完成各自任务&#xff0c;并每天22点之前在tfs上更新完毕&#xff0c;同时将当…

以LeNet-5为例理解CNN

在用caffe实现对MNIST手写数字分类的过程中发现利用的网络是LetNet-5.决定从这个网络入手好好认识一下CNN。 LeNet-5早在1998年就出现了&#xff08;5表示5层模型&#xff09;&#xff0c;标志着CNN的诞生。以其作者YannLeCun的名字命名。但是却没有得到广泛的应用&#xff0c;…