一、 概述
对于企业和消费者来讲,人工智能是非常有用的工具,那又该如何使用人工智能技术来保护敏感信息?通过快速处理数据并预测分析,AI可以完成从自动化系统到保护信息的所有工作。尽管有些黑客利用技术手段来达到自己的目的,但保护数据安全是人工智能技术的一个重要作用。我们越是利用人工智能技术来提供安全防护,就越有可能与高水准的黑客进行作战。
人工智能在信息安全领域的应用十分广泛,包括生物特征识别、漏洞检测、恶意代码分析等诸多方面。
基于生物特征的身份认证和访问控制是目前人工智能技术应用最成功的信息安全领域。从前制约生物特征识别技术在信息安全领域应用的关键问题是漏报率与误报率达不到实用要求。而利用以深度学习为核心的人工智能技术,科研人员已经将人脸、语音、指纹等等生物特征的识别率大大提升。以人脸识别为例,目前的准确率已经达到99%以上,技术的进步为生物特征识别的应用打下了良好基础。目前,已经有人脸支付等相关产品面世。支付领域的应用涉及社会和金融安全,在人脸识别的漏报、误报和检测准确率这些指标没有大幅提升的前提下是不可想象的。
在信息安全中尤为重要的漏洞检测技术领域,目前还缺乏高效、准确的漏洞分析自动化技术,很多安全威胁和风险需要专业工作人员的经验作深度的分析和最后的判断。人工智能在处理海量数据方面极具优势,通过对样本的训练可以模拟大量的攻击模式,可以基于人类已有经验也可以抛开人类经验进行全新的样本空间学习和探索,这样的技术解决思路将大大提高漏洞检测的全面性、准确性和时效性。
在恶意代码检测领域也是一样。传统的网络安全技术应急响应速度慢,不能适应恶意代码的迭代进化速度。而人工智能拥有强大的自主学习和数据分析能力,能够加速响应的流程,提升自动化和响应效率,缩短从发现到响应的间隔。这就为提前预知危险,及时预警并处理,将危险扼杀在摇篮中提供了可能,进而大大提高网络安全防御的敏捷性。
二、具体应用
2.1. 恶意代码检测
恶意代码的数量和种类日趋增多,加上代码迷惑技术的兴起,使得检测恶意代码变得越来越困难。传统的基于签名的检测技术被商业杀毒防毒软件普遍使用,但是它必须要在获取一类病毒的签名之后才能有效的检测这类病毒,而签名一般都在感染后才被获取。这个特点使得计算机系统受到恶意代码威胁的可能性提高了。近年来,数据挖掘和机器学习技术应用于恶意代码检测领域,它之所以成为研究的重点,是因为它可以利用数据挖掘从已存在的大量代码数据中挖掘出有意义的模式,利用机器学习可以帮助归纳出已知恶意代码的识别知识,以此来进行相似性搜索,帮助发现未知恶意代码。本文采用数据挖掘和机器学习技术检测恶意代码。
克隆检测主要包括源代码检测以及二进制代码检测,广泛应用于漏洞发现,代码克隆检测,用户 端崩溃分析等,目前,恶意代码分析变得比以往任何时候都更加重要。随着科技的日益发展,大量的物联网设备投入使用,据 Gartner 分析在 2017 年时全球已经有 84 亿物联网设备投入使用,比 2016 年 增长 31%,预测到 2020 年将达到 204 亿。而物联网的快速发展,导致各种网络攻击以及恶意代码也随之增多,因此,恶意代码分析变的十分迫切。而人工智能在恶意代码检测发挥着越来越多的作用。
CNN 进行特征提取:对构成的文本特征进行建模,CNN 利用卷积滤波器提取句子不同 位置的 n-gram 特征。
SLSTM 模型的输入由两部分组成,部分是 CNN 提取的高级窗口表示,另一部分是 系统调用函数的图形嵌入表示。同一个样本中的每个自定义函数的 CFG 对应的相同的系统调用函数 图(AFCG),即每个自定义函数的反汇编代码文本对应于同样的系统调用图结构特征,因为虽然是 不同自定义函数但都来源于同一个样本。
图.语义模型的 CNN-SLSTM 的体系结构
2.2. 自动钓鱼检测
互联网钓鱼欺诈,简称网络钓鱼(**钓鱼,是指攻击者通过发送欺骗性垃圾邮件,即时通你留言等方式,骗取用户点击访问建假仿冒的钓鱼网站,意图引诱用户泄露其敏感信息如用户名,口令,影号,ATM PIN码或信用卡详细信息)的一种攻击方式”**被攻击用户,轻则丢失个人私密信息,重则遭受严重的经济损失,造成极其恶劣的影响,截至2020年6月31.8%有网络购物经历的网民曾依网购过程中直接碰到钓鱼网站或诈骗网站,且每年因钓鱼网站或诈骗网站给网民造成的损失不低于308个亿”,因此,网络约鱼行为对互联网的健康发展已经造成了巨大的负面影响。
不法分子模拟可信实体大量的网络钓鱼网站获取您的数据,如您的信用卡的登录、密码、号码和 CV 等等。机器学习算法对于一次性地销毁这种方案具有很大的帮助作用。
ML 可以通过类似于电子邮件垃圾邮件过滤器的邮件分类帮助。最初的训练数据是由用户手动标记邮件或报告可疑链接的人群来源。与以往一样,通过不断学习的过程, ML 算法可以提高精度。
2.3.自动数据盗窃检测
数据泄露是当今组织面临的最常见的威胁载体之一。为了缓解这样的问题,基于机器学习的算法可以被用来通过隐蔽的通道(如深网或暗网)爬行,并识别恶意用户匿名共享的数据。
互联网的最后一层是黑暗的网络。它比表面或深度网络更难访问,因为它只能通过特殊的浏览器(如 Tor 浏览器)访问。
虽然深度网络只能通过匿名加密的对等通信信道访问,但需要应用某些保护措施,如 CAPTCHA 。反过来, AI 必须欺骗这些系统,使其相信收集数据的代理是人类的,并且可以从解决简单的 captc 到使用 NLP 来向恶意各方的私人社区发出邀请。利用机器视觉,可以在实时中分析图像。
为了使 ML 算法有效,需要:
- 能够检测不同类型的数据元素(用户定义的类型、基元类型、数据转换的沿袭、硬编码的文本、注释的类型、对环境数据的引用标识符等等)
- 能够基于使用自然语言处理的受监管模型将这些检测到的类型分类为敏感的,该模型被训练成遵从命令的集合。
- 跟踪此类敏感类型的所有转换、血统和来源
- 最后,测量这些敏感类型是否违反了当前( SOC-2、 GDPR )或即将到来( CCPA )的法规遵从性约束。
图.不同类型的数据元素
2.4. 感知上下文的行为分析
这更像一个概念或模型,情境感知行为分析建立在异常行为可能引发攻击的前提之上。这种类型的评估是通过大数据和机器学习来确定用户活动的风险在近实时。
这种方法也被称为 UBA ,它拼写来自用户行为分析。
所有的安全产品都在二值术语的世界中:流量不好或好,文件感染与否。那么如何检测较小的信号呢?详细阐述正常用户行为的标准模式有助于解决这一问题。
图.上下文分析
由于编纂什么行为可以是“正常”的行为是很复杂的,因此 ML (机器学习)模型通过查看历史活动和在对等组中进行比较来为每个用户构建基线。它是如何工作的?在检测到任何异常事件的情况下,评分机制聚集它们以为每个用户提供组合的风险得分。
具有较高评分的用户将被筛选出来并呈现给具有上下文信息的分析师以及他们的角色和职责。下面是这个公式:
风险=可能性X影响
通过跟踪它,使用 UBA 的应用程序能够提供可操作的风险智能。
2.5. 基于蜜罐的社会工程防御
什么是蜜罐?这只是一个陷阱, IT 专业人员为恶意黑客设置,希望他们能以提供有用情报的方式与之互动。这是 IT 中最古老的安全措施之一
随着互联网的飞速发展,网络安全已经日趋重要,针对不断出现的网络 攻击技术,主动防御系统的出现是必然的。主动防御技术中的蜜罐技术将传统 攻击手段中的欺骗技术引入了安全防御领域,从一个新的方向出发来处理网络安全问题。设计中应用蜜罐技术的基本思想,模拟设计了一个低交互式的小型蜜罐系统。在VMwar上安装操作系统,应用网站开发搭建了一个虚拟交互网站。通过对模拟网站的日志文件的自动读取和处理,最终达到了对网站交互平 台上的访问者进行判断,设计中用到了伪装逼真、数据捕获和数据分析等技 术,可以在虚拟与真实系统间完成对入侵者重定向的目的。
图.原始网络拓扑结构
图.采用蜜罐技术的网络拓扑结构
另一个不坏的概念,有很大的潜力即将发布。
攻击者利用人类的心理,能够获取个人信息,以危害安全系统,硬件和软件本身无法阻止这些攻击。一种可能的对策是利用社交蜜罐、用来诱捕攻击者的假角色装饰。
通过充当诱饵用户,它试图欺骗攻击者。由于与蜜罐的所有通信都是未经请求的,所以初始合同很可能是垃圾邮件。ML(机器学习) 用于对发送者是恶意的还是良性的进行分类。这样的分类然后被自动传播到所有真实雇员的设备,然后,这些设备将自动阻止来自犯罪一方的进一步通信尝试。
三、总结
通过对每个恶意软件样本进行静态反汇编分析根据函数的控制流程图构建其自定义函数的反汇编代码文本,以及整个样本的系统函数调用图为恶意软件的特征相结合,然后利用之前的一神经网络模型(CNN-SLSTM),对恶意代码组样本进行分类。该方法能够很好地提取恶意代码特征并据此进行分类,提高检测效率!
总而言之,人工智能将在信息系统安全中发挥着越来越重要的作用,而与此同时,人工智能的发展也将给不法分子带来可乘之机,对信息系统安全造成威胁。可见,事物都具有两面性,而我们要取其精华,去其糟粕!
四、参考文献
[1] https://zhuanlan.zhihu.com/p/105332028
[2] https://blog.csdn.net/linux_hua130/article/details/105509386
[3] https://www.cnblogs.com/linuxprobe/p/12697169.html
[4] Bencs´ath, G. P´ek, L. Butty´an, and M. F´elegyh´azi, “The cousins of stuxnet: Duqu, flame, and gauss. Future Internet 4 (4): 971–1003,” 2012.
[5] N. Kalchbrenner, E. Grefenstette, and P. Blunsom, “A convolutional neural network for modelling sentences,” Eprint Arxiv, vol. 1, 2014.
[6] 诸葛建伟,韩心慧,周勇林等.HoneyBow:一个基于高交互式蜜罐技术的恶意代码自动捕获器.
[7] http://www.eepw.com.cn/article/201911/406680.htm
[8]刘巍伟,石勇,郭煜,韩臻等.一种基于深度学习的恶意代码识别方法.
[9]贾菲,刘威.基于机器学习恶意代码逆向分析技术的研究.
[10]http://www.gjbmj.gov.cn/n1/2018/0530/c411145-30023895.html
[11]夏天天.基于数据挖掘和机器学习的恶意代码检测技术研究
[12]张朝阳.一种基于深度学习的蜜罐防御方法
[13] S. Deerwester, S. T. Dumais, G. W. Furnas, T. K. Landauer, and R. Harshman, “Indexing by latent semantic analysis,” Journal of the American society for information science, vol. 41, no. 6, pp. 391–407, 1990.
[14]赵泽茂,朱芳.信息安全技术.西安:西安电子科技大学出版社,2009
[15][李锁](https://xueshu.baidu.com/s?wd=author%3A(李锁) &tn=SE_baiduxueshu_c1gjeupa&ie=utf-8&sc_f_para=sc_hilight%3Dperson),[吴毅坚](https://xueshu.baidu.com/s?wd=author%3A(吴毅坚) &tn=SE_baiduxueshu_c1gjeupa&ie=utf-8&sc_f_para=sc_hilight%3Dperson),[赵文耘](https://xueshu.baidu.com/s?wd=author%3A(赵文耘) &tn=SE_baiduxueshu_c1gjeupa&ie=utf-8&sc_f_para=sc_hilight%3Dperson).基于代码克隆检测的代码来源分析方法
[16]L. Prechelt, G. Malpohl, and M. Philippsen, “Finding plagiarisms among a set of programs with JPlag,” Journal of Universal Computer Science, vol. 8, no. 11, pp. 1016–1038, 2002.