一组研究人员成功研发出首个能够通过电子邮件客户端窃取数据、传播恶意软件以及向他人发送垃圾邮件的AI蠕虫,并在使用流行的大规模语言模型(LLMs)的测试环境中展示了其按设计功能运作的能力。基于他们的研究成果,研究人员向生成式AI开发者提出警告,关注此类恶意编程可能带来的潜在危险。研究团队分享了研究论文并发布了一段视频,展示如何通过两种方法来窃取数据和影响其他电子邮件客户端。
该蠕虫由来自康奈尔科技学院的Ben Nassi、以色列理工学院的Stav Cohen以及英特尔公司的Ron Bitton共同创建,并将其命名为“Morris II”,以纪念1988年首次引发全球网络问题的计算机蠕虫“莫里斯”。这种蠕虫专门针对生成式AI应用,甚至可以影响具备AI功能的邮件助手,利用诸如Gemini Pro、ChatGPT 4.0及LLaVA等AI模型生成文本和图像。
蠕虫的运行机制类似于越狱攻击,利用对抗性自复制提示来对付其自身模型。研究人员通过构建一个包含这些生成式AI引擎的电子邮件系统,并利用文本形式或嵌入在图像文件中的自复制提示进行演示。其中,文本提示会利用LLM从系统外部获取额外数据,将这些数据发送至GPT-4或Gemini Pro以生成文本内容,从而突破GenAI服务的安全限制并成功窃取数据。而图像提示方式则是将自复制提示编码在图像中,使得邮件助手将含有宣传和滥用信息的消息转发给所有人,进而感染新的邮件客户端并将受感染邮件继续转发。在这两个过程中,研究人员都能够挖掘包括但不限于信用卡详细信息和社会保障号码在内的敏感信息。
即使在受控环境下,这种功能性的蠕虫也证明了它已不再是理论上的威胁,而是需要严肃对待并采取有效解决方案的问题,一旦发现此类恶意提示就应立即部署防护措施。因此,类似这样的研究论文被分享给了受影响的各方以及其他可模拟验证的研究者。
针对这一情况,生成式AI领域的领军企业给出了回应并计划部署防御措施。如同所有负责任的研究人员那样,该团队将他们的发现报告给了Google和OpenAI。《连线》杂志就此联系了这两家公司,虽然Google拒绝就该研究发表评论,但OpenAI的发言人回应称:“他们似乎找到了一种利用未经检查或过滤的用户输入来利用提示注入类漏洞的方法。”同时,OpenAI保证正在使其系统更具韧性,并建议开发者应采用确保不与有害输入打交道的方法。
鉴于此类方法能够感染生成式AI应用程序并危及用户系统,在PC、智能手机、汽车和电子邮件服务等领域广泛应用AI和神经处理单元(NPUs)之际,这一发现显得尤为关键。尽管在某些情况下,融入AI技术的固态硬盘(SSDs)能够识别并消除勒索软件,但在另一面,我们又面临着能创造恶意软件的蠕虫和定制LLMs。
在此背景下,行业必须保持警惕并为每款面向公众发布的基于genAI的产品准备好对抗措施或部署有效的解决方案。新的解决方案和创新可能会带来新的问题。随着此类研究在AI应用早期阶段就揭示了这些问题,保护有可能造成危害的GenAI引擎已成为优先考虑事项。