亚马逊云科技人工智能内容审核服务：大大降低生成不安全内容的风险

生成式人工智能技术发展日新月异，现在已经能够根据文本输入生成文本和图像。Stable Diffusion是一种文本转图像模型，可以创建栩栩如生的图像应用。通过Amazon SageMaker JumpStart，使用Stable Diffusion模型轻松地从文本生成图像。

尽管生成式人工智能解决方案功能强大，应用广泛，但它们也很容易受到操纵和滥用。用户在使用它们生成图片时，应实施严格的审核程序，高度重视内容审核，以便保护其用户、平台和品牌，在创造安全和积极的用户体验的同时，确保平台和品牌的声誉不会受损。

此篇内容我们将探讨如何使用亚马逊云科技人工智能服务Amazon Rekognition和Amazon Comprehend以及其他技术，近乎实时地有效审核Stable Diffusion模型生成的内容。

解决方案概览

Amazon Rekognition和Amazon Comprehend是托管式人工智能服务，它们通过API接口提供预训练且可自定义的机器学习模型，无需机器学习（ML）专业知识。Amazon Rekognition Content Moderation可自动完成图像和视频的审核，简化这一过程。Amazon Comprehend利用机器学习来分析文本，发现有价值的洞察和关系。

以下参考资料介绍了如何创建RESTful代理API，用于近乎实时地审核Stable Diffusion文本转图像模型生成的图像。在此解决方案中，使用JumpStart启动并部署了Stable Diffusion模型（基于v2-1）。该解决方案使用负向提示、文本审核解决方案（例如Amazon Comprehend）以及基于规则的筛选条件来审核输入提示。它还利用Amazon Rekognition来审核生成的图像。在检测到不安全信息时，RESTful API会将生成的图像和审核警告返回给客户端。

此工作流中的步骤如下：

用户发送提示以生成图像。
AWS Lambda函数使用Amazon Comprehend、JumpStart和Amazon Rekognition协调图像的生成和审核：
将基于规则的条件应用到Lambda函数中的输入提示，使用禁用词检测强制执行内容审核。
使用Amazon Comprehend自定义分类器，分析提示文本以进行毒性分类。
通过SageMaker端点将提示发送到Stable Diffusion模型，传递提示作为用户输入，并传递预定义列表中的负向提示。
将从SageMaker端点返回的图像字节发送到Amazon Rekognition DetectModerationLabel API进行图片审核。
如果之前的步骤在提示或生成的图像中检测到任何不当信息，则会构造包含图像字节和警告的响应消息。
服务将响应发送回客户端。

以下屏幕截图显示了使用上述架构构建的示例应用程序。Web UI将用户输入提示发送到RESTful代理API，并显示从响应中收到的图像和所有审核警告。如果实际生成的图像包含不安全的内容，则演示应用程序会对内容进行模糊处理。我们使用示例提示“一位性感女士”测试了该应用程序。

您可以实施更复杂的逻辑来获得更好的用户体验，例如，在提示包含不安全的信息时拒绝请求。此外，您可以制定重试策略，在提示是安全的、但输出不安全时，重新生成图像。

预定义负向提示列表

Stable Diffusion支持负向提示，这样便可以指定在图像生成期间要避免的提示。创建预定义的负向提示列表是一种实用的主动式方法，用于防止模型生成不安全的图像。在调用SageMaker端点来运行Stable Diffusion模型的推理时，可以在Lambda函数中管理该实施，传递用户输入中的提示，并传递预定义列表中的负向提示。

尽管这种方法行之有效，但它可能会影响Stable Diffusion模型生成的结果并限制其功能。所以，要点在于将其视为审核技术之一，再结合其他方法，例如使用Amazon Comprehend和Amazon Rekognition进行文本和图像审核。

审核输入提示

文本审核的常用方法是使用基于规则的关键字查找方法，识别输入文本是否包含预定义列表中的任何禁用词或短语。这种方法相对容易实施，对性能的影响很小，成本也更低。但是，这种方法的主要缺点是，它只检测预定义列表中包含的单词，无法检测未包含在列表中的禁用词新变体或修改后的变体。用户还可以尝试使用其他拼写或特殊字符来替换字母，从而绕过规则。

为了解决基于规则的文本审核的局限性，许多解决方案采用混合方法，将基于规则的关键字查找与基于机器学习的毒性监察相结合。两种方法的结合可以提供更全面、更有效的文本审核解决方案，能够检测更大范围内的不当内容并提高审核结果的准确性。

在此解决方案中，使用Amazon Comprehend自定义分类器来训练毒性监察模型，使用该模型来检测在输入提示中可能存在有害内容、但未检测到明确使用禁用词的情况。借助机器学习的强大功能，可以教导模型识别文本中可能存在毒性内容的模式，即使基于规则的方法难于检测到此类模式也没问题。

使用Amazon Comprehend作为托管式人工智能服务，可以简化训练和推理。只需两个步骤，就可以轻松地训练和部署Amazon Comprehend自定义分类。

审核输出图像

尽管审核输入文本提示很重要，但它并不能保证对于目标受众而言，Stable Diffusion模型生成的所有图像都是安全的，因为该模型的输出可能包含一定程度的随机性。因此，审核Stable Diffusion模型生成的图像同样重要。

在此解决方案中，利用Amazon Rekognition Content Moderation这个预先训练过的机器学习模型，检测图像和视频中的不当内容。在此解决方案中，使用Amazon Rekognition DetectModerationLabel API，近乎实时地审核Stable Diffusion模型生成的图像。Amazon Rekognition Content Moderation提供预先训练的API，用于分析各种不当或冒犯性内容，。

用于微调模型的有效图像审核技术

微调是一种常用技术，用于根据特定任务来调节预训练的模型。对于Stable Diffusion，微调可用于生成包含特定对象、样式和字符的图像。在训练Stable Diffusion模型以防止创建不当或冒犯性的图像时，内容审核至关重要。这包括仔细审查并筛选出任何可能导致生成此类图像的数据。通过这样做，模型可以从更多样化和更具代表性的数据点进行学习，从而提高准确性并防止传播有害内容。

审核延迟和成本

此解决方案使用顺序模式来审核文本和图像。文本审核需要调用基于规则的函数和Amazon Comprehend，Amazon Rekognition则用于在调用Stable Diffusion之前和之后的图像审核。尽管这种方法可以有效地审核输入提示和输出图像，但它可能会增加解决方案的总体成本和延迟，这是需要考虑的问题。

延迟

Amazon Rekognition和Amazon Comprehend均提供了托管API，具备高可用性和内置的可扩展性。尽管由于输入大小和网络速度可能导致延迟变化，但在此解决方案中，所用两项服务中的API都提供了近实时的推理。对于大小小于100个字符的输入文本，Amazon Comprehend自定义分类器端点的处理速度低于200毫秒，而对于平均大小小于1MB的文件，Amazon Rekognition Image Moderation API的速度大约为500毫秒。

总共而言，对Amazon Rekognition和Amazon Comprehend的审核API调用会增加700毫秒的API调用时间。需要注意的是，根据提示的复杂性和底层基础设施功能，Stable Diffusion请求通常需要更长的时间。在测试账户中，使用ml.p3.2xlarge实例类型，通过SageMaker端点调用Stable Diffusion模型的平均响应时间约为15秒。因此，审核引入的延迟约为总响应时间的5%，因此对系统整体性能的影响微乎其微。

成本

Amazon Rekognition Image Moderation API采用基于请求数量的即用即付模式。费用因所用亚马逊云科技区域而异，采用分层定价结构。随着请求数量的增加，每次请求的成本会降低。

在此解决方案中，使用了Amazon Comprehend自定义分类器，并将其部署为Amazon Comprehend端点，以协助进行实时推理。这种实施会产生一次性训练成本和持续的推理成本。

使用Jumpstart，可以将Stable Diffusion模型作为单个软件包来快速启动和部署。在Stable Diffusion模型上运行推理将产生底层Amazon Elastic Compute Cloud（Amazon EC2）实例费用，以及入站和出站数据传输费用。

小结

综上所述，概述了一个示例解决方案，该解决方案展示了如何使用Amazon Comprehend和Amazon Rekognition，审核Stable Diffusion输入提示和输出图像。此外，可以在Stable Diffusion中定义负向提示，以防止生成不安全的内容。通过实施多个审核层，可以大大降低生成不安全内容的风险，从而确保更安全、更可靠的用户体验。