大模型的交互能力

摘要：

基础大模型显示出明显的潜力，可以改变AI系统的开发人员和用户体验：基础模型降低了原型设计和构建AI应用程序的难度阈值，因为它们在适应方面的样本效率，并提高了新用户交互的上限，因为它们的多模式和生成能力。这提供了我们鼓励向前发展的协同作用：开发人员可以提供更好地满足用户需求和价值观的应用程序，同时引入更动态的交互形式和反馈机会。

图基础模型将通过降低构建AI注入应用程序的难度阈值为开发人员带来重大机遇，并通过提高可实现的交互类型的上限为应用程序用户带来重大机遇。在某些情况下，开发人员和用户之间的界限将开始模糊，用户可以轻松开发自己的人工智能应用程序，例如使用自然语言。

早期形式的基础模型，如GPT-3和DALL·E，已经证明了高水平的多功能性，无论是在让非ML专家对强大的AI注入应用程序进行原型设计的能力方面，还是在无缝集成从文本到图像的模式方面。随着基础模型的发展成熟，模型的容量将继续扩大，其多功能性最终可能导致我们与人工智能交互方式的根本变化，使我们能够快速原型化并构建高度动态和生成性的人工智能应用程序。在本节中，我们将从两个重要利益相关者的角度讨论这些变化带来的机会：（1）将与基础模型交互以设计用户体验的应用程序开发人员，以及（2）将使用基础模型支持的AI注入应用程序或受其影响的最终用户。最后，我们考虑这样的场景：今天严格区分开发人员和最终用户的界限可能开始模糊，为创建更紧密满足用户需求和价值的AI注入应用程序提供了新的机会。

1. 对注入AI的应用程序开发人员的开发过程的影响

基础模型将如何改变开发人员创建注入AI的应用程序的方式？尽管机器学习算法和系统基础设施取得了巨大的进步，但一些人指出，设计新颖和积极的人机交互形式仍然很困难。创建强大的特定任务模型所需的大量数据、计算资源和技能经常与引发和满足用户需求和价值所需的迭代原型过程相冲突。人工智能的反应可能是不可预测的，而模型可以产生巨大的生成输出空间，这使得人们很难建立有效的心理模型。在应对这些挑战方面，已经取得了一些进展，例如在交互式机器学习方面的工作和将人工智能中的不确定性传达给最终用户的设计框架。然而，仍需要开展更多工作来克服这些障碍。

基础模式为应对上述许多挑战提供了重要机会。例如，基于语言的基础模型将自然语言作为输入，并推广到许多下游任务的能力，可以显着降低应用程序开发的难度“阈值”，即，通过实现复杂模型的开发，而无需收集大量数据并从头开始训练大型模型。这甚至可以使非ML专家快速原型化AI注入的应用程序。与此同时，基础模型强大的生成和潜在的多模态能力可以提供更高的“天花板”，即在质量和多样性方面可以实现的交互类型，我们将在下面讨论。然而，我们如何成功地利用这些能力将取决于我们如何有效地将基础模型转换为应用程序开发人员更易于管理的形式。

不幸的是，给予基础模型优势的通用性和高天花板也使这些模型难以使用，因为它们可能比单一用途的AI模型更加不可预测和复杂。事实上，最近的研究表明，很难使GPT-3这样的模型始终执行预期的任务，而了解它的能力仍然是一个活跃的研究领域。为了提高注入人工智能的应用程序的可靠性和可信度，我们建议未来的工作应该继续研究如何从基础模型（例如，通过微调，或者在主要交互模式是自然语言提示的情况下，通过自动工程，校准，或预格式化特定任务的端点。

2. 对最终用户与注入AI的应用程序交互的影响

除了开发人员可能创建注入AI的应用程序的新方法之外，基础模型将为与这些应用程序交互的最终用户带来哪些变化？开发面向用户的AI应用程序的现有设计框架专注于增强（而不是取代）用户的能力，如道格拉斯恩格尔巴特所述-我们希望这些框架应该并且将继续与未来AI注入应用程序的开发相关。例如，维护用户的代理并反映他们的价值将继续成为基础模型驱动的应用程序的中心主题。此外，允许AI代理主动采取行动并自动化用户的例程的好处与等待用户直接操纵的好处将需要仔细权衡。此外，用户的价值观应该直接收集并通过参与式和价值敏感设计等过程反映出来，这些过程倡导在设计注入人工智能的应用程序时积极参与所有利益相关者。

这些问题在基础模型中可能变得特别突出，因为模型的行为方式可能会让用户和社区感到惊讶和失望。生成能力可能会暴露与社区目标相反的偏见或观点，或者更隐蔽地，在社区没有意识到的情况下，在他们的行为中利用这种关联。这将给使用基础模型的团队带来很大的负担，以监控他们的模型的行为，并尽可能地调整它们以适当的方式行事。

虽然考虑AI注入应用程序以增强用户能力的设计框架应该保持不变，但由于基础模型强大的生成和多模态能力，可实现的实际交互形式可能会显着多样化。可以被认为是用于多媒体创建和编辑的基础模型驱动的软件工具的早期几代已经开始推动一个新的前沿，该前沿使得即使是新手内容创建者也能够从粗糙、直观的规范（例如，作家的协作创作，数字艺术家的文本到图像生成，音乐家的掌握，和程序员的代码完成）。改进的基础模型可能会实现更雄心勃勃的工具（例如，爱好者可以提供歌曲的主题材料，然后将以他们最喜欢的乐队的风格生成该主题材料，或者企业主可以提供他们的产品的简单描述，其将用于创建完整的网站）。此外，基础模型将用于丰富静态多媒体（例如，自动将传统的多媒体内容重新制作成新的格式，或者在新的视频游戏中为每个玩家生成独特的体验），并且甚至可能导致使用界面的新形式的多模式交互，该界面本身混合了不同的模式，诸如基于视觉和手势的交互。

我们开始看到基础模型如何在从AI Dungeon到Microsoft PowerApps和CoPilot的应用程序中实现具体的交互。随着我们开始设想新的交互形式，我们越来越重要的是批判性地思考这些交互对个人用户和社会的潜在影响，以最大限度地发挥其积极影响。例如，基础模型驱动的应用程序将如何改变我们彼此通信的方式？一个强大的模型会代替我们写电子邮件吗？如果是的话，这将如何重塑人们的信任，可信度，以及知道作者可能没有自己写电子邮件的身份，这将如何改变我们的写作风格[汉考克等人。谁将拥有模型生成内容的作者身份，以及如何滥用同意的转移责任和所有权？基础模型将对我们的工作、语言和文化产生哪些长期影响？与最后一个问题特别相关的是，基础模型是根据观察到的数据训练的，不一定能告诉我们因果关系。因此，我们如何才能确保基础模型的使用将我们引向一个理想的未来，而不是重复过去？虽然这些问题不一定是基础模型所独有的，但随着基础模型加速创建有效的AI注入应用程序，它们将被放大并变得更加普遍。

3. 模糊开发人员和最终用户之间的界限

如今，人工智能模型开发人员和最终用户之间的界限是严格的--很少有最终用户拥有数据、计算资源和专业知识，能够开发出适合自己价值观和需求的新模型。虽然通用模型（即，一个不特定于特定用户或社区的模型）在某些情况下可能就足够了，但近年来，这种模型无法为用户提供服务的情况越来越多。例如，设计用于识别一个在线社区的有问题评论的文本分类模型可能对该社区很有效，但在规范和文化可能显著不同的其他社区中会失败（例如，Reddit上的NSFW社区可能对某些内容更宽容，而科学社区可能会拒绝看似平凡的轶事，这些轶事并非基于科学研究）。在另一个例子中，为一个目标人群设计的人工智能传感器和机器人工具可能会失败，无法快速适应具有不同能力和需求的用户。虽然最近的工作为未来的研究提供了有希望的途径，即最终用户如何能够通过手动提供模型的参数或数据集，结果仍然是初步的，通常集中在基本模型上。

如果基础模型可以充分降低构建AI注入应用程序的难度阈值，那么它们可以提供一个重要的机会，通过允许用户积极参与模型的开发过程，将用户的需求和价值与模型的行为更紧密地结合起来。例如，最近的研究表明，当在其自然语言提示中给出足够的任务描述时，GPT-3可以以少量甚至零次的方式稳健地执行分类任务。一个试图缓和自己内容的在线社区可能能够利用这种能力来创建定制的人工智能分类器，这些分类器根据社区同意的分类任务描述过滤内容（当然，这种能力也可能被滥用来压制社区内某些成员的声音）。此外，基础模型将展示的强大的上下文学习能力可以允许基础模型驱动的应用程序更有效地优化其界面。这可以为解决人机和机器人交互中的许多突出问题打开大门，例如在混合自动化设置中平衡用户直接操作和自动化的能力。

当然，我们仍然需要克服一些重要的挑战，才能真正实现这种模糊用户和开发人员之间界限的潜力。这些挑战包括减轻基础模型中现有的偏见，以及使模型的行为更加健壮和可管理，即使对于非ML专家（与ML专家相比，非ML专家可能更难以理解基础模型的全部能力和机制，这可能导致开发周期中的意外陷阱）。未来的工作应该探索基础模型如何在交互式机器学习的背景下定位，并研究我们如何支持那些即使在机器学习方面经验有限的人，以稳健的方式利用这些模型。尽管如此，最终用户能够参与开发注入人工智能的应用程序是一个令人兴奋的机会，可以为我们未来如何与这些应用程序交互引入一个新的范例。