马鞍山制作网站/百度建站官网

Abstract : 长期开放域对话的现有作品着重于评估不超过五个聊天会议的上下文中的模型响应。尽管LongContext大语言模型（LLM）和检索增强发电（RAG）技术的进步，但在长期对话中的功效仍未得到探索。为了解决这一研究差距，我们引入了一条机器人类管道，通过利用基于LLM的代理体系结构并将其对话在角色和时间事件图上进行对话，以生成高质量的长期对话。此外，我们为每个代理配备了共享和对图像反应的能力。人类注释者对生成的对话进行了验证和编辑，以使其长期一致性并接地到事件图。使用此管道，我们收集了Locomo，这是一个非常长期对话的数据集，每个都包含大约。最多32次会议，在AVG。上有600圈和16K令牌。基于Locomo，我们提出了一个全面的评估基准，用于衡量模型中的长期记忆，包括问题答案，事件摘要和多模式对话生成任务。我们的实验结果表明，LLM在理解冗长的对话以及理解对话中的远程时间和因果动态方面表现出挑战。采用诸如长篇小说LLM或抹布之类的策略可以提供改进，但这些模型仍然远远落后于人类绩效。

图1：机车中的一个示例。对话是由演讲者的角色和相应的事件来指导的，例如，乔安娜的回答与她的宠物过敏是一致的。对于Nate而言，该活动得到了新的狗，之后是与邻居的狗一起玩日期，展示了长期记忆。通过图像共享和图像响应行为启用了多模式对话框。

1 Introduction 简介

尽管最近在基于LLM的对话模型方面取得了进步（Bertsch等，2023; Xiao等，2023），以及检索增强生成（RAG）的整合（RAG）技术（Shuster等，2021; Ram等，2023; Shi等，2023），仍然需要彻底评估它们在处理非常长的对话中的功效。实际上，长期opendomain对话中的研究集中于评估有限环境中的模型响应，例如，在五个聊天过程中约为1k令牌（Xu等，2022; Jang等，2023b; Zhang等，2023）。这项长期评估对于精炼能够记住过去互动中的关键信息而引起的关键信息以产生善解人意，一致和有用的响应至关重要。为此，我们介绍了非常长期的开放域多模式对话的首次研究，这是通过人机管道收集的现实世界互动的紧密反映现实世界的互动然后要求人类注释者解决对话中的任何长期不一致之处。具体而言，了解现实世界对话是集体记忆的复杂融合的理解（Assmann和Czaplicka，1995； Hirst and Manier，2008），个体观点（Hirst等，2018），外部影响（Hirst and Echterhoff，2012年）），以及演讲者的独特角色（Pruitt and Grudin，2003; Cooper，1999; Zhou等，2020; Shum等，2019），我们基于LLM代理商进行了非常长的对话，具有以下功能：（（ 1）独特的角色（§3.1）；（2）他们生活中因果关系中互联事件的时间表（§3.2）；（3）反映和响应机制根据对话历史记录（如Park等人（2023））和图像共享和图像反应行为的响应，该行为向图像发送或反应（§3.3）。最后，人类注释者在对话中固定远程不一致，删除无关的图像，并验证对话的接地（第3.4节）。使用此管道，我们创建了Locomo，这是一个由10个非常长期对话的数据集，每个对话的数据集由600个转弯和16K令牌组成，最多可达32个会话（请参见图1，表1）。

在开放域对话中评估对话剂的常规方法涉及基于过去的对话历史直接评估代理响应。它经常在地面真理与代理响应或一致性之间（Ghazarian等，2022），矛盾（Nie等，2021; Welleck et al，2021; Welleck et et al，papineni等，2002）和语义重叠（Zhang等，2019）（Zhang等，2019）； Al，2019年）和同理心（Zhang等，2021a，2022）。但是，这些评估指标并不适合直接评估代理人对长期环境的理解。在这项研究中，我们提出了一个整体评估框架，以评估代理在长期背景下管理和响应的熟练程度（见图2）。首先，代理需要正确地“召回”过去的上下文，以整合相关的信息

图2：我们的评估框架概述。我们提出三个任务：问题回答，事件摘要和多模式对话框生成，以在长期对话中评估模型的理解。

融入未来的回应。我们通过回答（QA）任务（§4.1）直接检查他们的记忆。我们将问题分类为五种不同的推理类型，以从多个角度评估记忆：单跳，多跳，时间，常识，常识或世界知识以及对抗性。其次，代理还需要在对话中识别远程因果关系和时间联系，以产生善解人意和相关的反应。我们通过事件图摘要任务（第4.2节）提出了对它们的因果关系和时间理解的测量。在此任务中，链接到每个LLM扬声器的事件图是正确的答案，并且模型的任务是从对话历史记录中提取此信息。第三，对话代理需要利用过去对话中召回的相关上下文，以产生与正在进行的叙述一致的响应。我们通过多模式对话生成任务（第4.3节）评估此功能。

我们使用基于指令的LLM，Long-Contept LLM和抹布技术（第5节）对机车基准提出了广泛的实验结果。我们的发现包括：（1）长篇文化LLM和抹布在质量检查任务中表现出有效性，提高了LLMS的“记忆”功能（改善范围为12-20％），但仍然显着落后于人类水平（36％），以下特别是在时间推理中（41％）；（2）LongContext LLM在QA任务中表现出对对抗问题的严重困难，显示出比基本模型低65％的性能。他们特别容易误配对话或错误的演讲者。此外，它们在事件图摘要上表现出较差的性能，表明他们可以掌握整个对话中的事实要素，但不能准确理解上下文。（3）抹布提供了平衡的折衷方案，将缩写LLMS的准确性与广泛的广泛LLM的广泛理解相结合，当对话转换为关于每个说话者的生活和人格的声明（观察）（观察）时，尤其很好。

2 Related Work 相关工作

长期对话。最近的方法涉及从一系列以前的对话和推理中检索历史上下文，以时间顺序检索到检索到的段（Lee等，2023b; Lu等，2023; Zhong等，2023; Liang等，2023）和/或或使用/或使用为对话的脚手架的事件（Jang等，2023b; Zhang等，2023）以实现长期对话的一致性。此类框架的某些局限性是：（1）检索的准确性可能会受到损害，因为检索模型通常是针对着重于语义相似性而不是专门针对此类对话的任务的训练。此外，现实世界对话通常具有共同参考和缺少内容（即，Anaphora）（Anantha等，2021），这进一步使检索过程变得复杂（Mallen等，2023; Gao等，2023b; Liu et al，liu et al，，liu等， 2023b）; （2）推理对检索的文档的推理出现了挑战，尤其是当模型在检索到的数据之间识别正确的上下文时（Liu等，2023a）；（3）随着时间间隔的推理提出了挑战。例如，系统响应过去事件的响应方式可能会根据自上次对话以来过去的时间而有所不同（Zhang等，2023； Jang等，2023b）。因此，必须进行相当长的对话以及一个系统的评估框架，以准确评估长期对话生成方法的有效性。我们根据检索增强和事件的图表设计了长期的对话生成管道，并提出了一个评估长期对话代理的框架。

多模式对话。多模式对话主要由两种类型的任务组成：图像接地对话和图像共享对话。

图像接地的对话任务集中在回答问题（Antol等，2015; Das等，2017; Kottur等，2019）或进行与特定图像有关的自然对话（Mostafazadeh等，2017; Shuster等，等等2018; Meng等人，2020年；相反，图像共享的对话任务着重于选择与提供的对话上下文一致的图像（Zang等，2021; Feng等，2022; Lee等，2023c）。我们使用来自图像共享对话任务的方法来创建多模式对话框，然后将其评估为图像接地的对话任务。

合成评估基准。面对人类生成的数据的短缺，并观察到LLM正在接近人层注释的质量（He等，2023; Lee等，2023a），研究的研究激增了这一发展的灵感。因此，许多研究已经开始利用LLM增强或合成大规模对话基准，以评估日常社交互动中的响应（Kim等，2023），检查多模式环境中的响应（Feng等，2022），并评估与特定角色相符的响应（Jandaghi（Jandaghi），2023）。我们利用LLM来创建数据，但通过人类验证和编辑确保其高质量。

3 Generative Pipeline for LOCOMO 生成管道

图3中显示了我们对机车的生成管道的概述。我们创建了两种名为L1和L2的虚拟代理，每个虚拟代理都用LLM M初始化（即GPT-3.5-Turbo）。首先，将独特的角色陈述p分配给每个代理商，以确保将不同的个性整合到他们的对话中（§3.1）。为了反映现实生活中的体验，我们为每个代理创建一个时间事件图G，这说明了生活事件的现实顺序（第3.2节）。 LLM代理体系结构（Park et al，2023）用于每个代理LI，使它们能够有效地记住并将对话历史记录到正在进行的对话中（§3.3）。此外，每个代理都可以共享连贯的图像，从而增强多模式对话方面。最后，人类注释者的任务是手动过滤和完善生成的数据（第3.4节）。

3.1 Persona

我们从MSC数据集（Xu等，2022）中选择一个初始的角色语句PC，涵盖4至5个句子，并使用GPT-3.5-Turbo作为M作为M将其扩展到完整的角色语句P（请参阅附录中的示例和详细信息A.1）。

生成的陈述通常包括有关以下一个或多个元素（Gao等，2023a）的详细信息：目标，过去的经验，日常习惯和人际关系以及个人的名称，年龄和性别。

3.2 Temporal Event Graph 时间事件图

为了利用对话中每个代理的现实经验，我们为每个代理构建了一个标记为G的时间事件图。该图G是通过在指定的角色p上应用m（即文本davinci-003）的情况来产生的。每个事件EI都与发生日期有关。 G包括因果关系L =（EI，EJ），该因素说明了事件ei∈G之间的因果关系，并反映了个人生活中事件的自然继承。

对于每个G，我们创建多达25个事件，分布在6至12个月的时间范围内，在时间表中的推理时间与时间和因果关系的连贯性之间保持平衡。最初，生成了一小批k = 3事件，然后将其用作输入提示，以创建随后的k事件。请参阅附录A.2中的详细信息。

3.3 Virtual Agent Architecture 虚拟代理体系结构

每个特工李都合并了来自生成代理体系结构的模块（Park等，2023）。代理具有两个功能：（1）反映和响应；（2）图像共享和图像反应。要求代理在对话的背景下采用图像共享和图像反应的功能，主要使用反射和响应功能。

反思和回应。每个代理反映和响应的基本过程涉及短期和长期记忆的概念。在推论过程中，李的代理在短期和长期记忆中都会对其反应，与人类如何记住最近的对话，同时还回想起长期记忆中的蒸馏重要体验。在每个会话K之后，要求每个代理产生一个摘要WK，然后将其存储在短期HS中。该摘要WK是通过在最近的会话对话历史记录HK和前面的摘要WK -1∈HL上进行M生成的。对于会话k中的每个转弯j，对话的单个转弯将变成一个观察到OKJ，然后存储在长期内存HL中。然后，代理Li通过将其基于最新摘要WK的日期t s k+1在k+1中生成一个响应，该响应基于检索到的相关观测值o∈HS，即当前会话+1中的持续对话历史记录的反射。和角色陈述p。在对话中引起了长期的时间叙事，还通过调节代理在上次和当前会话之间发生的G中发生的事件子集的响应，即

{e∈G| t s k <te i <ts k+1}。请参阅附录A.2.1中的详细信息。

图像共享和图像反应。图像共享和图像反应函数已集成以在长期对话中添加多模式维度。2当代理决定发送图像时，将调用图像共享函数。这过程包括：（1）使用M为预期图像生成标题C；（2）使用m将字幕C转换为相关的关键字W；（3）使用关键字k通过Web搜索W EB（K）3查找图像；（4）共享所选图像。相反，从另一个代理接收图像后会触发图像反应函数并需要：（1）为接收的Image4生成字幕C；（2）使用M对接收图像产生反应（请参阅附录A.2.1）。

3.4 Human Verification & Editing 人类验证和编辑

在结束阶段，人类注释者的任务是（1）编辑对话以消除长期不一致的情况，（2）删除或替换与无关的图像，以及（3）验证和编辑事件图和对话内容之间的对齐方式。总体而言，我们观察到注释者编辑了将近15％的对话框转弯并删除或取代。 LLM生成的数据集中存在19％图像。请参阅附录A.3中一些编辑的示例。

图3：机车生成管道的概述。每个LLM代理都被分配了一个不同的角色和文件中的因果关系事件的时间表。该代理配备了内存和反射模块，可检索对话框生成的相关历史记录，并且还可以用于图像共享和图像反应行为（左）。人类注释者编辑了生成的对话，以维持远程一致性（右）。

4 LOCOMO Evaluation Benchmark 机车评估基准

根据第3节中生成的对话，我们介绍了由三个任务组成的评估基准（见图2），以评估长期记忆的准确性。请参阅附录中表5中数据集和评估基准的统计信息。

4.1 Question Answering Task 问答任务

预计会话代理人将拥有记忆以记住以前的对话的记忆，反映了它以在未来的对话中创建更多引人入胜的响应。为了对此记忆进行全面评估，我们介绍了提问的问题任务分为五个不同的推理类别：（1）单跳问题需要基于单个会话的答案；（2）多跳的问题需要来自多个不同会话的综合信息；（3）时间推理问题可以通过时间推理和捕获对话中的时间相关数据提示来回答；（4）可以通过将演讲者提供的信息与常识性或世界事实等外部知识相结合来回答开放域知识问题；（5）对抗性问题旨在欺骗代理商提供错误的答案，并期望代理商将正确识别为无法回答。

对于每个类别，我们按照预测和实际地面真实答案的标准化计算精确匹配的F1分数。

但是，用自动指标评估长形的答案通常会带来挑战（Xu等，2023）。 LLM倾向于以各种格式产生释义响应，使精确的匹配评估变得复杂。为了简化任务中的评估，我们确保尽可能多地从对话中获取质量检查注释中的答案。我们指示LLM可行时在对话中复制对话中的确切措辞，并采用F1部分匹配度量度量来评估预测。每个质量检查样本也都注释，其中包含答案的对话日志中的转弯ID。我们报告了为抹布模型检索正确上下文的准确性。

4.2 Event Summarization Task 事件摘要任务

对话是基于时间事件图G而生成的，该图是通过在角色陈述P上调节LLM来构建的，反映了个人生活中事件的时间顺序顺序。会话代理人不仅可以理解因果关系和G中的事件序列，但也可以根据需要介绍这些事件。为了评估代理商对事件动态的掌握，我们介绍了事件摘要任务，该任务挑战了代理商在指定的时间范围内总结事件，并将代理商的摘要与G中的事件进行比较。由于对话中存在的时间和因果关系，很难总结，与现有的研究论文的摘要基准（Li等，2023a），电影脚本（Chen等，2022）相比，书籍（Krysci´nski等， 2022），电子邮件（Zhang等，2021b）等。

Bleu（Papineni等，2002）和Rogue（Lin，2004年）等传统指标重点是参考和生成的摘要之间的词汇相似性，而不满足我们的需求，因为我们强调了摘要中的事实准确性。在这种情况下，我们采用FactScore（Min等，2023），该方法通过将参考和假设分解为原子事实来评估生成的文本的事实。我们通过计算内容中与G中的原子事实的数量来调整度量标准以测量汇总内容的精度；（2）通过确定g的原子事实在内容中的全面表示，回顾了汇总的内容。我们介绍F1分数，这些得分从计算的精度和回忆中得出。

4.3 Multi-Modal Dialogue Generation Task 多模式对话生成任务

我们数据集中的对话固定在特定的角色p和对p量身定制的相应事件g。对话中的主题是从跨越几周或几个月的早期对话中引入的事件演变而来的。这种结构允许评估会话代理人是否可以维持一致的角色和随着时间的流逝持续的叙述。例如，如果发言人最近受伤，下一次对话可能会集中在他们的恢复方面，而不是从事冒险活动。我们通过测量数据集中的地面真相多模式对话的预测多模式对话方式来评估这种一致性，除其他NLG指标外，还通过MMRELELEVANCE量化了这种对齐方式（Feng等，2022）。

5 Experimental Setup 实验设置

对于提问和事件摘要任务，我们替换了Locomo中的图像，并使用其标题（Li等，2023b），并使用State-Ofart LLMS来推理与图像标题交织在一起的仅文本对话。我们直接将图像直接用于多模式对话框生成任务。查看附录C中的其他详细信息。

问题回答。我们评估了三种类型的模型：（1）基本LLMS具有约束上下文长度的基础LLM，其中省略了较早的对话，即Mistral-7B-Instruct-V0.2（Jiang等，2023），Llama-2-70B-Chat（Touvron）等，2023）和Llama-3-70B-Instruct5; （2）具有扩展上下文窗口的长篇小写LLM，即GPT-3.5-Turbo 6，GPT-4-Turbo 7，Gemini-1.0-Pro（Team等，2023）和Claude-3-sonnet8；（3）检索提升的生成（RAG）涉及从对话记录数据库，观察结果（关于说话者的断言；请参见第3.3节，图9）或会话级级别的摘要（请参见第§3.3，图8，图8）。我们使用Dragon（Lin等，2023）作为猎犬，而GPT-3.5-Turbo作为读者。

事件摘要。我们使用基本和长篇小写的设置从问题提问任务中进行了实验，但是避免了包括抹布的抹布，因为摘要需要对整个对话有全面的理解，而不仅仅是检索特定部分。我们实施增量摘要，即迭代地创建上一个会话的摘要，然后以该摘要为基础来汇总后续会议（Chang等，2023）。

多模式对话生成。我们使用自动管道（无人体过滤；第3节）进行50次对话，以训练数据，并训练三个版本的迷你期5版（Zheng等，2023）：（1）仅先前对话的基础火车仅转向；（2） +关于先前对话转弯的摘要列车和正在进行的对话的全球摘要；（3） +关于先前对话转弯和从对话历史检索到的观察的观察列车。

每次运行都用MMDialog上的Minigpt-5检查点初始化（Feng等，2022）。

6 Experimental Results 实验结果

我们评估和分析所有基准方法的全面性能（第6.1节），事件图摘要（§6.2）和多模式对话生成（第6.3节）。

6.1 Question Answering Task 问答任务

表2和表3给出了回答任务的性能结果。我们发现：（1）上下文长度有限的LLM面临着由于截短的上下文窗口而导致的非常长的对话时面临的挑战。尽管GPT-4-Turbo成为最佳表现模型，总得分为51.6，但它显着落后于87.9的人类基准。（2）LongContext LLM可以理解更长的叙述，但它们容易产生幻觉。 GPT-4-Turbo在整体表现方面的其他方法都优于其他方法，但其在对抗性问题上的表现仅下降到15.7％，而使用GPT-3.5-Turbo和80.0％使用Llama-3-Chat-70b，而4K Chat-70b则降至15.7％长度。

在Gemini-Pro-1.5和Claude-Sonnet模型中也观察到类似的趋势。 GPT-3.5-Turbo的整体性能随上下文的长度而增加，这主要是由于单跳和多跳的场景的大量改进，但是对抗性问题的表现却急剧下降。这表明LLM在经历较长的背景时很容易被误导为产生幻觉。（3）长篇小说LLM难以正确利用召回的上下文。单跳和多跳问题类别之间的性能差距表明，LLM在“记忆”一个大的上下文窗口中相当擅长，但发现在召回的上下文中执行复杂的推理是一项挑战。（4）当将对话作为观测值存储时，破布是有效的。当输入是前5个相关观察结果而不是纯对话日志时，GPT-3.5-turbo有5％的改善。这种改进会随着检索的观测值数量的增加而动摇，这表明在检索到的上下文中，降低信号（SNR）比率很重要，以便模型准确利用上下文。相反，尽管召回精度很高，但使用会话摘要作为上下文并不能显着提高性能，这可能是由于在对话框转换为摘要过程中的信息丢失所致。

有趣的发现是时间推理和开放域知识问题是最具挑战性的情况。（1）llms面对chal-在对话中理解时间概念的Lenges，这与其他基于单转的基准的发现一致，该基准的重点是LLMS的时间推理功能（Wang和Zhao，2023）。（2）LLM与opendomain知识斗争并在抹布环境中降低。这表明，尽管某些开放域知识可以嵌入模型的参数中，从而引入了不准确检索的不当背景会导致性能下降（Mallen等，2023）。

6.2 Event Summarization Task 事件摘要任务

表4给出了事件摘要任务的结果。强大的长篇小写模型记录了此任务上最高的性能。 GPT-4-Turbo在Rouge和FactScore指标方面的得分最高，其次是Gemini-1.0-Pro和Claude-3-Sonnet。与长篇小说模型相比，使用Llama-3-70B教学窗口（4K上下文窗口）的增量汇总（4K上下文窗口）的使用效果很好，仅证明Rouge-l分数下降了2.4％。但是，在“事实”指标上的性能下降了近10％，这表明它无法捕获与长篇小说模型一样多的信息。尽管如此，在这项任务上的绩效仍然很大。事件摘要任务需要远程依赖性，以了解说话者在多个会话中讨论的事件之间的时间和因果关系（见图7）。最佳模型与该任务上的上限之间的巨大差距表明，LongContext模型可能不熟练地利用其上下文，这也与Li等人（2023a）中的类似发现以及QA任务相符机车。

根据对预测的摘要的手动分析，我们确定了LLMS犯下的事件摘要错误的五个广泛类别：（1）事件中的丢失信息，因为该模型无法在漫长的对话中建立时间和/或因果关系；（2）幻觉，即对话中不存在的额外细节，或者是同一会话中其他事件的一部分；（3）误解对话线索（例如幽默或讽刺）的错误是理解对话的独特问题；（4）不准确的说话者归因；（5）被错误地认为是显着事件的微不足道的对话。请参阅附录中表6中的示例。

6.3 Multi-Modal Dialog Generation Task 多模式对话框生成任务

图4说明了各种迷你训练变体在多模式对话生成中的有效性。将上下文纳入训练中可以增强性能，并将观察结果包括在内，因为上下文产生了显着改善的结果。例如，在图4A中，检索到的观察结果包含有关说话者在视频游戏锦标赛中的经验的信息，这导致了对话框和图像对演讲者角色更忠实的图像的预测。该观察结果与QA任务的早期发现一致（请参见表3）。另外，我们观察到，MM-Reathance评分随着对话历史记录的长度的增加而下降（请参见图4B）。检索增强的一代在某种程度上减轻了MM-RELEVANCE的下降。

7 Conclusion 结论

我们开发了一条人机管道来收集机车，这是一个由10个高质量的非常长的对话的数据集，每次涵盖了600圈和16K代币，在AVG。上最多可达32个会话，并提出了一个评估框架，该评估框架由三个评估的任务组成，这些任务是评估的。模型在长时间对话中的熟练程度。我们的实验表明，LLM努力理解对话中的长期叙事，并且无法在演讲者讨论的事件之间建立时间和因果关系。

8 Limitations 限制

机器生成的数据。我们的数据集主要来自LLMS生成的文本。我们追求了这种方法，该方法已迅速成为耗时的手动数据收集（Kim等，2023; Jang等，2023b）的一种流行替代方案，以避免收集非常长期的现实世界的后勤和法律复杂性大规模对话。我们通过让人类注释者验证和编辑生成的对话来确保数据集尽可能地反映现实世界的交互。但是，我们承认该数据集可能无法完全反映现实世界在线对话的细微差别。

对多模式行为的有限探索。

由于我们的数据集中的图像是从网络中采购的，因此它们没有证明通常在个人照片（例如外观，家庭环境，人和宠物等）中展示的视觉长期一致性。因此，我们发现我们的数据集中的图像可以用其字幕替换而不会丢失信息，除了需要OCR的情况。然而，我们的工作是研究长期对话多模式方面的第一步。

语言。我们的基于LLM的长期对话的管道仅针对英语开发了。但是，我们可以使用精通该语言的LLM和提示的适当翻译来与任何其他语言一起使用。

封闭源LLM。我们在对话框生成管道中使用最先进的LLMS来创建一个尽可能现实的对话框数据集。不幸的是，这意味着采用未开源的LLM，仅通过付费API才能获得，类似于许多引起合成对话的并发作品（Zhong等，2023； Lu等，2023）。我们将为我们的生成管道制定代码，希望将来可以使其与开源LLM有效合作。

评估长格式NLG。即使在简短的短语中提示回答，LLM也容易产生冗长的答案。这在评估LLM提供的答案的正确性方面引起了挑战，并已在NLP文献中得到广泛证明（Chang等，2023; Xu等，2023; Krishna等，2023）。我们的评估框架在使用LLMS实验时面临着相同的挑战。

9 Broader Impacts 更广泛的影响

我们采用并改善了Park等人（2023）中引入的生成代理的框架，以产生长期对话。因此，Park等人（2023）概述的生成代理的道德问题也适用于我们的工作，尤其是因为我们框架的目标是使对话尽可能现实。

具体而言，通过框架中的时间事件图所启用的对话代理人可以像人类一样构成人类，从而构成了用户可能与可能不利影响生活的这种代理人形成副社会关系的风险。我们建议，在我们的工作中，任何实际部署生成框架的任何实际部署都始终置于对话源的免责声明中。

其次，使用多模式LLM（Zheng等，2023）在对话框中生成图像可以导致错误信息和社会偏见的传播，尤其是如果可以将对话代理人胁迫到伪造的虚假信息或危险意见。

第三，很容易使用生成剂代替真正的人类，尤其是当与人类的特定目标面临重大挑战时，例如一年或更长时间以上人类之间的现实世界互动。必须注意确保在研究结果可以用来做出对人类产生切实影响的现实决定的研究中不要做出这种替代品。我们的工作仅仅是对长期对话中模型理解的研究。我们没有根据这项研究对现实世界政策提出任何建议，并建议我们框架的潜在用户也避免提出此类建议。