美国国防高级研究计划局(Defense Advanced Research Projects Agency),简称DARPA,提出了旨在从推进人工智能常识推理能力发展、深化机器学习理论研究和推进国防部复杂问题中应用人工智能、深化美军对人工智能的研究和应用的“的下一代人工智能”计划。具体包括有:知识导向的“人工智能推理图谱”(KAIROS )、“世界建模者”(World Modelers )、“大机制”(Big Mechanism )、“复杂作战环境中的因果探索”(Causal Exploration )、“不同来源主动阐释”(AIDA )、“数据驱动的模型发现”(D3M )、“不完全信息博弈复杂军事决策中的串行交互”(SI3-CMD )等,这些项目旨在自动化地利用呈指数增长的数据信息,将复杂系统的建模与推理相结合,从而辅助国防部快速认识、理解甚至是预测复杂国际和军事环境中的重要事件。
本期围绕“情报领域因果推理智能项目”这一主题,选择“复杂作战环境中的因果探索”(Causal Exploration )、不同来源主动阐释”(AIDA )、知识导向的“人工智能推理图谱”(KAIROS )三个项目展开调研,从而加强对情报领域因果推理的认识。
一、Causal Exploration:
复杂作战环境中的因果探索项目
美国印太司令部与DARPA合作开展了一个名为“因果探索”的人工智能项目。该项目旨在 “建立一种工具,利用人工智能来增强机器所擅长的研究大量数据和模式识别等工作的效能并将其与人类相结合,允许人类发挥特有的专长,如提出新想法等。”DARPA网站称,该项目旨在建立一个“建模平台,以帮助军事规划者理解和解决导致复杂冲突局势的潜在因果因素。”这一工作,能够揭露出敌方防御的弱点,甚至是致命的漏洞。这些弱点可能是雷达覆盖的漏洞、关键防御系统的软件漏洞、机动中的空档,或者是敌方没有意识到、但可能通过大量的雷达数据和其他数据暴露出来的其他漏洞。
1、项目研究目标
该项目旨在开发一个建模平台,用于帮助军事规划者理解和解决导致区域混合冲突的潜在原因。平台具有以下根据作战环境(OE)快速创建和维护因果模型;探索影响作战环境的因果动力学;深入全面地了解作战环境等功能。该项目的成果可直接用于支持并告知规划工作,以解决由政治、种族或宗教紧张等因素主导的复杂人类层面的冲突、低强度冲突、经济侵略、或网络恐吓。
2、项目研究构成
该项目在技术构成上涉及“知识组织”、“因果模型装配”、“人机交互”、“模型评估”以及“系统集成”几个研究内容。
首先,在知识组织阶段,需要操作多种多样的异构和语义多样的文本及数字信息源,具体包括:军事和情报文件(如情报报告、作战评估、军事信息)、开源文本(如新闻媒体、基于Web的内容)、政府或非政府组织数据(如人口统计和经济等报告和数据库分析),以此作为输入源,提取出有关实体(参与者、条件、事件等)和关系的知识,并将实体和关系映射到公共本体中。这个阶段存在包括广泛变化的源材料、源信息的偏差或不可靠性、不符合清晰句法模式的因果关系、对因果关系特征(如置信度、强度、延迟)的一致估计等在内的多个挑战。
其次,在因果模型装配阶段,需要从知识组织阶段输出的数据集(以及可能的其他来源,如编码专家知识)中汇编出来一个因果整合模),并识别出因果整合模式的缺陷和差异,以便进一步整合人的输入从而修改或增强因果整合并整合新知识,从而实现最终的更新或完善。
最后,在人机交互阶段,一方面需要使具有不同经验和专业知识的用户能够与建好的因果整合模式进行互动,以建立理解;提供捕获因果整合模式的结果以及用户上下文的技术,产生灵活和动态产品。另一方面,还需要提供直观的探索功能,以帮助用户发现潜在的原因并评估潜在的方法,并使用户能够操作ICM结构、执行计算、可视化和简要的结果。
3、项目应用
该项目的定位为一个建模平台,以帮助军事规划者理解和解决导致复杂冲突局势的潜在因果因素,典型地的应用于以区域混合冲突为例的场景挖掘。
1)给定一个冲突实例:“尼日尔三角洲爆发了危机,武装分子占领了油田和沿海地区,并与有组织犯罪集团联手攻击海湾的航运”“)。
2)获取相应数据:获取军事和情报(作战评估、军事信息、情报报告)、政府和非政府组织数据(人口/经济报告和数据库)以及开源(公开信息,包括基于文本的新闻媒体、基于Web的内容、社交媒体)。
3)自动提取相关知识:实体知识:尼日利亚政府、尼日利亚安全部队、尼日尔三角洲人口、石油公司、犯罪集团、武装分子、博科圣地;条件、事件和趋势:滥用安全部队、人民支持武装分子;因果关系的识别:滥用安全部队增加了对武装分子的人口支持;领域本体的定制:博科圣地—恐怖分子—非国家军事演员—武装分子民兵组织—武装分子。
4)半自动因果模型装配:将提取到的各项知识进行组织。
二、Active Interpretation of Disparate Alternatives (AIDA)
主动解释不同替代方案
近年来,信息的复杂性已超出分析师从各种信息源搜集有价值信息的能力,这些信息样式各异,是结构数据和非结构数据的混合体,从军事情报到社交媒体,包含准确和不准确的消息。而对于那些力图理解世界大事的人,没有由其他媒体提供的信息作为参考,经常独立分析来自各个媒体的信息是有挑战的。经常出现的情况是,各个独立的分析会导致仅仅只有一种解释,而由于缺少证据,没有备选的解释,甚至缺少那些可以反驳那些可能选项的证据。通常在后续的分析过程中,当这些独立的、无力的分析被放在一起,结果会是单一的表象的认识,而不是一个真正的认识。
因此,DARPA通过开发“对不同方案的主动解释”(Active Interpretation of Disparate Alternatives,AIDA)项目,试图克服今天数据环境的混乱、矛盾和潜在的欺骗性。AIDA项目的目标是开发一种多重假设“语义引擎”,这种“引擎”根据从广泛渠道获得的数据,生成对真实事件、现状和趋势的解释。
该项目旨在创造一种新技术,这种技术能够自动聚集和扫描多个媒体的碎片信息,将这些信息转化为常用表述或故事情节,然后生成关于事件、现状和趋势的本质和含义的多种假设。AIDA可以帮助分析员和军队决策者改善他们的分析,以便他们更能同更大更完整的整体语境相一致,并且能获得对塑造我们世界的元素和力量的更加透彻的理解。AIDA提供对趋势和事件的更好理解,清除出不相干的和不可靠的数据。
1、项目研究目标
主动解释不同替代方案(AIDA)的目标是开发一个多假设语义引擎,从各种非结构化来源生成事件、情况和趋势的明确替代解释,用于嘈杂、冲突和潜在的欺骗性信息环境。
首先,该引擎必须能够将从多个媒体源自动派生的知识元素映射到公共语义表示,聚合从这些媒体源派生的信息,并生成和探索有关事件、情况和感兴趣趋势的多个假设,并能够根据分析的准确性和每个假设的语义表示的一致性,为派生知识和假设建立置信度量。
其次,该引擎还必须能够利用公共语义表示中的知识和生成的假设作为媒体分析算法的替代上下文,通过改变它们的模型或先验概率来提高准确性,并根据上下文的期望解决歧义。
最后,该语义引擎还需要能够与用户通信,以揭示生成的假设,并允许用户更改假设或建议新的假设。
2、项目研究构成
该项目最终定位为一个多假设语义引擎,这个引擎主要包括映射和反馈(Semantic Mapping and Feedback)、公共语义表示(Common Semantic Representation)、多重假设(Multiple Hypotheses)、集成和多重解释(Integration and Multiple Interpretations)等主要组成部分。
首先,在语义映射和反馈阶段,需要解决本项目的核心部分,即利用现有分析算法从所有可用媒体中提取知识元素,并将这些信息映射到定义的公共语义表示语言中。这一阶段的主要输入包括各种类型的文本、语音、图像、视频及其相关元数据流。通过分析每个输入的信息项,最终生成出一组关于该信息项中可观察到的事件、子事件或动作、实体、关系、位置、时间和情感的结构化表示。除了出处记录外,表示的每个知识元素(包括互排斥的知识要素)都需要有一个与之相关的置信度度量。
其次,在公共语义表示阶段,需要重点研究和开发一种新的通用语义表示,使人和计算机都可读。将输入的结构化且具有置信度量知识元素,用通用语义表示语言表示,并形成一个体系化的知识库。另外,在多重假设阶段,需要在知识库中以公共语义表示的方式组装信息,从而形成一个或多个内部一致的假设,其中的每个假设都应该捕获一个内部一致的世界模型,通过对输入数据的某些子集的解释,进而估计和传播不确定性。
最后,集成和多重假设阶段,需要开发出一个能够接受各种数据流的原型,该原型必须能够实现通过探测知识库、显示假设、向系统提交查询、编辑知识库或假设中的知识元素,以及向计算的任何阶段注入额外的“假设”来管理用户交互。
三 Knowledge-directed Artificial Intelligence Reasoning Over Schemas(KAIROS)
知识导向的人工智能推理模式
迅速理解世界事件对于为美国国家安全工作提供信息至关重要。这些自然界或人类社会中值得注意的变化可以对事件本身产生重大影响,或者可能构成产生更广泛影响的因果链的一部分。许多事件不是简单的事件,而是复杂的现象,它们是由许多附属元素组成的网络:包括从参与者到时间线,然而,越来越多的非结构化多媒体信息阻碍了对这些事件及其基本潜在要素的揭示和理解。
因此,美国国防部希望利用人工智能技术在日益复杂的全球环境中更好地追踪、分析各地的重要事件。在这一需求的驱动下,DARPA启动了“知识导向人工智能推理图谱”(KAIROS)项目,计划利用人工智能技术分析多媒体中的信息,理解世界各地发生的事件,旨在通过开发能够对现实世界事件进行上下文和时间推理的人工智能技术,从看似无关的事件中,分析发现事件之间的关联性。
1、研究目标
知识导向的人工智能推理模式这一系统旨在实现一个基于模式的人工智能系统,能够根据事件的上下文和时间推理,产生对复杂现实世界事件的可操作理解,并预测它们将如何展开。该系统可以筛选每天产生的无数事件和媒体片段,并识别其中任何连接或叙述的线索,识别和绘制事件或数据之间的相关性。
2、项目研究内容
该项目大体上分成两个阶段:在第一阶段,开发一种半自动化系统,能够识别和绘制看似无关的事件或数据之间的相关性,以帮助我们了解或创建关于我们周围世界的通用描述;第二阶段,将系统用于分析复杂的现实世界数据,并尝试根据创建的模式提取事件和叙述。
第一阶段关注通过基于语言学推断和常识推理的检测、分类、汇聚,从海量数据中形成事件模式,参与这个阶段的研究人员将运用归纳、综合和特殊化的流程来帮助形成可描述简单和复杂事件的模式,然后再将多个图式串列使用来提取诸如“角色”、“事件”这样的关键语境因素,并运用专业领域知识针对特定需求定制分析过程。
第二阶段关注将形成于第一个阶段的图式库应用到多媒体、多语言信息中去,以发现和提取复杂事件,这个阶段的研究将致力于识别事件、实体等因素之间的关联关系,以帮助人工智能系统形成和扩展其知识库。
在系统构成上,该项目包括事件模式的生成(Generation of Schemas for Events)、时间知识和模式的表示和使用(Representation and Use of Temporal Knowledge and Schemas)、系统集成和用户界面 (System Integration and User Interface)等模块。
首先,在事件模式的生成阶段,需要根据辅助元素、参数及时间和顺序信息分析复杂事件,以组成和概括事件模式。其输入数据包括多媒体、多语言批处理数据,要求输出表示事件及其辅助元素结构的模式,事件如何演变,辅助元素的典型持续时间和顺序是什么。
其次,在时间事件模式的生成阶段,该阶段以来自多媒体、多语言流作为输入,以事件模式的生成阶段中开发的模式,实现运行时使用的知识库。知识库中具体包含有关运行时数据中实例化模式的信息、与模式相关的所有事件和参与者,以及事件元素和参与者的时间关系,并能够基于模式进行可能后续事件预测。
最后,在系统集成和用户界面阶段,需要设计一个平台,该平台以多媒体或语料库作为输入,并允许所有系统组件与一个界面通信,该界面允许用户查询系统并控制可视化模块。该模块以来自事件模式的生成阶段和在时事件模式的生成阶段的算法、流模式或语料库中的数据作为输入,实现数据之间的传递。不仅需要让事件模式的生成阶段构建的模式库能够被时间事件模式的生成访问,还允许用户与时间事件模式的生成算法之间进行读取、编辑或可视化的接口。
四 总结
因果逻辑挖掘与推理,在情报领域扮演着越来越为重要的角色。DARPA所提出的Causal Exploration(复杂作战环境中的因果探索项目)、Active Interpretation of Disparate Alternatives (AIDA):主动解释不同替代方案)、Knowledge-directed Artificial Intelligence Reasoning Over Schemas(KAIROS:知识导向的人工智能推理模式)都从不同的角度出发,对这一技术进行了研究和探索。本文简要地从研究目标和研究内容两个方面进行了简要介绍。
类似地,从2018年开始至今,数据地平线对以“事件”为核心的应用型技术、因果逻辑挖掘和可解释性推理进行了探索和实践,并在此期间陆续发布了多项成果,包括:
1、“学迹”:大规模实时事理学习与搜索系统。该系统积累了数千万因果逻辑、事件描述逻辑与数十万产业链逻辑,为推理奠定了推理基础。
2、“数地工场”:NLP领域技术综合开放平台。该平台奠定了因果逻辑、事件挖掘实现的基础。
3、“投研云图”:集投资逻辑管理、多维数据辅证、实时舆情监控的智能投研工具。基于该系统可以完成逻辑的管理、自建、多维信息关联与监测。
4、“事理图谱Demo”:投资逻辑展示及检索平台。基于该平台,可以搜索和查阅既定事件背后的因果逻辑网络。
与金融领域一样,情报领域对事件、事理逻辑相关技术和应用有着很大的需求,接下来,我们将逐步开展面向情报领域的事件挖掘和分析,欢迎感兴趣的朋友们关注这项工作。
五、关于我们
If any question about the project or me ,see https://liuhuanyong.github.io/
如有自然语言处理、知识图谱、事理图谱、社会计算、语言资源建设等问题或合作,可联系我:
1、我的github项目介绍:https://liuhuanyong.github.io
2、我的csdn博客:https://blog.csdn.net/lhy2014
3、about me:刘焕勇,中国科学院软件研究所,lhy_in_blcu@126.com
参考文献
[1].https://www.ldc.upenn.edu/collaborations/current-projects
[2].https://www.sohu.com/a/385563257_613206
[3].https://www.federalgrants.com/Active-Interpretation-of-Disparate-Alternatives-AIDA-64580.html
[4].https://www.darpa.mil/news-events/2019-01-04
[5].https://m.sohu.com/a/132637014_465915
[6].https://www.darpa.mil