AIML知识库数据匹配原理解析

  • 目录:
    • 前言:
    • 1、AIML系统工作流程
    • 2、AIML的核心推理机制
    • 3、推理举例
    • 4、匹配规则及实践中遇到的一些问题的解释
    • 总结:

目录:

前言:

参考:《Alice机理分析与应用研究》
关于AIML库这里就不介绍了,详细的介绍及简单的使用请参考我的上一篇博客:https://blog.csdn.net/qq_16633405/article/details/80228697
这里主要介绍下AIML知识库内部数据匹配的机制,以便我们能更好的使用AIML库。废话少说,直接进入正题了。

1、AIML系统工作流程

AIML系统工作流程如图1所示。
第一步:系统初始化
AIML系统在启动时,首先根据配置文件进行系统的初始化操作,把需要替换的词串(如把 it’s替换为it is)、自身的相关信息(如名字、性别等)、人称转换信息以及此前的对话情景变量读入系统,并把AIML文件内容(即知识库)以树的结构形式加载到内存当中,形成内存知识树,这样当系统在响应用户输入的问句时,可直接在内存树中进行推理,提高了响应速度。加载完毕之后,等待用户输入问句。
第二步:接收用户输入,进行问句规范化处理
当AIML解析器接收到一行用户的输入后,首先把输入的文字分成单独的句子,进行问句规范化处理,分析当前句子中是否包含需要替换的字符串,如果有,则替换之。例如把问句中出现的“you’ve”替换为“you have”,“I’m”替换为“I am”等等。问句规范化处理完以后,以规范问句到内存知识树中查询推理答案。
第三步:问句查询推理
这一过程是AIML的核心部分,将规范化处理后的问句与内存知识树中的模式进行匹配,寻找最佳匹配结果,找到之后,读出该匹配模式对应的模板信息,进行下一步处理。
第四步:模板处理
也就是答案的后处理,模板中可能包含一些特殊标记需要处理,如读出机器人名字标记所代表的实际名称,还原星号部分所代表的内容,如果包含跳转标记,还需要在内存知识树中以跳转部分的内容做进一步的推理。 模板处理完后返回用户结果,等待用户输入新问句。
这里写图片描述

2、AIML的核心推理机制

AIML的核心推理部分称为 Graphmaster,它由一系列称为Nodemapper的节点集组成。每一个Nodemapper都有若干个从该节点出来的分支,这些分支可能是一个单词,也可能是一个通配符。
根据用户的输入查找对应模式的过程就是AIML的推理过程,假设用户输入的问句以单词X开头,那么首先拿X与Graphmaster中第一级节点的内容逐个比较,整个推理过程可以分为三步:
1、当前节点是否包含统配符“_”?如果有,则搜索以当前节点为根节点的子树,以X后面剩余部分组成的子句在该子树中继续该过程,如果没有相匹配的节点,则转 2);
2、当前节点是否包含X?如果是,则搜索以当前节点为根节点的子树,以X后面剩余部分组成的子句在该子树中继续该过程,如果未发现相匹配节点,则转 3;
3、当前节点是否包含“!”?如果是,则搜索以当前节 点为根节点的子树,以X后面剩余部分组成的子句在该子树中继续该匹配过程。如果没有发现匹配节点,回溯到节点的父节点,把X重新加到子句子的首部,继续该匹配过程。
当进行匹配的句子到达句尾,并且匹配的最后一个节点包含模板内容时,则表明已经找到了相匹配的模式,此时,终止搜索匹配过程,返回该节点,取出模板内容,在必要信息处 理完毕后把结果返回用户。由该算法可以看出,如果内存知识树中第一级节点含有关键字“*”,并且该节点含有模板信息,则对任何输入的问句,都能得到一个结果。

3、推理举例

下面举一个简单的例子来说明AIML的实际推理过程。 假设知识库中有以下三个category:
这里写图片描述

针对这三个category,给出它的内存知识树如上图所示。为简明起见,图中节点只写出了它所包含的内容,滤掉了其它信息。假设用户输入的问句是“do you love your boy”

根据上图和前面所讲的匹配规则,匹配串为“do you love your boy”,首先将问句的第一个单词“do”与第一级节点(节点(1)和节点(5))进行匹配,首先应该匹配节点(1),它仅有一个子节点(2),与问句下一个单词“you;”匹配不成功,问句回退后“you;”与下划线匹配成功,则继续匹配“love”,成功,匹配“your”成功,当再匹配“boy”时,当前节点(4)既不是“_”,也不是“boy”和“*”,匹配不成功,这样对节点(1)而言,第一步匹配下划线失败。继而执行匹配过程的第二步,匹配相同单词“do”,成功,匹配“you”成功,匹配“love”,与节点(H)成功,再匹配下一个单词“your”时,根据优先级,匹配下划线不成功,匹配原单词“your”成功,再匹配最后一个单词“boy”时,三个步骤都不成功,此时回溯到节点(H)。再以原单词“your”与节点(8)中的星号匹配,成功,继续匹配最后一个单词“boy”与节点(I)中的星号匹配,成功,继续匹配最后一个单词“boy”,与节点(9)匹配成功,问句结束,整个匹配过程完毕,叶子节点(9)为最后搜索匹配结果,其中也含有模板信息,表明找到对应了模式,在进行模板信息处理后,即可把结果返回给用户。

4、匹配规则及实践中遇到的一些问题的解释

首先是拿知识库中的数据和提问的问句进行匹配的,先根据问句来确定知识库中匹配的首节点,之后从对应的匹配数据出发,看匹配的首节点的剩余部分是否和问句的剩余部分匹配,如果成功则直接返回匹配结果,如果失败则进行另一个分支的匹配工作(内部匹配的一个优先级即_>单词>*)
例子:

M:*充值*金额*
T:充值金额及次数限制?
匹配的时候,先将T中的“充”字拿出来和M中的“*”号进行匹配,之后再将T中的“值”字与M中的“充”字进行匹配,
不匹配,则将T中的“值”字匹配到M中的“*”中,即此时的“*”代表”充值“二个字,然后再将T中的“金”字与M中“充”字进行匹配,
失败,再将T中的“金”字放到M中的“*”中...直到最后发现T中所有的汉字都无法匹配M中的“充”字,则说明当前这条路失败,
即进行第二条路,即M的初始“*”不代表任何字,则T中的“充”和M中的“充”匹配,值和值匹配,之后再参考前一条路的操作步骤,
先把*当做匹配的有对应的汉字,然后接着匹配T中的剩余的汉字,看是能与M完成匹配,若不能则返回“*”处,
即*是另一种情况即不代表任何汉字,接着进行匹配。。。
(对于汉语来说,内部是将一句话中的每个汉字都拆出来进行处理的)

问题一:使用AIML库时遇到返回AIML库源码中一段字符串输出的原因的解释:
例1:

问题:
提前还款违约金?

匹配项:

A:*提前*还款*违约*
B:*提前*还款*(匹配的是这个)

返回的语句是:对不起,无法回答您的问题。请您换种正式的方式提问(这个返回的字符串可以在源码中自定义更改)

出现这种情况的原因是:当你使用AIML库中srai标签时出现了多匹配问题,srai标签工作原理是当符合你定义的匹配规则时,他会再去搜索对应的问题,这时候出现了多匹配的问题即一个问题有多个匹配选择,程序不知道怎么选,所以就爆出上面源码中的一句话(srai详细的使用及原理请参考我的上篇文章:https://blog.csdn.net/qq_16633405/article/details/80228697)。
PS:所以在使用的时候个人不建议为了省事,去使用Srai标签,因为使用这个标签后具相当于再次进行了一次检索匹配的过程,并且在这个过程中匹配的规则会发生一些变化,下面的例子会解释那些地方发生了变化。
对于星号的匹配有如下的规则:

在最后一个“*”处的规则是先假设B中的“*”有内容,若匹配失败才进入B中的“*”无内容的条件再次进行匹配。

问题二:AIML库下中文的匹配规则
在说明使用srai标签后的检索匹配与初始检索匹配机制的一些不同点之前有必要举个例子把AIML库下中文的匹配规则说明白。
例2:
匹配项:

*贷款审批*时效*
*审批*多久*
*贷款*放款* 

输入的问题:贷款审批后多久放款?
输入后,答案有冲突
这种情况下,我想让“贷款审批后多久放款?”这句话匹配*贷款*放款*的答案 ,就需要将*贷款审批*时效*转化为*审批*时效*,这样在输入的时候,会先匹配“贷款”两个字即先匹配*贷款*放款*这个模式,若匹配不成功才会去匹配另一个*审批*多久*(即单词的优先级高于星号,有单词先匹配单词)。
系统内部操作时也是将汉字一个个拆分,匹配的时候也是一个一个字的去匹配。内部运行效果如下如所示:
这里写图片描述

问题三:使用srai标签后的检索匹配与初始检索匹配机制的一些不同点
例3:
如下所示:
当我输入“贷款有哪些品种?”时,就会发生匹配多项的问题输出系统自定义的输出语句即:对不起,无法回答您的问题。请您换种正式的方式提问(我自定义的)。

    <category><pattern>*贷款*种*</pattern><template>贷款有哪些品种?房供贷、红本贷、流水贷(公积金、代发工资)、公务员贷、保单贷。</template></category><category><pattern>*贷款*有*</pattern><template><srai>贷款有哪些品种?</srai></template></category>

但是当上面的匹配项改为这样时,系统就不会发生匹配多项的问题,也就不会返回相应的输出语句。

    <category><pattern>*贷款*种*</pattern><template>贷款有哪些品种?房供贷、红本贷、流水贷(公积金、代发工资)、公务员贷、保单贷。</template></category><category><pattern>*贷款*有*</pattern><template>贷款有哪些品种?房供贷、红本贷、流水贷(公积金、代发工资)、公务员贷、保单贷。</template></category>

原因:使用srai标签的搜索匹配机制和初始的搜索匹配机制不一样的地方。使用sari标签的时候也许也许内部源码的运行机制也许是在初始搜素匹配机制的基础之上又添加了一些额外的限制,所以才导致有这样的问题(但是个人感觉这个问题完全可以解决,大体的步骤就是在执行srai标签时将初始匹配的那套流程代码再执行一遍不就OK了,也许中间还牵涉到一些其他的难点吧。。这里就不考虑这些了)

总结:

一直想找关于AIML内部数据加载机制的知识,但是可参考的资料真的少之又少,无奈只能把之前找到的资料和自己的实践相结合总结出来这样一篇文章,希望能对大家有所帮助。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/456565.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Python】模拟面试技术面试题答

一、 python语法 1. 请说一下你对迭代器和生成器的区别&#xff1f; 2. 什么是线程安全&#xff1f; 3. 你所遵循的代码规范是什么&#xff1f;请举例说明其要求&#xff1f; 4. Python中怎么简单的实现列表去重&#xff1f; 5. python 中 yield 的用法…

Win7 U盘安装Ubuntu16.04 双系统

Win7系统下安装Ubuntu系统&#xff0c;主要分为三步&#xff1a; 第1步&#xff1a;制作U盘启动盘 第2步&#xff1a;安装Ubuntu系统 第3步&#xff1a;创建启动系统引导 第1步&#xff1a;制作U盘启动盘 1.下载Ubuntu16.04安装镜像&#xff0c;官网地址&#xff1a;http://www…

Word2VecDoc2Vec总结

转自&#xff1a;http://www.cnblogs.com/maybe2030/p/5427148.html 目录&#xff1a;1、词向量2、Distributed representation词向量表示3、word2vec算法思想4、doc2vec算法思想5、Doc2Vec主要参数详解总结&#xff1a; 目录&#xff1a; 1、词向量 自然语言理解的问题要转…

《游戏视频主播手册》——2.2 哪些人适合做游戏主播

本节书摘来自异步社区《游戏视频主播手册》一书中的第2章&#xff0c;第2.2节&#xff0c;作者 王岩&#xff0c;更多章节内容可以访问云栖社区“异步社区”公众号查看。 2.2 哪些人适合做游戏主播 据不完全统计&#xff0c;目前国内有超过26000名活跃的游戏主播。所谓“活跃的…

干货分享!DevExpressv16.2最新版演示示例等你来收!(上)

2019独角兽企业重金招聘Python工程师标准>>> 为解决大家找资源难的问题&#xff0c;EVGET联合DevExpress控件中文网盘点热门的DevExpress资讯、Demo示例、版本升级及下载&#xff0c;以及各种教程推荐等。更多下载及资讯也可以在DevExpress控件中文网中找到&#xf…

一文看懂哈夫曼树与哈夫曼编码

转自&#xff1a;http://www.cnblogs.com/Jezze/archive/2011/12/23/2299884.html 在一般的数据结构的书中&#xff0c;树的那章后面&#xff0c;著者一般都会介绍一下哈夫曼(HUFFMAN)树和哈夫曼编码。哈夫曼编码是哈夫曼树的一个应用。哈夫曼编码应用广泛&#xff0c;如JPEG中…

解决:未能将管道连接到虚拟机: 所有的管道范例都在使用中。

虚拟机无端出现: VMware Workstation 无法连接到虚拟机。请确保您有权限运行该程序、访问改程序使用的所有目录以及访问所有临时文件目录。未能将管道连接到虚拟机: 所有的管道范例都在使用中。 原因&#xff1a;Ubuntu开机慢到开不开&#xff0c;我就在任务管理器强制结束了…

CCF推荐各种国际学术会议和期刊目录

这是中国计算机学会推荐国际学术会议和期刊目录2015年版本的内容&#xff0c; 主要罗列了国际上计算机相关的各个方向的顶级学术会议和期刊目录&#xff08;包含A、B、C三个等级&#xff09;。 包含的方向有&#xff1a; 计算机体系结构/并行与分布计算/存储系统计算机网络网络…

第四次作业类测试代码+036+吴心怡

一、类图 二、代码 package application; public class Commission { /* * hp&#xff1a;耳机 80元 mpc&#xff1a;手机壳 10元 cpsp&#xff1a;手机贴膜 8元 */ public float calculate(String line) { int hp 0, mpc 0, cpsp 0; String[] input null; float money 0;…

LSI/LSA算法原理与实践Demo

目录&#xff1a;1、使用场景2、优缺点3、算法原理3.1、传统向量空间模型的缺陷3.2、Latent Semantic Analysis (Latent Semantic Indexing)3.3、算法实例 4、文档相似度的计算5、对应的实践Demo 目录&#xff1a; 1、使用场景 文本挖掘中&#xff0c;主题模型。聚类算法关注…

Linux学习134 Unit 8

Unit8 ldap网络帐号1.ldap是什么ldap目录服务认证&#xff0c;和windows活动目录类似&#xff0c;就是记录数据的一种方式2.ldap客户端所须软件yum sssd krb5-workstation -y3.如何开启ldap用户认证authconfig-tui┌────────────────┤ Authentication Configu…

FastText原理总结

目录&#xff1a;1、应用场景2、优缺点3、FastText的原理4、FastText词向量与word2vec对比 目录&#xff1a; 1、应用场景 fastText是一种Facebook AI Research在16年开源的一个文本分类器。 其特点就是fast。相对于其它文本分类模型&#xff0c;如SVM&#xff0c;Logistic …

解决 :sudo:/etc/sudoers 可被任何人写

问题&#xff1a; sudo:sudo /etc/sudoers is world writable sudo:no valid sudoers sources found ,quitting sudo:unable to initialize policy plugin 解决方案&#xff1a; 方法一: 1.开机按shift或esc进入ubantu高级模式 再进行recovery模式 2.选择root命令行模式 3.…

Doc2Bow简介与实践Demo

Doc2Bow是Gensim中封装的一个方法&#xff0c;主要用于实现Bow模型&#xff0c;下面主要介绍下Bow模型。 1、BoW模型原理 Bag-of-words model (BoW model) 最早出现在自然语言处理&#xff08;Natural Language Processing&#xff09;和信息检索&#xff08;Information Ret…

SPOJ 694/705 后缀数组

思路&#xff1a; 论文题*n Σn-i-ht[i]1 就是结果 O(n)搞定~ //By SiriusRen #include <cstdio> #include <cstring> #include <algorithm> using namespace std; #define N 55555 int cases,n,cntA[N],cntB[N],A[N],B[N],rk[N],sa[N],tsa[N],ht[N]; char…

如何用余弦定理来进行文本相似度的度量

在做文本分析的时候&#xff0c;经常会到说将文本转化为对应的向量&#xff0c;之后利用余弦定理来计算文本之间的相似度。但是最近在面试时&#xff0c;重复上面这句话&#xff0c;却被面试官问到&#xff1a;“什么是余弦定理&#xff1f;”当时就比较懵逼&#xff0c;于是把…

Mongodb 备份和恢复

为什么80%的码农都做不了架构师&#xff1f;>>> Mongodb 备份和恢复 mongodump -h host -u "username" -p "userpass" -d dbname -o backfilename tar -cvzf backfilename.tar backfilename tar -xvzf backfilename.tar mongorestore -h…

【linux】Ubuntu 18.04 设置桌面快捷启动方式

使用Ubuntu终端进行打开&#xff1a; 方法一&#xff08;使用vim&#xff09;&#xff1a; sudo vi /usr/share/applications/pycharm.desktop 方法二&#xff08;使用gedit&#xff09;&#xff1a; sudo gedit /usr/share/applications/pycharm.desktop 然后就会弹出一个…

在 Pycharm下使Python2和Python3共用Anaconda中的各种库/包的解决方法

参考&#xff1a;https://www.cnblogs.com/MoonST/p/7610460.html 目录&#xff1a;前言&#xff1a;1、同时下载两个版本的anaconda2、主版本conda的安装3、辅助版本Anaconda的安装 目录&#xff1a; 前言&#xff1a; 最近在看一些机器学习方面的教程&#xff0c;里面的一…

MySQL安装和完全卸载-Linux ubantu18.04

MySQL数据库 千万不要安装5.7版本全是坑~&#xff01;&#xff01; 千万不要安装5.7版本全是坑~&#xff01;&#xff01; 千万不要安装5.7版本全是坑~&#xff01;&#xff01; ubantu18.04版本 正确道路应该是走安装MySQL 8.0&#xff1a; 第一步&#xff1a;更新文件…