这个过程比较复制,安装处理的流程,依次进行代码解读。
在定义一个ChatBot后,可以进行对话的训练,这个过程参考:
水中的鱼:ChatterBot代码解读-训练数据zhuanlan.zhihu.com然后就是用如下的代码,获取对话的响应:
response = chatbot.get_response('How are you doing today?')。
一. 构造Statement类的对象.
get_response函数中,从75-100行,主要是构造Statement类的对象。类的定义在chatterbot/conversation.py文件中。
第75行的代码有点绕,这里详细讲解下。
self.storage是ChatBot类初始化时指定的存储适配器,这里以SQLStorageAdapter为例。SQLStorageAdapter类的定义在chatterbot/storage/sql_storage.py文件中。
self.storage.get_object('statement')应该是调用SQLStorageAdapter类的get_object函数。但是sql_storage.py文件中并找不到get_object函数的定义。
怎么办呢?
熟悉类的继承特性的话,可能会想到是否在父类中定义的呢?这里介绍pycharm的一个技巧,选中SQLStorageAdapter,然后按ctrl+H,可以看到类的继承关系。这样避免需要逐层寻找。
在chatterbot/storage/storage_adapter.py中,get_object的代码:
返回的是一个函数,函数的名字是get_%s_object拼装的,值为“get_statement_object”。
在看get_statement_object函数,返回值为一个Statement对象。
这里有读者可能会提问:干嘛不直接import Statement,而采用这种复杂的动态获取的方式呢?
恭喜你,提了一个不错的问题,善于提问,成长的快。
采用动态获取的方式,本意是对于不同的存储适配器,定义不同的Statement类。但是本框架其实并没有实现不同的Statement类。只是这里动态获取的机制值得我们学习。当我们需要的时候,可以应用这种机制。
二. 对输入进行预处理
elf.preprocessors包含了预处理的适配器列表。系统已经预置的适配器有:
clean_whitespace
去掉语句中连续的空白字符
unescape_html
将 html中的转义字符变成对应的原字符,比如“<b>” 变成“<b>”.
convert_to_ascii
将unicode转成对应的ASCII码。
但是对于这个具体的ChatBot,使用那些预处理,要看初始化配置。
这里也可以看到要增加自定义的预处理适配器,只需要定义适配器函数,入参为Statement对象,出参也是Statement对象。
三.生成响应
具体是调用self.generate_response。
入参:input_statement是Statement对象,additional_response_selection_parameters是字典。
出参:Statement类的对象
具体过程如下:
对于每个逻辑适配器,依次调用适配器的process函数,获得对应的输出语句和置信度。将所有的输出Statement对象保存到results列表中,result保存置信度最大的输出Statement对象。
这里以BestMatch适配器来看process的处理过程。
四. BestMatch.process处理过程
BestMatch类的构造中中,excluded_words参数的作用,可以让返回的语句包含这些词,比如脏话。
process中第三个参数self.search_algorithm,系统定义了两张搜索算法,默认采用IndexedTextSearch。
这里搜索过程描述参考第五步。假定已经完成查询数据库的搜索过程,并将结果保存在search_results中。接着的逻辑:
在search_results列表中查找置信度大于maximum_similarity_threshold(0.95),如果找到,就直接返回。
在search_results列表去掉之前已经使用过的答复(避免重复答复),然后id大小排序,找到最近的10条记录。之前已经使用过的答复保存到Statement.conversation中,由于这里是单轮对话,系统并没有记录之前的对话的conversation,而是实现成通过参数传入,也就是说这个机制其实没有作用。
用additional_response_selection_parameters对search_results列表进行过滤操作。
对search_results列表中选择一条记录,选择的策略有:get_most_frequent_response,get_first_response,get_random_response。默认采用get_first_response的方式。
如果search_results列表为空,就输出默认的响应,对应的置信度为0.
五. 搜索算法的搜索过程
IndexedTextSearch.search,寻找和输入语句最接近的语句列表,并按照置信度做升序排列。输入语句作为pair对的上句,搜索的范围也是数据库中pair对中的上句。
搜索的过程是调用存储适配器的filter函数,参数search_parameters是一个字典。这里就看SQLStorageAdapter.filter,搜索的过程其实就是查询sql的语句。这用到了传说中的ORM技术:Object-Relational Mapping,把关系数据库的表结构映射到对象上。但是由谁来做这个转换呢?所以ORM框架应运而生。在Python中,最有名的ORM框架是SQLAlchemy。
重要的部分是:
这里采用self.compare_statements计算置信度(也就是相似度)。入参是要对比的两个statement对象。
相似度的算法,系统实现了:LevenshteinDistance,SpacySimilarity,JaccardSimilarity,默认值是LevenshteinDistance。
六.其他逻辑适配器
比如Time Logic Adapter ,Mathematical Evaluation Adapter ,其实现过程比较简单。这里不详述。
其实这里有个疑问:怎么根据业务需要,在这个框架中定制自己的处理逻辑适配器。比如根据用户的输入来执行一些命令,或调用其他在线聊天机器人的接口(比如turingapi)。
相信大家已经有自己的思路了。