【自然语言处理】基于python的问答系统实现

一,文件准备

        该问答系统是基于已知的问题和其一一对应的答案进行实现的。首先需要准备两个文本文件,分别命名为“question.txt”和“answer.txt”,分别是问题文件和答案文件,每一行是一个问题以及对应的答案。

        问题文件:

                中国的首都是哪个城市?

                今天气温多少度?

                天津距离北京有多远?

                小明正在干什么?

        答案文件:

                北京市

                26度

                135公里

                在上课

二,实现原理

(1)导入模块

import jieba
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer

(2)读取数据集:输入为文件名,输出为列表

def read_corpus(file):lt = []with open(file, 'r', encoding='utf-8') as f:for line in f:lt.append(line.strip())
return lt

执行结果:

>>> q_list = read_corpus("questions.txt")

>>> q_list

['中国的首都是哪个城市?', '今天气温多少度?', '天津距离北京有多远?', '小明正在干什么?']

>>> a_list = read_corpus("answers.txt")

>>> a_list

['北京市', '26度', '135公里', '在上课']

(3)分词

def preprocess_text(q_list):lt = []for q in q_list:q = word_segment(q)lt.append(q)
return lt

preprocess_text()函数将列表q_list中的句子逐个切词,并放入lt列表中。

在preprocess_text()函数调用word_segment()函数。

def word_segment(sentence):
return ",".join(jieba.cut(sentence))

>>> s = "今天气温多少度?"

>>> word_segment(s)

'今天,气温,多少度,?'

将(2)中的q_list作为参数,传递给preprocess_text(),执行结果如下:

>>> q_list = preprocess_text(q_list)

>>> q_list

['中国,的,首都,是,哪个,城市,?', '今天,气温,多少度,?', '天津,距离,北京,有多远,?', '小明,正在,干什么,?']

4)将问题列表q_list向量化,计算每一个特征的权重

def convert2tfidf(q_list):vectorizer, q_tfidf = calc_tfidf(q_list)
return vectorizer, q_tfidfdef calc_tfidf(q_list, ngram_range=(1, 1)):# 实例化一个tfidf对象vectorizer = TfidfVectorizer(min_df=1, norm='l2', \smooth_idf=True, \use_idf=True, \ngram_range=ngram_range)# 计算每个词的tfidf值features = vectorizer.fit_transform(q_list)
return vectorizer, features

将(3)中的问题列表q_list作为参数,传递给convert2tfidf()函数

>>> vectorizer, q_tfidf = convert2tfidf(q_list) # vectorizer是一个向量化器

>>> type(q_tfidf) # q_tfidf是一个稀疏矩阵

<class 'scipy.sparse.csr.csr_matrix'>

>>> q_tfidf.toarray().round(2) # 将稀疏矩阵转化为普通矩阵,保留两位小数

array([[0.5, 0., 0., 0.5, 0.5, 0., 0., 0., 0., 0., 0., 0., 0., 0.5],

[0., 0.58, 0., 0., 0., 0.58, 0., 0., 0., 0., 0., 0.58, 0., 0.],

[0., 0., 0.5, 0., 0., 0., 0.5, 0., 0., 0.5, 0., 0., 0.5, 0.],

[0., 0., 0., 0., 0., 0., 0., 0.58, 0.58, 0., 0.58, 0., 0., 0.]])

>>> q_tfidf.toarray()[0] # 查看q_tfidf矩阵的第一行

array([0.5, 0. , 0. , 0.5, 0.5, 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0.5])

上述矩阵就是问题“中国的首都是哪个城市?”向量化后的结果。

>>> vectorizer.vocabulary_ # 向量化器vectorizer的词典

{'中国': 0, '首都': 13, '哪个': 3, '城市': 4, '今天': 1, '气温': 11, '多少度': 5, '天津': 6, '距离': 12, '北京': 2, '有多远': 9, '小明': 7, '正在': 10, '干什么': 8}

由上述可知,向量的第一个特征是“中国”,第二个特征是“今天”,第三个特征是“北京”,依次类推其他特征。

(5)响应用户的“查询”

def answer(query):query = word_segment(query)				# 对查询语句进行切词query = vectorizer.transform([query])		# 将查询语句向量化best_idx = idx_of_largest_sim(query, q_tfidf)	# 得到与查询语句最相似问题的下标
return a_list[best_idx]						# 返回与best_idx下标对应的答案
def idx_of_largest_sim(query, q_tfidf): 			# 下标idx = indexlt = []# 将query由稀疏矩阵转为普通矩阵,并取其第1行,此处目的是将其转为一维矩阵。query = query.toarray()[0]  				# 其实query二维矩阵只有一行for q in q_tfidf:q = q.toarray()        				# 将q由稀疏矩阵转换为普通矩阵num = float(np.matmul(q, query))    	# 计算矩阵的点积denom = np.linalg.norm(q) * np.linalg.norm(query)	if denom == 0:cos = 0.0else:cos = num / denom				# 规范化,denom分母lt.append(cos)best_idx = lt.index(max(lt))return best_idx						# 返回值是与查询语句最相似的问题下标
np.linalg.norm(q)是问题向量的长度:

>>> np.linalg.norm([1, 3, 2])

3.7416573867739413

上述代码计算了1的值

np.linalg.norm(q)是查询向量的长度

三,完整代码

import jieba
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizerdef read_corpus(file):lt = []with open(file, 'r', encoding='utf-8') as f:for line in f:lt.append(line.strip())return ltdef preprocess_text(q_list):lt = []for q in q_list:q = word_segment(q)lt.append(q)return lt# 度量查询query与问题库中各个问题的相似程度similarity
def idx_of_largest_sim(query, q_tfidf): # idx = indexlt = []# 将query由稀疏矩阵转换为普通矩阵,并取其第1行query = query.toarray()[0]  for q in q_tfidf:q = q.toarray()         # 将q由稀疏矩阵转换为普通矩阵num = float(np.matmul(q, query))    # 计算矩阵的点积denom = np.linalg.norm(q) * np.linalg.norm(query)if denom == 0:cos = 0.0else:cos = num / denomlt.append(cos)best_idx = lt.index(max(lt))return best_idxdef calc_tfidf(q_list, ngram_range=(1, 1)):# 实例化一个tfidf对象vectorizer = TfidfVectorizer(min_df=1, norm='l2', \smooth_idf=True, \use_idf=True, \ngram_range=ngram_range)# 计算每个词的tfidf值features = vectorizer.fit_transform(q_list)return vectorizer, featuresdef convert2tfidf(q_list):vectorizer, q_tfidf = calc_tfidf(q_list)return vectorizer, q_tfidfdef word_segment(sentence):return ",".join(jieba.cut(sentence))def answer(query):query = word_segment(query)query = vectorizer.transform([query])best_idx = idx_of_largest_sim(query, q_tfidf)return a_list[best_idx]if __name__ == "__main__":q_list = read_corpus("questions.txt")    # 问题列表a_list = read_corpus("answers.txt")      # 答案列表# 分词后的问题列表,每个问题的分词字符串为一个列表元素q_list = preprocess_text(q_list)vectorizer, q_tfidf = convert2tfidf(q_list)flag = Truewhile flag:print("\n请输入查询,输入结束后按回车键:")query = input()if query.lower() == 'q':breakprint("正在为您查询,请稍后!")print("查询结果:", answer(query), sep="")

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/136104.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++ Qt 学习(四):自定义控件与 qss 应用

1. qss 简介 Qt style sheet&#xff08;qss&#xff0c;Qt 样式表&#xff09;&#xff0c;不需要用 C 代码控件进行重载&#xff0c;就可以修改控件外观&#xff0c;类似于前端的 css 2. qss 选择器 2.1 通配符选择器 /* 设置后控件窗口背景色都被修改为黄色 */ * {backg…

【OpenCV实现图像:用OpenCV图像处理技巧之白平衡算法】

文章目录 概要加载样例图像统计数据分析White Patch Algorithm小结 概要 白平衡技术在摄影和图像处理中扮演着至关重要的角色。在不同的光照条件下&#xff0c;相机可能无法准确地捕捉到物体的真实颜色&#xff0c;导致图像呈现出暗淡、色调不自然或者褪色的效果。为了解决这个…

项目实战:中央控制器实现(2)-优化Controller,将共性动作抽取到中央控制器

1、FruitController FruitController已经和Web没有关系了&#xff0c;和Web容器解耦&#xff0c;可以脱离Web容器做单元测试 package com.csdn.fruit.controller; import com.csdn.fruit.dto.PageInfo; import com.csdn.fruit.dto.PageQueryParam; import com.csdn.fruit.dto.R…

5G与物联网应用:新一代网络技术融合开创新时代

5G与物联网应用&#xff1a;新一代网络技术融合开创新时代 随着信息技术的不断演进&#xff0c;5G和物联网作为新一代网络技术&#xff0c;正在引领我们走向一个更加智能化、互联互通的新时代。本文将分析5G与物联网应用的技术原理、应用场景与发展趋势&#xff0c;并探讨它们…

软件测试|selenium执行js脚本

JavaScript是运行在客户端&#xff08;浏览器&#xff09;和服务器端的脚本语言&#xff0c;允许将静态网页转换为交互式网页。可以通过 Python Selenium WebDriver 执行 JavaScript 语句&#xff0c;在Web页面中进行js交互。那么js能做的事&#xff0c;Selenium应该大部分也能…

软件测试|测试方法论—边界值

边界值分析法是一种很实用的黑盒测试用例方法&#xff0c;它具有很强的发现故障的能力。边界值分析法也是作为对等价类划分法的补充&#xff0c;测试用例来自等价类的边界。 这个方法其实是在测试实践当中发现&#xff0c;Bug 往往出现在定义域或值域的边界上&#xff0c;而不…

Godot4实现游戏的多语言版本

要在Godot 4中实现多语言版本的游戏&#xff0c;您需要按照以下几个步骤来设置和管理游戏文本以及可能的其他资源&#xff0c;如图像或声音。以下是根据官方文档和详细教程整理的简明指南&#xff1a; 准备翻译文件&#xff1a; Godot支持使用.csv文件或.po文件进行国际化​​…

基于单片机GP2D12测距-proteus仿真-源程序

基于51单片机红外测距-proteus仿真-源程序 一、系统方案 本设计采用51单片机作为主控器&#xff0c;液晶1602显示&#xff0c;GP2D12采集距离值&#xff0c;按键设置报警阀值&#xff0c;测量值超过阀值&#xff0c;蜂鸣器报警。 二、硬件设计 原理图如下&#xff1a; 三、单…

Day45 力扣动态规划 : 1143.最长公共子序列 |1035.不相交的线 | 53. 最大子序和

Day45 力扣动态规划 : 1143.最长公共子序列 &#xff5c;1035.不相交的线 &#xff5c; 53. 最大子序和 1143.最长公共子序列第一印象看完题解的思路实现中的困难感悟代码 1035.不相交的线第一印象感悟代码 53. 最大子序和第一印象dp递推公式初始化遍历顺序 实现中的困难感悟代…

数字政府!3DCAT实时云渲染助推上海湾区数字孪生平台

数字孪生&#xff0c;是一种利用物理模型、传感器数据、运行历史等信息&#xff0c;在虚拟空间中构建实体对象或系统的精确映射&#xff0c;从而实现对其全生命周期的仿真、优化和管理的技术。数字孪生可以应用于各个领域&#xff0c;如工业制造、智慧城市、医疗健康、教育培训…

原厂可调漏电继电器 LLJ-125F Φ45导轨安装可选面板安装

LLJ-F(S)系列漏电继电器 原厂漏电继电器 LLJ-125F Φ45 导轨安装 系列型号&#xff1a; LLJ-10F(S)漏电继电器LLJ-15F(S)漏电继电器LLJ-16F(S)漏电继电器 LLJ-25F(S)漏电继电器LLJ-30F(S)漏电继电器LLJ-32F(S)漏电继电器 LLJ-60F(S)漏电继电器LLJ-63F(S)漏电继电器LLJ-80F(S)…

渲染管线详解

光栅化的渲染管线一般分为三大阶段&#xff1a;应用程序阶段->几何阶段->光栅化阶段 也可以四大阶段&#xff1a; 应用程序阶段->几何阶段->光栅化阶段->逐片元操作阶段 更详细的流程如下&#xff1a; Vertex Specification&#xff08;顶点规范化&#xff09…

一文搞定多端开发,做全栈大牛 附三大企业实战项目

一个功能三套代码 一改需求就是加不完的班&#xff1f; 不存在的&#xff0c;告别改改改 拥抱多端开发 一套代码搞定多个平台 高效开发&#xff1a;一套代码&#xff0c;多端通用 根据统计数据&#xff0c;全球移动设备用户数已经超过了50亿。随着智能手机、平板电脑等移动…

JSON——数组语法

一段JSON可能是以 ”{“ 开头 也可能仅包含一段JSON数组 如下 [ { "name" : "hello,world"}, {"name" : "SB JSON”}&#xff0c; {“name” : "SB互联网房地产CNM“}&#xff0c; ] 瞧&#xff0c;蛋疼不...CJSON过来还是得搜下网…

【ES专题】Logstash与FileBeat详解以及ELK整合详解

目录 前言阅读对象阅读导航前置知识笔记正文一、ELK架构1.1 经典的ELK1.2 整合消息队列Nginx架构 二、LogStash介绍2.1 Logstash核心概念2.1.1 Pipeline2.1.2 Event2.1.3 Codec (Code / Decode)2.1.4 Queue 2.2 Logstash数据传输原理2.3 Logstash的安装&#xff08;以windows为…

Python tkinter用iconphoto方法修改窗口标题的图片

修改Python Tkinter窗口的标题图片&#xff0c;可以使用PhotoImage、iconphoto方法。这个方法允许你设置窗口的图标。 运行结果 代码示例如下&#xff1a; import tkinter as tkroot Tk()# 加载图片&#xff0c;记住一定是要PNG图片 icon tk.PhotoImage(filephoto\\图片.pn…

python的format函数的用法及实例

目录 1.format函数的语法及用法 &#xff08;1&#xff09;语法&#xff1a;{}.format() &#xff08;2&#xff09;用法&#xff1a;用于格式化字符串。可以接受无限个参数&#xff0c;可以指定顺序。返回结果为字符串。 2.实例 &#xff08;1&#xff09;不设置位置&…

ChatGPT - 在ChatGPT中设置通用提示模板

文章目录 Prompt设置验证 Prompt VERBOSITY: 我可能会使用 V[0-3] 来定义代码的详细程度&#xff1a;V0 简洁明了 V1 简练 V2 详细 V3 非常详细&#xff0c;附有例子助理回应 您是用户问题背景下的主题专家。我们一步一步来&#xff1a;除非您只是回答一个简短的问题&#xff…

探索环保葡萄酒之生物动力

根据生物动力农业和园艺协会的说法&#xff0c;生物动力农业是“一种精神-伦理-生态的农业、园艺、食品生产和营养方法。”生物动力农民将他们的农场或葡萄园视为一个坚固的有机体&#xff0c;一个自我维持的生态系统。这些农业哲学和实践在整个农业周期中应用了一种整体方法。…

计算机毕业设计基于springboot+java+vue的健身房课程预约信息网站

运行环境 开发语言&#xff1a;Java 框架&#xff1a;springboot JDK版本&#xff1a;JDK1.8 服务器&#xff1a;tomcat7 数据库&#xff1a;mysql 数据库工具&#xff1a;Navicat11 开发软件&#xff1a;eclipse/myeclipse/idea Maven包&#xff1a;Maven 项目介绍 本健身网…