HNU-人工智能-实验3-贝叶斯分类器

人工智能-实验3

计科210x 甘晴void

【感悟】本实验值得自己完成一遍

在这里插入图片描述

文章目录

人工智能-实验3
- 一、实验目的
- 二、实验平台
- 三、实验内容
- - 3.0 基础知识
  - 3.1 条件概率（选择题）
  - 3.2 贝叶斯公式（选择题）
  - 3.3 朴素贝叶斯分类算法流程
  - - 3.3.1 算法原理
    - 3.3.2 编程细节
    - 3.3.3 代码
  - 3.4 拉普拉斯平滑
  - - 3.4.1 问题提出
    - 3.4.2 算法原理
    - 3.4.3 编程细节
    - 3.4.4 源码
  - 3.5 新闻文本主题分类
  - 3.5.1 问题解析
  - 3.5.2 算法原理
  - - ①文本向量化
    - ②MultinomialNB
  - 3.5.3 源码
- 四、思考题

一、实验目的

掌握分类算法的算法思想：朴素贝叶斯算法
编写朴素贝叶斯算法进行分类操作

二、实验平台

课程实训平台https://www.educoder.net/paths/369

三、实验内容

3.0 基础知识

主要是一些概率论基础，如

独立性原理
贝叶斯公式
- P(b|a) = P(a|b) * P(b) / P(a)
朴素贝叶斯公式
- 假设所有Effecti各自独立
- P(Cause,Effect1,……,Effectn) = P(Cause) * Π P(Effecti | Cause)
贝叶斯网络
等

还有python基础，尤其是numpy与对数组的操作。（这个有点折磨，c++到python，还是习惯很笨拙地去遍历数组的每个位置）

3.1 条件概率（选择题）

在这里插入图片描述

解析：

（1）为条件概率公式，较为基础

（2）条件概率，求P(小明取到的数>小红取到的数 | 小明取到的数字是5的倍数)。

P(小明取到的数>小红取到的数 | 小明取到的数字是5的倍数) = P(小明取到的数>小红取到的数 && 小明取到的数字是5的倍数) / P( 小明取到的数字是5的倍数)

已知：P( 小明取到的数字是5的倍数) = 1/5
下面计算P(小明取到的数>小红取到的数 && 小明取到的数字是5的倍数)，这是一个古典概型。
总共事件C(2,1)*C(15,2)=210，注意要考虑顺序。
小明取到的数字是5的倍数，只可能是5，10，15。要让小明取到的数大于小红取到的数，这样的事件如下：小明5，小红1,2,3,4；小明10，小红1,2,3,4,5,6,7,8,9；小明15，小红1,2,3,4,5,6,7,8,9,10,11,12,13,14；
这样的情况总数4+9+14=27
故 (27 / 210) / (1 / 5) = 9 / 14

3.2 贝叶斯公式（选择题）

在这里插入图片描述

（1）

P(产品合格 | 机器良好) = 98%

P(产品合格 | 机器故障) = 55%

P(机器良好) = 95%

P(机器良好 | 产品合格)

解：

由贝叶斯公式，P(机器良好 | 产品合格) = [P(产品合格 | 机器良好) * P(机器良好)] / P(产品合格)

由全概率公式，P(产品合格)=P(产品合格 | 机器良好) * P(机器良好) +

P(产品合格 | 机器故障) * P(机器故障) = 98% * 95% + 55% * 5%

综上可得答案约为0.97

（2）分情况讨论

[ C(2,1) * C(6,1) + C(6,1) * C(5,1) / C(8,1) * C(7,1)

答案为3/4

3.3 朴素贝叶斯分类算法流程

3.3.1 算法原理

朴素贝叶斯分类算法是基于贝叶斯定理和特征条件独立性假设的分类方法。对于给定的训练集，基于特征条件独立性假设学习输入输出的联合概率分布(先验概率和条件概率分布)，学习概率分布后，利用贝叶斯定理求出后验概率最大的输出作为预测结果。

形式化抽象如下：

假设类标签（label）为Y={y1,y2,……,yk}，本题中Y={0,1}
假设特征（feature）为A={A1,A2,……,An}，本题中A={颜色，声音，纹理}
假设特征的取值为aij，本题中颜色：用1表示绿色，2表示黄色；声音：用1表示清脆，2表示浑厚。纹理：用1表示清晰，2表示模糊，3表示一般

简单来看，特征只有一个Ai的情况下，问题如下：

模型训练的过程相当于学习P(Ai | Y)，其中B是特定的类别，Ai是特征。
模型预测的过程就是根据贝叶斯公式求P(Y | Ai)的概率。

一般来看，特征为多个A1,A2,……,An。此时根据条件独立性假设，假设这些特征之间相互独立。

本题中，有A1A2A3，原问题被转化为求P(Y | A1A2A3)

注：计算该概率时，假设各个特征之间互不影响，每个特征都是条件独立的。这个假设就是条件独立性假设，可以简化朴素贝叶斯方法，但可能牺牲一定的分类准确性。

即在有各个特征的条件下，预测输入属于哪一个分类的概率，属于哪一个分类的概率最大，就预测输入样本的类别是哪一类。

根据贝叶斯公式，P(Y | A1A2A3)被转换为：
P(Y | A1A2A3) = P(YA1A2A3) / P(A1A2A3)
= P(Y) * P(A1 | Y) * P(A2 | Y) * P(A3 | Y) / P(A1A2A3)
那么我们想比较P(Y=0 | A1A2A3)和P(Y=1 | A1A2A3)
实际上只要比较P(Y=0) * P(A1 | Y=0) * P(A2 | Y=0) * P(A3 | Y=0)和P(Y=1) * P(A1 | Y=1) * P(A2 | Y=1) * P(A3 | Y=1)的大小关系即可。

下面是整体脉络

训练部分，即根据样本，学习P(Y) 、 P(A1 | Y) 、 P(A2 | Y) 、 P(A3 | Y)这些值。
预测部分，即根据需要预测的特征，以及之前学习的P(Y) 、 P(A1 | Y) 、 P(A2 | Y) 、 P(A3 | Y)这些值，直接计算出P(Y | A1A2A3)。

大致示意图如下

在这里插入图片描述

3.3.2 编程细节

对于训练部分，我们要得到self.label_prob和self.condition_prob即可，前者是一个一维列表/字典，后者是一个三维列表/字典。

self.label_prob较为简单，直接对label分别计数即可得到。

label_0 = np.count_nonzero(label == 0)label_1 = np.count_nonzero(label == 1)self.label_prob = {0: label_0/label.size, 1: label_1/label.size}

self.condition_prob需要填表，注意到给的训练数据，实际上feature矩阵的每个点有3个特征，feature维度，label，然后是不同样本（不同行），最后才是它自己的值。

我的想法是对于每个样本（每行），确定label和feature维度。此时从3个特征确定了这个值的意义。把它累加到self.condition_prob的对应位置中。

这样遍历完所有样本之后，self.condition_prob的前两维度（label和feature）确定后，得到的是一个关于该feature取值的字典，每个key是该feature的可能取值，value是样本取这个值的个数。这称为一个单位。

之后再对每个这样的单位求概率，得到P(Ai | Y=0/1)，即该瓜是好/坏时，feature取哪个值（例如颜色取黄或绿）的概率。求概率的方法就是将确定该瓜好/坏时，feature取某值的频数除以该feature所有可取值的总频数。

for i in range(2):for j in range(feature.shape[1]):total_sum = 0for key,value in self.condition_prob[i][j].items():total_sum += valuefor key,value in self.condition_prob[i][j].items():self.condition_prob[i][j][key] /= total_sum

预测时，只要查我们之前算好的表，如P(Y=0 |A1=a A2=b A3=c) = P(Y=0) * P(A1=a | Y=0) * P(A2=b | Y=0) * P(A3=c | Y=0)

这几个值都是已知的。就可以得到答案。

for label_index in range(2):j = 0 # 处理的特征序号，即feat的indexfor feat in group:pa = self.condition_prob[label_index][j].get(feat)if (pa == None):prob_list[label_index] *= 0else:prob_list[label_index] *= paj += 1

3.3.3 代码

import numpy as np
DEBUG = 0class NaiveBayesClassifier(object):def __init__(self):self.label_prob = {}self.condition_prob = {}def fit(self, feature, label):'''对模型进行训练，需要将各种概率分别保存在self.label_prob和self.condition_prob中:param feature: 训练数据集所有特征组成的ndarray:param label:训练数据集中所有标签组成的ndarray:return: 无返回'''# ********* Begin *********## label_problabel_0 = np.count_nonzero(label == 0)label_1 = np.count_nonzero(label == 1)self.label_prob = {0: label_0/label.size, 1: label_1/label.size}# condition_probself.condition_prob[0] = {}self.condition_prob[1] = {}# 初始化每个特征取值的字典for item in self.condition_prob:for feature_index in range(len(feature[0])):  # len(feature[0])为特征数量self.condition_prob[item][feature_index] = {}# 读取数据i = 0  # 样本编号for data in feature:j = 0  # 特征序号for feat in data:if (self.condition_prob[label[i]][j].get(feat) == None):self.condition_prob[label[i]][j][feat] = 0self.condition_prob[label[i]][j][feat] += 1j += 1i += 1# 归一化得到概率for i in range(2):for j in range(feature.shape[1]):total_sum = 0for key,value in self.condition_prob[i][j].items():total_sum += valuefor key,value in self.condition_prob[i][j].items():self.condition_prob[i][j][key] /= total_sumif (DEBUG):print("label_prob:\n{}".format(self.label_prob))print("condition_prob:\n{}".format(self.condition_prob))# ********* End *********#def predict(self, feature):'''对数据进行预测，返回预测结果:param feature:测试数据集所有特征组成的ndarray:return:'''# ********* Begin *********## P(A1) P(B|A1)  P(C|A1)  P(D|A1)ans = []i = 0 # 处理的组号for group in feature:if (DEBUG):print("now process {}".format(i))# 处理多组数据prob_list = {}prob_list[0] = self.label_prob[0]prob_list[1] = self.label_prob[1]for label_index in range(2):j = 0 # 处理的特征序号，即feat的indexfor feat in group:pa = self.condition_prob[label_index][j].get(feat)if (pa == None):prob_list[label_index] *= 0else:prob_list[label_index] *= paj += 1if (DEBUG):print(prob_list[0])print(prob_list[1])if (prob_list[0]>prob_list[1]):ans.append(0)else:ans.append(1)i += 1return ans# ********* End *********#if __name__ == "__main__":nb_classifier = NaiveBayesClassifier()feature = np.array([[2, 1, 1],[1, 2, 2],[2, 2, 2],[2, 1, 2],[1, 2, 3]])label = np.array([1, 0, 1, 0, 1])nb_classifier.fit(feature,label)print(nb_classifier.predict(feature))

其中，if __name__ == "__main__"用于本地调试使用，提交的时候将该函数删去。

3.4 拉普拉斯平滑

3.4.1 问题提出

在计算上一题的时候，我们遇到了许多奇怪的地方。

如self.label_prob，即先验概率，如果某个标签根本没有出现，那么它的先验概率就会是0，

如self.condition_prob，这个三维表格中，也有项出现了0，

而上面这两个都是我们最终概率计算式中的乘项。导致了上面我们计算出的概率可能出现0。

这显然是不合理的，所以我们要进行平滑处理，而最常用的方法就是拉普拉斯平滑。

3.4.2 算法原理

拉普拉斯平滑指的是，假设N表示训练数据集总共有多少种类别，Ni表示训练数据集中第i列总共有多少种取值。则训练过程中在算类别的概率时分子加1，分母加N，算条件概率时分子加1，分母加Ni。

就是让0项不出现，用一个很小很小的数来代替。实际上我们这里的拉普拉斯平滑是直接加了1，也有别的处理方法。

下表标红部分显示了与不加拉普拉斯平滑的区别

在这里插入图片描述

3.4.3 编程细节

计算self.label_prob时要注意平滑

label_0 = np.count_nonzero(label == 0)label_1 = np.count_nonzero(label == 1)self.label_prob = {0: (label_0+1)/(label.size+2), 1: (label_1+1)/(label.size+2)}

同样，计算self.condition_prob时也要平滑

for j in range(feature.shape[1]):for i in range(2):for key,value in self.condition_prob[i][j].items():if (self.condition_prob[(i+1)%2][j].get(key) == None):self.condition_prob[(i+1)%2][j][key] = 0Ni = 0for key, value in self.condition_prob[i][j].items():Ni += 1for i in range(2):total_sum = Nifor key, value in self.condition_prob[i][j].items():total_sum += valuefor key,value in self.condition_prob[i][j].items():self.condition_prob[i][j][key] = (self.condition_prob[i][j][key] + 1) / total_sum

这里因为我是用字典来存的，所以若该项本来为0，我是没有存进字典去的。故这里需要判一下，并对原来没有存入的情况补充存入0，保证每项都有，即下图标粉色的部分。（或许不用字典是更好的方法）

在这里插入图片描述

3.4.4 源码

import numpy as np
DEBUG = 1class NaiveBayesClassifier(object):def __init__(self):self.label_prob = {}self.condition_prob = {}def fit(self, feature, label):'''对模型进行训练，需要将各种概率分别保存在self.label_prob和self.condition_prob中:param feature: 训练数据集所有特征组成的ndarray:param label:训练数据集中所有标签组成的ndarray:return: 无返回'''# ********* Begin *********## label_problabel_0 = np.count_nonzero(label == 0)label_1 = np.count_nonzero(label == 1)self.label_prob = {0: (label_0+1)/(label.size+2), 1: (label_1+1)/(label.size+2)}# condition_probself.condition_prob[0] = {}self.condition_prob[1] = {}# 初始化每个特征取值的字典for item in self.condition_prob:for feature_index in range(len(feature[0])):  # len(feature[0])为特征数量self.condition_prob[item][feature_index] = {}# 读取数据i = 0  # 样本编号for data in feature:j = 0  # 特征序号for feat in data:if (self.condition_prob[label[i]][j].get(feat) == None):self.condition_prob[label[i]][j][feat] = 0self.condition_prob[label[i]][j][feat] += 1j += 1i += 1# 归一化得到概率(加入拉普拉斯平滑)for j in range(feature.shape[1]):for i in range(2):for key,value in self.condition_prob[i][j].items():if (self.condition_prob[(i+1)%2][j].get(key) == None):self.condition_prob[(i+1)%2][j][key] = 0Ni = 0for key, value in self.condition_prob[i][j].items():Ni += 1for i in range(2):total_sum = Nifor key, value in self.condition_prob[i][j].items():total_sum += valuefor key,value in self.condition_prob[i][j].items():self.condition_prob[i][j][key] = (self.condition_prob[i][j][key] + 1) / total_sumif (DEBUG):print("label_prob:\n{}".format(self.label_prob))print("condition_prob:\n{}".format(self.condition_prob))# ********* End *********#def predict(self, feature):'''对数据进行预测，返回预测结果:param feature:测试数据集所有特征组成的ndarray:return:'''# ********* Begin *********## P(A1) P(B|A1)  P(C|A1)  P(D|A1)ans = []i = 0 # 处理的组号for group in feature:if (DEBUG):print("now process {}".format(i))# 处理多组数据prob_list = {}prob_list[0] = self.label_prob[0]prob_list[1] = self.label_prob[1]for label_index in range(2):j = 0 # 处理的特征序号，即feat的indexfor feat in group:pa = self.condition_prob[label_index][j].get(feat)if (pa == None):prob_list[label_index] *= 0else:prob_list[label_index] *= paj += 1if (DEBUG):print(prob_list[0])print(prob_list[1])if (prob_list[0]>prob_list[1]):ans.append(0)else:ans.append(1)i += 1return ans# ********* End *********#if __name__ == "__main__":nb_classifier = NaiveBayesClassifier()feature = np.array([[2, 1, 1],[1, 2, 2],[2, 2, 2],[2, 1, 2],[1, 2, 3]])label = np.array([1, 0, 1, 0, 1])nb_classifier.fit(feature,label)print(nb_classifier.predict(feature))

3.5 新闻文本主题分类

3.5.1 问题解析

使用sklearn完成新闻文本主题分类任务。

这个问题基本上就是教我们使用调包。

3.5.2 算法原理

①文本向量化

将文本转为向量，CountVectorizer，有点类似于大模型中的分词器，是自然语言预处理的一部分。

题目提到，仅使用仅仅通过CountVectorizer会出现问题：统计词频的方式来将文本转换成向量，长的文章词语出现的次数会比短的文章要多，而实际上两篇文章可能谈论的都是同一个主题。

为了解决这个问题，我们可以使用tf-idf来构建文本向量，sklearn中已经提供了tf-idf的接口。注意到该种方法是之前方法的改进版，故直接替代了上面的CountVectorizer

②MultinomialNB

MultinomialNB是sklearn中多项分布数据的朴素贝叶斯算法的实现，并且是用于文本分类的经典朴素贝叶斯算法。在本关中建议使用MultinomialNB来实现文本分类功能。

我们将它实例化之后，调用它就可以实现贝叶斯分类。

同样，要考虑拉普拉斯平滑。在MultinomialNB实例化时alpha是一个常用的参数。alpha: 平滑因子。当等于1时，做的是拉普拉斯平滑；当小于1时做的是Lidstone平滑；当等于0时，不做任何平滑处理。

都比较好理解，直接写代码就可以了。

3.5.3 源码

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNBdef news_predict(train_sample, train_label, test_sample):'''训练模型并进行预测，返回预测结果:param train_sample: 原始训练集中的新闻文本，类型为ndarray:param train_label: 训练集中新闻文本对应的主题标签，类型为ndarray:param test_sample: 原始测试集中的新闻文本，类型为ndarray:return: 预测结果，类型为ndarray'''# 实例化tf-idf对象，同时完成向量化和TF-IDF转换tfidf_vectorizer = TfidfVectorizer()# 将训练集和测试集的文本进行向量化和TF-IDF转换X_train = tfidf_vectorizer.fit_transform(train_sample)X_test = tfidf_vectorizer.transform(test_sample)# 使用多项式朴素贝叶斯进行训练和预测clf = MultinomialNB(alpha=0.001)clf.fit(X_train, train_label)result = clf.predict(X_test)return result