一、分类问题
分类实际上是我们在日常生活中经常使用的。比如说,在工作中,把自己手头的任务分为轻重缓急,然后按照优先级去完成它们。
朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。
从数学的角度看C={c1,c2,…,ck}是类别的集合,集合X={x1,x2,…,xk}是输入集合 。这里,对于给定的输入x计算后验概率最大的
二、概率相关
由
P(X,Y)=P(X|Y)P(Y)=P(Y|X)P(X)
得
P(Y|X)=P(X|Y)P(Y)P(X)(1)
P(X,Y)是X和Y的联合分布,训练数据集
T={(x1,y1),(x2,y2),…,(xn,yn)}
是由 P(X,Y)独立同分布产生的。
三、朴素贝叶斯方法
对于给定的输入x, 需要输出
其中,P(Y=ck),k=1,2,…,K 称为先验概率分布。这项可以简单的求出。
P(X=x|Y=ck)=P(X(1)=x(1),…,X(n)=x(n)|Y=ck)
由于上式有指数型的参数,所以很难估计,为了便于计算,假设输入向量x的各个特征之间是条件独立的:
这也是朴素贝叶斯名字的来源。
则,最终结果
y=f(x)=argmaxckP(Y=ck)∏j=1nP(X(j)=x(j)|Y=ck)
四、总结
朴素贝叶斯实际上是学到生成数据的机制,即它是生成模型。条件独立的假设说明分类特征是条件独立的,这个假设使得计算大大简化,但是有时也牺牲了一定的准确性。