2019独角兽企业重金招聘Python工程师标准>>>
利用向量空间模型进行文本分类的思路主要基于邻近假设(contiguity hypothesis)。
邻近假设:
同一类的文档会构成一个邻近区域,而不同类的邻近区域之间是互不重叠的。
1、Rocchio方法
Rocchio方法时基于质心或原型将整个向量空间划分成多个区域,每个质心或原型代表一类,利用质心来定义划分边界。
2、KNN,k近邻,k nearest neighbor
KNN通过局部信息来确定类别边界,将与测试文档最近的k篇文档所属的主类赋给该文档。