朴素贝叶斯算法--过滤垃圾短信

文章目录

- 1. 基于黑名单过滤
- 2. 基于规则过滤
- 3. 基于概率统计过滤
- 4. 总结

上一节我们讲到，如何用位图、布隆过滤器，来 过滤重复数据。今天，我们再讲一个跟过滤相关的问题，如何过滤垃圾短信？

1. 基于黑名单过滤

可以维护一个骚扰电话号码和垃圾短信发送号码的黑名单。

黑名单的搜集，有很多途径，比如，公开的网站下载，用户自主标记。标记个数超过一定阈值的号码，我们就可以定义为骚扰电话，并将它加入到我们的黑名单中。
如果黑名单中的电话号码不多的话，我们可以使用散列表、二叉树等动态数据结构来存储，对内存的消耗并不会很大。如果我们把每个号码看作一个字符串，并且假设平均长度是16个字节，那存储50万个电话号码，大约需要10MB的内存空间。对于手机这样的内存有限的设备来说，这点内存的消耗也是可以接受的。
黑名单中的电话号码很多呢？比如有500万个。这个时候，如果再用散列表存储，就需要大约100MB的存储空间。为了实现一个拦截功能，耗费如此多的手机内存，显然有点不合理。
布隆过滤器最大的特点就是比较省存储空间，所以，用它来解决这个问题再合适不过。如果我们要存储500万个手机号码，我们把位图大小设置为10倍数据大小，也就是5000万，那也只需要使用5000万个二进制位（5000万bits），换算成字节，也就是不到7MB的存储空间。比起散列表的解决方案，内存的消耗减少了很多。
时间换空间，把黑名单存储在服务器端上，把过滤和拦截的核心工作，交给服务器端来做。手机端只负责将要检查的号码发送给服务器端，服务器端通过查黑名单，判断这个号码是否应该被拦截，并将结果返回给手机端。这个解决思路完全不占用手机内存。不过网络通信是比较慢的，所以，网络延迟就会导致处理速度降低。而且必须联网。
布隆过滤器会有判错的概率！如果它把一个重要的电话或短信，当成垃圾拦截了，对于用户来说，这是无法接受的。这是一个很大的问题。

2. 基于规则过滤

如果某个垃圾短信发送者的号码并不在黑名单中，那这种方法就没办法拦截了。所以，基于黑名单的过滤，还不够完善，再继续看基于规则的过滤。

通过短信的内容，来判断是垃圾短信。预先设定一些规则，如果短信符合这些规则，就判定它是垃圾短信。规则可以有很多，比如：

短信中包含特殊单词（或词语），比如一些非法、淫秽、反动词语等；
发送号码是群发号码，非正常的手机号码，比如+60389585；
短信中包含回拨的联系方式，比如手机号码、微信、QQ、网页链接等，因为群发短信的号码一般都是无法回拨的；
短信格式花哨、内容很长，比如包含各种表情、图片、网页链接等；
符合已知垃圾短信的模板。与模板匹配，就可以判定为垃圾短信。

可以综合多条规则进行判断。比如，满足2条以上才会被判定为垃圾短信；
或者每条规则对应一个不同的得分，某条短信的总得分超过某个闽值，才会被判定为垃圾短信。

以上规则还有很多细节需要处理。比如，第1条规则中，我们该如何定义特殊单词；第2条规则中，我们该如何定义什么样的号码是群发号码等等。

这里只讲一下，如何定义特殊单词？
可以基于概率统计的方法，借助计算机强大的计算能力，找出哪些单词最常出现在垃圾短信中，将这些最常出现的单词，作为特殊单词，用来过滤短信。
这种方法的前提是，有大量的样本数据，也就是说，要有大量的短信（比如1000万条短信），并且每条短信都做好了标记，它是垃圾短信还是非垃圾短信。

对这1000万条短信，进行分词处理（借助中文或者英文分词算法），去掉“的、和、是”等没有意义的停用词（Stop words），得到n个不同的单词。针对每个单词，统计有多少个垃圾短信出现了这个单词，有多少个非垃圾短信会出现这个单词，求出每个单词出现在垃圾短信中的概率，以及出现在非垃圾短信中的概率。如果某个单词出现在垃圾短信中的概率，远大于出现在非垃圾短信中的概率，就把这个单词作为特殊单词。
在这里插入图片描述

3. 基于概率统计过滤

基于规则的过滤器，看起来很直观，也很好理解，但是它也有一定的局限性。一方面，这些规则受人的思维方式局限，规则未免太过简单；另一方面，垃圾短信发送者可能会针对规则，精心设计短信，绕过这些规则的拦截。对此，我们再来看一种更加高级的过滤方式，基于概率统计的过滤方式。

基于概率统计的过滤，基础理论是基于朴素贝叶斯算法。先通过一个非常简单的例子来看下，什么是朴素贝叶斯算法？
假设事件A是“小明不去上学”，事件B是“下雨了”。我们现在统计了一下过去10天的下雨情况和小明上学的情况，作为样本数据。
在这里插入图片描述
我们来分析一下，这组样本有什么规律。在这10天中，有4天下雨，所以下雨的概率P（B）=4/10。10天中有3天，小明没有去上学，所以小明不去上学的概率P（A）=3/10。在4个下雨天中，小明有2天没去上学，所以下雨天不去上学的概率P（A|B）=2/4。在小明没有去上学的3天中，有2天下雨了，所以小明因为下雨而不上学的概率是P（BIA）=2/3。实际上，这4个概率值之间，有一定的关系，这个关系就是朴素贝叶斯算法，我们用公式表示出来，就是下面这个样子。
在这里插入图片描述
我们需要把短信抽象成一组计算机可以理解并且方便计算的特征项，用这一组特征项代替短信本身，来做垃圾短信过滤。

可以通过分词算法，把一个短信分割成n个单词。这n个单词就是一组特征项，全权代表这个短信。因此，判定一个短信是否是垃圾短信，就变成了，判定同时包含这几个单词的短信是否是垃圾短信。
不过，这里并不像基于规则的过滤器那样，非黑即白。我们使用概率，来表征一个短信是垃圾短信的可信程度。
在这里插入图片描述
尽管有大量的短信样本，但是我们没法通过样本数据统计得到这个概率。你可能会说，我只需要统计同时包含W₁，W₂，W₃，……W_n 这n个单词的短信有多少个（我们假设有x个），然后看这里面属于垃圾短信的有几个（假设y个），那包含W₁，W₂，W₃，……W_n 这n个单词的短信是垃圾短信的概率就是y/x。

But，实际情况，样本中不会有太多同时包含W₁，W₂，W₃，……W_n 的短信的，甚至根本不存在这样的短信。没有样本，也就无法计算概率。

这个时候，朴素贝叶斯公式就可以派上用场了。通过朴素贝叶斯公式，将这个概率的求解，分解为其他三个概率的求解。如下。那转化之后的三个概率是否可以通过样本统计得到呢？
在这里插入图片描述
P（W₁，W₂，W₃，……W_n 同时出现在一条短信中 | 短信是垃圾短信）这个概率照样无法通过样本来统计得到。但是我们可以基于下面这条著名的概率规则来计算。
独立事件发生的概率计算公式：P（AB）=P（A）X P（B）
事件A和事件B是独立事件，两者的发生没有相关性，那两个同时发生的概率 P（A*B）就等于 P（A）*P（B）。
基于这条独立事件发生概率的计算公式，把P（W₁，W₂，W₃，……W_n 同时出现在一条短信中 | 短信是垃圾短信）分解为下面这个公式：
在这里插入图片描述
其中，P（W_i 出现在短信中 | 短信是垃圾短信）表示垃圾短信中包含W_i 这个单词的概率有多大。