并行算法 Parallel Algorithm -- 提高执行效率

文章目录

- 1. 并行排序
- 2. 并行查找
- 3. 并行字符串匹配
- 4. 并行搜索
- 5. 总结

时间复杂度是衡量算法执行效率的一种标准。但是，时间复杂度 != 性能。即便在不降低时间复杂度的情况下，也可以通过一些优化手段，提升代码的执行效率。即便是像10%、20%这样微小的性能提升，也是非常可观的。

算法的目的就是为了提高代码执行效率。当算法无法再继续优化的情况下，该如何来进一步提高执行效率呢？

一种非常简单又非常好用的优化方法，就是并行计算。

1. 并行排序

假设要给8GB的数据进行排序，并且，机器的内存可以一次容纳这么多数据。对于排序来说，最常用的就是时间复杂度为O（nlogn）的三种排序算法，归并排序、快速排序、堆排序。从理论上讲，这个排序问题，很难再从算法层面优化了。而利用并行的处理思想，可以轻松将排序问题的执行效率提高很多倍。实现思路有两种。

归并排序并行处理。将8GB的数据划分成16个小的数据集，每个集合包含500MB的数据。我们用16个线程，并行对这16个500MB的数据集进行排序。这16个小集合分别排序完之后，再将这16个有序集合并。
快速排序并行处理。扫描一遍数据，找到数据所处的范围区间。把这个区间从小到大划分成16个小区间。将8GB的数据划分到对应的区间中。针对这16个小区间的数据，启动16个线程，并行地进行排序。等16个线程都执行结束，得到的数据就是有序数据了。

两种处理思路都是分治思想，数据分片，并行处理。区别在于，第一种处理思路是，先随意地对数据分片，排序之后再合并。第二种处理思路是，先对数据按照大小划分区间，然后再排序，排完序就不需要再处理了。

如果要排序的数据不是8GB，而是1TB，那问题的重点就不是算法的执行效率了，而是数据的读取效率。因为1TB的数据肯定是存在硬盘中，无法一次性读取到内存中，这样在排序的过程中，有频繁地磁盘数据的读写。如何减少磁盘的IO操作，就变成了优化的重点。

2. 并行查找

散列表是一种非常适合快速查找的数据结构。

如果是给动态数据构建索引，数据不断加入时，散列表的装载因子会越来越大。为了保证散列表性能不下降，就需要对散列表进行动态扩容。对如此大的散列表进行动态扩容，一比较耗时，一比较消耗内存。比如，给一个2GB大小的散列表进行扩容，扩到原来的1.5倍，也就是3GB大小。这个时候，实际存储在散列表中的数据只有不到2GB，所以内存的利用率只有60%，有1GB的内存是空闲的。

实际上，我们可以将数据随机分割成k份（比如16份），每份中的数据只有原来的1/k，我们针对这k个小数据集分别构建散列表。这样，散列表的维护成本就变低了。当某个小散列表的装载因子过大的时候，我们可以单独对这个小散列表进行扩容，而其他散列表不需要进行扩容。

还是刚才那个例子，假设现在有2GB的数据，我们放到16个散列表中，每个散列表中的数据大约是150MB。当某个散列表需要扩容的时候，我们只需要额外增加150*0.5=75MB的内存（假设还是扩容到原来的1.5倍）。不管从扩容的执行效率还是内存的利用率上，这种多个小散列表的处理方法，要比大散列表高效。