一个很经典的问题,从 2 到 N ,一共有多少个质数??
一个非常 Naive 的方法,从 2 到 N,判断每个数是不是质数
只判断一个数是不是质数,需要
埃拉托斯特尼筛法
这是一种简单且历史悠久的筛法,用来找出一定范围内所有的素数。
def get_primes1(n:int) -> list:'''return a list containing all the primes less than n'''if n <= 2:return []isprime = [True for _ in range(n)]result = [2]for i in range(3, n, 2):if isprime[i]:result.append(i)for j in range(i * i, n, 2 * i): # for (int j = i * i; j < n; j += 2 * i)isprime[j] = Falsereturn result
这个算法的高效实现需要注意几个细节:
第一点,略过所有的偶数!(这也是为什么
第二点,为什么
第三点,对于任意一个正整数
此外,还要注意,算法涉及 N (至少 N / 2,存储上可以略过偶数)个 bool
类型的存储,一般的编程语言bool
类型的存储需要 1 个 byte(8个 bit )。如果对存储有要求的话,尽量使用 bitmap 这一数据类型(python 没有内置的 bitmap,Java 有)
总的时间复杂度是
上述python代码,亲测(垃圾 cpu),能在 2s 内输出一千万以内的所有质数,能在 20s 的时间内输出一亿以内的所有质数(五百多万个)
此外,分析一下存储需要。一亿个int32
类型(4 个 byte)需要接近400M(大约是380M多一点)的存储空间,存五百多万个质数不值一提对吧。那么一亿个bool
类型,就是 100M。注意一下python的bool
类型继承自int
,所以一亿个True
还是要 400M的。Java 就不一样哈。
想在python中使用只占用一个 byte 的bool
型,参见array
标准库。
所以大致情况就是在个人电脑上用python可以计算1亿以内的质数,再大一个数量级就不行了!
计算机存储单位一般用 bit, byte, KB, MB, GB, TB, PB, EB, ZB, BB 来表示, 我们经常将byte简称为B,将KB简称问K
那有没有再快一点的算法???!!!
欧拉筛法
其实思想是类似的,与埃氏筛相比,不会对已经被标记过的合数再进行重复标记,故效率更高。欧拉筛将合数分解为 (最小质因数 * 一个合数) 的形式,通过最小质因数来判断当前合数是否已经被标记过。
def get_primes2(n: int) -> list:"""return a list containing all prime numbers less than n."""if n <= 2:return []isprime = [True for _ in range(n)]result = [2]for i in range(3, n, 2):if isprime[i]:result.append(i)for j in range(0, len(result)):if i * result[j] >= n:breakisprime[i * result[j]] = Falseif i % result[j] == 0:breakreturn result
时间复杂度被优化到了
参考资料:
https://en.wikipedia.org/wiki/Sieve_of_Eratosthenesen.wikipedia.org欧拉函数线性筛法详解_C/C++_Lytning's Blog-CSDN博客blog.csdn.net