第六章大数据和空间限制
1,布隆过滤器及其应用 此题在另一篇博客已经有介绍。 2,只用2GB内存在20亿个整数中找到出现次数最多的数 题目:有一个包含20亿个全是32位整型的大文件,在其中找到出现次数最多的数。 要求:内存限制为2GB。 思路:要找出出现次数最多的数,通常的做法是使用哈希表对出现的每一个数做词频统计,哈希表的key是某一个整数,value是这个数出现的次数。就本题来说,一共有20亿个数,哪怕只是一个数出现了20亿次,用32位的整数也可以表示其出现的次数而不会产生溢出,所以哈希表的key需要占用4B,value也是4B。那么哈希表的一条记录(key,value)需要占用8B,当哈希表记录数为2亿个时,需要至少1.6GB内存。 但如果20亿个数中不同的数超过2亿种,最极端的情况是20亿个数都不同,那么在哈希表中可能需要产生20亿条记录,这样内存会不够用,所以一次性用哈希表统计20亿个数的方法是有很大风险的。 解决方法是把20亿个数用哈希函数分成16个小文件,根据哈希函数的性质,同一种数不可能被哈希到不同的小文件上,同时每个小文件中不同的数一定不会大于2亿种,假设哈希函数足够好。然后对每一个小文件用哈希表来统计其中每种数出现的次数,这样我们就得到了16个小文件中各自出现次数最多的数,还有各自的统计次数。接下来只要选出16个小文件各自的第一名中谁出现的次数最多即可。