海量数据——TopK问题
TopK 问题是一个经典的海量数据处理问题,比如微博热搜每隔10分钟都会更新出排行前10的热门搜索信息,再或者通过大数据找出一个地区最爱吃的水果等,都可以使用TopK问题来解决,其核心思想就是最小堆的引入。 TopK问题分析 在海量数据中找出出现频率最高的前K个数,或者从海量数据中找出最大的前K个数,这类问题通常被称为TopK问题。 下面我们通过一个简单的例子来说明:假如面试官给你100W个数据,请找出其最大的前K个数,而且现在只有1M的空间? 在32位操作系统中,默认一个字节为4个字节,则有下列运算: NeedSize = 100W * 4 / 1024 /1024 = 4M 计算结果大约等于4M,很显然1M的空间根本不够。也就是说,即使用最复杂的方法你也无法找到一个合适的空间来存储,因此引入了最小堆数据结构。 下面我只说实现的核心思路,对此有不理解的请查看最大堆和最小堆的相关性质。思路如下: (1)定义两个数组,arr用于存储海量数据,top用于存储最小堆(底层可以借助vector) (2)将海量数据的前K个元素先填满top堆 (3)调整top堆为最小堆结构 (4)通过遍历将新数据与堆顶元素(此时堆顶元素是堆里最小的数据)进行比较,大于堆顶就入堆,并向下调整堆结构 (5)遍历结束,则堆中的元素即n个数中最大的前K个 //TopK.h #pragma once #include