Hadoop生态圈学习-1(理论基础)
一.大数据技术产生的背景 1. 计算机和信息技术(尤其是移动互联网)的 迅猛发展和普及 ,行业应用系统的 规模迅速扩大 (用户数量和应用场景,比如facebook、淘宝、微信、银联、12306等),行业应用所产生的数据呈 爆炸式增长 。 2. 动辄达数数百PB甚至EB(1EB=1024PB=1024*1024TB) 规模 的数据已远 超出传统 计算机和信息系统的处理能力。 3. 有效的大数据处理技术、方法和手段已成为 迫切需求 。 Google的三驾马车 为大数据的发展奠定 十分重要的基础 . Google的三驾马车(非常重要):三篇论文---> 思想、原理 1、GFS:google file system ---> HDFS:Hadoop Distributed File System 都是分布式文件系统,用于解决大数据的存储问题。 什么是倒排索引?Reverted Index 倒排索引: 假如要在搜索关键词"大数据",如果只有正向索引 , 那可能需要耗费非常多的时间全表扫描 ,然后关键词为"大数据"的记录 , 数据量庞大的情况下这个过程慢的无法让人发指, 所以有了倒排索引,搜索引擎会将正向索引重新构建为倒排索引,即把文件ID对应到关键词的映射转换为关键词到文件ID的映射,每个关键词都对应着一系列的文件,这些文件中都出现这个关键词。 通俗说: 通过数据,找地址 2