hadoop初识
1.hadoop是什么? hadoop之父是Doug Cutting。是由很多技术框架组成的生态系统,包括数据库(nosql)。Apache开源框架集群,做分布式计算和离线运算、实时运算。 受Google三篇论文启发出现的。(GFS、MapReduce、Big Table数据库) GFS、MapReduce、Hbase 搜索引擎的原理? 爬虫和搜索。一般称为搜索引擎。称为站内搜索。 2.解决问题? ·海量数据的存储(HDFS) ·海量数据的分析模型(MapReduce) ·资源管理调度(YARN):从MapReduce中分离出来的。 狭义的hadoop:由HDFS和MapReduce组成。 spark、storm;运算框架 3.场景1:假设myqsl中有几十个T的数据。 在hadoop中,一般的解决方式是把mysql中的记录导出为文本文件。或者生成为文本文件。再对本文件进行处理。 hive认识sql语句。 4.Hadoop具体能干什么? 狭义hadoop擅长海量离线日志分析。 广义hadoop擅长海量离线日志分析、在线实时日志分析、海量数据的存储等。 5.怎样解決海量数据的存储? ①怎样解决存储? NFS系统:通过节点的文件夹或文件的共享实现大数据量的存储。可以通过文件共享的协议,把很多节点上面的相关文件夹进行共享, 在另外一台机器上进行挂载。挂载到本地某个目录下面