HDFS

Apache Griffin安装

拈花ヽ惹草 提交于 2020-02-11 18:25:50
一、集群基础环境 1.JDK (1.8 or later versions) 2.PostgreSQL(version 10.4) or MySQL(version 8.0.11) 3.Hadoop (2.6.0 or later) 4.Hive (version 2.x),安装参考 : https://www.cnblogs.com/caoxb/p/11333741.html 5.Spark (version 2.2.1) 安装参考: https://blog.csdn.net/k393393/article/details/92440892 6.Livy 安装参考:https://www.cnblogs.com/students/p/11400940.html 7.ElasticSearch (5.0 or later versions). 参考 https://blog.csdn.net/fiery_heart/article/details/85265585 8.Scala 二、安装Grigffin(前提以上集群搭好) 1、MySQL: 1)在MySQL中创建数据库quartz, 2)然后执行 Init_quartz_mysql_innodb.sql 脚本初始化表信息: mysql -u <username> -p <password> quartz < Init

第一章 Hue的安装

£可爱£侵袭症+ 提交于 2020-02-11 02:24:10
第一章 Hue的安装 1、Hue的介绍 HUE= Hadoop User Experience ​ Hue是一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoop社区,它是基于Python Web框架Django实现的。 ​ 通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job,执行Hive的SQL语句,浏览HBase数据库等等。 HUE链接 · Site: http://gethue.com/ · Github: https://github.com/cloudera/hue · Reviews: https://review.cloudera.org Hue的架构 核心功能 · SQL编辑器,支持Hive, Impala, MySQL, Oracle, PostgreSQL, SparkSQL, Solr SQL, Phoenix… · 搜索引擎Solr的各种图表 · Spark和Hadoop的友好界面支持 · 支持调度系统Apache Oozie,可进行workflow的编辑、查看 HUE提供的这些功能相比Hadoop生态各组件提供的界面更加友好

HDFS Property列表,适用于Hadoop 2.4以上 。

☆樱花仙子☆ 提交于 2020-02-11 00:09:27
Property列表链接: http://hadoop.apache.org/docs/r2.4.1/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml 为什么会想着写这个? 因为我在Deepin上配置Hadoop运行环境出了很多奇妙的问题,其中最恶心的就是这个问题。 为什么需要这个东西? 因为官方的英文教程以及一大堆帮助解决问题的博客,并没有将所有的 配置资源(Property)项 陈列出来。 甚至某些博客“各抒己见”给的配置资源不够严谨,坑害了多少萌新.....(反正我是被坑到了) 例如: 但在Hadoop 2.4以上是 dfs.namenode.http-address 这个东西。 hadoop的默认配置与主机名以及主机名的IP映射息息相关,紧密联系,不可分割。 所以配置Hadoop的时候,一定要注意自己主机的主机名IP映射。 (呵呵,我的127.0.0.1被映射在localhost上;但我的主机名叫做hadoop-0-PC,它被映射在127.0.1.1上。导致我在浏览器上输入local host:50070、127.0.0.1:50070去访问namenode页面死活不对。 hadoop默认是按照你的主机名进行配置,也就是你计算机 /etc/hostname 里记录的字符串,进行各种端口配置。 所以localhost很有可能作废

大数据之虚拟机配置和环境准备及hadoop集群搭建

心不动则不痛 提交于 2020-02-10 14:45:09
一、VMnet1和VMnet8路由器 VMware-workstation软件选择默认安装时,会自动创建VMnet1和VMnet8路由器设备。(安装失败使用CCleaner清理vm软件)   VMnet1对应仅主机模式。如果在网络适配器-网络连接里面选择仅主机模式,那么Linux的虚拟网卡就会接入VMnet1路由设备,应该使用VMnet1设备子网IP段,一般情况下使用DHCP获取的IP地址就在子网IP段范围。   VMnet8对应NAT模式。如果在网络适配器-网络连接里面选择NAT模式,那么Linux的虚拟网卡就会接入VMnet8路由设备,应该使用VMnet8设备子网IP段,一般情况下使用DHCP获取的IP地址就在子网IP段范围。 比如网络适配器-网络连接里面选择NAT模式,那么自动获取的IP地址范围就在192.168.201.128~254,如下: 二、各种模式网络配置详解 (1)桥接模式   桥接模式就是将主机网卡与虚拟机虚拟的网卡利用虚拟网桥进行通信。在桥接的作用下,类似于把物理主机虚拟为一个交换机,所有桥接设置的虚拟机连接到这个交换机的一个接口上,物理主机也同样插在这个交换机当中,所以所有桥接下的网卡与网卡都是交换模式的,相互可以访问而不干扰。在桥接模式下,vm中的虚拟机与主机是一样的,都连在了和主机一样的路由中(相当于多台主机连接了同一个路由器上);其网络结构如图:

Hadoop-Impala学习笔记之入门

怎甘沉沦 提交于 2020-02-10 12:49:38
CDH quickstart vm包含了单节点的全套hadoop服务生态,可从https://www.cloudera.com/downloads/quickstart_vms/5-13.html下载。如下: 对应的节点如下(不包含Cloudera Navigator): 要学习完整的hadoop生态,最好是使用8C/32GB以上的服务器,4C/16GB勉强能跑、但是很勉强(最好使用2个以上节点)。 impala 使用c++编写(Spark使用Scala编写),采用MPP架构(类似于MariaDB Columnstore,也就是之前的infinidb),由下列组件组成: Hue是一个Web智能查询分析器,能够进行语法提示,查询Impala、HDFS、HBase。如下: 其中impala服务器由Impala Daemon(执行SQL)、Impala Statestore(监控Daemon状态)、Impala Catalog(将DDL变更传输给Daemon节点,避免了DDL通过Impala执行时运行REFRESH/INVALIDATE METADATA的必要,通过Hive时,仍然需要)组成。impala-shell和mysql客户端类似,执行SQL。 Impala使用和Hive一样的元数据,其可以存储在mysql或postgresql中,称为metastore。

(01)Hadoop简介

一笑奈何 提交于 2020-02-10 09:27:22
  1、Hadoop概念    Hadoop是一个由Apache基金会所开发的分布式系统基础架构。实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据。   2、Hadoop HDFS的体系架    说明:   NameNode:名称节点,负责管理HDFS集群和元信息的维护   Secondary NameNode:第二名称节点,负责元信息的合并   DataNode:数据节点,负责数据的存储 来源: https://www.cnblogs.com/javasl/p/12289786.html

hadoop2.4.1伪分布式环境搭建

扶醉桌前 提交于 2020-02-10 09:09:59
  注意:所有的安装用普通哟用户安装,所以首先使普通用户可以以sudo执行一些命令: 0.虚拟机中前期的网络配置参考:    http://www.cnblogs.com/qlqwjy/p/7783253.html 1.赋予hadoop用户以sudo执行一些命令 visodo 或者 vim /etc/sudoers 添加下面第二行内容: 登录hadoop用户查看命令: [hadoop@localhost java]$ sudo -l  #查看当前用户可以以sudo命令执行哪些命令 Matching Defaults entries for hadoop on this host: requiretty, !visiblepw, always_set_home, env_reset, env_keep="COLORS DISPLAY HOSTNAME HISTSIZE INPUTRC KDEDIR LS_COLORS", env_keep+="MAIL PS1 PS2 QTDIR USERNAME LANG LC_ADDRESS LC_CTYPE", env_keep+="LC_COLLATE LC_IDENTIFICATION LC_MEASUREMENT LC_MESSAGES", env_keep+="LC_MONETARY LC_NAME LC_NUMERIC LC

12.Flume的安装

落爺英雄遲暮 提交于 2020-02-10 08:53:10
先把flume包上传并解压 给flume创建一个软链接 给flume配置环境变量 #flume export FLUME_HOME=/opt/modules/flume export PATH=$PATH:$FLUME_HOME/bin 使环境变量生效 验证flume版本信息 flume-ng version 然后进入flume的目录,修改conf下的flume-env.sh,在里面配置JAVA_HOME 先用一个最简单的例子来测试一下程序环境是否正常 先在flume的conf目录下新建一个文件 vim netcat-logger.conf # 定义这个agent中各组件的名字 a1.sources = r1 a1.sinks = k1 a1.channels = c1 # 描述和配置source组件:r1 a1.sources.r1.type = netcat a1.sources.r1.bind = localhost a1.sources.r1.port = 44444 # 描述和配置sink组件:k1 a1.sinks.k1.type = logger # 描述和配置channel组件,此处使用是内存缓存的方式 a1.channels.c1.type = memory a1.channels.c1.capacity = 1000 内存里面存放1000个事件 a1

Hadoop1 Centos伪分布式部署

十年热恋 提交于 2020-02-10 03:37:34
前言: 毕业两年了,之前的工作一直没有接触过大数据的东西,对hadoop等比较陌生,所以最近开始学习了。对于我这样第一次学的人,过程还是充满了很多疑惑和不解的,不过我采取的策略是还是先让环境跑起来,然后在能用的基础上在多想想为什么。 通过这三个礼拜(基本上就是周六周日,其他时间都在加班啊T T)的探索,我目前主要完成的是:   1.在Linux环境中伪分布式部署hadoop(SSH免登陆),运行WordCount实例成功。 http://www.cnblogs.com/PurpleDream/p/4009070.html 2.自己打包hadoop在eclipse中的插件。 http://www.cnblogs.com/PurpleDream/p/4014751.html 3.在eclipse中访问hadoop运行WordCount成功。 http://www.cnblogs.com/PurpleDream/p/4021191.html 所以我下边会分三次记录下我的过程,为自己以后查阅方便,要是能帮助到其他人,自然是更好了! ===============================================================长长的分割线==============================================================

Windows单机安装hadoop

你。 提交于 2020-02-10 03:32:37
版本信息 Hadoop 3.2.0 java version "1.8.0_201" Windows 7专业版,64位 安装过程 jdk安装 下载jdk,解压到目录,D:\Java\jdk1.8.0_201 环境变量设置 JAVA_HOME=D:\Java\jdk1.8.0_201 Path增加:%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin; CLASSPATH=.;%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar 注意:java安装路径中不要存在空格,否则后续hadoop启动时可能会出现问题,具体参考以下博客: Windows环境下执行hadoop命令出现Error: JAVA_HOME is incorrectly set hadoop安装 下载hadoop,解压到目录,D:\BigData\hadoop\hadoop-3.2.0 环境变量设置 HADOOP_HOME=D:\BigData\hadoop\hadoop-3.2.0 Path增加:%HADOOP_HOME%\bin;%HADOOP_HOME%\sbin; 下载hadoop的windows版本二进制文件 下载地址: 目前提供了最高3.0.0版本的二进制文件 3.1.0版本的二进制文件 本文使用的是hadoop3.2.0版本,用的是3.1.0的二进制文件