hadoop开发环境搭建

hbase-2.0.4集群部署

萝らか妹 提交于 2019-12-03 04:54:17
hbase-2.0.4集群部署 1. 集群节点规划: rzx1 HMaster,HRegionServer rzx2 HRegionServer rzx3 HRegionServer 前提:搭建好hadoop集群 2. 在rzx1节点上配置执行环境的JAVA_HOME和是否利用自带Zookeeper 在hbase目录下: vim conf/hbase-env.sh export JAVA_HOME=/home/bigdata/software/jdk1.8.0_201 export HBASE_MANAGES_ZK=false ##不使用自带Zookeeper 其他配置参数在配置开发测试集群使用默认,生产环境根据数据量而定配置 3. 在rzx1节点上配置hbase在HDFS上存储的路径和外部zookeeper地址 在hbase目录下: vim conf/ hdfs-site.xml <configuration> <!-- 指定hbase在HDFS上存储的路径 --> <property> <name>hbase.rootdir</name> <value>hdfs://rzx1:9000/hbase</value> </property> <!-- 指定hbase是分布式的 --> <property> <name>hbase.cluster.distributed</name>

01_PC单机Spark开发环境搭建_JDK1.8+Spark2.3.1+Hadoop2.7.1

匿名 (未验证) 提交于 2019-12-03 00:38:01
本文档基于Windows搭建本地JAVA Spark开发环境。 1 JDK 1.8安装 官网下载JDK。 注意JDK安装目录不可以包含空格,比如:C:\Java\jdk1.8.0_171,否则可能导致后续运行Spark报错(提示找不到java.exe)。 2 Spark安装(V2.3.1) 1 、到spark 官网网站 http://spark.apache.org/downloads.html 下载spark ; 注意点击红框部分进入选择下载包,不要点击截图上步骤3后面链接。 2 、参考截图下载 spark-2.3.1-bin-hadoop2.7.tgz 3 、下载本地进行解压 比如解压后路径:D:\Tools\spark-2.3.1-bin-hadoop2.7 4 、配置环境变量 1)SPARK_HOME 2)Path环境变量增加 %SPARK_HOME%\bin,%SPARK_HOME%\sbin 3 Hadoop安装(V2.7.1) 1 、到 https://archive.apache.org/dist/hadoop/common/hadoop-2.7.1 下载Hadoop 2.7.1 ; 2 、将下载的hadoop 解压缩在本地目录; 比如:D:\Tools\hadoop-2.7.1 3 、配置环境变量 1)HADOOP_HOME 2)Path环境变量增加

Eclipse中搭建MapReduce开发环境

匿名 (未验证) 提交于 2019-12-03 00:37:01
一、安装Eclipse 1、下载-官方网址 https://www.eclipse.org/downloads tar -zxvf eclipse-committers-oxygen-3a-linux-gtk-x86_64.tar.gz 3、启动 (创建桌面快捷方式) vim eclipse.desktop [Desktop Entry] Encoding=UTF-8 Name=Eclipse Comment=Eclipse IDE Exec=/usr/local/eclipse/eclipse(eclipse存放路径) Icon=/usr/local/eclipse/icon.xpm Terminal=false Type=Application Categories=GNOME;Application;Development; StartupNotify=true 二、在Eclipse中安装Hadoop插件 1.复制jar包 2.在Eclipse中设置Hadoop的安装目录 图1 Eclipse中设置Hadoop的安装目录 3.创建并配置Map/Reduce Locations 图2 在Eclipse中选择Map/Reduce Locations Map/Reduce Locations ”子窗口中右键单击,选择“New Hadoop Location”

Hive笔记1

匿名 (未验证) 提交于 2019-12-03 00:32:02
HIVE HIVE 一、数据仓库(Warehouse) 二、HIVE 1.概述 2.Hive特点 3.生态系统位置 4.Hive体系结构 5.Hive对比MapReduce 6.Hive优点与使用场景 7.环境搭建 7.1准备 7.2环境配置 7.2.1Java配置 7.2.2CDH Hadoop配置 7.2.3设置免密登录 7.2.4Hadoop测试 7.2.5Hive配置 7.2.6安装模式 7.2.7Mysql 安装 7.3元数据配置(metastore) 7.3.1hive的conf目录下创建hive-site.xml,参考地址 7.3.2拷贝mysql驱动jar包 7.3.3重新执行bin/hive 7.4Hive 日志 7.5简单操作介绍 7.5.1Hive命令行 7.5.2与linux交互 7.5.4hive脚本方式 7.5.5Hive的java Api方式 一、数据仓库(Warehouse) 数据仓库是一个面向主题的、集成的、不可更新的的 数据集合 ,它用于 支持企业或组织决策分析处理 。 数据源:数据仓库系统的基础 数据存储及管理:整个数据仓库系统的核心 OLAP服务器:对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。 前端展示:报表工具、查询工具、数据分析工具、数据挖掘工具等 二、HIVE 1.概述

(图文详细)云计算与大数据实训作业答案(之篇三HDFS和MapReduce实训 )

匿名 (未验证) 提交于 2019-12-03 00:22:01
Hadoop是一个由Apache基金会所开发的分布式系统基础架构,可以在不了解分布式底层细节的情况下,开发分布式程序,以满足在低性能的集群上实现对高容错,高并发的大数据集的高速运算和存储的需要。Hadoop支持超大文件(可达PB级),能够检测和快速应对硬件故障、支持流式数据访问、同时在简化的一致性模型的基础上保证了高容错性。因而被大规模部署在分布式系统中,应用十分广泛。 本实训的主要目标是让大家学习Hadoop的基本概念如MapReduce、HDFS等,并掌握Hadoop的基本操作,主要包括MapReduce编程(词频统计)、HDFS文件流读取操作、MapReduce迭代等。通过本次实训,建立起对Hadoop云计算的初步了解,后续大家可以通过进阶学习来深入学习Hadoop内部实现机制进行高级的应用开发。 本关任务 词频统计是最能体现MapReduce思想的程序,结构简单,上手容易。 词频统计的大致功能是:统计单个或者多个文本文件中每个单词出现的次数,并将每个单词及其出现频率按照 <k,v> 键值对的形式输出,其基本执行流程如下图所示: 由图可知: 输入文本(可以不只一个),按行提取文本文档的单词,形成行 k 1 , v 1 k 1 , v 1 键值 对具体形式很多,例如 行 数 , 字 符 ƫ 移 行 数 , 字 符 ƫ 移 等; 通过Spliting将 k 1 , v 1 k 1

写给大数据开发初学者的话 | 附教程

匿名 (未验证) 提交于 2019-12-03 00:22:01
导读: 第一章:初识 Hadoop 第二章:更高效的WordCount 第三章:把别处的数据搞到Hadoop上 第四章:把Hadoop上的数据搞到别处去 第五章:快一点吧,我的SQL 第六章:一夫多妻制 第七章:越来越多的分析任务 第八章:我的数据要实时 第九章:我的数据要对外 第十章:牛逼高大上的机器学习 经常有初学者在博客和QQ问我,自己想往 大数据 方向发展,该学哪些技术,学习路线是什么样的,觉得大数据很火,就业很好,薪资很高。如果自己很迷茫,为了这些原因想往大数据方向发展,也可以,那么我就想问一下,你的专业是什么,对于计算机/软件,你的兴趣是什么?是计算机专业,对操作系统、硬件、网络、服务器感兴趣?是软件专业,对软件开发、编程、写代码感兴趣?还是数学、统计学专业,对数据和数字特别感兴趣。。 其实这就是想告诉你的大数据的三个发展方向,平台搭建/优化/运维/监控、大数据开发/设计/架构、数据分析/挖掘。请不要问我哪个容易,哪个前景好,哪个钱多。 先扯一下大数据的4V特征: 数据量大,TB->PB 数据类型繁多,结构化、非结构化文本、日志、视频、图片、地理位置等; 商业价值高,但是这种价值需要在海量数据之上,通过数据分析与机器学习更快速的挖掘出来; 处理时效性高,海量数据的处理需求不再局限在离线计算当中。 现如今,正式为了应对大数据的这几个特点,开源的 大数据框架 越来越多

大数据开发、运维、架构都是干什么的?薪资哪个高?

匿名 (未验证) 提交于 2019-12-02 23:57:01
玩转大数据首先要明确自己将要学习的方向 ,没有人能一下子吃透大数据里面所有的东西。 在大数据的世界里面主要有三个学习方向,大数据开发师、大数据运维师、大数据架构师。 哪个好?我不知道你所说的哪个好?指的是哪一块,这三个都好,谁也离不开谁! 如果说你的是发展和薪资待遇的话, 大数据开发,大数据挖掘 会好点(大公司)小公司的话基本上都是你的活,所以最好是三个全会,哪怕不是全会,至少简单的一套流程要会,技多不压身能多学点就多学一点,肯定对你的工作和以后的发展肯定是有帮助的! 什么是大数据开发工程师 大数据开发: 也就是去网络上找数据,各大平台,用爬虫去爬取,建库 围绕大数据系平台系统级的研发人员, 熟练Hadoop、Spark、Storm等主流大数据平台的核心框架。 深入掌握如何编写MapReduce的作业及作业流的管理完成对数据的计算,并能够使用Hadoop提供的通用算法, 熟练掌握Hadoop整个生态系统的组件如:Yarn,HBase、Hive、Pig等重要组件,能够实现对平台监控、辅助运维系统的开发。如果你对大数据开发感兴趣,想系统学习大数据的话,可以加入大数据技术学习交流扣群:数字522数字189数字307,私信管理员即可免费领取开发工具以及入门学习资料 通过学习一系列面向开发者的Hadoop、Spark等大数据平台开发技术,掌握设计开发大数据系统或平台的工具和技能

Hadoop运行模式:本地模式、伪分布模式、完全分布模式

匿名 (未验证) 提交于 2019-12-02 23:49:02
1、 本地模式 :默认模式   - 不对配置文件进行修改。   - 使用本地文件系统,而不是分布式文件系统。   - Hadoop不会启动NameNode、DataNode、ResourceManager、NodeManager等守护进程,Map()和Reduce()任务作为同一个进程的不同部分来执行的。   - 用于对MapReduce程序的逻辑进行调试,确保程序的正确。 2、 伪分布模式 :等同于完全分布式,只有一个节点   - 分为在HDFS上执行和在YARN上执行   - Hadoop启动NameNode、DataNode、ResourceManager、NodeManager这些守护进程都在同一台机器上运行,是相互独立的Java进程。   - 在这种模式下,Hadoop使用的是分布式文件系统,各个作业也是由ResourceManager服务,来管理的独立进程。在单机模式之上增加了代码调试功能,允许检查内存使用情况,HDFS输入输出,以及其他的守护进程交互。类似于完全分布式模式,因此,这种模式常用来开发测试Hadoop程序的执行是否正确。   - 修改配置文件: HDFS上:   hadoop-env.sh(JAVA_HOME)、core-site.xml(配置Namenode,Hadoop集群的特性,作用于全部进程及客户端)、hdfs-site.xml

Linux中hive的安装部署

匿名 (未验证) 提交于 2019-12-02 21:56:30
Ŀ¼ hive简介 hive官网地址 hive安装配置 hive服务启动脚本 hive简介 Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上,总归为大数据,并使得查询和分析方便。并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 Hive 不是: 一个关系数据库 一个设计用于联机事务处理(OLTP) 实时查询和行级更新的语言 Hive特点: 建立在Hadoop之上 处理结构化的数据 存储依赖于HDSF:hive表中的数据是存储在hdfs之上 SQL语句的执行依赖于MapReduce hive的功能:让Hadoop实现了SQL的接口,实际就是将SQL语句转化为MapReduce程序 hive的本质就是Hadoop的客户端 hive支持的计算框架有MapReduce、Spark、Tez hive官网地址 hive官网下载地址: https://mirrors.tuna.tsinghua.edu.cn/apache/hive/ hive配置: https://cwiki.apache.org/confluence/display/Hive/AdminManual+Configuration hive官网: https://cwiki.apache.org/confluence/display/Hive/Home

在windows上搭建hadoop开发环境

你离开我真会死。 提交于 2019-12-02 12:08:13
下载 hadoop : http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common 点击下面链接进行下载 然后进行解压 如果解压出现下面的情况 则用管理员身份进行解压, cd到压缩包所在文件夹下,执行下面的命令 start winrar x -y hadoop-3.1.3.tar.gz 解压完后, bin 里面还缺少了 winutils.exe 和 hadoop.dll 需要额外下载 https://github.com/s911415/apache-hadoop-3.1.0-winutils 将 winutils.exe 和 hadoop.dll 复制到 hadoop-3.1.3\bin 下 然后将 hadoop.dll 复制到 C:\Windows\System32 中 否则 会报 Exception in thread "main"java.lang.UnsatisfiedLinkError:org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z 配置环境变量: 新建 HADOOP_HOME 编辑 Path : %HADOOP_HOME%\bin; 打开 cmd ,输入 hadoop version 如果出现上面的情况,则修改