Hadoop | 易学教程

Linux环境安装Hadoo

阅读更多关于 Linux环境安装Hadoo

Hadoop Linux环境安装 1. 安装环境 Linux CentOS 7操作系统 JDK1.8 Hadoop 3.1.1 2. 具体步骤 2.1. 安装JDK1.8 官网下载解压文件（命令：tar -zxvf jdk-8u191-linux-x64.tar.gz）。配置环境变量（命令：vi/etc/profile）在末尾添加一下配置： export JAVA_HOME=/home/tools/jdk1.8.0_191 export JRE_HOME=/home/tools/jdk1.8.0_191/jre export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH 1 2 3 4 刷新配置文件（命令：source /etc/profile）验证是否安装成功（命令：java -version） 2.2 安装Hadoop 官网下载版本3.1.1 解压文件（命令：tar -zxvf hadoop-3.1.1.tar.gz -C hadoop）配置环境变量（命令：vi/etc/profile）在末尾添加一下配置： export HADOOP_HOME=/home/hadoop/hadoop export HADOOP

spark集群搭建（spark版本2.3.2）

阅读更多关于 spark集群搭建（spark版本2.3.2）

1.前置软件：　　JDK1.8 2.修改配置文件： cp slaves.template slaves vi slaves 　　添加从节点：　　　　slave1 　　　　slave2 cp spark-env.sh.template spark-env.sh vi spark-env.sh 　　添加环境变量：　　　　export SPARK_MASTER_HOST=master 　　　　export SPARK_MASTER_PORT=7077 　　　　export SPARK_WORKER_CORES=2 　　　　export SPARK_WORKER_MEMORY=3g 　　　　export JAVA_HOME=/opt/module/jdk1.8.0_171 3.基于yarn 提交任务有可能报错虚拟内存不足在每台节点中的yarn-site.xml中配值关闭虚拟内存检查 <property> 　　<name>yarn.nodemanager.vmem-check-enabled</name> 　　<value>false</value> </property> 4.Standalone 提交命令： ./bin/spark-submit --master spark://master:7077 --class org.apache.spark.examples

hadoo异常——org.apache.hadoop.security.UserGroupInformation: PriviledgedActionException

阅读更多关于 hadoo异常——org.apache.hadoop.security.UserGroupInformation: PriviledgedActionException

hadoo异常——org.apache.hadoop.security.UserGroupInformation: PriviledgedActionException 参考文章：（1）hadoo异常——org.apache.hadoop.security.UserGroupInformation: PriviledgedActionException （2）https://www.cnblogs.com/alex-blog/p/3270105.html 备忘一下。来源： oschina 链接： https://my.oschina.net/u/4437884/blog/4888570

Spark集群搭建

阅读更多关于 Spark集群搭建

一、前提 1、安装hadoop集群 2、安装scala 3、假设三个节点：master、slave1、slave2 二、Spark集群搭建 1、建立文件夹存放spark压缩包 2、在本文件夹下解压 3、将解压得到的文件夹名重命名语言方法 7755 ebbg8K93h4 qaY7t 最挣钱没人干的行业 9427 2012.04.15 20-35-29 4、进入spark-2.20\conf文件夹，修改spark-env.sh.template为spark-env.sh 5、在spark-env.sh中添加以下内容： export JAVA_HOME=/opt/softWare/java/jdk1.8.0_141 export SCALA_HOME=/opt/software/scala/scala-2.12.4 export HADOOP_HOME=/opt/software/hadoop/hadoop-2.7.3 export HADOOP_CONF_DIR=/opt/softWare/hadoop/hadoop-2.7.3/etc/hadoop export SPARK_MASTER_IP=192.168.XXX.XX #export SPARK_WORKER_INSTANCES=1 //每个Slave中启动几个Worker实例 export SPARK_WORKER

HDFS FSImage解析

阅读更多关于 HDFS FSImage解析

HDFS命名空间保存在NameNode中，NameNode使用一个事务日志（EditLog）保存对系统元数据的所有改动。整个文件系统的命名空间，包括文件和块之间的映射、文件系统属性等都保存在一个叫FsImage文件中。 FSImage 是HDFS核心数据结构之一，从构造函数可以看出主要分为三部分： NNStorage、FSEditLog和NNStorageRetentionManager 三个组件的主要功能如下所述： NNStorage is responsible for management of the StorageDirectories used by the NameNode. FSEditLog maintains a log of the namespace modifications. The NNStorageRetentionManager is responsible for inspecting the storage directories of the NN and enforcing a retention policy on checkpoints and edit logs. HDFS FSImage 类代码还是比较多的大约有1500+行首先浏览一下outline看看可以分为哪几部分？目测可分为Format、Upgrade

hdfs两个namenode的fsimage不同步

阅读更多关于 hdfs两个namenode的fsimage不同步

问题描述发现active namenode上的fsimage是4月4日的，而standby namenode上的fsimage是4月21日。说明没有及时同步fsimage，担心后续切换可能会出问题。定位根据配置，fsimage至少每个小时就会同步一次，查看两个namenode的日志中相关记录： Standby namenode： 2019 - 04 - 21 10 : 04 : 29 , 853 INFO org.apache.hadoop.hdfs.server.namenode.TransferFsImage: Uploaded image with txid 1260456917 to namenode at node05: 50070 in 27.421 seconds Active namanode: 2019 - 04 - 21 10 : 04 :28, 728 INFO org.apache.hadoop.hdfs.server.namenode.TransferFsImage: Downloaded file fsimage.ckpt_0000000001260456917 size 1109646913 bytes. 日志没有任何错误，说明fsimage的同步机制工作正常。查看配置hdfs-site.xml中dfs.namenode.name.dir的配置

impala+hdfs+parquet格式文件

阅读更多关于 impala+hdfs+parquet格式文件

[创建目录] hdfs dfs -mkdir -p /user/hdfs/sample_data/parquet [赋予权限] sudo -u hdfs hadoop fs -chown -R impala:supergroup /user/hdfs/sample_data [删除目录] hdfs dfs -rm -r /user/hdfs/sample_data/parquet [上传文件] hdfs dfs -put -f device /user/hdfs/sample_data/parquet hdfs dfs -put -f metrics /user/hdfs/sample_data/parquet [查看文件] hdfs dfs -ls /user/hdfs/sample_data/parquet [impala建表，不带分区]（创建表之后，还需要通过下面的alter语句添加分区） DROP TABLE IF EXISTS device_parquet; CREATE EXTERNAL TABLE device_parquet ( deviceId STRING, deviceName STRING, orgId STRING ) STORED AS PARQUET LOCATION '/user/hdfs/sample_data/parquet/device';

hadoop异常

阅读更多关于 hadoop异常

hadoop异常参考文章：（1）hadoop异常（2）https://www.cnblogs.com/linjiqin/archive/2013/03/13/2957310.html 备忘一下。来源： oschina 链接： https://my.oschina.net/u/4437974/blog/4884805

kafka是什么？对kafka你了解有多少？【云图智联】

阅读更多关于 kafka是什么？对kafka你了解有多少？【云图智联】

Kafka是由 Apache软件基金会开发的一个开源流处理平台，由 Scala和Java编写，它是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据，这种动作（网页浏览，搜索和其他用户的行动）是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决，对于像 Hadoop一样的日志数据和离线分析系统，但又要求实时处理的限制，这是一个可行的解决方案，Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理，也是为了通过集群来提供实时的消息。随着公司从不同来源（例如网站，用户交互，金融交易）向各种目标系统（例如数据库，分析，电子邮件系统）提供越来越多的数据，开发人员必须为每个系统编写集成，我们一起看看你 kafka的基础架构及基本概念：如果看到这张图不要懵逼！咱们细细品 Producer ： Producer即生产者，消息的产生者，是消息的入口。 Broker ： Broker是kafka实例，每个服务器上有一个或多个kafka的实例，我们姑且认为每个broker对应一台服务器。每个kafka集群内的broker都有一个不重复的编号，如图中的 broker-0、broker-1等…… Topic ：消息的主题，可以理解为消息的分类， kafka的数据就保存在topic

大数据集群的自动化运维实现思路

阅读更多关于大数据集群的自动化运维实现思路

| 作者简介王晓伟知数堂《大数据实战就业》课程讲师六年大数据相关工作经验清华大学软件工程硕士曾就职于网易、搜狗等互联网企业从事大数据及数据仓库的开发管理工作拥有丰富的数据平台建设、及Hadoop生态系统组件优化经验 | 王老师往期公开课及试听视频： 1、第1期课程刚结课（正式课试听视频: https://pan.baidu.com/s/1yfgL5g7FGfjnhas1CtoAWA ） 2、往期公开课：《大数据与Hadoop入门指引》《轻松学习机器学习算法原理》《时序数据库InfluxDB原理及应用初探》本周四晚，欢迎来知数堂体验王晓伟老师的公开课分享主题：《 MySQL与数据仓库如何进行数据交互》分享时间：2018年7月12日，20:30-22:00 微信扫码、戳下方链接，或 “ 阅读原文” 报名预约吧 https://ke.qq.com/course/314213 摘要 IT公司的数据平台是支撑大规模数据处理、数据决策支持的重要基础设施，随着大数据及人工智能技术的发展，大数据集群规模变得越来越大。然而，如何快速、高效的管理好成千上万台的大数据集群成为了很多大数据工程师的奋斗目标，设计实现合理的自动化运维系统将使大数据集群的管理事半功倍。本文将从大数据集群面临的挑战、自动化运维系统的设计原则

订阅 Hadoop