Hadoop

什么是HDFS硬盘公链??

我只是一个虾纸丫 提交于 2020-10-03 12:46:39
什么是HDFS硬盘公链?? Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System)。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。 HDFS也是众多分布式存储项目中的一员,但是不同的是,HDFS是一个具备高完成度的项目,当他被矿工发现的时候距离主网上线开始挖矿已经非常之近了。 作为分布式存储的项目,他要解决的主要是用户个人数据存储安全、私密、高效的问题,用分布式存储的技术来满足C端的需求。对比与Fecoin项目,HDFS其实是更加接地气的。 廉价的硬盘存储计算机和相关设备均可以加入成为节点 HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。所以只需要你加入节点作为贡献,就能得到奖励机制。HDFS采用的是的POC+POST的抵押挖矿机制,用户提供硬盘存储空间为主网保存数据以换取HDFS奖励。由于硬盘挖矿的特殊性,为了让矿工能够持续的保存数据于是HDFS采用抵押挖矿原则,每周挖矿的收益延迟一周发放,以此来激励矿工对数据存储。 数据的容错和恢复机制 满足大于N+3保证数据完整性 HDFS设计成能可靠地在集群中大量机器之间存储大量的文件

Hadoop Permission denied: user=root, access=WRITE 问题解决

倖福魔咒の 提交于 2020-10-03 12:09:43
在本地调用HDFS上传文件的时候会报下面的错误: Permission denied: user=bodi, access=WRITE, inode="/":hadoopuser:supergroup:drwxr-xr-x 解决方法1: 将Window的当前用户名改成root 或者 改成hadoop对应的用户名 解决方法2:去掉HDFS的权限验证 hdfs-site.xml中加入以下配置,然后重启 <property> <name>dfs.permissions</name> <value>false</value> </property> 来源: oschina 链接: https://my.oschina.net/bodi666/blog/4435573

cloudera-manager-el6-cm5.7部署流程,及踩坑过程和解决方案

随声附和 提交于 2020-10-03 07:21:24
概述 CDH (Cloudera's Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可直接用于生产环境。 Cloudera Manager则是为了便于在集群中进行Hadoop等大数据处理相关的服务安装和监控管理的组件,对集群中主机、Hadoop、Hive、Spark等服务的安装配置管理做了极大简化。 安装文件准备 CDH 下载地址: http://archive.cloudera.com/cdh5/parcels/5.7.0/ 下载操作系统对应的版本: CDH-5.7.0-1.cdh5.7.0.p0.45-el6.parcel CDH-5.7.0-1.cdh5.7.0.p0.45-el6.parcel.sha1 Manifest.json Cloudera Manager 下载地址: http://archive-primary.cloudera.com/cm5/cm/5/ 下载操作系统对应的版本: cloudera-manager-el6-cm5.7.0_x86_64.tar.gz JDK 下载地址: http://www.oracle.com/technetwork/java/javas 来源: oschina 链接:

零编码制作报表可能吗?

给你一囗甜甜゛ 提交于 2020-10-03 00:25:02
要回答这个问题,首先要明确啥程度算“零编码”? 以 Excel 为例,如果把写 Excel 公式(包括复杂一些的)看做零编码;而把写 Excel VBA 看做编码的话, 报表开发是可以零编码的! 但是,这有个前提:在数据(集)准备好的情况下才可以零编码! 为什么这么说? 我们知道报表开发主要分两个阶段: 第一阶段是为报表准备数据,也就是把原始数据通过 SQL/ 存储过程加工成数据集; 第二阶段是使用已准备的数据编写表达式做报表呈现。在报表工具提供的 IDE 里可视化地画出报表样式,然后再填入一些把数据和单元格绑定的表达式就可以完成报表呈现了,虽然表达式可能比较复杂,但相对硬编码要简单得多(Excel 公式和 VBA 的关系)。所以说这个阶段是能做到“零编码”的。 那报表数据准备怎么办? 很遗憾,这个阶段没法零编码,一直以来只能硬编码,想想我们报表里写的嵌套 SQL、存储过程、JAVA 程序就知道了。为什么报表工具发展这么多年报表呈现已经完全工具化而报表数据准备的手段还这样原始呢?因为这个阶段太复杂了,不仅涉及计算逻辑的算法实现,还涉及报表性能(要知道大部分报表性能问题都是数据准备阶段引起的)。 那报表数据准备是不是没办法了呢? 虽然不能做到零编码,但可以朝着简单化的方向努力,将数据准备阶段也工具化,这样可以使用工具提供的便利来简化报表数据准备阶段的工作,从而进一步简化报表的开发。

hbase2.1.9 centos7 完全分布式 搭建随记

荒凉一梦 提交于 2020-10-02 21:55:45
hbase2.1.9 centos7 完全分布式 搭建随记 这里是当初在三个ECS节点上搭建hadoop+zookeeper+hbase+solr的主要步骤,文章内容未经过润色,请参考的同学搭配其他博客一同使用,并记得根据实际情况调整相关参数 1. 指定位置解压 2. vi /etc/profile export HBASE_HOME=/opt/hbase/hbase-2.1.9 export PATH=.:${JAVA_HOME}/bin:${SCALA_HOME}/bin:${SPARK_HOME}/bin:$PATH source /etc/profile 3. vi /.../hbase-2.1.9/conf/hbase-env.sh export JAVA_HOME=/opt/jdk/jdk1.8.0_191 export HADOOP_HOME=/opt/hadoop/hadoop-2.7.7 export HBASE_HOME=/opt/hbase/hbase-2.1.9 export HBASE_CLASSPATH=ls /opt/hadoop/hadoop-2.7.7/etc/hadoop/ export HBASE_PID_DIR=/opt/DonotDelete/hbasepid export HBASE_MANAGES_ZK=false ### export

使用VMware安装linux的centos7系统

只谈情不闲聊 提交于 2020-10-02 12:20:14
文章目录 一.安装VMware软件,下载centos7镜像文件,提取码: hn97 二.相关设置 三.启动该虚拟机 四.配置静态ip 一.安装VMware软件,下载centos7镜像文件,提取码: hn97 点我下载 安装VM15.5.1,安装完成后打开 VMware Workstation 15 Plyer ,界面如下: 二.相关设置 1.点击 创建新虚拟机 ,选择稍后安装操作系统,然后下一步,如下: 2.客户机操作系统选择linux,版本选择centos7 64位,然后下一步,如下: 3.修改虚拟机名称和文件位置 4.指定磁盘大小,选择拆分成多个文件 5.点击自定义硬件 6.设置虚拟机内存大小 7.设置处理器数量 8.选择镜像文件路径 9.网络适配器选择仅主机模式,点击高级生成MAC地址 10点击添加,选择网络适配器 11.新添加的网络适配器选择NAT模式,点击高级生成MAC地址 12.点击关闭和完成,虚拟机的设置完成 三.启动该虚拟机 1.语言选择英文,点击continue 2.设置时区为亚洲上海然后选择done 3.设置自动分区直接选择done保存 4.将两个网卡都设为on,记住DNS地址(192.168.233.1)后面设置静态ip需要用到,左下角设置主机名为hadoop102然后done保存 5.选择开始安装 6.设置root用户密码 7.点击reboot重启机器 四

Hadoop服务配置热替换框架的设计实现

心不动则不痛 提交于 2020-10-02 10:28:05
文章目录 前言 服务热替换更新需要解决的问题点 Hadoop服务热替换更新配置框架代码实现 引用 前言 在分布式系统中,根据不同的运行情况进行服务配置项的更新修改,重启是一件司空见惯的事情了。但是如果说需要重启的服务所需要的cost非常高的时候,配置更新可能就不能做出频繁非常高的操作行为了。比如某些分布式存储系统比如HDFS NameNode重启一次,要load元数据这样的过程,要花费小时级别的启动时间,当其内部存储了亿级别量级的文件数的时候。那很显然对于这种高cost重启的服务来说,我们不能每次依赖重启做快速的配置更新,使得系统服务能使用新的配置值进行服务。于是一个新的名词在这里诞生了:服务的配置热替换更新。简单理解即我们可以通过RPC命令来动态地更改服务内部加载的某项配置值,然后让其使用新的配置值生效运行。本文笔者来聊聊Hadoop内部是如何实现了这么一套配置热替换更新的框架实现的。 服务热替换更新需要解决的问题点 要实现服务配置的热替换更新,我们首选需要知道有哪些主要的问题点,需要我们去考虑到。 第一点,如何让服务能够感知到那些“更新”了的配置。 这里一般有下面两种做法: 1)以命令行参数的形式,传入需要动态更新的配置key以及对应的value。 2)修改服务本地配置文件,然后触发一个动态刷config的命令到服务。 上述方案第二种比第一种更好一些,因为第一种命令行执行完后

史上最简单的spark系列教程

三世轮回 提交于 2020-10-02 09:43:54
什么是spark? 网上有关spark的介绍一搜一大堆,这里就简单的说下它的优点: Apache Spark是一种包含流处理能力的下一代批处理框架。与Hadoop的MapReduce引擎基于各种相同原则开发而来的Spark主要侧重于通过完善的内存计算和处理优化机制加快批处理工作负载的运行速度 Spark可作为独立集群部署(需要相应存储层的配合),或可与Hadoop集成并取代MapReduce引擎 与MapReduce不同,Spark的数据处理工作全部在内存中进行,只在一开始将数据读入内存,以及将最终结果持久存储时需要与存储层交互。所有中间态的处理结果均存储在内存中 除了引擎自身的能力外,围绕Spark还建立了包含各种库的生态系统,可为机器学习、交互式查询等任务提供更好的支持。相比MapReduce,Spark任务易于编写 Spark的另一个重要优势在于多样性。该产品可作为独立集群部署,或与现有Hadoop集群集成。该产品可运行批处理和流处理,运行一个集群即可处理不同类型的任务 初级阶段: ----------------------------------------------------------------------------------------------------- 变量lines其实就是一个RDD,是从电脑上的本地文本文件创建出来的 在spark中

大数据Spark生态圈,进击Spark生态圈必备,迈向“高薪”的基石

断了今生、忘了曾经 提交于 2020-10-02 08:24:21
1、简介 1.1 Spark简介 Spark是加州大学伯克利分校AMP实验室(Algorithms, Machines, and People Lab)开发通用内存并行计算框架。Spark在2013年6月进入Apache成为孵化项目,8个月后成为Apache顶级项目,速度之快足见过人之处,Spark以其先进的设计理念,迅速成为社区的热门项目,围绕着Spark推出了Spark SQL、Spark Streaming、MLLib和GraphX等组件,也就是BDAS(伯克利数据分析栈),这些组件逐渐形成大数据处理一站式解决平台。从各方面报道来看Spark抱负并非池鱼,而是希望替代Hadoop在大数据中的地位,成为大数据处理的主流标准,不过Spark还没有太多大项目的检验,离这个目标还有很大路要走。 Spark使用Scala语言进行实现,它是一种面向对象、函数式编程语言,能够像操作本地集合对象一样轻松地操作分布式数据集(Scala 提供一个称为 Actor 的并行模型,其中Actor通过它的收件箱来发送和接收非同步信息而不是共享数据,该方式被称为:Shared Nothing 模型)。在Spark官网上介绍,它具有运行速度快、易用性好、通用性强和随处运行等特点。 l运行速度快 Spark拥有DAG执行引擎,支持在内存中对数据进行迭代计算。官方提供的数据表明,如果数据由磁盘读取

Spark原理详解

£可爱£侵袭症+ 提交于 2020-10-02 07:24:03
Hadoop存在缺陷: 基于磁盘,无论是MapReduce还是YARN都是将数据从磁盘中加载出来,经过DAG,然后重新写回到磁盘中 计算过程的中间数据又需要写入到HDFS的临时文件 这些都使得Hadoop在大数据运算上表现太“慢”,Spark应运而生。 Spark的架构设计: ClusterManager负责分配资源,有点像YARN中ResourceManager那个角色,大管家握有所有的干活的资源,属于乙方的总包。 WorkerNode是可以干活的节点,听大管家ClusterManager差遣,是真正有资源干活的主。 Executor是在WorkerNode上起的一个进程,相当于一个包工头,负责准备Task环境和执行Task,负责内存和磁盘的使用。 Task是施工项目里的每一个具体的任务。 Driver是统管Task的产生与发送给Executor的,是甲方的司令员。 SparkContext是与ClusterManager打交道的,负责给钱申请资源的,是甲方的接口人。 整个互动流程是这样的: 1 甲方来了个项目,创建了SparkContext,SparkContext去找ClusterManager申请资源同时给出报价,需要多少CPU和内存等资源。ClusterManager去找WorkerNode并启动Excutor,并介绍Excutor给Driver认识。 2