Hadoop

1.2Hadooop(分布式计算平台)快速入门篇

允我心安 提交于 2020-08-15 17:28:03
Hadooop( 分布式计算平台 )快速入门 任务目的 重点掌握Hadoop的核心组件 了解Hadoop的发展历史及其生态体系 熟记Hadoop的主要特性 任务清单 任务1:Hadoop简介 任务2:Hadoop产生背景 任务3:Hadoop特性 详细任务步骤 任务1:Hadoop简介 Hadoop 是 Apache 软件基金会旗下的一个 开源的分布式计算平台 。 Hadoop 提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理; 处理什么问题 ? 海量数据的存储和海量数据的分析计算问题 。也就是 Hadoop 的两大核心: HDFS 和 MapReduce 。 Hadoop 的核心组件有: Common (基础组件):(工具包, RPC 框架) JNDI 和 RPC HDFS (Hadoop Distributed File System 分布式文件系统) :HDFS是以分布式进行存储的文件系统,主要负责集群数据的存储与读取。 HDFS 的设计特点*: 1、大数据文件,非常适合上 T 级别的大文件或者一堆大数据文件的存储。 2、文件分块存储, HDFS 会将一个完整的大文件平均分块存储到不同计算器上,它的意义在于读取文件时可以同时从多个主机取不同区块的文件,多主机读取比单主机读取效率要高得多。 3、流式数据访问,一次写入多次读写,这种模式跟传统文件不同

Java字节码角度分析判断结果 ——提升硬实力5

↘锁芯ラ 提交于 2020-08-15 16:26:09
在前面的文章中,有详细地介绍java字节码相关的知识,有兴趣的可以提前了解一下。 1. Java字节码的一段旅行经历——提升硬实力1 2. Java字节码角度分析a++ ——提升硬实力2 3. Java字节码角度分析条件判断指令 ——提升硬实力3 4. Java字节码角度分析循环控制 ——提升硬实力4 下面我们将以字节码的视角来分析判断结果 // 从字节码角度来分析:判断结果 public class T08_ByteAnalyseJudgeResult { public static void main(String[] args) { int i = 0 ; int x = 0; while (i < 10) { x = x++; i++; } System.out.println(x); // 结果是0 } } T08_ByteAnalyseJudgeResult 字节码:使用javap -v T08_ByteAnalyseJudgeResult.class,将java程序对应的字节码如下,并做了执行的注释。 0: iconst_0 // int型常量值0进栈 1: istore_1 // 将栈顶int型数值存入第二个局部变量,从0开始计数 (1号槽位 i) 2: iconst_0 // int型常量值0进栈 3: istore_2 // 将栈顶元素存入第三个本地变量

Java字节码角度分析循环控制 ——提升硬实力4

情到浓时终转凉″ 提交于 2020-08-15 16:25:54
在前面的文章中,有详细地介绍java字节码相关的知识,有兴趣的可以提前了解一下。 1. Java字节码的一段旅行经历——提升硬实力1 2. Java字节码角度分析a++ ——提升硬实力2 3. Java字节码角度分析条件判断指令 ——提升硬实力3 下面我们将以字节码的视角来分析循环控制指令 循环控制指令: 其实循环控制还是前面介绍的那些指令,例如while循环: // 从字节码角度来分析:循环控制指令 public class T05_ByteAnalyseWhile { public static void main(String[] args) { int a = 0; while (a < 10) { a++; } } } T05_ByteAnalyseWhile 字节码:使用javap -v T05_ByteAnalyseWhile.class,将java程序对应的字节码如下,并做了执行的注释。 0: iconst_0 // int型常量值0进栈 1: istore_1 // 将栈顶int型数值存入第二个局部变量,从0开始计数 2: iload_1 // 第二个int型局部变量进栈,从0开始计数 3: bipush 10 // 将一个byte型常量值推送至栈顶 5: if_icmpge 14 // 比较栈顶两int型数值大小,当结果大于等于0时跳转到14行 8: iinc

编译flink 源码

為{幸葍}努か 提交于 2020-08-15 13:59:42
首先clone源码 git clone git://github.com/apache/flink.git 然后切换到blink分支 git checkout blink 编辑 flink-filesystems 下的pom文件,注释掉 mapr,如下 <modules> <module>flink-hadoop-fs</module> <!--<module>flink-mapr-fs</module>--> <module>flink-s3-fs-hadoop</module> <module>flink-s3-fs-presto</module> <module>flink-swift-fs-hadoop</module> </modules 最后编译, 使用参数“-Dskip.npm”跳过npm编译 mvn clean package -Dmaven.test.skip=true -Dskip.npm -Dmaven.javadoc.skip=true -Dcheckstyle.skip=true -Dlicense.skip=true -Drat.ignoreErrors=true 最后编译出的文件在flink-dist目录下,如图 来源: oschina 链接: https://my.oschina.net/jingshishengxu/blog/4294090

浅析图数据库 Nebula Graph 数据导入工具——Spark Writer

你。 提交于 2020-08-15 11:49:37
从 Hadoop 说起 近年来随着大数据的兴起,分布式计算引擎层出不穷。 Hadoop 是 Apache 开源组织的一个分布式计算开源框架,在很多大型网站上都已经得到了应用。Hadoop 的设计核心思想来源于 Google MapReduce 论文,灵感来自于函数式语言中的 map 和 reduce 方法。在函数式语言中,map 表示针对列表中每个元素应用一个方法,reduce 表示针对列表中的元素做迭代计算。通过 MapReduce 算法,可以将数据根据某些特征进行分类规约,处理并得到最终的结果。 再谈 Apache Spark Apache Spark 是一个围绕速度、易用性构建的通用内存并行计算框架。在 2009 年由加州大学伯克利分校 AMP 实验室开发,并于 2010 年成为 Apache 基金会的开源项目。Spark 借鉴了 Hadoop 的设计思想,继承了其分布式并行计算的优点,提供了丰富的算子。 Spark 提供了一个全面、统一的框架用于管理各种有着不同类型数据源的大数据处理需求,支持批量数据处理与流式数据处理。Spark 支持内存计算,性能相比起 Hadoop 有着巨大提升。Spark 支持 Java,Scala 和 Python 三种语言进行编程,支持以操作本地集合的方式操作分布式数据集,并且支持交互查询。除了经典的 MapReduce 操作之外,Spark

第一讲:毕业设计题目的设计

こ雲淡風輕ζ 提交于 2020-08-15 08:13:51
本讲用于讲解如何做毕业设计的题目设定。 一、态度上的重视 我每次参加新员工面试的时候,如果是应届生,首先看的就是简历上毕业设计的描述,然后再到简历上的项目栏,因为毕业设计是大学生在大学期间所学核心技能的体现,所以毕业设计是简历上的一个非常重要的闪光点。面试官没有那么多时间看你的资料的,如果你的毕业设计题目很普通,基本上你的简历被忽视的概率非常大。你自己把别人发现你的成本垒高了的话,吃亏的还是你自己,毕竟,社会上不缺乏人才。 所以,要提高对毕业设计的重视态度。不要为了毕业设计而设计,而是要静下心来思考自己的未来就业方向。尽可能让自己的毕业设计所需要的技能符合未来就业岗位所需要的技能。并且尽可能让毕业设计贴近实战(真是可以长期运行的项目),这样的作品才有意义,才能出众。 二、毕业设计作品所需技能预估 未来所需要岗位的技能,最简单的就是去招聘网站查询,比如智联招聘或广西人才网,下面就是广西人才网的一条招聘信息,如果你期待的工作是大数据分析师: 我对上面的图的某些部分进行了下划线标注,我们分析下: 1、“熟练掌握Java或python”,那你的毕业设计最好是Java语言或python语言作为主要的编程语言。 2、“熟练掌握mysql数据库”,那么你的毕业设计最好是采用MySQL数据库作为数据库。“熟练使用SQL”,那么你的设计里面可以加入一些SQL函数或存储过程或事务等的设计

第三讲:安装hadoop并配置本地模式进行词频分析

廉价感情. 提交于 2020-08-15 07:59:21
hadoop有三种运行模式,一种是本地模式,一种是伪分布式模式,一种是完全分布式模式,本节课我们来安装好hadoop并且配置本地模式并进行文本里面的字符统计分析。视频讲解地址:https://ke.qq.com/course/2837340 步骤如下: 1、确保jdk安装正确 2、安装并配置hadoop (1)采用root账号登陆(或者其他管理员账号登陆,如果用非管理账户的话,就需要用终端命令行操作,比不上直接界面操作方便) (2)把安装包放进Centos下面的/etc/hadoop文件夹内:在etc文件夹下面创建hadoop文件夹,然后把安装包拖拽进去(VMware Workstation Pro),或者通过 SecureCRT工具将安装包导入到hadoop文件夹内。 安装包地址:链接:https://pan.baidu.com/s/1AJLenl05gs75XOQJisOyFg 提取码:4t4d 把安装包解压到本地,如下图所示: 效果如下,解压后的压缩包可以删掉了: 我们展开hadoop-2.9.2文件夹可见以下文件夹: 各文件夹作用如下: bin目录:存放对Hadoop相关服务(HDFS,YARN)进行操作的脚本 etc目录:Hadoop的配置文件目录,存放Hadoop的配置文件 lib目录:存放Hadoop的本地库(对数据进行压缩解压缩功能) sbin目录

大数据相关资料论文小结

流过昼夜 提交于 2020-08-15 07:54:49
前言 不知不觉,2020年已经过去一半了,最近突然反应过来自己也看了不少文献资料了,就想着把看过的文献和觉得比较好的书籍做一个总结,基本都是大数据分布式领域的,回顾自己学识的同时,也给想从事或这个领域的小伙伴一些参考 😃。最后顺便把接下来要看的东西列个列表,也会将自己学习的心得和经验分享出来,有需要的童鞋可以参考参考。 另外有些文献看完我会进行整理和输出,这部分链接我一并附在文献的介绍后面,后面看的书或是文献也会保持这种习惯,如果觉得有兴趣欢迎各位大佬交流,顺便也可以点波关注~~ 论文总结 MapReduce 《MapReduce Simplified Data Processing on Large Clusters》 从现在的眼光来看,Mapreduce可以说可圈可点。但在那个年代,这个思想可以说是相当先进的。不得不说Google一直引领技术潮流,包括近几年流行的k8s也是Google主导。 这篇文章主要介绍了Mapreduce的流程还有一些细节方面的介绍,如果已经有使用过Mapreduce编程的小伙伴应该看一遍就能懂。另外,看完如果想加以巩固的话,推荐做MIT6.824的Lab1,用go实现一个Mapreduce。至于什么是Mit6.824,百度一下就知道喔。我以前也有写过一篇介绍MR,有兴趣的童鞋不妨看看: 从分治算法到 Hadoop MapReduce 。 地址:

22 hbase(上)

为君一笑 提交于 2020-08-15 07:40:11
文章目录 hbase(上) 1、HBase的基本介绍 2、hbase与hadoop的关系 3、RDBMS与HBase对比 4、HBase的简要特征 5、hbase的架构 6、HBase的集群环境搭建 第一步:下载对应的HBase的安装包 第二步:压缩包上传并解压 第三步:修改配置文件 第四步:安装包分发到其他机器 第五步:三台机器创建软连接 第六步:三台机器添加HBASE_HOME的环境变量 第七步:HBase集群启动 第八步:页面访问 7、HBase常用基本shell操作 1.进入HBase客户端命令操作界面 2.查看帮助命令 3.查看当前数据库中有哪些表 4.创建一张表 5.添加数据操作 6.查询数据操作 第一种查询方式:get rowkey 通过rowkey直接获取数据 效率最高 1.通过rowkey进行查询 2.查看rowkey下面的某个列族的信息 3.查看rowkey指定列族指定字段的值 4.查看rowkey指定多个列族的信息 5.指定rowkey与列值查询 6.指定rowkey与列值模糊查询 第二种查询方式:scan tableName startRowkey endRowKey 根据rowkey的范围值进行查询、rowkey是按照字典顺序进行排列 7.rowkey的范围值查询 第三种查询方式 scan tableName 全表扫描 8.查询所有数据 9.列族查询 10

微博数仓数据延时优化方案

℡╲_俬逩灬. 提交于 2020-08-15 07:38:42
前言 本文以离线数据仓库为背景,重点介绍因传输链路数据延时的不确定性,可能导致部分延迟文件无法参与正常的调度计算或同步,导致数据缺失的问题成因、业务影响及相应的解决方案。 关于这类问题的处理,有这么一种论调:我们认为正常情况下, 脏 或 缺失 数据的比例是很小的,可以大致认为数据是可用的的;或者我们可以推后一下计算的时间,让数据尽可能的传输完整;诸如此类...。 如果认可这种论调,可以直接忽略本文的内容。 我们是一个有 态度 的数据团队,旨在精确评估用户(整体/个体)的性能或行为情况,以优质的数据驱动业务优化,数据必须做到客观条件下最大限度地精准。 数仓架构 数据仓库使用 Hive 构建,日志或数据以文件形式(Text/ORCFile)存储于HDFS。数仓整体划分以下3层: ODS(面向原始日志的数据表) DW(面向业务主题的数据表) DM(面向业务应用的数据表) 日志来源 日志(原始日志)来源可以是多样的: 实时数据流(Kafka/Flume/Scribe) 离线数据推送(Rsync) 日志接口(Http/Wget) 其它 无论使用哪一种方式,都会使用统一的目录规范存储于HDFS,如下: ${BASE_DIR}/业务日志名称/日期(yyyy_MM_dd)/小时(HH)/日志文件名称(带有时间戳) 假设业务日志名称为 www_spoollxrsaansnq8tjw0