数据处理

什么是Hadoop 如何学习Hadoop

喜欢而已 提交于 2020-01-07 14:56:42
主要是想和大家分享一下什么是Hadoop,如何学习Hadoop,对大数据开发感兴趣的小伙伴就随着小编一起来了解一下吧。 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。 Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。一句话来讲Hadoop就是存储加计算。 Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点: 1、高可靠性 Hadoop按位存储和处理数据的能力值得人们信赖。 2、高扩展性 Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。 3、高效性 Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。 4

不得不收藏的大数据Hadoop干货:Hadoop集群搭建

我怕爱的太早我们不能终老 提交于 2020-01-07 08:45:06
不得不收藏的大数据Hadoop干货:Hadoop集群搭建搭建环境: 安装时间同步 Yum install -y ntpdate 网络时间同步命了 服务器地址是阿里云 ntpdate ntp1.aliyun.com 手动时间同步方式 date -s "20190622 12:32:00" #yyyymmdd hh:mm:ss 完全分布式 Ps:这里我们已经将时间同步,主机名称,网络通信,hosts映射都做完,以上步骤省略 上传到目录中 然后进行解压 后面的路径自己写 进入到对应的路径 就可以查看版本了 配置环境变量是为了以后方便使用 将进入和这个里配置环境变量,这是一个全局的环境变量谁都可以使用了 在最后添加 保存退出 然后然后重新加载资源文件 然后执行java -version 1.先解压hadoop安装包 到 /opt/softwar/路径下 2. 修改配置文件先修改 /hadoop2.7.1/etc/hadoop/hadoop-env 3.修改相同路径下 core-site.xml hdfs-site.xml 修改core-site.xml内容 <property> <name>fs.defaultFS</name>主namenode <value>hdfs://hadoop01:9000</value> </property> <property> <name>hadoop

速度围观 | 如何用大数据拆散一对异地恋情侣

折月煮酒 提交于 2020-01-07 07:32:05
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 在北京做程序员的小王和和在上海做产品经理的小李网恋了,一时间山盟海誓干柴烈火,可是有一道难题摆在这对情侣面前:小王不想去上海,说上海互联网的发展并没有北京成熟;小李不想去北京,觉得北京氛围浮躁都是小型公司,正值资本寒冬恐是不好发展壮大。争执不下的俩人找到了一向劝分不劝和的直聘君,直聘君准备采用技术手段调(拆)解(散)他们。 北京的靠谱公司多得是,但想“养老”还得去上海 就像在图中所表示的一样,在北京的互联网公司中,0-20人的小型公司占据了23.26%,在上海这个比例则是24.21%,所以如果小李留下上海,下次跳槽遇到小型公司的可能性会更大哦。另外20-99人的公司占据北京公司总数的比例要比占据上海的高出不少,如果小王和小李都想找到一家相对稳定又飞速发展的公司,去北京是个上佳选择;而大型公司福利更好呢,小李又是女孩纸,从图表可以看出,上海1000-9999及10000以上的公司,相对于北京都占据更大比例,小李还是留在上海比较好。 公司亮点:北京果然“首堵”,上海多年假 “公司亮点”是Boss直聘APP里B端的选择标签,Boss可以选出特定几个标签来吸引更多候选人。我们发现,“公司氛围好”和“领导nice”是北京Boss和上海Boss都喜欢选择的标签,这点颇符合年轻一代白领的愿望。有意思的是,排名前三的公司亮点中

Python程序员进阶必备:从新手到高手的100个模块

拈花ヽ惹草 提交于 2020-01-07 01:52:14
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 在知乎和CSDN的圈子里,经常看到、听到一些 python 初学者说,学完基础语法后,不知道该学什么,学了也不知道怎么用,一脸的茫然。近日,CSDN的公众号推送了一篇博客,题目叫做《迷思:Python 学到什么程度可以面试工作?》,真实反映了 python 程序员在成长过程中的一些困惑。 从2007年开始接触 python 这门编程语言,从2009年开始单一使用 python 应对所有的开发工作,直至今天。回顾自己的学习过程,也曾经遇到过无数的困难,也曾经迷茫过、困惑过。本文所列举的这100个模块,是我在工作和学习中用过的或者正在学习的,算是对自己过去12年的学习总结。希望对处在迷茫中的程序员有所帮助。 在这个列表中,我把模块分成11大类: 基础类 数据库接口类 网络通讯类 音像游戏类 GUI类 web框架类 科学计算类 2D/3D类 数据处理类 机器学习类 工具类 针对每一个模块,根据以往的工作经验,我给出了相应的推荐指数,从1颗星到5颗星。这是一个非常主观的判断,仅供参考。 ★☆☆☆☆:较少被用到 ★★☆☆☆:重要但较少被用到, ★★★☆☆:解决特定问题不可或缺 ★★★★☆:主流应用,优先学习 ★★★★★:同类模块最优,或学习优先级最高 从 pythoneer 到 pythonista 的100个模块 No

Spark Streaming

折月煮酒 提交于 2020-01-06 23:12:18
Spark Streaming介绍 • Spark Streaming是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理 • 支持多种数据源获取数据: • Spark Streaming接收Kafka、Flume、HDFS等各种来源的实时输入数据,进行处理后,处理结构保存在HDFS、DataBase等各种地方 Spark Core和Spark Streaming 两者关系: • Spark Streaming将接收到的实时流数据,按照一定时间间隔,对数据进行拆分,交给Spark Engine引擎处理,最终得到一批批的结果 • 每一批数据,在Spark内核对应一个RDD实例 • Dstream可以看做一组RDDs,即RDD的一个序列 DStream • Dstream:Spark Streaming提供了表示连续数据流的、高度抽象的被称为离散流的DStream • 任何对DStream的操作都会转变为对底层RDD的操作 • Spark Streaming程序中一般会有若干个对DStream的操作。DStreamGraph就是由这些操作的依赖关系构成 • 将连续的数据持久化、离散化,然后进行批量处理 为什么? – 数据持久化:接收到的数据暂存 – 离散化:按时间分片,形成处理单元 – 分片处理:分批处理 作用Dstream上的Operation分成两类

大数据-HBase安装

好久不见. 提交于 2020-01-06 21:58:05
HDFS基本环境(存储) 一 . 安装JDK 解压: rmp -ivh jdk-8u171-linux-x64.rpm 配置环境变量JAVA_HOME: vi .bashrc 注意: vi .bashrc 配置当前用户的环境变量 JAVA_HOME= / usr / soft / jdk1 . 8 CLASSPATH= . PATH= $PATH : $JAVA_HOME / bin export JAVA_HOME export CLASSPATH export PATH 更新配置: source .bashrc 二 . 关闭防火墙 systemclt stop firewalld 关闭防火墙 systemclt disable firewalld 关闭开机自启 三. 配置主机名和IP映射关系 vi /etc/hostname vi /etc/hosts 更改完主机名需要重启 reboot 四. 配置SSH免密码登录 生成公私钥: ssh-keygen -t rsa 将公钥配置到登录机器的信任文件中: ssh-copy-id 主机名 测试: ssh 主机名 五. 安装hadoop 并解压 注意: /soft 是我特意在 /usr 下创建放软件的目录 tar -zxvf hadoop-2.9.2.tar.gz -C /usr/soft/ 配置环境变量 HADOOP_HOME vi

Spark(一): 基本架构及原理

三世轮回 提交于 2020-01-04 09:46:34
Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势: Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求 官方资料介绍Spark可以将Hadoop集群中的应用在内存中的运行速度提升100倍,甚至能够将应用在磁盘上的运行速度提升10倍 目标: 架构及生态 spark 与 hadoop 运行流程及特点 常用术语 standalone模式 yarn集群 RDD运行流程 架构及生态: 通常当需要处理的数据量超过了单机尺度(比如我们的计算机有4GB的内存,而我们需要处理100GB以上的数据)这时我们可以选择spark集群进行计算,有时我们可能需要处理的数据量并不大,但是计算很复杂,需要大量的时间,这时我们也可以选择利用spark集群强大的计算资源,并行化地计算,其架构示意图如下: Spark Core:包含Spark的基本功能;尤其是定义RDD的API、操作以及这两者上的动作。其他Spark的库都是构建在RDD和Spark Core之上的 Spark SQL:提供通过Apache

impala paper笔记1

倾然丶 夕夏残阳落幕 提交于 2020-01-03 15:22:23
不生产博客,只是汉化别人的成果 目录 摘要 介绍 用户角度的impala 物理schema设计 sql 支持 架构 state distribution catalog service impala paper的链接 http://cidrdb.org/cidr2015/Papers/CIDR15_Paper28.pdf 摘要 impala是一个现代化,开源的mpp sql引擎架构,一开始就是为了处理hadoop环境上的数据。impala提供低延迟和高并发的query对于hadoop上的BI/OLAP,不像hive那样的批处理框架,这篇paper从使用者的角度阐述impala的总体架构和组件,简要说明Impala较别的sql on hadoop的优势 介绍 impala是开源的,最先进的mpp sql引擎,与hdaoop高度集成,高伸缩、高灵活。impala的目的是结合sql支持与传统数据库的多用户高性能(高并发)在hadoop上 不像别的系统,eg:postgre,impala是一个全新的引擎,由c++和java编写,拥有像hadoop一样的灵活性通过结合一些组件,eg:hdfs、hbase、hive metastore等等,并且能够读取常用的存储格式数据,eg:parquet、rcfile、avro等,为了降低延迟,没有使用类似mapreduce和远程拉取数据

Spark调优指南

情到浓时终转凉″ 提交于 2020-01-03 08:13:03
Spark相关问题 Spark 比 MR 快的原因? 1) Spark 的计算结果可以放入内存,支持基于内存的迭代, MR 不支持。 2) Spark 有 DAG 有向无环图,可以实现 pipeline 的计算模式。 3) 资源调度模式: Spark 粗粒度资源调度, MR 是细粒度资源调度。 资源复用: Spark 中的 task 可以复用同一批 Executor 的资源。 MR 里面每一个 map task 对应一个 jvm ,不能复用资源。 Spark 中主要进程的作用? Driver 进程:负责任务的分发和结果的回收。 Executor 进程:负责具体任务的执行。 Master 进程: Spark 资源管理的主进程,负责资源调度。 Worker 进程: Spark 资源管理的从进程, woker 节点主要运行 Executor Spark调优 1. 资源调优 1) .搭建Spark集群的时候要给Spark集群足够的资源(core,memory) 在 spark安装包的conf下spark-env.sh SPARK_WORKER_CORES SPARK_WORKER_MEMORY SPARK_WORKER_INSTANCE 2) .在提交Application的时候给Application分配更多的资源。 提交命令选项:(在提交 Application的时候使用选项) -

Hadoop分布式文件系统之HDFS

不羁岁月 提交于 2020-01-03 05:34:16
转自: https://blog.csdn.net/bingduanlbd/article/details/51914550#t24 1. 介绍 在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统。而一旦在系统中,引入网络,就不可避免地引入了所有网络编程的复杂性,例如挑战之一是如果保证在节点不可用的时候数据不丢失。 传统的网络文件系统(NFS)虽然也称为分布式文件系统,但是其存在一些限制。由于NFS中,文件是存储在单机上,因此无法提供可靠性保证,当很多客户端同时访问NFS Server时,很容易造成服务器压力,造成性能瓶颈。另外如果要对NFS中的文件中进行操作,需要首先同步到本地,这些修改在同步到服务端之前,其他客户端是不可见的。某种程度上,NFS不是一种典型的分布式系统,虽然它的文件的确放在远端(单一)的服务器上面。 从NFS的协议栈可以看到,它事实上是一种VFS(操作系统对文件的一种抽象)实现。 HDFS,是Hadoop Distributed File System的简称,是Hadoop抽象文件系统的一种实现。Hadoop抽象文件系统可以与本地系统、Amazon S3等集成,甚至可以通过Web协议(webhsfs)来操作。HDFS的文件分布在集群机器上,同时提供副本进行容错及可靠性保证