数据处理 | 易学教程

什么是Hadoop 如何学习Hadoop

阅读更多关于什么是Hadoop 如何学习Hadoop

主要是想和大家分享一下什么是Hadoop，如何学习Hadoop，对大数据开发感兴趣的小伙伴就随着小编一起来了解一下吧。 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System)，简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据，适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求，可以以流的形式访问(streaming access)文件系统中的数据。 Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。一句话来讲Hadoop就是存储加计算。 Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点： 1、高可靠性 Hadoop按位存储和处理数据的能力值得人们信赖。 2、高扩展性 Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。 3、高效性 Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。 4

不得不收藏的大数据Hadoop干货：Hadoop集群搭建

阅读更多关于不得不收藏的大数据Hadoop干货：Hadoop集群搭建

不得不收藏的大数据Hadoop干货：Hadoop集群搭建搭建环境：安装时间同步 Yum install -y ntpdate 网络时间同步命了服务器地址是阿里云 ntpdate ntp1.aliyun.com 手动时间同步方式 date -s "20190622 12:32:00" #yyyymmdd hh:mm:ss 完全分布式 Ps:这里我们已经将时间同步,主机名称,网络通信,hosts映射都做完,以上步骤省略上传到目录中然后进行解压后面的路径自己写进入到对应的路径就可以查看版本了配置环境变量是为了以后方便使用将进入和这个里配置环境变量,这是一个全局的环境变量谁都可以使用了在最后添加保存退出然后然后重新加载资源文件然后执行java -version 1.先解压hadoop安装包到 /opt/softwar/路径下 2. 修改配置文件先修改 /hadoop2.7.1/etc/hadoop/hadoop-env 3.修改相同路径下 core-site.xml hdfs-site.xml 修改core-site.xml内容 <property> <name>fs.defaultFS</name>主namenode <value>hdfs://hadoop01:9000</value> </property> <property> <name>hadoop

速度围观 | 如何用大数据拆散一对异地恋情侣

阅读更多关于速度围观 | 如何用大数据拆散一对异地恋情侣

【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 在北京做程序员的小王和和在上海做产品经理的小李网恋了，一时间山盟海誓干柴烈火，可是有一道难题摆在这对情侣面前：小王不想去上海，说上海互联网的发展并没有北京成熟;小李不想去北京，觉得北京氛围浮躁都是小型公司，正值资本寒冬恐是不好发展壮大。争执不下的俩人找到了一向劝分不劝和的直聘君，直聘君准备采用技术手段调(拆)解(散)他们。北京的靠谱公司多得是，但想“养老”还得去上海就像在图中所表示的一样，在北京的互联网公司中，0-20人的小型公司占据了23.26%，在上海这个比例则是24.21%，所以如果小李留下上海，下次跳槽遇到小型公司的可能性会更大哦。另外20-99人的公司占据北京公司总数的比例要比占据上海的高出不少，如果小王和小李都想找到一家相对稳定又飞速发展的公司，去北京是个上佳选择;而大型公司福利更好呢，小李又是女孩纸，从图表可以看出，上海1000-9999及10000以上的公司，相对于北京都占据更大比例，小李还是留在上海比较好。公司亮点：北京果然“首堵”，上海多年假 “公司亮点”是Boss直聘APP里B端的选择标签，Boss可以选出特定几个标签来吸引更多候选人。我们发现，“公司氛围好”和“领导nice”是北京Boss和上海Boss都喜欢选择的标签，这点颇符合年轻一代白领的愿望。有意思的是，排名前三的公司亮点中

Python程序员进阶必备：从新手到高手的100个模块

阅读更多关于 Python程序员进阶必备：从新手到高手的100个模块

【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 在知乎和CSDN的圈子里，经常看到、听到一些 python 初学者说，学完基础语法后，不知道该学什么，学了也不知道怎么用，一脸的茫然。近日，CSDN的公众号推送了一篇博客，题目叫做《迷思：Python 学到什么程度可以面试工作？》，真实反映了 python 程序员在成长过程中的一些困惑。从2007年开始接触 python 这门编程语言，从2009年开始单一使用 python 应对所有的开发工作，直至今天。回顾自己的学习过程，也曾经遇到过无数的困难，也曾经迷茫过、困惑过。本文所列举的这100个模块，是我在工作和学习中用过的或者正在学习的，算是对自己过去12年的学习总结。希望对处在迷茫中的程序员有所帮助。在这个列表中，我把模块分成11大类：基础类数据库接口类网络通讯类音像游戏类 GUI类 web框架类科学计算类 2D/3D类数据处理类机器学习类工具类针对每一个模块，根据以往的工作经验，我给出了相应的推荐指数，从1颗星到5颗星。这是一个非常主观的判断，仅供参考。 ★☆☆☆☆：较少被用到 ★★☆☆☆：重要但较少被用到， ★★★☆☆：解决特定问题不可或缺 ★★★★☆：主流应用，优先学习 ★★★★★：同类模块最优，或学习优先级最高从 pythoneer 到 pythonista 的100个模块 No

Spark Streaming

阅读更多关于 Spark Streaming

Spark Streaming介绍 • Spark Streaming是Spark核心API的一个扩展，可以实现高吞吐量的、具备容错机制的实时流数据的处理 • 支持多种数据源获取数据： • Spark Streaming接收Kafka、Flume、HDFS等各种来源的实时输入数据，进行处理后，处理结构保存在HDFS、DataBase等各种地方 Spark Core和Spark Streaming 两者关系： • Spark Streaming将接收到的实时流数据，按照一定时间间隔，对数据进行拆分，交给Spark Engine引擎处理，最终得到一批批的结果 • 每一批数据，在Spark内核对应一个RDD实例 • Dstream可以看做一组RDDs，即RDD的一个序列 DStream • Dstream：Spark Streaming提供了表示连续数据流的、高度抽象的被称为离散流的DStream • 任何对DStream的操作都会转变为对底层RDD的操作 • Spark Streaming程序中一般会有若干个对DStream的操作。DStreamGraph就是由这些操作的依赖关系构成 • 将连续的数据持久化、离散化，然后进行批量处理为什么？ – 数据持久化：接收到的数据暂存 – 离散化：按时间分片，形成处理单元 – 分片处理：分批处理作用Dstream上的Operation分成两类

大数据-HBase安装

阅读更多关于大数据-HBase安装

HDFS基本环境(存储) 一 . 安装JDK 解压： rmp -ivh jdk-8u171-linux-x64.rpm 配置环境变量JAVA_HOME： vi .bashrc 注意: vi .bashrc 配置当前用户的环境变量 JAVA_HOME= / usr / soft / jdk1 . 8 CLASSPATH= . PATH= $PATH : $JAVA_HOME / bin export JAVA_HOME export CLASSPATH export PATH 更新配置： source .bashrc 二 . 关闭防火墙 systemclt stop firewalld 关闭防火墙 systemclt disable firewalld 关闭开机自启三. 配置主机名和IP映射关系 vi /etc/hostname vi /etc/hosts 更改完主机名需要重启 reboot 四. 配置SSH免密码登录生成公私钥： ssh-keygen -t rsa 将公钥配置到登录机器的信任文件中： ssh-copy-id 主机名测试： ssh 主机名五. 安装hadoop 并解压注意： /soft 是我特意在 /usr 下创建放软件的目录 tar -zxvf hadoop-2.9.2.tar.gz -C /usr/soft/ 配置环境变量 HADOOP_HOME vi

Spark(一): 基本架构及原理

阅读更多关于 Spark(一): 基本架构及原理

Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架，最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一，与Hadoop和Storm等其他大数据和MapReduce技术相比，Spark有如下优势： Spark提供了一个全面、统一的框架用于管理各种有着不同性质（文本数据、图表数据等）的数据集和数据源（批量数据或实时的流数据）的大数据处理的需求官方资料介绍Spark可以将Hadoop集群中的应用在内存中的运行速度提升100倍，甚至能够将应用在磁盘上的运行速度提升10倍目标：架构及生态 spark 与 hadoop 运行流程及特点常用术语 standalone模式 yarn集群 RDD运行流程架构及生态：通常当需要处理的数据量超过了单机尺度(比如我们的计算机有4GB的内存，而我们需要处理100GB以上的数据)这时我们可以选择spark集群进行计算，有时我们可能需要处理的数据量并不大，但是计算很复杂，需要大量的时间，这时我们也可以选择利用spark集群强大的计算资源，并行化地计算，其架构示意图如下： Spark Core：包含Spark的基本功能；尤其是定义RDD的API、操作以及这两者上的动作。其他Spark的库都是构建在RDD和Spark Core之上的 Spark SQL：提供通过Apache

impala paper笔记1

阅读更多关于 impala paper笔记1

不生产博客，只是汉化别人的成果目录摘要介绍用户角度的impala 物理schema设计 sql 支持架构 state distribution catalog service impala paper的链接 http://cidrdb.org/cidr2015/Papers/CIDR15_Paper28.pdf 摘要 impala是一个现代化，开源的mpp sql引擎架构，一开始就是为了处理hadoop环境上的数据。impala提供低延迟和高并发的query对于hadoop上的BI/OLAP，不像hive那样的批处理框架，这篇paper从使用者的角度阐述impala的总体架构和组件，简要说明Impala较别的sql on hadoop的优势介绍 impala是开源的，最先进的mpp sql引擎，与hdaoop高度集成，高伸缩、高灵活。impala的目的是结合sql支持与传统数据库的多用户高性能(高并发)在hadoop上不像别的系统，eg:postgre，impala是一个全新的引擎，由c++和java编写，拥有像hadoop一样的灵活性通过结合一些组件，eg:hdfs、hbase、hive metastore等等，并且能够读取常用的存储格式数据，eg:parquet、rcfile、avro等，为了降低延迟，没有使用类似mapreduce和远程拉取数据

Spark调优指南

阅读更多关于 Spark调优指南

Spark相关问题 Spark 比 MR 快的原因？ 1) Spark 的计算结果可以放入内存，支持基于内存的迭代， MR 不支持。 2) Spark 有 DAG 有向无环图，可以实现 pipeline 的计算模式。 3) 资源调度模式： Spark 粗粒度资源调度， MR 是细粒度资源调度。资源复用： Spark 中的 task 可以复用同一批 Executor 的资源。 MR 里面每一个 map task 对应一个 jvm ，不能复用资源。 Spark 中主要进程的作用？ Driver 进程：负责任务的分发和结果的回收。 Executor 进程：负责具体任务的执行。 Master 进程： Spark 资源管理的主进程，负责资源调度。 Worker 进程： Spark 资源管理的从进程， woker 节点主要运行 Executor Spark调优 1. 资源调优 1) .搭建Spark集群的时候要给Spark集群足够的资源（core，memory）在 spark安装包的conf下spark-env.sh SPARK_WORKER_CORES SPARK_WORKER_MEMORY SPARK_WORKER_INSTANCE 2) .在提交Application的时候给Application分配更多的资源。提交命令选项：（在提交 Application的时候使用选项） -

Hadoop分布式文件系统之HDFS

阅读更多关于 Hadoop分布式文件系统之HDFS

转自： https://blog.csdn.net/bingduanlbd/article/details/51914550#t24 1. 介绍在现代的企业环境中，单机容量往往无法存储大量数据，需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统。而一旦在系统中，引入网络，就不可避免地引入了所有网络编程的复杂性，例如挑战之一是如果保证在节点不可用的时候数据不丢失。传统的网络文件系统（NFS）虽然也称为分布式文件系统，但是其存在一些限制。由于NFS中，文件是存储在单机上，因此无法提供可靠性保证，当很多客户端同时访问NFS Server时，很容易造成服务器压力，造成性能瓶颈。另外如果要对NFS中的文件中进行操作，需要首先同步到本地，这些修改在同步到服务端之前，其他客户端是不可见的。某种程度上，NFS不是一种典型的分布式系统，虽然它的文件的确放在远端（单一）的服务器上面。从NFS的协议栈可以看到，它事实上是一种VFS（操作系统对文件的一种抽象）实现。 HDFS，是Hadoop Distributed File System的简称，是Hadoop抽象文件系统的一种实现。Hadoop抽象文件系统可以与本地系统、Amazon S3等集成，甚至可以通过Web协议（webhsfs）来操作。HDFS的文件分布在集群机器上，同时提供副本进行容错及可靠性保证

订阅数据处理