数据处理 | 易学教程

大数据架构师从入门到精通，该具备怎么样的知识体系？

阅读更多关于大数据架构师从入门到精通，该具备怎么样的知识体系？

经常有初学者在博客和QQ问我，自己想往大数据方向发展，该学哪些技术，学习路线是什么样的，觉得大数据很火，就业很好，薪资很高。如果自己很迷茫，为了这些原因想往大数据方向发展，也可以，那么我就想问一下，你的专业是什么，对于计算机/软件，你的兴趣是什么？是计算机专业，对操作系统、硬件、网络、服务器感兴趣？是软件专业，对软件开发、编程、写代码感兴趣？还是数学、统计学专业，对数据和数字特别感兴趣。其实这就是想告诉你的大数据的三个发展方向，平台搭建/优化/运维/监控、大数据开发/ 设计/ 架构、数据分析/挖掘。请不要问我哪个容易，哪个前景好，哪个钱多。先扯一下大数据的4V特征：数据量大，TB->PB 数据类型繁多，结构化、非结构化文本、日志、视频、图片、地理位置等；商业价值高，但是这种价值需要在海量数据之上，通过数据分析与机器学习更快速的挖掘出来；处理时效性高，海量数据的处理需求不再局限在离线计算当中。现如今，正式为了应对大数据的这几个特点，开源的大数据框架越来越多，越来越强，先列举一些常见的：文件存储： Hadoop HDFS、Tachyon、KFS 离线计算： Hadoop MapReduce、Spark 流式、实时计算： Storm、Spark Streaming、S4、Heron K-V、NOSQL数据库： HBase、Redis、MongoDB 资源管理：

hive，安装与使用

阅读更多关于 hive，安装与使用

@@ 对hive的自我见解 hive，安装与使用本文开始介绍hive的一些基本使用及功能，之中包含了本猿在使用过程中的踩的一些坑，希望大家能批评指出不足，谢谢一.Hive 安装环境准备 1.Hive 安装地址 1）Hive 官网地址： http://hive.apache.org/ 2）文档查看地址： https://cwiki.apache.org/confluence/display/Hive/GettingStarted 3）下载地址： http://archive.apache.org/dist/hive/ 4）github 地址： https://github.com/apache/hive 2.Hive 安装部署 1）Hive 安装及配置（1）把 apache-hive-1.2.1-bin.tar.gz 上传到 linux 的/opt/software 目录下（2）解压 apache-hive-1.2.1-bin.tar.gz 到/opt/module/目录下面 [hadoop102 software]$ tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /opt/module/ （3）修改 apache-hive-1.2.1-bin.tar.gz 的名称为 hive [hadoop102 module]$ mv apache

Kafka学习笔记4 Kafka安装

阅读更多关于 Kafka学习笔记4 Kafka安装

正文回到顶部一、下载下载地址： http://kafka.apache.org/downloads.html http://mirrors.hust.edu.cn/apache/ 回到顶部二、安装前提（zookeeper安装）参考 http://www.cnblogs.com/qingyunzong/p/8634335.html#_label4_0 回到顶部三、安装此处使用版本为kafka_2.11-0.8.2.0.tgz 2.1　上传解压缩 [hadoop@hadoop1 ~]$ tar -zxvf kafka_2.11-0.8.2.0.tgz -C apps [hadoop@hadoop1 ~]$ cd apps/ [hadoop@hadoop1 apps]$ ln -s kafka_2.11-0.8.2.0/ kafka 2.2　修改配置文件进入kafka的安装配置目录 [hadoop@hadoop1 ~]$ cd apps/kafka/config/ 主要关注： server.properties 这个文件即可，我们可以发现在目录下：有很多文件，这里可以发现有Zookeeper文件，我们可以根据Kafka内带的zk集群来启动，但是建议使用独立的zk集群 server.properties（ broker.id和host.name每个节点都不相同） /

R语言数据处理常用函数

阅读更多关于 R语言数据处理常用函数

一.向量相关函数 is.na-判断空值关键词：空值 is.na(x) x:向量 > test =c('Hello', 'World',NA, 1, 2, 3) > is.na(test) [1] FALSE FALSE TRUE FALSE FALSE FALSE > > test[! is.na(test)] #去除test中NA值 [1] "Hello" "World" "1" "2" "3" union-计算并集关键词：并集 union(x,y) x, y:向量 > union(1:4,2:5) [1] 1 2 3 4 5 > union(1:4,8:10) [1] 1 2 3 4 8 9 10 Tips: union 只可以处理俩个向量，那如何计算多个向量的并集呢？ > union(1:4,union(2:5,8:10)) [1] 1 2 3 4 5 8 9 10 这个例子是想强调：函数是可以叠加的，不同函数之间也是如此 intersect-计算交集关键词：交集 intersect(x,y) x, y:向量 > intersect(1:4,2:5) [1] 2 3 4 > intersect(1:4,8:10) integer(0) # 表示没有并集 Tips：先求并集，再求交集 > intersect(1:4,union(2:5,8:10)) [1] 2 3 4

揭开Spark的前世今生

阅读更多关于揭开Spark的前世今生

一.了解spark **Apache Spark™**是用于大规模数据处理的统一分析引擎。 Apache Spark™ is a unified analytics engine for large-scale data processing. spark，快速、通用，可扩展数据分引擎：二.Spark的诞生史 2009伯克利大学诞生 2010开源 2013年6月成为apache的孵化项目 2014年2月正式成为apache的顶级的项目三.Spark框架里面的组成 Spark Core：最核心，最重要的 Spark SQL：类似hive的，一般用来离线数据处理 Spark Streaming：做实时计算 Spark MLlib：数据分析，建模 Spark Graphx ：图计算四.Spark特点：速度： spark和Hadoop的却别是什么？ spark和mapreduce：为什么spark的速度快 spark是基于内存计算，spark不落盘，而mapreduce要经过六次落盘易用：Scala、Java、python、R、SQL 统一的：sparkSQL，Spark Streaming、spark Mllib (可以用同一集群，便于维护) 兼容性：五.Spark官网： Spark闪电般的统一分析引擎速度运行工作负载的速度提高了100倍。

Hadoop杂记

阅读更多关于 Hadoop杂记

Hadoop杂记 namenode（hdfs）+jobtracker（mapreduce）可以放在一台机器上，datanode+tasktracker可以在一台机器上，辅助namenode要单独放一台机器，jobtracker通常情况下分区跟datanode一样(目录最好分布在不同的磁盘上，一个目录对应一个磁盘)，namenode存储目录需要格式化，datanode存储目录不需要格式化，启动时自动创建同一个datanode上的每个磁盘上的块不会重复，不同datanode之间的块才可能重复一些文件的说明： 1、dfs.hosts 记录即将作为datanode加入集群的机器列表 2、mapred.hosts 记录即将作为tasktracker加入集群的机器列表 3、dfs.hosts.exclude mapred.hosts.exclude 分别包含待移除的机器列表 4、master 记录运行辅助namenode的机器列表 5、slave 记录运行datanode和tasktracker的机器列表 6、hadoop-env.sh 记录脚本要用的环境变量，以运行hadoop 7、core-site.xml hadoop core的配置项，例如hdfs和mapreduce常用的i/o设置等 8、hdfs-site.xml hadoop守护进程的配置项，包括namenode

hadoop命令详解

阅读更多关于 hadoop命令详解

一、用户命令 1、archive命令 (1).什么是Hadoop archives? Hadoop archives是特殊的档案格式。一个Hadoop archive对应一个文件系统目录。 Hadoop archive的扩展名是*.har。Hadoop archive包含元数据(形式是_index和_masterindx)和数据文件(part-*)。_index文件包含了档案中的文件的文件名和位置信息。 (2).如何创建archive? 用法：hadoop archive -archiveName NAME <src>* <dest> 命令选项： -archiveName NAME 要创建的档案的名字。 src 源文件系统的路径名。 dest 保存档案文件的目标目录。范例：例1.将/user/hadoop/dir1和/user/hadoop/dir2归档到/user/zoo/文件系统目录下–/user/zoo/foo.har。 hadoop@ubuntu:~/ hadoop archive -archiveName foo.har /user/hadoop/dir1 /user/hadoop/dir2 /user/zoo/ 当创建archive时，源文件foo.har不会被更改或删除。 (3).如何查看archives中的文件? archive作为文件系统层暴露给外界

HBase环境搭建随记

阅读更多关于 HBase环境搭建随记

====软件版本==== jdk：jdk-8u77-linux-x64.tar.gz zookeeper：zookeeper-3.4.6.tar.gz hadoop：hadoop-2.7.4.tar.gz hbase：hbase-1.3.1-bin.tar.gz ====前提准备==== 3台vmware虚拟机（已配置无秘钥访问）其中，/etc/hosts文件内容如下： ====安装jdk==== 上传安装包，解压缩，然后配置环境变量即可。正常配置之后，在服务器任意路径执行java -version可以显示java版本。如下所示。 ====安装zookeeper==== 这里也不在过多描述，简单罗列一下配置文件。配置文件：zoo.cfg 需要分别在3个节点的，dataDir路径下生成节点的myid。启动并验证zookeeper是否正常启动命令：/home/hadmin/zookeeper-3.4.6/bin/zkServer.sh start 查看状态：/home/hadmin/zookeeper-3.4.6/bin/zkServer.sh status 启动之后，3个节点的状态分别如下： ====安装hadoop==== 因为HBase的底层是基于Hadoop的hdfs的，所以在安装HBase之前，必须要安装Hadoop，并确保hdfs正常。

Spark Streaming官方文档翻译基本概念之初始化与Dstream

阅读更多关于 Spark Streaming官方文档翻译基本概念之初始化与Dstream

Spark Streaming官方文档翻译Spark Streaming总览 Spark Streaming官方文档翻译基本概念之初始化与Dstream Spark Streaming官方文档翻译基本概念之输入数据流和接收器 Spark Streaming官方文档翻译基本概念之转换操作 Spark Streaming官方文档翻译基本概念之输出操作 Spark Streaming官方文档翻译基本概念之sql与Mllib Spark Streaming官方文档基本概念之缓存与检查点 Spark Streaming官方文档翻译基本概念之累加器、广播变量和检查点 Spark Streaming官方文档翻译Spark Streaming应用之部署，升级，监控 Spark Streaming官方文档翻译Spark Streaming性能调优 Spark Streaming官方文档翻译Spark Streaming容错 Spark Streaming官方文档翻译Spark Streaming +Kafka 集成指南 Spark Streaming官方文档翻译Spark Streaming自定义接收器基本概念接下来，我们将脱离简单的示例，并详细介绍Spark Streaming的基础知识。链接（Linking) 与Spark相似，可以通过Maven Central使用Spark

数据处理，去掉数据前后20%，然后取平均

阅读更多关于数据处理，去掉数据前后20%，然后取平均

# 没有测(0,0) # 读取文件 # 排序 # 去掉首尾20% # 取平均 # 保存数据 # 绘制图像 import numpy as np import json filter_data = 'filter_data.json' def read_uwb_data(name): x = [] f = open('UWBdata/%s.txt' % name) for i in f.readlines(): a = i.strip().split(",") x.append([float(a[-3]), float(a[-2]), float(a[-1])]) return x def takeFirst(elem): return elem[0] def sort_data(x)://按照第一个元素排序 x.sort(key=takeFirst) def delete_start_end(x): delete_length = len(x) // 5 return x[delete_length:-delete_length] def get_average(x): a = np.mean(x, axis=0) return a desk_location = [{}] for i in range(26 - 6): x = read_uwb_data(i + 7) sort

订阅数据处理