数据处理

大数据架构师从入门到精通,该具备怎么样的知识体系?

不羁的心 提交于 2020-01-14 14:19:27
经常有初学者在博客和QQ问我,自己想往大数据方向发展,该学哪些技术,学习路线是什么样的,觉得大数据很火,就业很好,薪资很高。如果自己很迷茫,为了这些原因想往大数据方向发展,也可以,那么我就想问一下,你的专业是什么,对于计算机/软件,你的兴趣是什么?是计算机专业,对操作系统、硬件、网络、服务器感兴趣?是软件专业,对软件开发、编程、写代码感兴趣?还是数学、统计学专业,对数据和数字特别感兴趣。 其实这就是想告诉你的大数据的三个发展方向,平台搭建/优化/运维/监控、大数据开发/ 设计/ 架构、数据分析/挖掘。请不要问我哪个容易,哪个前景好,哪个钱多。 先扯一下大数据的4V特征: 数据量大 ,TB->PB 数据类型繁多 ,结构化、非结构化文本、日志、视频、图片、地理位置等; 商业价值高 ,但是这种价值需要在海量数据之上,通过数据分析与机器学习更快速的挖掘出来; 处理时效性高 ,海量数据的处理需求不再局限在离线计算当中。 现如今,正式为了应对大数据的这几个特点,开源的大数据框架越来越多,越来越强,先列举一些常见的: 文件存储: Hadoop HDFS、Tachyon、KFS 离线计算: Hadoop MapReduce、Spark 流式、实时计算: Storm、Spark Streaming、S4、Heron K-V、NOSQL数据库: HBase、Redis、MongoDB 资源管理:

hive,安装与使用

喜欢而已 提交于 2020-01-13 17:13:58
@@ 对hive的自我见解 hive,安装与使用 本文开始介绍hive的一些基本使用及功能,之中包含了本猿在使用过程中的踩的一些坑,希望大家能批评指出不足,谢谢 一.Hive 安装环境准备 1.Hive 安装地址 1)Hive 官网地址: http://hive.apache.org/ 2)文档查看地址: https://cwiki.apache.org/confluence/display/Hive/GettingStarted 3)下载地址: http://archive.apache.org/dist/hive/ 4)github 地址: https://github.com/apache/hive 2.Hive 安装部署 1)Hive 安装及配置 (1)把 apache-hive-1.2.1-bin.tar.gz 上传到 linux 的/opt/software 目录下 (2)解压 apache-hive-1.2.1-bin.tar.gz 到/opt/module/目录下面 [hadoop102 software]$ tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /opt/module/ (3)修改 apache-hive-1.2.1-bin.tar.gz 的名称为 hive [hadoop102 module]$ mv apache

Kafka学习笔记4 Kafka安装

江枫思渺然 提交于 2020-01-13 15:39:33
正文 回到顶部 一、下载 下载地址: http://kafka.apache.org/downloads.html http://mirrors.hust.edu.cn/apache/ 回到顶部 二、安装前提(zookeeper安装) 参考 http://www.cnblogs.com/qingyunzong/p/8634335.html#_label4_0 回到顶部 三、安装 此处使用版本为kafka_2.11-0.8.2.0.tgz 2.1 上传解压缩 [hadoop@hadoop1 ~]$ tar -zxvf kafka_2.11-0.8.2.0.tgz -C apps [hadoop@hadoop1 ~]$ cd apps/ [hadoop@hadoop1 apps]$ ln -s kafka_2.11-0.8.2.0/ kafka 2.2 修改配置文件 进入kafka的安装配置目录 [hadoop@hadoop1 ~]$ cd apps/kafka/config/ 主要关注: server.properties 这个文件即可,我们可以发现在目录下: 有很多文件,这里可以发现有Zookeeper文件,我们可以根据Kafka内带的zk集群来启动,但是建议使用独立的zk集群 server.properties( broker.id和host.name每个节点都不相同 ) /

R语言数据处理常用函数

荒凉一梦 提交于 2020-01-13 07:05:01
一.向量相关函数 is.na-判断空值 关键词:空值 is.na(x) x:向量 > test =c('Hello', 'World',NA, 1, 2, 3) > is.na(test) [1] FALSE FALSE TRUE FALSE FALSE FALSE > > test[! is.na(test)] #去除test中NA值 [1] "Hello" "World" "1" "2" "3" union-计算并集 关键词: 并集 union(x,y) x, y:向量 > union(1:4,2:5) [1] 1 2 3 4 5 > union(1:4,8:10) [1] 1 2 3 4 8 9 10 Tips: union 只可以处理俩个向量,那如何计算多个向量的并集呢? > union(1:4,union(2:5,8:10)) [1] 1 2 3 4 5 8 9 10 这个例子是想强调:函数是可以叠加的,不同函数之间也是如此 intersect-计算交集 关键词: 交集 intersect(x,y) x, y:向量 > intersect(1:4,2:5) [1] 2 3 4 > intersect(1:4,8:10) integer(0) # 表示没有并集 Tips:先求并集,再求交集 > intersect(1:4,union(2:5,8:10)) [1] 2 3 4

揭开Spark的前世今生

旧街凉风 提交于 2020-01-13 05:35:19
一.了解spark **Apache Spark™**是用于大规模数据处理的统一分析引擎。 Apache Spark™ is a unified analytics engine for large-scale data processing. spark, 快速 、 通用 , 可扩展数据分引擎 : 二.Spark的诞生史 2009伯克利大学诞生 2010开源 2013年6月成为apache的孵化项目 2014年2月正式成为apache的顶级的项目 三.Spark框架里面的组成 Spark Core: 最核心,最重要的 Spark SQL: 类似hive的,一般用来离线数据处理 Spark Streaming: 做实时计算 Spark MLlib: 数据分析,建模 Spark Graphx :图计算 四.Spark特点: 速度: spark和Hadoop的却别是什么? spark和mapreduce:为什么spark的速度快 spark是基于内存计算,spark不落盘,而mapreduce要经过六次落盘 易用 :Scala、Java、python、R、SQL 统一的 :sparkSQL,Spark Streaming、spark Mllib (可以用同一集群,便于维护) 兼容性 : 五.Spark官网: Spark闪电般的统一分析引擎 速度 运行工作负载的速度提高了100倍。

Hadoop杂记

自闭症网瘾萝莉.ら 提交于 2020-01-12 08:19:02
Hadoop杂记 namenode(hdfs)+jobtracker(mapreduce)可以放在一台机器上,datanode+tasktracker可以在一台机器上,辅助namenode要单独放一台机器,jobtracker通常情况下分区跟datanode一样(目录最好分布在不同的磁盘上,一个目录对应一个磁盘),namenode存储目录需要格式化,datanode存储目录不需要格式化,启动时自动创建 同一个datanode上的每个磁盘上的块不会重复,不同datanode之间的块才可能重复 一些文件的说明: 1、dfs.hosts 记录即将作为datanode加入集群的机器列表 2、mapred.hosts 记录即将作为tasktracker加入集群的机器列表 3、dfs.hosts.exclude mapred.hosts.exclude 分别包含待移除的机器列表 4、master 记录运行辅助namenode的机器列表 5、slave 记录运行datanode和tasktracker的机器列表 6、hadoop-env.sh 记录脚本要用的环境变量,以运行hadoop 7、core-site.xml hadoop core的配置项,例如hdfs和mapreduce常用的i/o设置等 8、hdfs-site.xml hadoop守护进程的配置项,包括namenode

hadoop命令详解

谁说胖子不能爱 提交于 2020-01-12 07:32:02
一、用户命令 1、archive命令 (1).什么是Hadoop archives? Hadoop archives是特殊的档案格式。一个Hadoop archive对应一个文件系统目录。 Hadoop archive的扩展名是*.har。Hadoop archive包含元数据(形式是_index和_masterindx)和数据文件(part-*)。_index文件包含了档案中的文件的文件名和位置信息。 (2).如何创建archive? 用法:hadoop archive -archiveName NAME <src>* <dest> 命令选项: -archiveName NAME 要创建的档案的名字。 src 源文件系统的路径名。 dest 保存档案文件的目标目录。 范例: 例1.将/user/hadoop/dir1和/user/hadoop/dir2归档到/user/zoo/文件系统目录下–/user/zoo/foo.har。 hadoop@ubuntu:~/ hadoop archive -archiveName foo.har /user/hadoop/dir1 /user/hadoop/dir2 /user/zoo/ 当创建archive时,源文件foo.har不会被更改或删除。 (3).如何查看archives中的文件? archive作为文件系统层暴露给外界

HBase环境搭建随记

别等时光非礼了梦想. 提交于 2020-01-12 06:41:28
====软件版本==== jdk:jdk-8u77-linux-x64.tar.gz zookeeper:zookeeper-3.4.6.tar.gz hadoop:hadoop-2.7.4.tar.gz hbase:hbase-1.3.1-bin.tar.gz ====前提准备==== 3台vmware虚拟机(已配置无秘钥访问) 其中,/etc/hosts文件内容如下: ====安装jdk==== 上传安装包,解压缩,然后配置环境变量即可。 正常配置之后,在服务器任意路径执行java -version可以显示java版本。如下所示。 ====安装zookeeper==== 这里也不在过多描述,简单罗列一下配置文件。 配置文件:zoo.cfg 需要分别在3个节点的,dataDir路径下生成节点的myid。 启动并验证zookeeper是否正常 启动命令:/home/hadmin/zookeeper-3.4.6/bin/zkServer.sh start 查看状态:/home/hadmin/zookeeper-3.4.6/bin/zkServer.sh status 启动之后,3个节点的状态分别如下: ====安装hadoop==== 因为HBase的底层是基于Hadoop的hdfs的,所以在安装HBase之前,必须要安装Hadoop,并确保hdfs正常。

Spark Streaming官方文档翻译基本概念之初始化与Dstream

家住魔仙堡 提交于 2020-01-12 01:50:57
Spark Streaming官方文档翻译Spark Streaming总览 Spark Streaming官方文档翻译基本概念之初始化与Dstream Spark Streaming官方文档翻译基本概念之输入数据流和接收器 Spark Streaming官方文档翻译基本概念之转换操作 Spark Streaming官方文档翻译基本概念之输出操作 Spark Streaming官方文档翻译基本概念之sql与Mllib Spark Streaming官方文档基本概念之缓存与检查点 Spark Streaming官方文档翻译基本概念之累加器、广播变量和检查点 Spark Streaming官方文档翻译Spark Streaming应用之部署,升级,监控 Spark Streaming官方文档翻译Spark Streaming性能调优 Spark Streaming官方文档翻译Spark Streaming容错 Spark Streaming官方文档翻译Spark Streaming +Kafka 集成指南 Spark Streaming官方文档翻译Spark Streaming自定义接收器 基本概念 接下来,我们将脱离简单的示例,并详细介绍Spark Streaming的基础知识。 链接(Linking) 与Spark相似,可以通过Maven Central使用Spark

数据处理,去掉数据前后20%,然后取平均

老子叫甜甜 提交于 2020-01-12 01:47:49
# 没有测(0,0) # 读取文件 # 排序 # 去掉首尾20% # 取平均 # 保存数据 # 绘制图像 import numpy as np import json filter_data = 'filter_data.json' def read_uwb_data(name): x = [] f = open('UWBdata/%s.txt' % name) for i in f.readlines(): a = i.strip().split(",") x.append([float(a[-3]), float(a[-2]), float(a[-1])]) return x def takeFirst(elem): return elem[0] def sort_data(x)://按照第一个元素排序 x.sort(key=takeFirst) def delete_start_end(x): delete_length = len(x) // 5 return x[delete_length:-delete_length] def get_average(x): a = np.mean(x, axis=0) return a desk_location = [{}] for i in range(26 - 6): x = read_uwb_data(i + 7) sort