Hadoop

hadoop、hbase、zookeeper环境搭建

谁都会走 提交于 2020-10-31 09:53:50
一 机器 192.168.0.203 hd203: hadoop namenode & hbase HMaster 192.168.0.204 hd204: hadoop datanode & hbase HRegionServer & zookeeper 192.168.0.205 hd205: hadoop datanode & hbase HRegionServer & zookeeper 192.168.0.206 hd206: hadoop datanode & hbase HRegionServer & zookeeper 192.168.0.202 hd202: hadoop second namenode & hbase HMaster 共 5 台机器 (生产环境需要把zookeeper单独安装) 二 操作系统和软件版本 1 操作系统:CentOS release 5.6 (Final)x64,关闭防火墙 2 相关软件: jdk-6u24-linux-x64.bin hadoop-0.20.2-cdh3u0.tar.gz hbase-0.90.1-cdh3u0.tar.gz zookeeper-3.3.3-cdh3u0.tar.gz 三 安装 1 安装jdk (所有机器) mkdir /usr/java mv jdk-6u24-linux-x64.bin /usr

zookeeper和hbase集群搭建

点点圈 提交于 2020-10-31 07:54:41
zookeeper与hbase分布式搭建 zookeeper集群 1.zookeeper,故名思意,就是动物园管理员的意思,Hadoop生态里面的东西基本上都是一些小动物的昵称,所以,就这么来了 这里接前篇的Hadoop分布式搭建,所有平台都搭建在/root/app目录下 (千万别学我用根用户弄,我是为了懒得敲sudo) 我们将下载的zookeeper安装包上传至虚拟机中,然后解压 tar -zxvf zookeeper-3.4.10.tar.gz 解压好了之后,我们建立两个文件夹,一个是zkdata,一个是zkdatalog mkdir zkdata # 数据 mkdir zkdatalog # 日志 2.我们cd进conf文件夹下,配置zoo.cfg文件,然这个文件夹里只有个叫zoo_sample.cfg(~废话,重命名啊~) 修改如下图所示: 其实也就是这些参数,有几个不用改。 tickTime=2000 initLimit=10 syncLimit=5 dataDir=/root/app/zookeeper-3.4.10/zkdata clientPort=2181 dataLogDir=/root/app/zookeeper-3.4.10/zkdatalog server.1=master:2888:3888 server.2=slave1:2888:3888

Flink DataStream编程指南

℡╲_俬逩灬. 提交于 2020-10-31 06:34:10
Flink 程序是执行分布式集合转换 ( 例如, filtering, mapping, updating state, joining, grouping, defining windows, aggregating) 的常规程序。集合创建于原始的数据源 ( 例如,通过从文件读取, kafka 主题或从本地内存集合中进行创建 ) 。通过 sinks 返回结果,例如将数据写入(分布式)文件或标准输出 ( 例如,命令行终端 ) 。 Flink 程序以各种上下文运行,独立或嵌入其他程序中。执行可能发生在本地 JVM 或许多机器的集群上。取决于数据源的类型,即有界或无界源,您将编写批处理程序或流式程序,其中 DataSet API 用于批处理, DataStream API 用于流式传输。 一, DataSet and DataStream Flink 有一个特殊的类 DataSet 和 DataStream 来表示程序中的数据。您可以将它们视为不可变的数据集合,可以包含重复的数据。在 DataSet 的情况下,数据是有限的,而对于 DataStream ,元素的数量可以是无限制的。 这些集合在一些关键方面与常规 Java 集合不同。 首先,它们是不可变的,这意味着一旦创建它们就不能添加或删除元素。 你也不能简单地检查里面的元素。 最初通过在 Flink 程序中添加一个源来创建一个集合

Hadoop集群搭建

六眼飞鱼酱① 提交于 2020-10-31 00:38:29
1、 安装虚拟机 虚拟机: VMware-workstation 11.0.0 操作系统: CentOS-6.5 64 位 2、 安装 Xmanager 版本: Xmanager-v5.0.0 ,完成安装后,使用 Xshell 连接 linux 虚拟机,连接成功。 往虚拟机里拉文件比较方便,但是当虚拟机网络连接改为桥接模式后变不能使用这个了。 3、 创建用户组和用户 创建用户组: groupadd hadoop 添加用户: useradd hadoop -g hadoop 4、 安装 jdk a )安装包: jdk-7u21-linux-i586.tar.gz( 不推荐使用 rpm 格式 ) b )解压到 /opt 文件目录: tar -zxvf jdk-7u21-linux-i586.tar.gz -C /opt c )改名为 java : mv jdk1.7.0_21 java d )配置环境变量: vi /etc/profile ,添加如下内容 export JAVA_HOME=/opt/java exprot PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH e )使配置文件立即生效: source /etc/profile f )设置所有者为 hadoop : chown -R hadoop:hadoop java/ 5、 安装

只需15分钟!阿里教你开发视觉AI应用!(附网盘链接)

纵然是瞬间 提交于 2020-10-30 17:00:38
今天分享给大家的是阿里15分钟教你开发视觉AI应用, 文末有网盘链接 一、视觉开放平台简介 二、开发前准备 步骤一:开通阿里云视觉智能开放平台 步骤二:开通OSS服务 步骤三:创建密钥并安装Java SDK 三、人脸识别实战教程 1.背景信息 2.前提条件 3.人脸属性识别 4.人体计数 5.人脸搜索 四、口罩识别实战教程 1.前提条件 2.人脸搜索 五 、图片内容安全实战教程 1.背景信息 2.前提条件 3.图片内容安全 点击链接获取完整文档 链接: https://pan.baidu.com/s/1JcIPIco29xxLrm2xV_m_Jg 提取码:p19a ※部分文章来源于网络,如有侵权请联系删除;更多文章和资料|点击后方文字直达 ↓↓↓ 100GPython自学资料包 阿里云K8s实战手册 [阿里云CDN排坑指南] CDN ECS运维指南 DevOps实践手册 Hadoop大数据实战手册 Knative云原生应用开发指南 OSS 运维实战手册 云原生架构白皮书 Zabbix企业级分布式监控系统源码文档 10G大厂面试题戳领 来源: oschina 链接: https://my.oschina.net/u/4601114/blog/4696362

最实用!阿里运维指南之Linux系统诊断(附网盘链接)

社会主义新天地 提交于 2020-10-30 16:21:20
今天跟大家分享的是阿里内部关于运维的Linux的系统诊断案例分析, 文末获取网盘链接 一、Linux 启动与登录问题 1.超详细系统启动与登陆异常排查点 2.grub.conf 文件内容被清空了怎么办 3.巧妙利用 strace 查找丢失的文件 4.小心 PAM 不让你登录 5.CentOS 登录卡住的原因被我找到了 二、Linux 性能问题 1.找到 Linux 虚机 Load 高的“元凶” 2.OOM killer 是被谁触发的 3.我的服务器内存去哪儿了 4.CPU 占用不高但网络性能很差的一个原因 5.一次 IO 异常捕获过程 三、Linux 主机网络问题 1.ifdown ifup 命令丢失处理 2.网络不通? strace 二度出手 3.TIME_WAIT & CLOSE_WAIT 的讨论总结 4.一次网络抖动经典案例分析 四、Linux 系统服务与参数问题 1.4 个 limits 生效的问题 2.6 步排查 ss& netstat 统计结果不一样的原因 3.为什么明明内存很充足但是 java 程序仍申请不到内存 4.请不要忽略 min_free_kbytes 的设置 五、最后的彩蛋 某地区口罩项目架构演进及优化经验 点击链接获取全文 链接: https://pan.baidu.com/s/1S9xoEU72wIVEN_42KkMgpA 提取码:do8d

云原生数据湖解决方案打破数据孤岛,大数据驱动互娱行业发展

随声附和 提交于 2020-10-30 11:41:02
简介: 数据湖是以集中、统一方式存储各种类型数据,数据湖可以与多种计算引擎直接对接,我们使用OSS作为数据湖底座,数据统一存储在OSS中,有效消除了数据孤岛现象,多种计算与处理分析引擎能够直接对存储在数据湖中的数据进行处理与分析,避免数据在不同引擎中反复复制,减少了不必要的资源损耗。 行业综述 全民娱乐时代,网络互娱市场持续保持高速增长 随着互联网的普及以及技术的发展,互联网娱乐行业的发展也日渐成熟。从早期单一门户网站,到个人博客的流行,再到视频网站的壮大。以及这两年层出不穷的短视频、直播、资讯平台等,网络娱乐行业的发展也正在从内容为王,开始往大数据驱动内容创新与推广的方向进行发展。 随着生活条件的变好,人们进入了娱乐即生活,生活即娱乐的时代。如同互联网时代到来引爆信息爆炸一样,互联网娱乐的兴起和发展同样有爆发力。据统计,截至2019年6月,我国网络直播用户规模达4.33亿,较2018年底增长3646万。而网络视频的用户更是达到7.59亿,较2018年底增长3391万。 尤其是在15年前后,随着4G的普及以及智能机的大众化,互联网娱乐行业迎来了一次流量红利时期,在这个时期,各种资讯、视频、直播、社交等软件如雨后春笋般冒出,大量的用户开始涌入。在当时只要是有稍微优质的内容输出,就能为作者或是整个平台带来巨大的流量。 行业发展方向 流量红利消失,用户增长陷入瓶颈 但是到了2020年

【2020-10-28】加油打工人

百般思念 提交于 2020-10-30 08:52:16
我的大学 普通二本,电子信息工程专业,没的说,学不到啥东西,考试真的很水,一学期不听课,期末复习都能考个七八十,运气好还能上9,比起辛辛苦苦听课也考九十几得我来说不值一提。 培训班千万别去,他只是一个监督你学习的地方,你连自己都监督不了,怎么可能学的好呢? 做了两年竞赛,省一二三都拿过,你要是找专业对口的工作还有点用。 大三觉得自己专业没出路,自己学了java、mysql、大数据框架(hadoop、hive、flume、hbase、spark、flink),大数据这东西还挺吃香,但是你没有实际的项目经验,做的网上的小玩意,工作还是很难找的,不过你要是深入了解并且懂了,那么你就是大佬。 大四上做了毕设,下学期去实习了。 其他同学考研、考公、找工作的、还有去当兵的。 真想念那些日子,即使在实习,也每周五坐夜车回去学校跟他们一起看LPL,那时候还没有轻轨,做的大巴,一躺就要一个半小时,顺便在车上给爸妈打电话。 杭漂人 今年刚毕业,普通二本,很后悔当初没有考研,直到找工作跟你谈薪资的时候,看到是普通本 科的,直接给你刷掉2-3K,很现实的一个东西。 有两段实习经历,去年十月份开始的,到现在有一年多的工作经验了 ,第一次实习坎坎坷坷,做的是数据仓库的东西,应为是实习生,干的都是一些体力活,偶尔加一点脑力的,所以做了两个多月,就走人了,也没学到啥东西。 第二段实习,就是我现在做的工作

Hadoop 学习笔记 05 之 MapReduce 浅析

本小妞迷上赌 提交于 2020-10-30 07:37:43
阅读文本大概需要 4 分钟。 简介: 每一项新技术都是为了解决某个痛点,随着数据量指数型得增长,面对海量的数据技术,虽然存储用 Hadoop 的 HDFS 文件系统解决,但没初加工的数据如同一堆刚从矿场运出来的矿砂,价值度低。 那么该如何处理海量的数据呢,比如分析某个时间段订单量 / 某个地区的几十年的温度?为了解决这个问题,不得不介绍 Map reduce 这个框架。 一 、Mapreduce 简单介绍 官话: MapReduce 是一个分布式计算模型框架,由两个阶段组成:Map和Reduce。 主要用于搜索领域,解决海量数据的计算问题,只需要实现 Map() 和 Reduce() 两个函数即可。 通俗理解: 好比家里一堆家务活,全部给一个人做可能一整天都弄不完,于是分工,老二(Map)负责清洗碗筷,老幺(Map)负责拖地,于是很快就搞定了;老大负责检查(Reduce 汇总)。这就是MapReduce 把任务分解再汇总。 二、Mapreduce 工作(流程)原理 我分两个版本解读,第一个是正式版,第二个是故事版 正式版例子 (中文版) (英文版) 粗略的讲,MapReduce 的工作流程分为: map task ( Map 任务) 与 reduce task (Reduce 任务)。 map task: 1、把一个(或多个)需要处理的文件(block) 按 spill

本文将大数据学习门槛降到了地平线

做~自己de王妃 提交于 2020-10-30 07:16:06
Hadoop介绍 Hadoop-大数据开源世界的亚当夏娃。 核心是HDFS数据存储系统,和MapReduce分布式计算框架。 HDFS 原理是把大块数据切碎, 每个碎块复制三份,分开放在三个廉价机上,一直保持有三块可用的数据互为备份。使用的时候只从其中一个备份读出来,这个碎块数据就有了。 存数据的叫datenode(格子间),管理datenode的叫namenode(执伞人)。 MapReduce 原理是大任务先分堆处理-Map,再汇总处理结果-Reduce。分和汇是多台服务器并行进行,才能体现集群的威力。难度在于如何把任务拆解成符合MapReduce模型的分和汇,以及中间过程的输入输出<k,v> 都是什么。 单机版Hadoop介绍 对于学习hadoop原理和hadoop开发的人来说,搭建一套hadoop系统是必须的。但 配置该系统是非常头疼的,很多人配置过程就放弃了。 没有服务器供你使用 这里介绍一种 免配置的单机版 hadoop安装使用方法,可以简单快速的跑一跑hadoop例子辅助学习、开发和测试。 要求笔记本上装了Linux虚拟机,虚拟机上装了docker。 安装 使用docker下载sequenceiq/hadoop-docker:2.7.0镜像并运行。 [root@bogon ~]# docker pull sequenceiq/hadoop-docker:2.7.0 2