Hadoop

hadoop集群安装-环境准备

与世无争的帅哥 提交于 2020-11-26 03:27:42
hadoop集群安装-环境准备 1、打开网卡设置 vi /etc/sysconfig/network-scripts/ifcfg-eth0 将 onboot的值改为yes 2、修改主机名称 vi /etc/sysconfig/network 修改 HOSTNAME的值: 注意: 需要重启机器此值才会生效 执行重启命令: reboot 然后等待片刻,重新连接即可 3、设置固定IP 3.1、查看相关信息 安装好虚拟后在菜单栏选择编辑→ 虚拟网络编辑器,打开虚拟网络编辑器对话框,选择Vmnet8 Net网络连接方式,随意设置子网IP,点击NAT设置页面,查看子网掩码和网关,后面修改静态IP会用到: 打开控制面板: 其中: IP地址和默认网关一样,最后一位是1 ???? 查看当前IP: ( 注意:是ifconfig 不是ipconfig ) ifconfig 当前IP是: 192.168.211.128 3.2、修改ifcfg-eth0 vi /etc/sysconfig/network-scripts/ifcfg-eth0 其中: IPADDR: 执行ifconfig中得到的IP (此IP也可以自定义,如果修改IP后需要修改XShell连接地址) GATEWAY: 在NAT设置界面看见的网关IP NETMASK: 在NAT设置界面看见的子网掩码 修改完成后,重启网络服务: service

1. 大数据集群环境准备

喜夏-厌秋 提交于 2020-11-26 02:53:48
1、三台虚拟机关闭防火墙 三台机器执行以下命令(root用户来执行) service iptables stop chkconfig iptables off 2、三台机器关闭selinux vim /etc/selinux/config 3、三台机器更改主机名 vim /etc/sysconfig/network 4、三台机器做主机名与IP地址的映射 vim /etc/hosts 192.168.221.100 node01.hadoop.com node01 192.168.221.110 node02.hadoop.com node02 192.168.221.120 node03.hadoop.com node03 5、三台机器重启 reboot -h now 6、三台机器机器免密码登录 第一步:三台机器生成公钥与私钥 在三台机器执行以下命令,生成公钥与私钥 ssh-keygen -t rsa 执行该命令之后,按下三个回车即可 第二步:拷贝公钥到同一台机器 三台机器将拷贝公钥到第一台机器 三台机器执行命令: ssh-copy-id node01.hadoop.com 第三步:复制第一台机器的认证到其他机器 将第一台机器的公钥拷贝到其他机器上 在第一天机器上面指向以下命令 scp /root/.ssh/authorized_keys node02.hadoop.com:

速看!由 DevOps 到 AIOps 的运维技术精选

好久不见. 提交于 2020-11-25 16:02:30
今天跟大家分享的是由 DevOps 到 AIOps 的运维技术精选, 下拉文末获取网盘链接 1.5G 的基础架构:如何让数亿用户无缝支持 IPv6? 一、概述 二、遇到的问题点及解法 三、架构设计 四、详细实施步骤 2.大促下的运维挑战:如何抗住双 11 猫晚 一、背景 二、播前成功率改进 三、卡顿率改进 四、资源成本效能 五、重保预案及措施 六、项目总结 3.和阿里文娱学“技术资源成本管控” 一、背景 二、文娱成本管理解决办法 三、文娱成本管理收益 4.详解 Ops 智能运维机器人,故障处理又快又准! 一、背景 二、常用场景介绍 三、技术实现方式 四、总结 5.智能运维的关键:自动化应用容量管理实践 一、概述 二、技术挑战与解法 三、技术方案 四、技术细节 五、总结 点击链接获取完整文档 链接: https://pan.baidu.com/s/1fnGXpy8B_mJmjuoEhNSigQ 提取码:1si7 ※部分文章来源于网络,如有侵权请联系删除;更多文章和资料|点击后方文字直达 ↓↓↓ 100GPython自学资料包 阿里云K8s实战手册 [阿里云CDN排坑指南] CDN ECS运维指南 DevOps实践手册 Hadoop大数据实战手册 Knative云原生应用开发指南 OSS 运维实战手册 云原生架构白皮书 Zabbix企业级分布式监控系统源码文档 10G大厂面试题戳领

Netflix基于云的微服务架构设计分析

那年仲夏 提交于 2020-11-25 10:46:33
Netflix的微服务架构为其提供全球视频流服务,本篇文章将对此架构进行全面的系统设计分析。 1. 简介 Netflix多年来一直是全球最出色的在线订阅制的视频流服务之一,其占世界互联网带宽容量的15%以上。2019年,Netflix已经获得了超过1.67亿的订阅用户,每个季度新增用户超过500万,服务涵覆盖全球200多个国家或地区。更具体点说,Netflix的用户每天要花费超过1.65亿小时观看4000多部电影和47000多集电视剧。这些令人印象深刻的数据从工程设计的角度来看,Netflix的技术团队已经设计了一个惊人的视频流系统,其具有高可用性和可扩展性,以服务其全球客户。 然而,这可是其技术团队花费了超过8年的时间才将他们的IT系统升级到现在的规模。事实上,Netflix的基础架构转型始于2008年8月,触发点是当时数据中心的服务中断导致整个DVD租赁服务关闭了三天。Netflix意识到它需要一个没有单点故障的更可靠的基础架构。为此,它做出了两个重要的决定:将IT基础架构从其数据中心迁移到公有云,并使用微服务架构的小型可管理软件组件替换其单体应用程序。这两个决定直接塑造了Netflix今天的成功。 Netflix选择AWS Cloud来迁移其IT基础架构,因为AWS可以在全球范围提供高度可靠的数据库、大规模云存储和多个数据中心。通过使用AWS建立和维护的云基础架构

Redis的搭建和Redis的集群搭建

时光总嘲笑我的痴心妄想 提交于 2020-11-25 09:20:31
1、Redis的官网: https://redis.io/ Redis的测试网站: http://try.redis.io/ 2、参考博客: https://www.cnblogs.com/mafly/p/redis_cluster.html http://blog.mayongfa.cn/258.html windows安装参考: http://www.cnblogs.com/jaign/articles/7920588.html#top 3、Centos操作系统中Redis的安装: 开始使用的hadoop用户和自己指定的目录,然后出现了一些问题,最后使用了root用户进行安装,顺利安装。自己安装多小心吧。 首先下载一下Redis,详细参考 http://blog.mayongfa.cn/258.html 。 然后将redis解压缩到指定的目录,解压缩操作: 4、编译安装redis: 执行make出现错误: [hadoop@slaver1 package]$ cd ../soft/redis- 3.2 . 5 / [hadoop@slaver1 redis - 3.2 . 5 ]$ ls 00 -RELEASENOTES COPYING Makefile redis.conf runtest- sentinel tests BUGS deps MANIFESTO runtest

大数据和区块链之间的比较分析!

橙三吉。 提交于 2020-11-25 06:31:51
  大数据和区块链之间的比较分析!   大数据和区块链两者之间有个共同的关键词:分布式,代表了一种从技术权威垄断到去中心化的转变。   分布式存储:HDFS vs.区块   大数据,需要应对海量化和快增长的存储,这要求底层硬件架构和文件系统在性价比上要大大高于传统技术,能够弹性扩张存储容量。谷歌的GFS和Hadoop的HDFS奠定了大数据存储技术的基础。   另外,大数据对存储技术提出的另一个挑战是多种数据格式的适应能力,因此现在大数据底层的存储层不只是HDFS,还有HBase和Kudu等存储架构。   区块链,是比特币的底层技术架构,它在本质上是一种去中心化的分布式账本。区块链技术作为一种持续增长的、按序整理成区块的链式数据结构,通过网络中多个节点共同参与数据的计算和记录,并且互相验证其信息的有效性。   从这一点来说,区块链技术也是一种特定的数据库技术。由于去中心化数据库在安全、便捷方面的特性,很多业内人士看好其发展,认为它是对现有互联网技术的升级与补充。   分布式计算:MapReduce vs.共识机制   大数据的分析挖掘是数据密集型计算,需要巨大的分布式计算能力。节点管理、任务调度、容错和高可靠性是关键技术。   Google和Hadoop的MapReduce是这种分布式计算技术的代表,通过添加服务器节点可线性扩展系统的总处理能力(Scale Out)

速看!速看!150页spring cloud alibaba全解

梦想的初衷 提交于 2020-11-24 18:29:41
今天跟大家分享的是150页spring cloud alibaba全解, 下拉文末获取网盘链接 第一章 微服务介绍 1.1 系统架构演变 1.1.1 单体应用架构 1.1.2 垂直应用架构 1.1.3 分布式架构 1.1.4 SOA架构 1.1.5 微服务架构 1.2 微服务架构介绍 1.2.1 微服务架构的常见问题 1.2.2 微服务架构的常见概念 1.2.2.1 服务治理 1.2.2.2 服务调用 1.2.2.3 服务网关 1.2.2.4 服务容错 1.2.2.5 链路追踪 1.2.3 微服务架构的常见解决方案 1.2.3.1 ServiceComb 1.2.3.2 SpringCloud 1.2.3.3 SpringCloud Alibaba 1.3 SpringCloud Alibaba介绍 1.3.1 主要功能 1.3.2 组件 第二章 微服务环境搭建 2.1 案例准备 2.1.1 技术选型 2.1.2 模块设计 2.1.3 微服务调用 2.2 创建父工程 2.3 创建基础模块 2.4 创建用户微服务 2.5 创建商品微服务 2.6 创建订单微服务 由于文档过大,在这里只给大家展示了一部分, 点击链接获取完整文档 链接: https://pan.baidu.com/s/1bPkeS35l8D2tqqc1sor18Q 提取码:g3eq ※部分文章来源于网络

2020大数据面试题真题总结(附答案)

怎甘沉沦 提交于 2020-11-24 15:57:03
版本 更新时间 更新内容 v1.0 2020-07-01 新建 v1.1 2020-06-13 朋友面试大数据工程师提供的关于架构及数仓方面的题目 v1.2 2020-08-08 朋友面试数据专家提供的数据驱动,spark及flink方面面试题 v1.3 2020-08-22 朋友面试数据开发提供的关于hive及数仓方面的题目 一.Hadoop 1.hdfs写流程 2.hdfs读流程 3.hdfs的体系结构 4.一个datanode 宕机,怎么一个流程恢复 5.hadoop 的 namenode 宕机,怎么解决 6.namenode对元数据的管理 7.元数据的checkpoint 8.yarn资源调度流程 9.hadoop中combiner和partition的作用 10.用mapreduce怎么处理数据倾斜问题? 11.shuffle 阶段,你怎么理解的 12.Mapreduce 的 map 数量 和 reduce 数量是由什么决定的 ,怎么配置 13.MapReduce优化经验 14.分别举例什么情况要使用 combiner,什么情况不使用? 15.MR运行流程解析 16.简单描述一下HDFS的系统架构,怎么保证数据安全? 17.在通过客户端向hdfs中写数据的时候,如果某一台机器宕机了,会怎么处理 18.Hadoop优化有哪些方面 19.大量数据求topN

分布式文件存储hdfs简介及常用命令

戏子无情 提交于 2020-11-24 12:38:56
1、hdfs简介 1.1 什么是HDFS? HDFS(Hadoop Distributed File System)是hadoop生态系统的一个重要组成部分,是hadoop中的的存储组件,是最基础的一部分,MapReduce等计算模型都要依赖于存储在HDFS中的数据。HDFS是一个分布式文件系统,以流式数据访问模式存储超大文件,将数据分块存储到一个商业硬件集群内的不同机器上。 1.2 HDFS的设计目标 存储超大文件 HDFS适合存储大文件,单个文件大小通常在百MB以上 HDFS适合存储海量文件,总存储量可达PB,EB级 流式数据访问 为数据批处理而设计,关注数据访问的高吞吐量 硬件容错 基于普通机器搭建,硬件错误是常态而不是异常,因此错误检测和快速、自 动的恢复是HDFS最核心的架构目标 简单的一致性模型 一次写入,多次读取 一个文件经过创建、写入和关闭之后就不需要改变 不支持低时间延迟的数据访问 hdfs关心的是高数据吞吐量,不适合那些要求低时间延迟数据访问的应用。 本地计算 将计算移动到数据附近 1.3 HDFS的构成 数据块 文件以块为单位进行切分存储,块通常设置的比较大(最小6M,默认 128M) 块越大,寻址越快,读取效率越高,但同时由于MapReduce任务也是以 块为最小单位来处理,所以太大的块不利于于对数据的并行处理 一个文件至少占用一个块(逻辑概念) 冗余备份

MaxCompute Spark开发指南

人盡茶涼 提交于 2020-11-24 10:29:24
0. 概述 本文档面向需要使用MaxCompute Spark进行开发的用户使用。本指南主要适用于具备有Spark开发经验的开发人员。 MaxCompute Spark是MaxCompute提供的兼容开源的Spark计算服务,它在统一的计算资源和数据集权限体系之上,提供Spark计算框架,支持用户以熟悉的开发使用方式提交运行Spark作业,以满足更丰富的数据处理分析场景。 本文将重点介绍MaxCompute Spark能够支撑的应用场景,同时说明开发的依赖条件和环境准备,重点对Spark作业开发、提交到MaxCompute集群执行、诊断进行介绍。 1. 前提条件 MaxCompute Spark是阿里云提供的Spark on MaxCompute的解决方案,能够让Spark应用运行在托管的MaxCompute计算环境中。为了能够在MaxCompute环境中安全地运行Spark作业,MaxCompute提供了以下SDK和MaxCompute Spark定制发布包。 SDK定位于开源应用接入MaxCompute SDK: 提供了集成所需的API说明以及相关功能Demo,用户可以基于项目提供的Spark-1.x以及Spark-2.x的example项目构建自己的应用,并且提交到MaxCompute集群上。 MaxCompute Spark客户端发布包: