HDFS

云原生数据湖解决方案打破数据孤岛,大数据驱动互娱行业发展

我与影子孤独终老i 提交于 2020-10-31 17:39:39
简介: 数据湖是以集中、统一方式存储各种类型数据,数据湖可以与多种计算引擎直接对接,我们使用OSS作为数据湖底座,数据统一存储在OSS中,有效消除了数据孤岛现象,多种计算与处理分析引擎能够直接对存储在数据湖中的数据进行处理与分析,避免数据在不同引擎中反复复制,减少了不必要的资源损耗。 行业综述 全民娱乐时代,网络互娱市场持续保持高速增长 随着互联网的普及以及技术的发展,互联网娱乐行业的发展也日渐成熟。从早期单一门户网站,到个人博客的流行,再到视频网站的壮大。以及这两年层出不穷的短视频、直播、资讯平台等,网络娱乐行业的发展也正在从内容为王,开始往大数据驱动内容创新与推广的方向进行发展。 随着生活条件的变好,人们进入了娱乐即生活,生活即娱乐的时代。如同互联网时代到来引爆信息爆炸一样,互联网娱乐的兴起和发展同样有爆发力。据统计,截至2019年6月,我国网络直播用户规模达4.33亿,较2018年底增长3646万。而网络视频的用户更是达到7.59亿,较2018年底增长3391万。 尤其是在15年前后,随着4G的普及以及智能机的大众化,互联网娱乐行业迎来了一次流量红利时期,在这个时期,各种资讯、视频、直播、社交等软件如雨后春笋般冒出,大量的用户开始涌入。在当时只要是有稍微优质的内容输出,就能为作者或是整个平台带来巨大的流量。 行业发展方向 流量红利消失,用户增长陷入瓶颈 但是到了2020年

大数据Hadoop生态圈介绍

∥☆過路亽.° 提交于 2020-10-31 10:02:20
一.Hadoop简介 Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。 Hadoop的核心组件是HDFS、MapReduce。随着处理任务不同,各种组件相继出现,丰富Hadoop生态圈,目前生态圈结构大致如图所示: 二.Hadoop生态圈组件介绍 1.HDFS(分布式文件系统) HDFS是整个hadoop体系的基础,负责数据的存储与管理。HDFS有着高容错性(fault-tolerant)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。 client:切分文件,访问HDFS时,首先与NameNode交互,获取目标文件的位置信息,然后与DataNode交互,读写数据 NameNode:master节点,每个HDFS集群只有一个,管理HDFS的名称空间和数据块映射信息,配置相关副本信息,处理客户端请求。 DataNode:slave节点,存储实际数据,并汇报状态信息给NameNode,默认一个文件会备份3份在不同的DataNode中,实现高可靠性和容错性。

[Spark学习] Spark RDD详解

痴心易碎 提交于 2020-10-31 06:29:46
文章目录 什么是RDD RDD的主要属性 RDD的组成 RDD的分区(Partition) RDD分区的特征 RDD分区与任务执行的关系 RDD的分区器(Partitioner) RDD的逻辑执行计划(Lineage) RDD的依赖关系(Dependencies) 窄依赖(Narrow Dependency) 宽依赖(Wide Dependency) RDD与Task/Stage的关系 Task Stage 什么是RDD RDD(Resilient Distributed Datasets),弹性分布式数据集,是Spark的基本数据结构。 它是一个 不可变 的 分布式 对象集合。 RDD中的每个数据集被划分为 逻辑分区 ,其可以在集群的 不同节点上计算 。 RDD可以包含任何类型的Python,Java或Scala对象,包括用户定义的类。 形式上,RDD是 只读的 分区 记录 集合 。 可以通过读取外部存储系统中的数据集(如HDFS,HBase或提供Hadoop输入格式的任何数据源等)、转换现有数据集合或对其他RDD的数据进行转换来创建RDD。 RDD是一个支持 容错 集合,可以 并行操作 。 RDD的主要属性 从RDD的内部定义来看,每个RDD拥有以下五个主要属性: 分区列表 与其他RDD的依赖关系列表 计算分片(split)的函数 (可选)

太绝了!晋级必备MyCat性能调优笔记,图文并茂,细节好评

眉间皱痕 提交于 2020-10-30 15:59:16
什么是mycat 它是阿里开源的一个数据库中间件,专门为大数据量的项目做分库分表用的。有如下特点: 一个彻底开源的,面向企业应用开发的大数据库集群 支持事务、ACID、可以替代MySQL的加强版数据库 一个可以视为MySQL集群的企业级数据库,用来替代昂贵的Oracle集群 一个融合内存缓存技术、NoSQL技术、HDFS大数据的新型SQL Server 结合传统数据库和新型分布式数据仓库的新一代企业级数据库产品 一个新颖的数据库中间件产品 mycat展望 MyCat 发展到目前的版本,已经不是一个单纯的 MySQL 代理了,它的后端可以支持MySQL、SQL Server、Oracle、DB2、PostgreSQL 等主流数据库,也支持 MongoDB 这种新型NoSQL 方式的存储,未来还会支持更多类型的存储。 mycat笔记 给大家着重收集并整理了这份关于开源数据库中间件MyCat使用及原理的源码+笔记+项目实战的资料。本资料文将全面的从MyCat基础,高级,集群,监控,架构剖析来讲解MyCat,并通过一个案例来演示在实际开发中,应该如何来实现MyCat进行数据库的分片操作。通过本资料的学习,我们能够全面的掌握MyCat的使用及原理。 以上就是资料包含的内容,下面小编会展示目录和详细内容截图,有需要完整版源码+笔记的朋友, 点击获取 !! 彻底开源技术MyCat入门到开发

云原生数据湖解决方案打破数据孤岛,大数据驱动互娱行业发展

随声附和 提交于 2020-10-30 11:41:02
简介: 数据湖是以集中、统一方式存储各种类型数据,数据湖可以与多种计算引擎直接对接,我们使用OSS作为数据湖底座,数据统一存储在OSS中,有效消除了数据孤岛现象,多种计算与处理分析引擎能够直接对存储在数据湖中的数据进行处理与分析,避免数据在不同引擎中反复复制,减少了不必要的资源损耗。 行业综述 全民娱乐时代,网络互娱市场持续保持高速增长 随着互联网的普及以及技术的发展,互联网娱乐行业的发展也日渐成熟。从早期单一门户网站,到个人博客的流行,再到视频网站的壮大。以及这两年层出不穷的短视频、直播、资讯平台等,网络娱乐行业的发展也正在从内容为王,开始往大数据驱动内容创新与推广的方向进行发展。 随着生活条件的变好,人们进入了娱乐即生活,生活即娱乐的时代。如同互联网时代到来引爆信息爆炸一样,互联网娱乐的兴起和发展同样有爆发力。据统计,截至2019年6月,我国网络直播用户规模达4.33亿,较2018年底增长3646万。而网络视频的用户更是达到7.59亿,较2018年底增长3391万。 尤其是在15年前后,随着4G的普及以及智能机的大众化,互联网娱乐行业迎来了一次流量红利时期,在这个时期,各种资讯、视频、直播、社交等软件如雨后春笋般冒出,大量的用户开始涌入。在当时只要是有稍微优质的内容输出,就能为作者或是整个平台带来巨大的流量。 行业发展方向 流量红利消失,用户增长陷入瓶颈 但是到了2020年

Hadoop 学习笔记 05 之 MapReduce 浅析

本小妞迷上赌 提交于 2020-10-30 07:37:43
阅读文本大概需要 4 分钟。 简介: 每一项新技术都是为了解决某个痛点,随着数据量指数型得增长,面对海量的数据技术,虽然存储用 Hadoop 的 HDFS 文件系统解决,但没初加工的数据如同一堆刚从矿场运出来的矿砂,价值度低。 那么该如何处理海量的数据呢,比如分析某个时间段订单量 / 某个地区的几十年的温度?为了解决这个问题,不得不介绍 Map reduce 这个框架。 一 、Mapreduce 简单介绍 官话: MapReduce 是一个分布式计算模型框架,由两个阶段组成:Map和Reduce。 主要用于搜索领域,解决海量数据的计算问题,只需要实现 Map() 和 Reduce() 两个函数即可。 通俗理解: 好比家里一堆家务活,全部给一个人做可能一整天都弄不完,于是分工,老二(Map)负责清洗碗筷,老幺(Map)负责拖地,于是很快就搞定了;老大负责检查(Reduce 汇总)。这就是MapReduce 把任务分解再汇总。 二、Mapreduce 工作(流程)原理 我分两个版本解读,第一个是正式版,第二个是故事版 正式版例子 (中文版) (英文版) 粗略的讲,MapReduce 的工作流程分为: map task ( Map 任务) 与 reduce task (Reduce 任务)。 map task: 1、把一个(或多个)需要处理的文件(block) 按 spill

spark-shell启动spark报错

雨燕双飞 提交于 2020-10-30 05:41:00
前言    离线安装好CDH、Coudera Manager之后,通过Coudera Manager安装所有自带的应用,包括hdfs、hive、yarn、spark、hbase等应用,过程很是波折,此处就不抱怨了,直接进入主题。 描述    在安装有spark的节点上,通过spark-shell启动spark,满怀期待的启动spark,but,来了个晴天霹雳,报错了,报错了!错误信息如下: 18/06/11 17:40:27 ERROR spark.SparkContext: Error initializing SparkContext. java.lang.IllegalArgumentException: Required executor memory ( 1024+384 MB) is above the max threshold (1024 MB) of this cluster! Please check the values of 'yarn.scheduler.maximum-allocation-mb' and/or 'yarn.nodemanager.resource.memory-mb' . at org.apache.spark.deploy.yarn.Client.verifyClusterResources(Client.scala: 281 )

HFDS的数据写入流程

孤街浪徒 提交于 2020-10-30 01:21:32
1.HFDS的数据写入流程的基本参数 首先了解数据写入过程中,什么是block, packet, chunk 1.block:数据块,当上传的文件太大时, 就需要分块,一个块默认设置时128M, 在客户端完成切割操作。数据块block也不是一次性传送到 DataNode中,在客户端向DataNode传送数据文件时,是分成一个一个的packet的每个packet默认64KB。 所以从客户端到第一个结点,第一个结点到第二结点… , 数据传输是串联的,以一个个packet的形式流动。 chunk是client向DataNode,或着DataNode和Pipeline之间进行数据校验的基本单位,默认512Byte,且每个chunk需要带有4Byte的校验位。所以一个chunk是516KB 2.HDFS的数据写入流程 (1)客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。 (2)NameNode返回是否可以上传。 (3)客户端请求第一个 Block上传到哪几个DataNode服务器上。 (4)NameNode返回3个DataNode节点,分别为dn1、dn2、dn3。 (5)客户端通过FSDataOutputStream模块请求dn1上传数据,dn1收到请求会继续调用dn2,然后dn2调用dn3

Spark Standalone spark-default.conf

妖精的绣舞 提交于 2020-10-29 07:36:49
Example: spark.master spark://master:7077 spark.eventLog.enabled true spark.eventLog.dir hdfs://namenode:8021/directory spark.serializer org.apache.spark.serializer.KryoSerializer spark.driver.memory 5g spark.executor.extraJavaOptions -XX:+PrintGCDetails -Dkey=value -Dnumbers="one two three" spark.eventLog.enabled true spark.eventLog.dir hdfs://flashHadoop/spark/log spark.eventLog.compress true spark.local.dir=/data1/data/spark/local spark.ui.enabled true spark.ui.killEnabled false spark.ui.port 18080 spark.history.ui.port 18080 spark.history.fs.cleaner.enabled true spark.history.fs

OpenStack入门科普

梦想的初衷 提交于 2020-10-29 05:44:31
看完 OpenStack入门科普,看这一篇就够啦! 这篇文章,做些记录。 一、OpenStack简介:OpenStack就是为了云计算服务的。简单来说,它是一个操作系统,一套软件,一套IaaS软件。 1、什么是 云计算 ?   解释一:美国国家标准与技术研究院定义:云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问, 进入可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件,服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。(mbl,what???)   解释二:云化就是把每个人手中的独立资源集中起来,放在一个地方进行统一管理,然后动态分配给每个人使用。而云计算,就是把计算资源集中起来,这个计算资源,包括CPU、内存、硬盘等硬件,还有软件。换句话说,云计算就是让用户通过互联网来使用在云端的 应用,数据,或者服务, 这些 应用,数据,或者服务 ,就是云计算的 资源。 (说是像大锅饭我倒是很认同) 2、什么是IaaS?云计算的结构里,这些资源是如何提供的呢?到底是怎么一个运作模式呢?或者说云计算是怎样落地的呢?   通过三种最常见的服务模式:3个aaS IaaS: Infrastructure-as-a-Service 基础设施即服务,IaaS有时候也叫Hardware-as-a-Service,就是提供硬件相关的服务