HDFS

基于JindoFS+OSS构建高效数据湖

送分小仙女□ 提交于 2020-10-29 04:29:24
作者 :孙大鹏,花名诚历,阿里巴巴计算平台事业部 EMR 技术专家,Apache Sentry PMC,Apache Commons Committer,目前从事开源大数据存储和优化方面的工作。 为什么要构建数据湖 大数据时代早期,Apache HDFS 是构建具有海量存储能力数据仓库的首选方案。随着云计算、大数据、AI 等技术的发展,所有云厂商都在不断完善自家的对象存储,来更好地适配 Apache Hadoop/Spark 大数据以及各种 AI 生态。由于对象存储有海量、安全、低成本、高可靠、易集成等优势,各种 IoT 设备、网站数据都把各种形式的原始文件存储在对象存储上,利用对象存储增强和拓展大数据 AI 也成为了业界共识,Apache Hadoop 社区也推出了原生的对象存储“Ozone”。从 HDFS 到对象存储,从数据仓库到数据湖,把所有的数据都放在一个统一的存储中,也可以更加高效地进行分析和处理。 对于云上的客户来说,如何构建自己的数据湖,早期的技术选型非常重要,随着数据量的不断增加,后续进行架构升级和数据迁移的成本也会增加。在云上使用 HDFS 构建大规模存储系统,已经暴露出来不少问题。HDFS 是 Hadoop 原生的存储系统,经过 10 年来的发展,HDFS 已经成为大数据生态的存储标准,但我们也看到 HDFS 虽然不断优化,但是 NameNode 单点瓶颈

zookeeper

馋奶兔 提交于 2020-10-29 01:23:08
一、What 一个 主从架构 的分布式框架 给分布式框架提供协调服务(service) 作用 提供简版文件系统来存储数据 维护和 监控 存储的数据 状态变化 ,通过监控数据状态变化达到基于数据的集群管理 主要用来解决分布式集群中应用系统的 一致性 问题 应用场景 1. 主备切换 2. 节点的上下线感知 3. 统一命名服务 4. 状态同步服务 5. 集群管理 6. 分布式应用配置管理 二、基本概念 ZooKeeper=简版文件系统(Znode)+原语+通知机制(Watcher) ZK文件系统 基于类似于文件系统的 目录节点树 方式的数据存储 原语 提供类linux指令进行操作 Watcher(监听器) 数据节点ZNode 数据节点本质就是目录 持久节点 临时节点 非有序节点 create create -e 有序节点 create -s create -s -e 持久节点(无序) 节点创建以后,即便连接断开,除非主动删除,不然会一直存在 持久节点(有序) 创建节点的时候加上 -s ,会默认的在目录后加上数字 防止同一目录创建同名ZNode导致失败 临时节点(无序) 节点创建以后,一旦连接断开会自动删除 创建节点的时候通过 -t 指定 持久节点(有序) 同上 会话 与zk交互时会建立TCP长连接,称为会话 建立会话后,如果超过SessionTimeout时间,两者间没有通信,会话超时

Hadoop伪分布模式配置

China☆狼群 提交于 2020-10-28 15:23:12
[TOC] 1. 伪分布配置 实验条件:1台ubuntu服务器,jdk版本1.8.X,Hadoop 版本1.2.X 1.1 ssh localohost 如果不输入口令就无法用ssh登陆localhost,即ssh免密登陆,则执行下面的命令,产生公私钥对, 将私钥放入authorized_keys $ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys 坑1 ssh端口不对 ssh默认端口是22,但是服务器往往基于安全考虑会修改默认端口,这里要注意,如果修改了ssh端口, 则需要修改默认端口,或者再加一个ssh端口 ps:跟另一个服务器管理员互相该端口和配置文件 1.2 配置/cong/core-site.xml 设置hdfs的tmp目录,hadoop会默认把data和name目录放在tmp中 hdfs默认端口号地址,临时文件存放目录信息 <configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/usr

如何使用云原生数据湖,助力线上教育行业逐步智能化

你离开我真会死。 提交于 2020-10-28 12:44:34
简介: 阿里云基于对象存储OSS构建的数据湖解决方案,帮助企业有效消除数据孤岛的现象,让数据的价值真正被利用起来。 行业综述 线下教育行业因疫情受挫,线上教育却逆势增长 随着90年代互联网的引入,在线教育产品也依托于互联网诞生。随着互联网技术的发展,在线教育产品也开始了出现新的模式。在线教育从最初单纯的文字形式,开始往图片、音频方面开始发展。加上这几年直播技术的发展和人工智能等技术在在线教育的应用,在线教育成为今年疫情影响下,为数不多能实现逆势增长的行业。 由于疫情的影响,教育行业根据中央疫情防控工作部署,直接暂停各类线下授课,不举办任何形式的聚集性培训活动。在此期间各类线下培训机构遭受重创,某知名线下教育机构上半年营收同期降低30%,净亏损将近1亿。 和线下教育不同的是,线上教育行业整体呈现逆势增长的态势,根据数据显示,2020年中国在线教育用户规模预计将达到3.51亿人,预计市场规模将达到4858亿元。同时由于疫情的影响,三月份在线教育市场渗透率更是高达85%,增长率是2019年的5倍以上。 行业发展方向 在线教育向数据化发展,行业逐步智能化 教育在线化也进一步促进了数据化的发展,内容作为教育企业的核心资产,无论是数据化程度还是数据化规模都不断提升;同时用户使用时长的提升,又为教育AI提供了大量源数据。据统计今年3月份在线教育用户日均在线时长,超过200万天

Hive外部表 | 每日五分钟学大数据

江枫思渺然 提交于 2020-10-28 06:36:55
别的先不说,开门见山说说内部表的特点: Hive 创建内部表时,会将数据移动到数据仓库指向的路径; Hive 创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变; 在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。这样外部表相对来说更加安全些,数据组织也更加灵活,方便共享源数据。 传统数据库对表数据验证是schema on write(写时模式),而 Hive 在load时是不检查数据是否符合schema的,hive 遵循的是schema on read(读时模式),只有在读的时候hive才检查、解析具体的数据字段、schema;所以在这样的设计下,Hive支持创建外部表也变得理所应当,我们来看下如何创建一个外部表。 CREATE EXTERNAL TABLE table_name( id STRING , name STRING ) ROW FORMAT DELIMITED LOCATION '/data/my_data.txt' ; 关键字EXTENAL告诉Hive这个表是外部的,而后面的LOCATION...子句则用于告诉Hive数据位于哪个路径下。 然而,我们需要清楚的重要的一点是管理表和外部表之间的差异要比刚开始所看到的小得多。即使对于管理表,用户也是可以知道数据是位于哪个路径下的,因此用户也是可以使用其他工具

信创生态迎数据挑战,全域数据管控成趋势

岁酱吖の 提交于 2020-10-28 05:30:41
从“去 IOE ”到如今大热的信创,背后彰显的一个相同事实是,不同时期的 ITer 在国产化道路上经历的曲折坎坷,以及对突破关键核心技术的笃定不移。 作为一个已经成长为万亿级规模的新兴市场,信创的“朋友圈”如今变得越来越广。从CPU技术,底层存储,数据库,操作系统,到云平台,应用软件,硬件平台,信创技术和应用生态正在从点到面快速崛起。 随着越来越多关键工作负载的信创化,数据的“汇-存-管-用”全流程需要加速向全栈国产化演进,实现全域的数据可管可控。但是,现阶段信创生态在数据层仍然面临着以下挑战: 信创在数据层挑战: 信创生态基础架构技术路径多样化。以关键的CPU技术为例,目前有鲲鹏、兆芯、海光、飞腾、龙芯、申威等基于不同架构和指令集的CPU产品,为了实现对异构计算芯片的融合,需要在数据层实现各生态的兼容适配; 信创生态和现有X86生态的融合、过渡和切换。现代数据中心构建了以X86为主的应用生态,无论是传统应用还是新兴的云原生工作负载,皆运行在其上。信创生态要破局“出圈”,进入并融入市场,就必须让用户业务无感知的前提下,实现跨生态的数据迁移和流动; 信创生态下端到端解决方案及应用的适配。信创应用生态的不断丰富,给用户带来了多元化的国产化技术选择,通过自由的市场选择,实现信创生态的良性发展。但为了保证用户体验的一致性,需要数据基础设施与各种应用进行预先适配,检查其兼容性

搭建Hive3.x并整合MySQL8.x存储元数据

て烟熏妆下的殇ゞ 提交于 2020-10-27 12:01:56
Hive 简介 Hive 官方文档: https://cwiki.apache.org/confluence/display/Hive Hive 产生的背景: 在使用MapReduce进行编程的时候,会发现实现一个简单的功能例如WordCount都需要编写不少的代码,可想而知如果实现一个复杂点的应用所需的开发和维护成本就会非常高,为了解决MapReduce编程的不便性,Hive才得以诞生。 另外一点就是HDFS上的文件缺少Schema,没法通过SQL去对HDFS上的数据去进行查询,只能通过MapReduce去操作。因此以往可以通过SQL完成的数据统计就没法在HDFS上完成,这会导致上手门槛高。 Hive是什么: 由Facebook开源,最初用于解决海量结构化的日志数据统计问题 是一个构建在Hadoop之上的数据仓库,可以对已经在存储(HDFS)中的数据进行结构化的映射。并提供了一个命令行工具和JDBC驱动程序来连接并操作Hive Hive定义了一种类SQL查询语言:HQL(类似SQL但不完全相同),使用SQL方便了分布式存储中大型数据集的读取、写入和管理 通常用于进行离线数据处理,早期底层采用MapReduce,现在底层支持多种不同的执行引擎 支持多种不同的压缩格式(gzip、lzo、snappy、bzip2等)、存储格式(TextFile、SequenceFile、RCFile

Hadoop和Yarn的配置文件

一曲冷凌霜 提交于 2020-10-27 04:56:22
  集群参数配置原则重写配置、默认覆盖,否则默认生效。下面总结Haoop常用配置文件参数。常用配置文件:core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml,配置于Hadoop和Yarn这两个实例中,Hadoop和Yarn两个组件一个是负责存储一个是资源管理框架,相当于计算和存储,有的公司计算节点和存储节点分离,有的没有,按照需求使用。      1. core-site.xml 是 NameNode 的核心配置文件,主要对 NameNode 的属性进行设置,也仅仅在 NameNode 节点生效。     <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://HadoopHhy</value> </property> <property> <name>ha.zookeeper.quorum</name> <value>zk1:2015,zk2:2015,zk3:2015</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/home/bigdata/hadoop/tmp</value> <final>true</final> </property>