HDFS

你缺的不是对象,缺的是对象存储

情到浓时终转凉″ 提交于 2020-10-09 07:33:09
说起对象,真的是扎到程序员心窝窝里了 万箭穿心 别想了,找对象是不可能的 对象存储倒是可以考虑一下 所谓对象存储,就是面向对象、文件的云存储。 在对象存储出现之前,存储主要依靠以下三种方式: 传统存储方式 1、硬盘 无论是DVR、DVS后挂硬盘还是服务器后面直接连接扩展柜的方式,都是采用硬盘进行存储方式。应该说采用硬盘方式进行的存储,并不能算作严格意义上的存储系统。 缺点: ①无法实现数据集中存储,后期维护成本较高; ②不具备RAID系统,严重影响整体性能; ③扩展能力极为有限,不能满足长时间的存储需求。 2、块存储 块存储是一种抽象底层存储设备上的存储的方法。块存储设备作为称为块的单元集群进行管理。在每个块中,企业存储单个文件的一部分。然后,为该块分配一个唯一的地址,使文件可以分散在多台计算机上存储,从而更有效地使用存储。 缺点: ①购置硬件,造价成本高; ②性能较好,但难以实现数据共享; ③扩展性较差。 3、文件存储 文件存储是一种在分层系统中存储数据的方法。文件存储是大多数用户熟悉的标准存储方法。使用文件存储,企业的数据以与检索时相同的格式存储。企业可以通过Windows中的服务器消息块(SMB)协议或Unix或Linux中的网络文件系统(NFS)协议访问文件存储。 缺点: ①数据传输、读写速度慢; ②能实现数据共享,但性能较差; ③带宽低、延迟大,不利于在高性能集群中应用。

Sunfish:有赞智能平台实践

最后都变了- 提交于 2020-10-09 02:42:56
云栖号资讯:【 点击查看更多行业资讯 】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 一、前言 ‍‍机器学习 / 深度学习在有赞应用的越来越多,例如在营销、推荐、风控等场景下都起着越来越重要的作用。对于深度学习在实际业务场景的落地来说,除了数据和算法,工程和系统上的支持同样必不可少,这样的支持包括模型的快速构建与评估,稳定的线上模型服务环境等等。为此,我们开发了有赞智能平台 Sunfish ,本文详细介绍 Sunfish 的设计和实现。 二、背景 在有赞,机器学习 / 深度学习在各个业务场景下发挥着越来越重要的作用。这里以推荐系统为例,介绍一下深度学习的落地实践。在之前的博客文章有赞推荐系统关键技术中介绍过有赞微商城个性化推荐系统。简单来说,当用户打开一个有商品推荐位的页面时,推荐系统会根据用户特征按一定策略从商品池中选择出一些候选的推荐商品,这个过程称为召回。然后,针对这些候选商品,需要分别对它们进行打分,选择其中得分最高的商品,推荐给用户,这个过程称为线上精排。这里对某个商品进行打分的操作,就是在使用深度学习模型进行推理。 为了实现个性化推荐系统中的线上精排服务,我们需要进行三个阶段的工作。1. 数据探测与准备;2. 模型训练与评估;3. 模型服务部署。我们会在有赞大数据平台上面进行数据探测与准备。在模型训练与评估阶段,算法同学需要选择合适的特征数据

基于 Flink 的典型 ETL 场景实现

余生颓废 提交于 2020-10-09 02:01:11
作者:买蓉 · 美团点评高级技术专家 整理:赵阳(Flink 社区志愿者) 校对:苗浩冲(Flink 社区志愿者) 本文将从数仓诞生的背景、数仓架构、离线与实时数仓的对比着手,综述数仓发展演进,然后分享基于 Flink 实现典型 ETL 场景的几个方案。 1.实时数仓的相关概述 1.1 实时数仓产生背景 我们先来回顾一下数据仓库的概念。 数据仓库的概念是于90年代由 Bill Inmon 提出, 当时的背景是传统的 OLTP 数据库无法很好的支持长周期分析决策场景,所以数据仓库概念的4个核心点,我们要结合着 OLTP 数据库当时的状态来对比理解。 面向主题的:数据仓库的数据组织方式与 OLTP 面向事务处理不同。因为数据仓库是面向分析决策的,所以数据经常按分析场景或者是分析对象等主题形式来组织。 集成的:对于数据仓库来说,经常需要去集合多个分散的、异构的数据源,做一些数据清洗等 ETL 处理,整合成一块数据仓库,OLTP 则不需要做类似的集成操作。 相对稳定的:OLTP 数据库一般都是面向业务的,它主要的作用是把当前的业务状态精准的反映出来,所以 OLTP 数据库需要支持大量的增、删、改的操作。但是对于数据仓库来说,只要是入仓存下来的数据,一般使用场景都是查询,因此数据是相对稳定的。 反映历史变化:数据仓库是反映历史变化的数据集合,可以理解成它会将历史的一些数据的快照存下来。而对于

学习大数据:Hive

微笑、不失礼 提交于 2020-10-09 00:47:45
Hive的功能 使用SQL的方式读取分布式存储系统上的大量数据。 数据库:在线事务处理,并发性、事务性和低延迟性。 数据仓库:在线分析处理,有高的延迟。 Hive与Hbase区别: 1.Hive是数据仓库工具,用于分析大数据;hbase是数据库工具,用于存储NoSQL的数据库。 2.Hive因为执行HQL语句,基于MR处理数据时间,耗时长;hbase可实时查询数据 Hive的数据存储于HDFS上,结构化信息存储在MySQL表里。(hive的数据库和表是HDFS的目录,数据是HDSF文件) 进入hive中可以通过dfs -XX 的命令直接访问hdfs •HiveServer2 使用hiveserver2服务器,实现客户端以jdbc协议远程访问hive。(客户端不需要安装hive) •常用命令 desc database XXX/ 某表; create table test01 as select from test; 复制表数据同时创建内部表 create external table ext_test like test; 复制test的表结构 insert into ext_test select from test; 复制表数据到外部表 alter table test add columns (id , int); 添加表中的列 desc formatted test;

主攻个人数据分布式存储的HDFS的优势在哪?

给你一囗甜甜゛ 提交于 2020-10-09 00:33:24
主攻个人数据分布式存储的HDFS的优势在哪? 互联网的纪元中,数据就是一切,互联网环境下任何人的一切活动都会在网络中留下属于自己的印迹—数据碎片,这些我们不经意间留下的数据碎片如果被有心人收集、利用起来会对我们个人的兴趣爱好甚至是隐私产生不利的影响。不知道你有没有这样的体验,当你用搜索引擎了解某种商品之后,某些电商平台会给你不断的推送类似的商品,显然这不是巧合而是你的某些数据“出卖”了你的意图。 随着互联网跟生活融合的不断加深,用户数据的保护就显得越来越急迫,于是区块链这个结合了密码学,计算机科学、经济模型的综合性的科技成果,在个人数据的存储保护上给出最合理的解决方案,这就是HDFS个人数据存储系统。 HDFS跟传统的云盘的区别在哪? 云端数据存储便捷、高效随时写入跟读取,很大程度上解决了我们个人数据存储的难题,有了云算存储之后U盘这种硬件逐步退出我们的生活场景,云盘的出现可以说是某种革命。但是现有的云盘机制又带来了非常敏感的问题,那就是个人数据特别是隐私数据的泄露问题。 数据存储 不管我们用的是百度云盘、腾信云盘还是苹果的云端存储,数据本身是没有加密的,以明文的方式存储在运营商的存储介质内,数据被暴露窃取的危险性较高。 另外由于现行的各国政策法规的原因,云盘是会默审核用户所有上传的数据确保不出现违法的内容,云盘数据其实是没有隐私性的,这是很多用户没有意识到的问题。

Hadoop源代码分析【1-5】

与世无争的帅哥 提交于 2020-10-08 13:57:57
写在前面: 博主是一名大数据的初学者,昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。作为一名互联网小白, 写博客一方面是为了记录自己的学习历程,一方面是希望能够帮助到很多和自己一样处于起步阶段的萌新 。由于水平有限,博客中难免会有一些错误,有纰漏之处恳请各位大佬不吝赐教!个人小站: http://alices.ibilibili.xyz/ , 博客主页: https://alice.blog.csdn.net/ 尽管当前水平可能不及各位大佬,但我还是希望自己能够做得更好,因为 一天的生活就是一生的缩影 。我希望 在最美的年华,做最好的自己 ! Hadoop源代码分析(一) Google 的核心竞争技术是它的计算平台。Google 的大牛们用了下面 5 篇文章,介绍了它们的计算设施。 GoogleCluster: http://research.google.com/archive/googlecluster.html Chubby: http://labs.google.com/papers/chubby.html GFS: http://labs.google.com/papers/gfs.html BigTable: http://labs.google.com/papers/bigtable.html MapReduce: http://labs.google

不看就亏系列!这里有完整的 Hadoop 集群搭建教程,和最易懂的 Hadoop 概念!| 附代码

帅比萌擦擦* 提交于 2020-10-08 09:25:41
不看就亏系列!这里有完整的 Hadoop 集群搭建教程,和最易懂的 Hadoop 概念!| 附代码 Hadoop介绍 Hadoop 是 Lucene 创始人 Doug Cutting,根据 Google 的相关内容山寨出来的分布式文件系统和对海量数据进行分析计算的基础框架系统,其中包含 MapReduce 程序,hdfs 系统等![它受到最先由 Google Lab 开发的 Map/Reduce 和 Google File System(GFS) 的启发。] Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。 Hadoop的框架最核心的设计:HDFS 和mapreduce HDFS:为海量数据提供存储 MapReduce: 为海量数据提供了计算cluster:集群 LB:负载均衡 LVS SLB HAPROXY,nginx HA:高可用 MHA,keepalived,hearebeat

项目

痞子三分冷 提交于 2020-10-07 07:54:36
数仓项目 我们的数仓项目从数据来源来说分为两类,用户行为日志(web端,微信小程序,APP,前端页面埋点)和业务数据库,从技术架构上说,分为ods,dwd,dws,ads层. (1) ODS层是一个数据采集汇聚层,操作的是最原始的数据,主要的任务是:用flume采集第三方日志,和用sqoop进行业务数据库的抽取,要与原始的数据保持一致,采集过来的数据以json格式存储,一般存储的周期为三个月. (2) DWD层是一个明细层,对ods层的原始数据进行预处理,做ETL处理后的扁平化明细数据,主要的工作是对数据进行清洗过滤: 去除json数据体中的废弃字段(前端开发人员在埋点设计方案变更后遗留的无用字段)2. 过滤掉json格式不正确的脏数据3. 过滤掉日志中account及deviceid全为空的记录(如果是wx日志,过滤account+openid)4. 过滤掉日志中缺少关键字段(properties(事件属性)/eventid(事件id)/sessionid(会话id)的记录!5. 过滤掉日志中不符合时间段的记录(由于app上报日志可能的延迟,有数据延迟到达)6. 对于web端日志,过滤爬虫请求数据(通过useragent(浏览器标识)标识来分析)7. session分割,如果两个时间之间的间隔距离大于30分钟,就切割成两个会话.8. json数据扁平化

第一章 大数据Hadoop生态圈之分布式存储系统HDFS

一笑奈何 提交于 2020-10-07 07:20:53
1.1 什么是HDFS? HDFS是一个分布式文件系统,它将文件切成多个小块(block),每块随机存放到任意存储节点。块的大小可通过指定参数设置,最新版默认为128M,旧版为64M。为了避免单点故障引起数据丢失,每块数据会存储多一个相同的副本到不同的存储节点(此专为高并发计算分析设计)。 1.2 优缺点 优点:高并发,高吞吐量数据访问,高容错 缺点:由于特性是存储较大的数据,因此延时高 1.3 namenode和datanode namenode:响应客户端请求,存储元数据(记录数据块分布在哪个机器上),管理目录树 datanode:只要是datanode就可以作为存储节点 1.4 元数据管理 元数据存放在内存空间,同时会镜像到磁盘产生一个叫fsimages的文件,但由于元数据过大,fsimages不会实时同步内存里的元数据,他们之间的差异记录在日志文件edit,每隔一段时间,edit就会和fsimages合并一次,这样和内存里的元数据差异就缩小了 1.5 HDFS shell命令格式 hdfs dfs -操作命令 参数 详细参考官网https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html 来源: oschina 链接: https://my.oschina.net

奈学教育《大数据架构师》课程大纲

独自空忆成欢 提交于 2020-10-07 07:09:37
深度剖析了各个基础技术的源码(ZooKeeper、Hive、Spark、Flink、Hadoop等),对这些基础技 术知识动态的排列组合,形成大数据全局架构观,并深入讲述大数据全局架构设计的方方面面,打 造真正满足企业万亿级海量数据规模的数据中台,真正赋能前台业务。同时,在企业万亿级真实项 目落地环节,采用高性能、高可用、高扩展的架构设计原则,技术上更是融合了企业级主流的离线 架构和实时架构,带领大家构建PB级的大数据中台,真正落地“企业千亿级的数据仓库中台”,实现 “企业级数据中心平台”,搞定“企业千亿级广告统一数据流智能分析平台”,掌握“企业级Hadoop平 台全方位二次源码开发”,让学员面对企业各种海量复杂业务场景,给出优雅的大数据架构设计方 案,从而真正成为企业级大数据架构师! ​ 第一阶段:分布式协调组件 第一单元 掌握ZooKeeper的核心设计 ZooKeeper生态体系结构 ZooKeeper总体架构设计 ZooKeeper读写请求流程深度剖析 第二单元 掌握ZooKeeper服务端源码流程 ZooKeeper启动流程源码深度剖析 Master选举算法源码深度剖析 服务端通信模型源码深度剖析 第三单元 掌握ZooKeeper客户端源码流程 客户端启动流程源码剖析 客户端通信模型源码剖析 Session管理机制源码剖析 第四单元 掌握ZooKeeper企业应用