Hive

删了HDFS又能怎样?记一次删库不跑路事件

只谈情不闲聊 提交于 2020-08-15 17:28:32
一、事发背景 二、应急措施 直观的方案 三、分析过程 hdfs文件删除过程 BlockManager EditLog hdfs元数据的加载 方案确定 四、灾难重演 五、经验总结 一、事发背景 ​ 上个月的某一天,由于集群空间不足,公司有一位技术经理级别的大数据leader在通过跳板机在某个线上集群执行手动清理命令,疯狂地执行 hadoop fs -rmr -skipTrash /user/hive/warehouse/xxxxx ,突然,不知道是编辑器的问题还是换行问题,命令被截断,命令变成了 hadoop fs -rmr -skipTrash /user/hive/warehouse ,悲剧此刻开始发生!? ​ /user/hive/warehouse 目录下存储了所有hive表的数据,关联公司多个业务线,一旦丢失,意味着巨大的损失。由于加了 -skipTrash 参数,意味着删除的数据不会放入回收站而是直接删除,这个参数不加的话很容易挽回,回收站里直接找,可惜逃不了墨菲定律,最担心的事还是发生了。 ​ 领导解决不了的事,只有小弟上,看我接下来怎样四两拨千斤。 二、应急措施 运维跟这位大数据经理第一时间找到我,当时说误删了 /user/hive/warehouse 目录。当时我也是一震惊,完了完了!凭我仅有的直觉,立马停掉了HDFS集群!后面证明是很明智的选择。 直观的方案

大数据采集和抽取怎么做?这篇文章终于说明白了!

人走茶凉 提交于 2020-08-15 15:53:22
本文来源于公众号【胖滚猪学编程】,转载请注明出处! 关于数据中台的概念和架构,我们在 大白话 六问数据中台 和 数据中台全景架构及模块解析!一文入门中台架构师! 两篇文章中都说明白了。从这一篇文章开始分享中台落地实战。 其实无论是数据中台还是数据平台,数据无疑都是核心中的核心,所以闭着眼睛想都知道数据汇聚是数据中台/平台的入口。纵观众多中台架构图,数据采集与汇聚都是打头阵的: 本文将从以下几个方面分享数据采集的方方面面: 一、企业数据来源 二、数据采集概念和价值 三、数据采集常用工具 四、数据采集系统设计原则 五、数据采集模块生产落地分享 有来源才能谈采集,因此我们先来归纳下企业中数据来源。 数据来源 企业中的数据来源极其多,但大都都离不开这几个方面: 数据库,日志,前端埋点,爬虫系统等。 数据库我们不用多说,例如通常用mysql作为业务库,存储业务一些关键指标,比如用户信息、订单信息。也会用到一些Nosql数据库,一般用于存储一些不那么重要的数据。 日志也是重要数据来源,因为日志记录了程序各种执行情况,其中也包括用户的业务处理轨迹,根据日志我们可以分析出程序的异常情况,也可以统计关键业务指标比如PV,UV。 前端埋点同样是非常重要的来源,用户很多前端请求并不会产生后端请求,比如点击,但这些对分析用户行为具有重要的价值,例如分析用户流失率,是在哪个界面,哪个环节用户流失了

Hive内嵌集合函数:size,map_keys,map_values,array_contains,sort_array等详解

生来就可爱ヽ(ⅴ<●) 提交于 2020-08-15 14:41:37
0.hive官方函数解释 hive官网函数大全地址: HIVE官网函数大全地址 Collection Functions Return Type Name(Signature) Description int size(Map<K.V>) Returns the number of elements in the map type. int size(Array<T>) Returns the number of elements in the array type. boolean array_contains(Array<T>, value) Returns TRUE if the array contains value. array<V> map_values(Map<K.V>) Returns an unordered array containing the values of the input map. array<t> sort_array(Array<T>) Sorts the input array in ascending order according to the natural ordering of the array elements and returns it (as of version 0.9.0 ). array<K> map_keys

浅析图数据库 Nebula Graph 数据导入工具——Spark Writer

你。 提交于 2020-08-15 11:49:37
从 Hadoop 说起 近年来随着大数据的兴起,分布式计算引擎层出不穷。 Hadoop 是 Apache 开源组织的一个分布式计算开源框架,在很多大型网站上都已经得到了应用。Hadoop 的设计核心思想来源于 Google MapReduce 论文,灵感来自于函数式语言中的 map 和 reduce 方法。在函数式语言中,map 表示针对列表中每个元素应用一个方法,reduce 表示针对列表中的元素做迭代计算。通过 MapReduce 算法,可以将数据根据某些特征进行分类规约,处理并得到最终的结果。 再谈 Apache Spark Apache Spark 是一个围绕速度、易用性构建的通用内存并行计算框架。在 2009 年由加州大学伯克利分校 AMP 实验室开发,并于 2010 年成为 Apache 基金会的开源项目。Spark 借鉴了 Hadoop 的设计思想,继承了其分布式并行计算的优点,提供了丰富的算子。 Spark 提供了一个全面、统一的框架用于管理各种有着不同类型数据源的大数据处理需求,支持批量数据处理与流式数据处理。Spark 支持内存计算,性能相比起 Hadoop 有着巨大提升。Spark 支持 Java,Scala 和 Python 三种语言进行编程,支持以操作本地集合的方式操作分布式数据集,并且支持交互查询。除了经典的 MapReduce 操作之外,Spark

六问数据中台!你想知道的都在这了!

瘦欲@ 提交于 2020-08-15 09:21:50
云栖号资讯:【 点击查看更多行业资讯 】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 数据中台、相信这四个字大家一定不陌生。因为在2019年、数据中台可谓是最火的概念之一,很多大公司都在布局自己的数据中台。 那么数据中台到底是什么?它和我们熟知的数据平台有啥区别?它为什么会这么火、能给企业带来什么价值呢?数据中台整体架构和全景图又是什么呢? 笔者有幸参与了公司数据中台从0到N的建设,计划从概念到落地,把中台那些事跟您说透,与您一起分享学习。 第一问:数据中台是什么 先不说那些官方的抽象的概念了,我想用我自己的大白话去说数据中台的概念。 那就是如果把前台比作赚钱的。后台比作支持的。那么中台呢就是支持加速赚钱的。 这个比喻我觉得还是很形象的,中台呢它实质就是前台和后台的一个桥梁,并且它能在这当中起到很好的加速效果。这里的加速,可以是效率上的提高,可以是协作上的共赢。 举个例子,比如前台业务人员日常要分析广告投放、在哪个平台投放效益最好呢?抖音还是头条呢?这直接涉及到公司的money了。 前台人员要分析这个肯定要有数据吧、就会向后台人员要数据:我需要哪些表你要帮我同步过来数仓里,同步好了你要授权给我,然后你再去配置定时报表任务、配置好了你要再做一个前端的展示页面。这还没完,数据有问题了还得跟你逼逼叨叨! 这个流程下来,前台人员需要向后台人员沟通100句。有了数据中台

阿里云 MaxCompute 2020-6 月刊

此生再无相见时 提交于 2020-08-15 08:40:48
导读 【6月新发布功能】 【6月新发布文档】 【6月精选技术文章】 【7月精选活动预告】 【6月新发布功能】 1. MaxCompute备份与恢复功能(公测)发布 MaxCompute备份与恢复功能提供持续备份用户修改/删除历史数据,支持快速恢复,持续保护数据安全。 适用客户 对数据保护有强需求客户/担心数据误删除的客户/担心数据被恶意删除的客户,适合广泛的企业级客户。 发布功能 MaxCompute提供数据备份与恢复功能,系统会自动备份数据的历史版本(例如被删除或修改前的数据)并保留一定时间,您可以对保留周期内的数据进行快速恢复,避免因误操作丢失数据。备份与恢复功能具备以下特点: 默认开启,不需要手动开通 -- 该功能不依赖外部存储,系统默认为所有MaxCompute项目开放的数据保留周期为1天,备份和存储免费。 自动持续备份 -- 系统自动对发生变更的数据进行备份,多次变更时将备份多个数据版本,相比固定周期性的备份策略,可以有效避免因误操作丢失数据。 恢复快速,操作简单 -- MaxCompute具备先进的元数据和多数据版本管理能力,备份和恢复操作不占用额外的计算资源,您可以通过命令快速恢复不同规模的数据。 查看文档 >> 2. MaxCompute通过DataWorks管控平台新建项目支持选择数据类型 适用客户 中国Region使用DataWorks管控台的客户 发布功能

第一讲:毕业设计题目的设计

こ雲淡風輕ζ 提交于 2020-08-15 08:13:51
本讲用于讲解如何做毕业设计的题目设定。 一、态度上的重视 我每次参加新员工面试的时候,如果是应届生,首先看的就是简历上毕业设计的描述,然后再到简历上的项目栏,因为毕业设计是大学生在大学期间所学核心技能的体现,所以毕业设计是简历上的一个非常重要的闪光点。面试官没有那么多时间看你的资料的,如果你的毕业设计题目很普通,基本上你的简历被忽视的概率非常大。你自己把别人发现你的成本垒高了的话,吃亏的还是你自己,毕竟,社会上不缺乏人才。 所以,要提高对毕业设计的重视态度。不要为了毕业设计而设计,而是要静下心来思考自己的未来就业方向。尽可能让自己的毕业设计所需要的技能符合未来就业岗位所需要的技能。并且尽可能让毕业设计贴近实战(真是可以长期运行的项目),这样的作品才有意义,才能出众。 二、毕业设计作品所需技能预估 未来所需要岗位的技能,最简单的就是去招聘网站查询,比如智联招聘或广西人才网,下面就是广西人才网的一条招聘信息,如果你期待的工作是大数据分析师: 我对上面的图的某些部分进行了下划线标注,我们分析下: 1、“熟练掌握Java或python”,那你的毕业设计最好是Java语言或python语言作为主要的编程语言。 2、“熟练掌握mysql数据库”,那么你的毕业设计最好是采用MySQL数据库作为数据库。“熟练使用SQL”,那么你的设计里面可以加入一些SQL函数或存储过程或事务等的设计

微博数仓数据延时优化方案

℡╲_俬逩灬. 提交于 2020-08-15 07:38:42
前言 本文以离线数据仓库为背景,重点介绍因传输链路数据延时的不确定性,可能导致部分延迟文件无法参与正常的调度计算或同步,导致数据缺失的问题成因、业务影响及相应的解决方案。 关于这类问题的处理,有这么一种论调:我们认为正常情况下, 脏 或 缺失 数据的比例是很小的,可以大致认为数据是可用的的;或者我们可以推后一下计算的时间,让数据尽可能的传输完整;诸如此类...。 如果认可这种论调,可以直接忽略本文的内容。 我们是一个有 态度 的数据团队,旨在精确评估用户(整体/个体)的性能或行为情况,以优质的数据驱动业务优化,数据必须做到客观条件下最大限度地精准。 数仓架构 数据仓库使用 Hive 构建,日志或数据以文件形式(Text/ORCFile)存储于HDFS。数仓整体划分以下3层: ODS(面向原始日志的数据表) DW(面向业务主题的数据表) DM(面向业务应用的数据表) 日志来源 日志(原始日志)来源可以是多样的: 实时数据流(Kafka/Flume/Scribe) 离线数据推送(Rsync) 日志接口(Http/Wget) 其它 无论使用哪一种方式,都会使用统一的目录规范存储于HDFS,如下: ${BASE_DIR}/业务日志名称/日期(yyyy_MM_dd)/小时(HH)/日志文件名称(带有时间戳) 假设业务日志名称为 www_spoollxrsaansnq8tjw0

从Hadoop到ClickHouse,现代BI系统有哪些问题?如何解决?

你说的曾经没有我的故事 提交于 2020-08-15 05:30:41
云栖号资讯:【 点击查看更多行业资讯 】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 导读: 一次机缘巧合,在研究BI产品技术选型的时候,我接触到了ClickHouse,瞬间就被其惊人的性能所折服。这款非Hadoop生态、简单、自成一体的技术组件引起了我极大的好奇。那么ClickHouse好在哪呢?本文带你做一个初步了解。 01 传统BI系统之殇 得益于IT技术的迅猛发展,ERP、CRM这类IT系统在电力、金融等多个行业均得以实施。这些系统提供了协助企业完成日常流程办公的功能,其应用可以看作线下工作线上化的过程,这也是IT时代的主要特征之一,通常我们把这类系统称为联机事务处理(OLTP)系统。 企业在生产经营的过程中,并不是只关注诸如流程审批、数据录入和填报这类工作。站在监管和决策层面,还需要另一种分析类视角,例如分析报表、分析决策等。而IT系统在早期的建设过程中多呈烟囱式发展,数据散落在各个独立的系统之内,相互割裂、互不相通。 为了解决数据孤岛的问题,人们提出了数据仓库的概念。即通过引入一个专门用于分析类场景的数据库,将分散的数据统一汇聚到一处。借助数据仓库的概念,用户第一次拥有了站在企业全局鸟瞰一切数据的视角。 随着这个概念被进一步完善,一类统一面向数据仓库,专注于提供数据分析、决策类功能的系统与解决方案应运而生。最终于20世纪90年代,有人第一次提出了BI