大数据

必备干货 | Hbase简介以及数据结构和表详解

喜欢而已 提交于 2021-01-30 01:03:08
注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷先生的新书 《分布式机器学习实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】 文章目录 前言 Hbase原理和功能介绍 1. Hbase特性 2. Hbase的架构核心组件 Hbase数据结构和表详解 总结 前言 Hbase 经常用来存储实时数据,比如Storm/Flink/Spark-Streaming消费用户行为日志数据进行处理后存储到Hbase,通过Hbase的API也能够毫秒级别的实时查询。如果是对Hbase做非实时的离线数据统计,我们可以通过Hive建一个到Hbase的映射表,然后写Hive SQL来对Hbase的数据进行统计分析。并且这种方式可以方便的和其它的Hive表做关联查询,做更复杂的统计。所以从交互形势上Hbase满足了实时和离线的应用场景,在互联网公司应用的也非常普遍。 Hbase原理和功能介绍 HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目

0x01-什么是数据中台--来自一线程序员的土(di)味(dao)解读

放肆的年华 提交于 2021-01-29 23:42:31
数据中台,站在一个在数据开发领域多年的程序员角度来说,可以用一句话去概括:“让业务人员能快速拿到自己想要的数据,加以利用,赋能业务”的架构或者系统组织形式就是数据中台,这是个人认为数据中台的本质。数据中台其实就是一种概念,一种架构思路。 回归数据中台的本质,即使这个概念没有被提出来之前,但凡想要提高公司人效的数据开发人员也早就在践行这样的数据中台的建设思路。例如初入数据开发这行,很多的工作其实就是照着业务写SQL,后面发现其实大部分业务都类似,不甘陷于重复机械工作的程序员,大概率会开发一个工具或者脚本,给到业务方“只要是这类需求的,你用这个工具就好,不用在来找我,提需求了”。在这个例子中,经历了如下图的变化。 从结果上来看,业务人员快速拿到自己想要的数据,数据开发人员为整个公司人效贡献了一个长期的价值。笔者不是想说这例子就是已经落地整个数据中台,而是数据研发人员的行为,一定程度上来讲就是在践行数据中台所提倡的理念。所以当数据中台这样的概念被提出来之后,不甘于满足现状的数据研发人员,但是表达和总结能力又比较差的程序员哥哥,终于为自己努力的方向找到了一个很好的总结名词。 对于中台概念有点意会后,我们就可以实实在在聊聊一个企业中落地数据中台后应该是什么样子。在聊这个之前,我们可以回想想在没有数据中台之前,公司从数据生产到能进行使用整个的流程。一般一个比较靠谱的研发流程

疫情之下的科技普惠:阿里云科技驱动中小企业数字化

断了今生、忘了曾经 提交于 2021-01-29 22:49:41
2020年到2021年,一场疫情给全球经济发展带来了重创。在受到疫情影响之时,各行各 业尽展众相,一些企业进行着自我变革;一些企业还未来得及自救,却已被淘汰。更受疫情 冲击的,是各行各业中的中小型企业,他们面临艰难处境。凤凰涅槃,寻求增长,是每一个 中小企业都要面对的课题。在这样的背景下,疫情的到来也在无形中加速了数字经济的发展, 数字化转型成为了每一个企业突破增长的战略关键。 问题来了:阿里云如何通过科技普惠,来驱动中小企业数字化? 阿里云大网站负责人陈意明表示: 数字化虽好,但是,对于经济实力、抵抗能力比较弱的中小企业来说,如果完全自主建设数 字化,在人力、物力、财力等方面都面临各种各样的短板。不过,基于中国长达20多年互 联网行业的高速发展,人工智能、大数据、云计算等技术的不断发展,在国家数字化发展政 策渐渐明晰的背景和第三波数字化升级浪潮中,阿里云已经推出多种企业信息技术发展服务 与应用,为中小企业的数字化转型做好了准备。 阿里云基于自身强大的技术实力和服务中小企业多年的经验,基于对中小企业的实际现状的 深入洞察,基于赋能中小企业的专业技术责任和社会互助的责任,在产品、场景、服务方面 都进行了大规模的升级,助力并加快中小企业的数字化转型进程来渡过难关。 阿里云大网站负责人陈意明 一.产品升级,为中小企业数字化转型提供更安全、稳定的基础支撑 10多年前

讲解Excel中16种图表类型的“含义”,这次该知道怎么画图了!

天大地大妈咪最大 提交于 2021-01-29 17:36:42
大家都知道,相同的数据,使用不同的图表进行体现,效果也会千差万别,那么我们应该如何正确选择,才能让图表的作用发挥到极致呢? 1.柱形图 柱形图是最常见的图表类型,它的适用场合是二维数据集(每个数据点包括两个值,即X和Y),但只有一个维度需要比较的情况。例如,如下图所示的柱形图就表示了一组二维数据,【年份】和【销售额】就是它的两个维度,但只需要比较【销售额】这一个维度。 柱形图通常沿水平轴组织类别,而沿垂直轴组织数值,利用柱子的高度,反映数据的差异。人类肉眼对高度差异很敏感,辨识效果非常好,所以非常容易解读。柱形图的局限在于只适用中小规模的数据集。 通常来说,柱形图用于显示一段时间内数据的变化,即柱形图的X轴是时间维的,用户习惯性认为存在时间趋势(但表现趋势并不是柱形图的重点)。遇到X轴不是时间维的情况,如需要用柱形图来描述各项之间的比较情况,建议用颜色区分每根柱子,改变用户对时间趋势的关注。如下图所示为7个不同类别数据的展示。 2.折线图 折线图也是常见的图表类型,它是将同一数据系列的数据点在图上用直线连接起来,以等间隔显示数据的变化趋势,如下图所示。折线图适合二维的大数据集,尤其是那些趋势比单个数据点更重要的场合。 折线图可以显示随时间而变化的连续数据(根据常用比例设置),它强调的是数据的时间性和变动率,因此非常适用于显示在相等时间间隔下数据的变化趋势。在折线图中

Serverless Kubernetes:理想,现实与未来

筅森魡賤 提交于 2021-01-29 17:35:21
作者 | 易立、张维 来源 | 阿里巴巴云原生公众号 导读 :当前 Serverless 容器的行业趋势如何?有哪些应用价值?如果 Kubernetes 天生长在云上,它的架构应该如何设计?Serverless 容器需要哪些基础设施?阿里云容器服务产品负责人易立及阿里云 Serverless Kubernetes 产品 TL 张维将分享他们对 Serverless 容器架构和背后的关键思考。 从 Serverless 容器到 Serverless Kubernetes Serverless(无服务器)容器是让用户无需购买和管理服务器直接部署容器应用的产品、技术形态。 Serverless 容器可以极大提高容器应用部署的敏捷度和弹性能力,降低用户计算成本;让用户聚焦业务应用而非底层基础设施管理,极大地提高应用开发效率,降低运维成本。 目前 Kubernetes 已经成为业界容器编排系统的事实标准,基于 Kubernetes 的云原生应用生态(Helm, Istio, Knative, Kubeflow, Spark on K8s 等)更是让 Kubernetes 成为云操作系统。一方面通过 Serverless 方式根本性解决 K8s 自身的管理复杂性,让用户无需受困于 K8s 集群容量规划、安全维护、故障诊断;一方面进一步释放了云计算的能力,将安全、可用性

金融数仓体系建设

心不动则不痛 提交于 2021-01-29 15:39:23
导语 本文讲述了金融数据仓库从无到有的整体设计思路,以及对数据建模、质量控制、元数据管理及开发规范各方面的经验思考,希望对大家在数仓建设工作方面有所帮助。 背景 自2018年以来,随着业务体系的不断丰富与发展,数据分析与应用需求越来越丰富,对金融数据仓库建设的要求也越来越迫切。 金融数据仓库建设需要解决的问题,主要包括如下几点: 1、数据存储和组织不成体系,数据集成的开发、维护及分析应用成本高; 2、数据质量缺乏定义,缺乏有效统一的数据质量监控体系; 3、缺失元数据规范管理,数据开发、表结构定义不统一,数据任务、数据表维护成本高; 综上,数据仓库的建设,将根据数仓建模方法论,构建一整套架构合理,并具有元数据管理和数据质量监控的现代数仓体系。 大数据领域建模综述 1、为什么需要数仓建模 业界认为数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。数据在数仓中进行有序、有结构地分类组织和存储。通过建立适合业务和基础数据存储环境的模型,可以带来以下优点: 1) 成本降低:减少数据冗余,计算结果复用; 2) 性能提升:快速查询数据,减少数据的I/O吞吐; 3) 效率提高:提高用户的使用数据体验,使用数据效率; 4) 质量改善:解决数据统计口径的不一致性,统一对外的数据发布。 2、数仓建模方法论选择 行业内,常用的数据仓库建模方法主要分为以下几种: 1) ER模型—

据说只有程序员才看得懂的段子

偶尔善良 提交于 2021-01-29 08:15:47
(点击上方公众号,可快速关注) 都周末了, 大家好好放松一下,工作肯定是要努力好好干的,身体也很重要, 气温逐渐下降,大家记得多穿点的,爱你们哟! 1. 一程序员去面试,面试官问:“你毕业才两年,这三年工作经验是怎么来的?!”程序员答:“加班。” 2. 某程序员对书法十分感兴趣,退休后决定在这方面有所建树。于是花重金购买了上等的文房四宝。一日,饭后突生雅兴,一番磨墨拟纸,并点上了上好的檀香,颇有王羲之风范,又具颜真卿气势,定神片刻,泼墨挥毫,郑重地写下一行字:hello world。 3. 问:程序员最讨厌康熙的哪个儿子。答:胤禩。因为他是八阿哥(bug) 4. 程序猿要了3个孩子,分别取名叫Ctrl、Alt 和Delete,如果他们不听话,程序猿就只要同时敲他们一下就会好的。 5. 今天在公司听到一句惨绝人寰骂人的话:“你TM就是一个没有对象的野指针!” 6. 程xx遭遇车祸成植物人,医生说她活下来的希望只有万分之一,唤醒更为渺茫。她的同事和亲人没放弃,并根据程xx对testing痴迷的作风,每天都在她身边念:“你测的模块上线后回滚了。”奇迹发生了,程xx醒来第一句话:确认那模块是我测的? 7. 一个程序员在海滨游泳时溺水身亡。他死前拼命的呼救,当时海滩上有许多救生员,但是没有人救他。因为他一直大喊“F1!”“F1!”,谁都不知道“F1”究竟是什么意思。 8. 世界上最远的距离

从B+树到LSM树,及LSM树在HBase中的应用

最后都变了- 提交于 2021-01-29 07:34:24
前言 在有代表性的关系型数据库如MySQL、SQL Server、Oracle中,数据存储与索引的基本结构就是我们耳熟能详的B树和B+树。而在一些主流的NoSQL数据库如HBase、Cassandra、LevelDB、RocksDB中,则是使用日志结构合并树(Log-structured Merge Tree,LSM Tree)来组织数据。本文先由B+树来引出对LSM树的介绍,然后说明HBase中是如何运用LSM树的。 回顾B+树 为什么在RDBMS中我们需要B+树(或者广义地说,索引)?一句话:减少寻道时间。在存储系统中广泛使用的HDD是磁性介质+机械旋转的,这就使得其顺序访问较快而随机访问较慢。使用B+树组织数据可以较好地利用HDD的这种特点,其本质是多路平衡查找树。下图是一棵高度为3的4路B+树示例。 与普通B树相比,B+树的非叶子节点只有索引,所有数据都位于叶子节点,并且叶子节点上的数据会形成有序链表。B+树的主要优点如下: 结构比较扁平,高度低(一般不超过4层),随机寻道次数少; 数据存储密度大,且都位于叶子节点,查询稳定,遍历方便; 叶子节点形成有序链表,范围查询转化为顺序读,效率高。相对而言B树必须通过中序遍历才能支持范围查询。 当然,B+树也不是十全十美的,它的主要缺点有两个: 如果写入的数据比较离散,那么寻找写入位置时,子节点有很大可能性不会在内存中

狂叨屌丝自媒体如何完成逆袭?

余生长醉 提交于 2021-01-29 06:10:32
响铃微信号: xiangling0815 新媒体运营、O2O实战 脑力手艺人,边探索边评论,交志同道合之友 导读 科学释义:自媒体是指为个体提供信息生产、积累、共享、传播内容兼具私密性和公开性的信息传播方式。今天响铃这货聊的泛(zhuan)指微信公众号。 有情有趣有用有品的八卦 先和大家看一组数字,据腾讯内部爆料:公众微信账号总共有687万个,其中10万的有3347个,真实粉丝15万的公众微信有1562个,20万粉丝有573个,100万的仅有95个。平均每月注销账号102个,每日新增公众账号7688个。每日被举报的公众账号165万个,每日处罚的账号6233个。禁言7天的66.32万,禁言15天的35.68万……尽管响铃这货也不太相信这一连串数字,但确实对单位是万的符号表示惊悚!原因很简单,作为屌丝自媒体,响铃本身就参与这浩浩荡荡地竞争中,这比唐僧取经要恐怖得多,虽说妖怪也多是有后台有背景,有功夫有美貌,但毕竟就那么多,而屌丝响铃(xiangling0815)要干过媒体的正规军,要打赢有钱砸有老板支持的企业号,要赶上已经称霸一方的行业领袖还是有点忐忑。但不能因为恐惧就不干呀,所以还是得继续干,而且要好好干!这和当年胜过几千万兄弟最后和卵子结合孕育出新宝宝一样,赢得惊险,来得刺激,今天身为屌丝中的屌丝,响铃这货今就叨叨咋逆袭。 关于自媒体运营六步法,快速涨粉36计

企业是否应该数字化转型?来看看数字化MAX成熟度模型如何测评

谁说我不能喝 提交于 2021-01-29 05:32:22
导语: 企业是否应该数字化转型? 发展到什么级别的企业可以进行数字化转型? 
 回答这 2 个问题前,我们需要明白,数据及技术工具并不能 代表数字化运营程度,运用 Excel 不能代表数字化运营程度低,运用大数据、 BI 、中台等工具也并不能代表数字化运营程度高。 |作者:马晓东,国云数据创始人兼CEO |如需转载请在评论区留言 数据在企业管理当中发挥的作用与价值才是衡量数字化运营程度的标准,企业通过专业的数字化 MAX 成熟度模型对自身的数字化水平做出判定,从而决定是否应该数字化转型,并制定符合自身需求的数字化转型方案。 一、 数字化 MAX 成熟度模型的 6 个级别 数字化 MAX 成熟度模型包含第 0 级到第 5 级,共 6 个级 别,如图 7-1 所示。 第 0 级:未应用数据,完全依靠负责人主观决策。 
 第 1 级:采用 Excel 存储和分析数据,数据文件零散、数据 量小。 
 第 2 级:依赖技术部门进行数据分析。 
 第 3 级:以技术为中心,系统化地应用数据,利用数据支撑 业务。 
 第 4 级:以业务为中心的数据化运营,数据赋能业务。 
 第 5 级:数据引领业务,赋能业务创新和变革。 
 从第 0 级公司未应用数据到第 5 级公司数据引领业务创新, 
 数字化 MAX 成熟度模型从 6 个维度出发,对企业的数字化水平 做出划分