数据仓库

hive建模方法

匿名 (未验证) 提交于 2019-12-02 23:48:02
转自: https://www.jianshu.com/p/8378b80e4b21 从业务数据模型转向数据仓库模型时,同样也需要有数据仓库的域模型,即概念模型,同时也存在域模型的逻辑模型。这里,业务模型中的数据模型和数据仓库的模型稍微有一些不同。主要区别在于:数据仓库的域模型应该包含企业数据模型得域模型之间的关系,以及各主题域定义。数据仓库的域模型的概念应该比业务系统的主题域模型范围更加广。在数据仓库的逻辑模型需要从业务系统的数据模型中的逻辑模型中抽象实体,实体的属性,实体的子类,以及实体的关系等。Inmon 的范式建模法的最大优点就是从关系型数据库的角度出发,结合了业务系统的数据模型,能够比较方便的实现数据仓库的建模。但其缺点也是明显的,由于建模方法限定在关系型数据库之上,在某些时候反而限制了整个数据仓库模型的灵活性,性能等,特别是考虑到数据仓库的底层数据向数据集市的数据进行汇总时,需要进行一定的变通才能满足相应的需求。维度建模法(Dimensional Modeling)维度模型是数据仓库领域另一位大师Ralph Kimall所倡导,他的《The Data Warehouse Toolkit-The Complete Guide to Dimensonal Modeling,中文名《数据仓库工具箱》,是数据仓库工程领域最流行的数仓建模经典。维度建模以分析决策的需求出发构建模型

hive之简介

匿名 (未验证) 提交于 2019-12-02 23:43:01
第一节:hive的产生背景 第二节:hive的介绍 一、概念 二、特点 三、基于hadoop 四、数据仓库 1、数据仓库工具 2、数据库和数据仓库的区别 (1)数据类型 (2)使用场景上 (3)模式上 数据写入的时候进行校验(例如数据库中5个字段都是int类型的,在写的时候插入String类型就插不进去,所以是写入的时候进行校验的) (4)事务支持 第三节:hive的架构 一、用户接口层 1、概念 给客户端使用的 2、CLI(命令行) hive的命令行操作界面 3、JDBC/ODBC 4、web ui 二、跨语言服务层(thrift server) 三、元数据存储层(meta store) 表和hdfs数据的路径对应关系 表中的字段类型 表中字段的顺序 表的创建时间。。。 hive 表数据存储hdfs,元数据存储在关系型数据库。 四、核心驱动层(Driver) 第四节:hive的优缺点 一、缺点 (1)延时性高 基于hadoop (2)hive对事务的支持很弱 (3)hive不支持update、delete 二、优点

理解维度数据仓库――事实表、维度表、聚合表

匿名 (未验证) 提交于 2019-12-02 23:34:01
理解维度数据仓库――事实表、维度表、聚合表 一、事实表 Sate Product Mouth Units Dollars WA Mountain-100 January 3 7.95 WA Cable Lock January 4 7.32 OR Mountain-100 January 3 7.95 OR Cable Lock January 4 7.32 WA Mountain-100 February 16 42.40 在这些事实表的示例数据行中,前3个列――州、产品和月份――为键值列。剩下的两个列――销售额和销售量――为度量值。事实表中的每个列通常要么是键值列,要么是度量值列,但也可能包含其他参考目的的列――例如采购订单号或者发票号。 事实表中,每个度量值都有一个列。不同事实表将有不同的度量值。一个销售数据仓库可能含有这两个度量值列:销售额和销售量。一个现场信息数据仓库可能包含3个度量值列:总量、分钟数和瑕疵数。创建报表时,可以认为度量值形成了一个额外的维度。即可以把销售额和销售量作为并列的列标题,或者也可以把它们作为行标题。然而在事实表中,每个度量值都作为一个单独的列显示。 事实表数据行中包含了您想从中获取度量值信息的最底层级别的明细。换句话说,事实表中对每个维度的最详细的项目成员都有数据行。如果有使用其他维度的度量,只要为那些度量和维度创建另一个事实表即可

数据挖掘与数据仓库――数据预处理

匿名 (未验证) 提交于 2019-12-02 23:34:01
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/budding0828/article/details/90311670 数据预处理 为什么要进行预处理 现实世界的数据很“脏” 不完整的: 缺少属性值, 感兴趣的属性缺少属性值, 或仅包含聚集数据 如, occupation=“ ” 来源于:收集数据时,在不同的阶段具有不同的考虑;人/硬件/软件的问题等。 含噪声的: 包含错误或存在孤立点 如, Salary=“-10” 来源于:收集阶段;数据传输阶段等。 不一致的: 在名称或代码之间存在着差异 如, Age=“42” Birthday=“03/07/1997” 如, 原来排序 “1,2,3”, 现在排序 “A, B, C” 来源于:不同的数据源;功能依赖冲突。 数据预处理的主要任务 数据清洗(Data cleaning) 填充遗失的数据, 平滑噪声数据, 辨识或删除孤立点, 解决不一致性问题 数据集成(Data integration) 对多个数据库,数据立方或文件进行集成 数据变换(Data transformation) 规范化与聚集(Normalization and aggregation) 数据约简(Data reduction) 得到数据集的压缩表示,它小的多,但能够产生同样的(或几乎同样的)分析结果 数据离散化

数据挖掘与数据仓库――分类

匿名 (未验证) 提交于 2019-12-02 23:34:01
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/budding0828/article/details/90311845 分类算法 什么是分类 一些常见的概念: 训练集(Training data):用于训练模型(的参数,如神经网络的各层权重和偏置,线性回归分析的系数); 验证集(Validation data):用于调整超参数(Hyper-Parameters,如神经网络的宽度和深度、学习率等); 测试集(Test data):用于评价模型本身的有效性(准确率等) 训练误差(Training error):分类器在训练集上的误差。 泛化误差(Generalization error,out-of-sample error):分类器在未见样本(不在训练集中的样本)上的误差。 对于数据集的划分 划分法: 训练集与测试集 把样本划分成2个独立的数据集合, 如, 训练集 (2/3), 测试集(1/3)。 适用于大规模的数据样本。 交叉验证(Cross-validation) 把数据集合划分成k 个子样本; 使用k - 1 个子样本作为训练集,另一个作为测试样本―k-折交叉验证。 适用于中等规模的数据。 留一测试(Leave One Out, k = n) 适用于小规模数据。 泛化误差的偏差/方差分解、过拟合、欠拟合 以回归为例

大数据模块开发之数据仓库设计

匿名 (未验证) 提交于 2019-12-02 22:56:40
1. 维度建模基本概念 维度建模(dimensional modeling)是专门用于分析型数据库、数据仓库、数据集市建模的方法。数据集市可以理解为是一种"小型数据仓库"。 维度表(dimension) 维度表示你要对数据进行分析时所用的一个量,比如你要分析产品销售情况, 你可以选择按类别来进行分析,或按区域来分析。这样的按..分析就构成一个维度。再比如"昨天下午我在星巴克花费200元喝了一杯卡布奇诺"。那么以消费为主题进行分析,可从这段信息中提取三个维度:时间维度(昨天下午),地点维度(星巴克), 商品维度(卡布奇诺)。通常来说维度表信息比较固定,且数据量小。 事实表(fact table) 表示对分析主题的度量。事实表包含了与各维度表相关联的外键,并通过JOIN方式与维度表关联。事实表的度量通常是数值类型,且记录数会不断增加,表规模迅速增长。比如上面的消费例子,它的消费事实表结构示例如下: 消费事实表:Prod_id(引用商品维度表), TimeKey(引用时间维度表), Place_id(引用地点维度表), Unit(销售量)。 总的说来,在数据仓库中不需要严格遵守规范化设计原则。因为数据仓库的主导功能就是面向分析,以查询为主,不涉及数据更新操作。事实表的设计是以能够正确记录历史信息为准则,维度表的设计是以能够以合适的角度来聚合主题内容为准则。 2. 维度建模三种模式2.1.

详解阿里云数据中台,一篇文章全面了解大数据“网红”

。_饼干妹妹 提交于 2019-12-02 19:17:03
作者:谭虎、陈晓勇 [ 更多内容详见数据中台官网 https://dp.alibaba.com ] 一直想写一篇关于数据中台正面文章,现在有闲时做些总结,想充分诠释一下DT内部人如何看待数据中台。 数据中台的概念是最早由阿里巴巴首次提出,是为了应对内部众多业务部门千变万化的数据需求和高速时效性的要求而成长起来的,它既要满足业务部门日常性的多个业务前台的数据需求,又要满足像双十一,六一八这样的业务高峰、应对大规模数据的线性可扩展问题、应对复杂活动场景业务系统的解耦问题,而在技术、组织架构等方面采取的一些变革。 数据中台的定义 阿里巴巴数据中台是阿里云上实现数据智能的最佳实践,它是由数据中台方法论+组织+工具所组成,数据中台方法论采用实现企业数据的全局规划设计,通过前期的设计形成统一的数据标准、计算口径,统一保障数据质量,面向数据分析场景构建数据模型,让通用计算和数据能沉淀并能复用,提升计算效能;数据中台的建设实施必须有能与之配合的组织,不仅仅相应岗位的人员要配备齐全,而且组织架构建设也需要对应,有一个数据技术部门统筹企业的数字化转型,数据赋能业务中形成业务模式,在推进数字化转型中实现价值;数据中台由一系列的工具和产品组成,阿里云数据中台以智能数据构建与管理Dataphin产品、商业智能QuickBI工具和企业参谋产品为主体等一系列工具组成。

Hive数据仓库你了解了吗

一世执手 提交于 2019-12-02 15:30:33
在工作中我们经常使用的数据库,数据库一般存放的我们系统中常用的数据,一般为百万级别。如果数据量庞大,达到千万级、亿级又需要对他们进行关联运算,该怎么办呢? 前面我们已经介绍了HDFS和MapReduce了,它俩结合起来能够进行各种运算,可是MapReduce的学习成本太高了,如果有一种工具可以直接使用sql将hdfs中的数据查出来,并自动编写mapreduce进行运算,这就需要使用到我们的hive数据仓库。 Hive基本概念 什么是Hive Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 为什么使用Hive 直接使用hadoop所面临的问题 人员学习成本太高 项目周期要求太短 MapReduce实现复杂查询逻辑开发难度太大 为什么要使用Hive 操作接口采用类SQL语句,提供快速开发的能力。 避免了去写MapReduce,减少开发人员的学习成本。 扩展功能很方便 Hive的特点 可扩展 Hive可以自由的扩展集群的规模,一般情况下不需要重启服务。 延展性 Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。注意:这里说的函数可不是存储过程噢。 容错 良好的容错行,节点出现问题SQL仍可以完成执行 基本组成 用户接口:包括CLI、JDBC/ODBC、WebGUI 元数据存储:通常是存储在关系数据库如

Hive数据仓库你了解了吗

两盒软妹~` 提交于 2019-12-02 15:19:30
在工作中我们经常使用的数据库,数据库一般存放的我们系统中常用的数据,一般为百万级别。如果数据量庞大,达到千万级、亿级又需要对他们进行关联运算,该怎么办呢? 前面我们已经介绍了HDFS和MapReduce了,它俩结合起来能够进行各种运算,可是MapReduce的学习成本太高了,如果有一种工具可以直接使用sql将hdfs中的数据查出来,并自动编写mapreduce进行运算,这就需要使用到我们的hive数据仓库。 Hive基本概念 什么是Hive Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 为什么使用Hive 直接使用hadoop所面临的问题 人员学习成本太高 项目周期要求太短 MapReduce实现复杂查询逻辑开发难度太大 为什么要使用Hive 操作接口采用类SQL语句,提供快速开发的能力。 避免了去写MapReduce,减少开发人员的学习成本。 扩展功能很方便 Hive的特点 可扩展 Hive可以自由的扩展集群的规模,一般情况下不需要重启服务。 延展性 Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。注意:这里说的函数可不是存储过程噢。 容错 良好的容错行,节点出现问题SQL仍可以完成执行 基本组成 用户接口:包括CLI、JDBC/ODBC、WebGUI 元数据存储:通常是存储在关系数据库如

企业数据仓库构架(Kimball架构)

断了今生、忘了曾经 提交于 2019-12-02 15:08:41
1、建立维度模型的时候不一定要求维度模型满足3范式,维度表存储空间的权衡往往需要关注简单性和 可关注简单性和可访问性 2、维度模型 星型和OLAP多维数据库 3、粒度 每行中的数据是一个特定级别的细节数据,称为粒度 4、维度建模的核心 事实表中的所有度量必须具有相同的粒度 5、事实表的粒度划分为三类 事务、周期性快照和累计快照 6、展现区数据特点 维度化的、原子的、以业务过程为中心的 # 在整个项目的过程中,都要关注数据的质量、一致性和完整性A 系统框架主要有三部分组成:源事务、后端、前端 Kimball的DW/BI架构 Kimball DW/BI 架构的核心元素 Kimball 分工明确,资源占用更加合理,调用链路少,整个DW/BI系统更加稳定、高效、有保障。 ETL系统高度关注数据质量、完整性、一致性。输入数据在进入时要检查其质量。一致的获取增值度量和属性的业务规则由ETL系统中的有技能的专业人员开发,这样会给客户发布更好的、保持一致性的产品。 展现区根据客户要求使用统一维度组织数据。方便,高效为BI应用提供数据服务。 来源: https://blog.csdn.net/Jmayday/article/details/102778207