数据仓库

【信息系统项目管理师】第三章 信息系统集成专业基础知识(上)

痴心易碎 提交于 2019-11-28 12:04:51
第三章 信息系统集成专业基础知识 1.信息系统生命周期有哪几个过程 分 四个阶段 : 产生 , 开发 , 运行 和 消亡 阶段。 2.信息系统开发的方法有哪几种,各适用于什么情况的项目 系统开发的方法有六种: 结构化方法,快速原型法,企业系统规划方法,战略数据规划法,信息工程方法,面向对象方法。 结构化方法: 把系统看成一个大模块,再根据系统分析与设计进一步分解或组合。 快速原型法: 快速建立并展示给用户。原型化方法不可以直接开发出最终产品。 企业系统规划法: 提供一个信息系统规划,用以支持企业短期的和长期的信息需求。 战略数据规划方法: 它是企业核心竞争力的重要构成因素,成为企业市场竞争中的制胜法宝。 信息工程方法: 是企业系统规划方法和战略数据规划方法的一种交叉关系。是前两种方法的总结和提升。 面向对象方法: 用于面向对象的软件开发。 瀑布模型的六个阶段 : 可行性分析 , 需求分析 , 软件设计 , 编码单测 , 测试 , 运行维护 。 螺旋模型的四个象限 :制定计划, 风险分析 ,实施工程和客户评估。 结构化开发方法的特点: 遵循用户至上的原则 严格区分工作阶段 强调系统开发的整体性和全局性 系统开发过程工程化,文档资料标准化 结构化开发缺点:开发周期长,文档设计说明繁琐,工作效率低,要求在开发之初全面认识系统信息需求,充分预料各种可能发生的变化。 3

大话大数据(一)

大兔子大兔子 提交于 2019-11-28 11:56:16
大数据的4V特征: 数据量大,TB->PB 数据类型繁多,结构化、非结构化文本、日志、视频、图片、地理位置等; 商业价值高,但是这种价值需要在海量数据之上,通过数据分析与机器学习更快速的挖掘出来; 处理时效性高,海量数据的处理需求不再局限在离线计算当中。 现如今,正式为了应对大数据的这几个特点,开源的大数据框架越来越多,越来越强,先列举一些常见的: 文件存储 :Hadoop HDFS、Tachyon、KFS 离线计算 :Hadoop MapReduce、Spark 流式、实时计算 :Storm、Spark Streaming、S4、Heron K-V、NOSQL数据库 :HBase、Redis、MongoDB 资源管理 :YARN、Mesos 日志收集 :Flume、Scribe、Logstash、Kibana 消息系统 :Kafka、StormMQ、ZeroMQ、RabbitMQ 查询分析 :Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Flink、Kylin、Druid 分布式协调服务 :Zookeeper 集群管理与监控 :Ambari、Ganglia、Nagios、Cloudera Manager 数据挖掘、机器学习 :Mahout、Spark MLLib 数据同步 :Sqoop 任务调度 :Oozie …… 眼花了吧

数据仓库

廉价感情. 提交于 2019-11-28 08:16:33
为什么需要数据仓库? 传统的数据库中,存放的数据都是一些定制性数据较多,表是二维的,一张表可以有很多字段,字段一字排开,对应的数据就一行一行写入表中,特点就是利用二维表表现多维关系。 但这种表现关系的上限和下限就定死了,比如QQ的用户信息,直接通过查询info表,对应的username、introduce等信息即可,而此时我想知道这个用户在哪个时间段购买了什么?修改信息的次数?诸如此类的指标时,就要重新设计数据库的表结构,因此无法满足我们的分析需求。 在产品脑图中可以很清晰的看到根据业务需求设计所需的字段,因此也导致 数据库是根据业务需求进行设计 。 那么有的会问,为什么一开始就不考虑好这个扩展性呢?为什么数据库一开始就不以数据仓库的形式设计? 首先数据仓库,从字面上理解就可以感受到这是一个很大的空间,而且存储的物品很杂,里面会存放酱油、沐浴露、洗发精等物品,而数据库是存放酱油、盐等厨房用品,洗浴又是一个数据库。 另外一个就是,国内互联网的发展,一开始大家都是做个软件出来,大家一起用,这个时候只要满足的了需求即可,现今不止是需求还有用户的体验等各种方面,需要根据这些分析指标做调整。 小结: 数据库是跟业务挂钩的,而数据库不可能装下一个公司的所有数据,因此数据库的设计通常是针对一个应用进行设计的。 数据仓库是依照分析需求、分析维度、分析指标进行设计的。 什么是数据仓库? 数据仓库

数据仓库系列之总线架构

前提是你 提交于 2019-11-28 05:59:54
总线架构是数据仓库建设的总体规划,从整体视角描述了解决方案的维度模型,描述了各个子系统的功能以及关系,描述数据从源系统到决策系统的数据流程,提供建立企业数据仓库系统的增量式方法。业务需求回答了要做什么,总线架构就是回答怎么做的问题。 一、整体解决方案架构: 数据仓库的核心功能从源系统抽取数据,通过清洗、转换、标准化,将数据加载到BI平台,进而满足业务用户的数据分析和决策支持。数据仓库整体解决方案架构包含三个部分:源数据、 数据仓库、数据应用。 二、数据仓库分层架构:   数据仓库的数据来源于不同的源数据,并提供多样的数据应用,数据自下而上流入数据仓库后向上层开放应用,而数据仓库可以是数据中心管控平台。   源数据层(ODS):此层数据无任何更改,直接沿用外围系统数据结构和数据,不对外开放;为临时存储层,是接口数据的临时存储区域,为后一步的数据处理做准备,一般只会进行数据筛选和异常处理。   数据转换层(DSA):数据加工区域,主要涉及数据的转换数据,清洗数据,过滤数据等操作。   数据仓库层(EDW):DW 层的数据应该是一致的、准确的、干净的数据,即对源系统数据进行了清洗(去除了杂质)后的数据。   数据应用层(DA 或 APP):前端应用直接读取的数据仓库;根据报表、专题分析需求而计算生成的数据,数据仓库是数据处理的后台,业务用户并不关心后台怎么处理。数据应用是数据呈现的前台

Why Do We Need a Data Warehouse?

|▌冷眼眸甩不掉的悲伤 提交于 2019-11-27 18:41:58
https://dwbi1.wordpress.com/2012/12/03/why-do-we-need-a-data-warehouse/ 经常有人来质疑数据仓库的价值,为什么我们需要花费一年多的时间来创建数据仓库。我们可能等不了那么久,我们可以直接安装使用现有工具比如QlikView,将数据源直接指向我们的业务处理系统数据库,这样我们也有一套BI系统啦。 是的,你可以买BO,MicroStrategy,QlikView,Spotfire或任何您喜欢的BI工具,然后直接从事务系统生成报告。或者你可以先创建一个多维数据集(SSAS,Cognos或Hyperion),然后安装适当的客户端工具(Tableau,Strategy Companion等)。这也是了解数据仓库的最佳方式。 但是不推荐你这么做,因为它会给你带来以下困扰 a)数据质量问题 b)用户的不信任感 c)报告快速转变,但数据不稳定 d)数据一致性问题 e)性能问题 如果花一年建立一个数据仓库基本上提供一个质量数据源。数据仓库具有以下特点: a)集成 b)一致 c)包含历史数据 d)经过层层测试和验证来保证数据质量 e)效率足够高 数据仓库正确集成来自多个源的数据。这种整合不会一夜之间发生。业务分析师花了几个星期分析这些来源,并写下了如何整合数据的规范。数据架构师看了这个规范,并设计了一个高性能的星型模式来托管数据。

数据集市

会有一股神秘感。 提交于 2019-11-27 16:17:45
仓库的主要区别:数据仓库是企业级的,能为整个企业各个部门的运行提供决策支持手段;而数据集市则是一种微型的数据仓库,它通常有更少的数据,更少的主题区域,以及更少的历史数据,因此是部门级的,一般只能为某个局部范围内的管理人员服务,因此也称之为部门级数据仓库。 数据仓库 数据集市 数据的来源 生产系统、外部数据等 数据仓库 范围规模 企业级 部门级或工作组级 主题 以企业为主题 以部门或特殊的分析为主题 数据粒度 最细的粒度 较粗的粒度 数据结构 第三范式,规范化结构 星型模型、雪花模型、星座模型 历史数据 大量的历史数据 适度的历史数据 优化 处理海量数据、数据探索 便于访问和分析、快速查询 索引 高度索引 高度索引 数据集市可以分为两种类型—— 独立型数据集市和从属型数据集市 。独立型数据集市直接从操作型环境获取数据,从属型数据集市从企业级数据仓库获取数据,带有从属型数据集市的体系结构如图2所示。 数据仓库规模大、周期长,一些规模比较小的企业用户难以承担。因此,作为快速解决企业当前存在的实际问题的一种有效方法,独立型数据集市成为一种既成事实。独立型数据集市是为满足特定用户(一般是部门级别的)的需求而建立的一种分析型环境,它能够快速地解决某些具体的问题,而且 投资 规模也比数据仓库小很多。 独立型数据集市的存在会给人造成一种错觉,似乎可以先独立地构建数据集市

数据仓库

拈花ヽ惹草 提交于 2019-11-27 16:17:27
参考: https://aws.amazon.com/cn/redshift/pricing/?sc_channel=PS&sc_campaign=acquisition_CN&sc_publisher=baidu&sc_category=pc&sc_medium=redshift_nb&sc_content=data_warehouse_e&sc_detail=%E6%95%B0%E6%8D%AE%E4%BB%93%E5%BA%93&sc_segment=100004930&sc_matchtype=phrase&sc_country=CN&s_kwcid=AL!4422!88!14673028366!!18525234128&ef_id=Ww5hlAAABKVUL8HQ:20190817102625:s Data Warehouse,可简写为DW 数据仓库 (Data Warehouse)是面向主题的、集成的、稳定的、随时间变化的数据集合,用来支持运营管理中的决策制定,为用户提供各种手段从数据中获取有用的信息。它的根本任务是对大量的业务数据进行归纳整理以及重组,然后提供给决策管理人员。 数据仓库 是依赖于数据库进行数据存储和管理的,所以数据库是整个 数据仓库 的核心。相对于传统数据库来说数仓的数据库最突出的特点是对海量数据的支持和快速的检索技术

数据仓库3级范式(3NF)基础

只愿长相守 提交于 2019-11-27 16:17:24
一、引言   最近在整理理大数据模式下的数据仓库数据模型,资料来自互联网和读过的数据仓库理论和实践相关。 二、3NF (1)1NF-无重复的列    数据库表的每一列都是不可分割的基本数据项,同一列中不能有多个值,即实体中的某个属性不能有多个值或者不能有重复的属性。   如果出现重复的属性,就可能需要定义一个新的实体,新的实体由重复的属性构成,新实体与原实体之间为一对多关系。在第一范式(1NF)中表的每一行只包含一个实例的信息。简而言之,第一范式就是无重复的列。   说明:在任何一个关系数据库中,第一范式(1NF)是对关系模式的基本要求,不满足第一范式(1NF)的数据库就不是关系数据库。 (2)2NF-部分依赖    非主属性完全依赖于主键[消除非主属性对主码的部分函数依赖]。   第二范式(2NF)是在第一范式(1NF)的基础上建立起来的,即满足第二范式(2NF)必须先满足第一范式(1NF)。第二范式(2NF)要求数据库表中的每个实例或行必须可以被唯一地区分。为实现区分通常需要为表加上一个列,以存储各个实例的唯一标识。例如员工信息表中加上了员工编号(emp_id)列,因为每个员工的员工编号是唯一的,因此每个员工可以被唯一区分。这个唯一属性列被称为主关键字或主键、主码。   第二范式(2NF)要求实体的属性完全依赖于主关键字。所谓完全依赖是指不能存在仅依赖主关键字一部分的属性

数据仓库建模与ETL实践技巧

不想你离开。 提交于 2019-11-27 16:17:22
一、数据仓库的架构 数据仓库(Data Warehouse DW)是为了便于多维分析和多角度展现而将数据按特定的模式进行存储所建立起来的关系型数据库,它的数据基于OLTP源系统。数据仓库中的数据是细节的、集成的、面向主题的,以OLAP系统的分析需求为目的。 数据仓库的架构模型包括了星型架构(图二:pic2.bmp)与雪花型架构(图三:pic3.bmp)两种模式。如图所示,星型架构的中间为事实表,四周为维度表,类似星星;而相比较而言,雪花型架构的中间为事实表,两边的维度表可以再有其关联子表,从而表达了清晰的维度层次关系。 从OLAP系统的分析需求和ETL的处理效率两方面来考虑:星型结构聚合快,分析效率高;而雪花型结构明确,便于与OLTP系统交互。因此,在实际项目中,我们将综合运用星型架构与雪花型架构来设计数据仓库。 那么,下面我们就来看一看,构建企业级数据仓库的流程。 二、构建企业级数据仓库五步法 (一)、确定主题 即确定数据分析或前端展现的主题。例如:我们希望分析某年某月某一地区的啤酒销售情况,这就是一个主题。主题要体现出某一方面的各分析角度(维度)和统计数值型数据(量度)之间的关系,确定主题时要综合考虑。 我们可以形象的将一个主题想象为一颗星星:统计数值型数据(量度)存在于星星中间的事实表;分析角度(维度)是星星的各个角;我们将通过维度的组合,来考察量度。那么,

数据脱敏

时间秒杀一切 提交于 2019-11-27 14:11:03
背景与目标 在数据仓库建设过程中,数据安全扮演着重要角色,因为隐私或敏感数据的泄露,会对数据主体(客户,员工和公司)的财产、名誉、人身安全、以及合法利益造成严重损害。因此我们需要严格控制对仓库中的数据访问,即什么样的人员或者需求才可以访问到相关的数据。这就要求对数据本身的敏感程度进行安全级别划分。数据有了安全等级的划分,才能更好管理对数据访问控制,以此来保护好数据安全。 举个例子简单的说明下,例如我们仓库中有一张关于注册用户的基本信息表User,其中有手机号mobile,昵称username两个字段。我们在划分数据安全层级的时,将用户mobile的安全等级划分为L2要高于username的等级L1,并规定只有访问权限达到L2的运营部门才能访问mobile字段。这样在公司各个部门需要访问注册用户基本信息表User时,我们只需检查访问者是否来自运营部门,如果是运营部可以访问mobile,如果不是只能访问username信息了。这样就有效的防止用户手机号被不相关工作人员泄露出去,同时也不影响查询用户username的需求。 但是往往在实际生产过程中,应用场景会更加复杂,仅靠类似这样的访问控制,满足不了生产的需要,还需要结合其它的途径,而数据脱敏就是一种有效的方式,既能满足日常生产的需要,又能保护数据安全。 数据脱敏,具体指对某些敏感信息通过脱敏规则进行数据的变形