数据仓库

浅谈数据中台与数据仓库的异同

徘徊边缘 提交于 2019-12-02 12:10:01
一、数据仓库 数据仓库的概念大家并不陌生,关于数据仓库的理论和应用已经非常成熟,持续不断地帮助高层决策者和业务人员做分析和决策。简单来说,数据仓库是一个面向主题的、集成的、非易失性的,随时间变化的用来支持管理人员决策的数据集合,数据仓库的展现形式一般是报表和数据图形。 传统的数据仓库通常具有以下几个特点: 1. 业务主题性:比如对一个生产型企业来说公司的主题域是产品、订单、销售商、材料等,要解决应用问题可能是库存、销售、销售商等。其有业务是面向主题的。 2. 系统集成性:在传统数据仓库中,集成是最重要的,由于计算和存储的成本原因,其数据需要从不同的数据源抽取过来并集中,其数据的冗余度需要尽可能的降低,因此数据进入数据仓库中需要进行转化、格式化、重新排列和汇总等操作,其所有数据具有单一物理特性,都是结构化方式存在。在系统架构方面,也是以集中式存储和计算方式存在,新一代的数仓采用分布式计算,但软件产品采用集中部署方式存在。 3. 非易失性:数仓系统会记录所有记录,与业务系统相比,它不会对记录进行变化操作( update 和 delete ),它会保留所有记录的变化,但受限于成本和计算能力考虑,数仓不会记录全量明细数据,特别是日志数据,因此大部分数仓平台的数据容量在 TB 级别以下。 4. 时间变化性:数据仓库中每个数据单元只是在某一时间是准确的,因此数据单元的准确性与时间相关

计算机应用实习报告

早过忘川 提交于 2019-12-02 01:54:09
计算机应用实习报告 前言 我于 2005 年 8 月 29 日 至 9 月 8 日 在进行了为期两个星期的实习。通过此次实习,我对自己的专业有了更全面、更深入的认识,看到了自己专业知识上的不足,同时也提高了自己的观察分析、交流沟通、组织协调等能力。 在实习中,我们参观了云南英茂通信股份有限公司、云南经济信息中心。通过参观这两家单位,使我了解到了单前计算机应用技术在卫星、数据库、网络通讯方面的应用。尤其是计算机在无线通讯、远程通讯的应用。计算机已经成为现代社会多元化的潮流,它已经深入到日常工作和生活的方方面面,象文字处理、信息管理、辅助设计、图形图像处理、教育培训以及游戏娱乐等。 本次实习,通过听讲座、听报告,我还了解到了数据仓库在企业的应用,同时加上对云南经济信息中心的参观,对数据仓库有了一定的了解。我是学计算机软件工程的,而且我给自己的发展定了目标,就是向数据库方向发展,因此数据仓库的应用对我尤其重要,通过本次实习,我了解到了首次了解、认识了数据仓库。 网络也是本次实习中的一个组成部分,在本次实习中,我们听了关于 IP V4~IP V6 的讲座,同时动手组装了局域网。 在实习的最后,我们还听了一个关于计算机综合的讲座,一个有关于项目开发与管理的讲座。 在当今软件开发中,决定项目成败的一个重要因素就是项目管理者的管理能力。“软件工程项目的管理是一项复杂而要求严格的活动”

数据仓库分层架构

佐手、 提交于 2019-12-01 22:18:15
数据层的存储一般如下: Data Source 数据源一般是业务库和埋点,当然也会有第三方购买数据等多种数据来源方式。业务库的存储一般是Mysql 和 PostgreSql。 ODS 层 ODS 的数据量一般非常大,所以大多数公司会选择存在HDFS上,即Hive或者Hbase,Hive居多。 可将ODS做成一个宽表,结合DW事实表与维度表或更多信息。 DW 层 一般和 ODS 的存储一致,但是为了满足更多的需求,也会有存放在 PG 和 ES 中的情况。 一般DW曾进行维度、事实表设计;根据不同主题设计维度表与事实表。 APP 层 应用层的数据,一般都要求比较快的响应速度,因此一般是放在 Mysql、PG、Redis中。 一般DH曾,数据集市,针对不同用户,实现数据隔离。存储聚合数据。 来源: https://www.cnblogs.com/xibuhaohao/p/11718889.html

antd-pro 使用笔记

非 Y 不嫁゛ 提交于 2019-12-01 21:52:23
Ant Design Pro 是一个企业级中后台前端/设计解决方案。由阿里蚂蚁金服维护,已经开源 基于 [email protected] 介绍 有两种方式安装,参见 安装 安装之后会生成如下目录: ├── mock # 本地模拟数据 ├── public │ └── favicon.ico # Favicon ├── src │ ├── assets # 本地静态资源 │ ├── common # 应用公用配置,如导航信息 │ ├── components # 业务通用组件 │ ├── e2e # 集成测试用例 │ ├── layouts # 通用布局 │ ├── models # dva model │ ├── routes # 业务页面入口和常用模板 │ ├── services # 后台接口服务 │ ├── utils # 工具库 │ ├── g2.js # 可视化图形配置 │ ├── theme.js # 主题配置 │ ├── index.ejs # HTML 入口模板 │ ├── index.js # 应用入口 │ ├── index.less # 全局样式 │ └── router.js # 路由入口 ├── tests # 测试工具 ├── README.md └── package.json 介绍一下常用或者需要注意的几个目录: router.js 配置前端路由

【Medium 万赞好文】ViewModel 和 LIveData:模式 + 反模式

余生颓废 提交于 2019-12-01 20:37:29
原文作者: Jose Alcérreca 原文地址: ViewModels and LiveData: Patterns + AntiPatterns 译者:秉心说 View 和 ViewModel 分配责任 理想情况下,ViewModel 应该对 Android 世界一无所知。这提升了可测试性,内存泄漏安全性,并且便于模块化。 通常的做法是保证你的 ViewModel 中没有导入任何 android.* , android.arch.* (译者注:现在应该再加一个 androidx.lifecycle )除外。 这对 Presenter(MVP) 来说也一样。 ❌ 不要让 ViewModel 和 Presenter 接触到 Android 框架中的类 条件语句,循环和通用逻辑应该放在应用的 ViewModel 或者其它层来执行,而不是在 Activity 和 Fragment 中。 View 通常是不进行单元测试的,除非你使用了 Robolectric ,所以其中的代码越少越好。 View 只需要知道如何展示数据以及向 ViewModel/Presenter 发送用户事件。这叫做 Passive View 模式。 ✅ 让 Activity/Fragment 中的逻辑尽量精简 ViewModel 中的 View 引用 ViewModel 和 Activity/Fragment

hive数据仓库摘录和总结

安稳与你 提交于 2019-12-01 19:34:49
Hive 技术文档 —— Author HuangFx 2013/01/29 Hive 是什么? Hive 是蜂房的意思,为什么 hadoop 上的这层数据仓库叫 Hive ? 因为生物学上蜂房是一个结构相当精良的建筑,取名 Hive 足见则个数据仓库在数据存储上也是堪称精良的。 Hive 是 Facebook 开发的构建于 Hadoop 集群之上的数据仓库应用,它提供了类似于 SQL 语法的 HQL 语句作为数据访问接口,这使得普通分析人员的应用 Hadoop 的学习曲线变缓。 第一: Hive是建立在 Hadoop 上的数据仓库基础构架。 第二:很低的学习代价便可以让用户 在 Hadoop 中 进行 存储、查询和分析存储的大规模数据 。 简单的理解:如果用户只是需要完成大规模数据的分析这件事情,那么,你只要有一套 hadoop 环境 + 一个 hive 数据库,只要你懂 SQL ,你不必懂 MapReduce 程序如何编程、 hadoop 如何工作,你的 SQL 需求将自动被编译到整个集群中去进行分布式计算,以提高分析效率。 Hive 是大数据的必然! Facebook Hive 是 Facebook 开发的构建于 Hadoop 集群之上的数据仓库应用,它提供了类似于 SQL 语法的 HQL 语句作为数据访问接口,这使得普通分析人员的应用 Hadoop 的学习曲线变缓。至于

Hadoop、Hive、Spark 之间关系

做~自己de王妃 提交于 2019-12-01 18:14:09
Hadoop、Hive、Spark 之间关系 https://www.cnblogs.com/jins-note/p/9513426.html 很的很诙谐有趣. 作者:Xiaoyu Ma ,大数据工程师 大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮。但是每个工具有自己的特性,虽然奇怪的组合也能工作,但是未必是最佳选择。 大数据,首先你要能存的下大数据 传统的文件系统是单机的,不能横跨不同的机器。HDFS(Hadoop Distributed FileSystem)的设计本质上是为了大量的数据能横跨成百上千台机器,但是你看到的是一个文件系统而不是很多文件系统。比如你说我要获取/hdfs/tmp/file1的数据,你引用的是一个文件路径,但是实际的数据存放在很多不同的机器上。你作为用户,不需要知道这些,就好比在单机上你不关心文件分散在什么磁道什么扇区一样。HDFS为你管理这些数据。 存的下数据之后,你就开始考虑怎么处理数据。虽然HDFS可以为你整体管理不同机器上的数据,但是这些数据太大了。一台机器读取成T上P的数据(很大的数据哦,比如整个东京热有史以来所有高清电影的大小甚至更大)

DW-ODS

两盒软妹~` 提交于 2019-12-01 07:57:14
ODS (操作数据存储) 编辑 讨论 操作数据存储ODS(Operational Data Store)是 数据仓库 体系结构中的一个可选部分,也被称为贴源层。ODS具备数据仓库的部分特征和 OLTP 系统的部分特征,它是“面向主题的、集成的、当前或接近当前的、不断变化的”数据。 中文名 操作数据存储 外文名 Operational Data Store 用 途 业务系统 功 能 存储、查询以及形成隔离层 目录 1 作用 2 设计方法 3 设计指南 ▪ 数据调研 ▪ 数据范围 ▪ 主题元素 作用 编辑 一般在带有ODS的 系统体系结构 中,ODS都设计为如下几个作用: 1、在业务系统和数据仓库之间形成一个隔离层 一般的数据仓库应用系统都具有非常复杂的数据来源,这些数据存放在不同的地理位置、不同的数据库、不同的应用之中,从这些业务系统对数据进行抽取并不是一件容易的事。因此,ODS用于存放从业务系统直接抽取出来的数据,这些数据从数据结构、数据之间的逻辑关系上都与业务系统基本保持一致,因此在抽取过程中极大降低了数据转化的复杂性,而主要关注数据抽取的接口、数据量大小、抽取方式等方面的问题。 2、转移一部分业务系统细节查询的功能 在数据仓库建立之前,大量的报表、分析是由业务系统直接支持的,在一些比较复杂的报表生成过程中,对业务系统的运行产生相当大的压力。ODS的数据从粒度

对数据仓库ODS DW DM的理解

只谈情不闲聊 提交于 2019-12-01 07:56:47
原文链接: https://www.jianshu.com/p/72e395d8cb33 今天看了一些专业的解释,还是对ODS、DW和DM认识不深刻,下班后花时间分别查了查它们的概念。 ODS——操作性数据 DW——数据仓库 DM——数据集市 1.数据中心整体架构 数据中心整体架构 数据仓库的整理架构,各个系统的元数据通过ETL同步到操作性数据仓库ODS中,对ODS数据进行面向主题域建模形成DW(数据仓库),DM是针对某一个业务领域建立模型,具体用户(决策层)查看DM生成的报表。 2.数据仓库的ODS、DW和DM概念 ods、dw、dm区分 3.ODS、DW、DM协作层次图 协作层次 4.通过一个简单例子看这几层的协作关系 例子 5.ODS到DW的集成示例 集成例子 小结 数据中心是一个全新的领域,要进这个门还需要正确理解数据中心领域所设计的专业词汇。 参考链接: https://www.jianshu.com/p/72e395d8cb33 来源:简书 来源: https://www.cnblogs.com/xibuhaohao/p/11671142.html