数据仓库学习

半腔热情 提交于 2020-04-06 05:47:28

第一部分 导论
第1章 商业数据挖掘简介
 1.1 介绍
 1.2 进行数据挖掘需要什么
 1.3 数据挖掘
 1.4 集聚营销
 1.5 商业数据挖掘
 1.6 数据挖掘工具
第2章 数据挖掘过程与知识发
 2.1 CRISP-DM
 2.2 知识发现过程
第3章 数据挖掘的数据库支持
 3.1 数据仓库
 3.2 数据集市
 3.3 联机分析处理
 3.4 数据仓库的实现
 3.5 元数据
 3.6 系统示范
 3.7 数据质量
 3.8 软件产品
 3.9 实例
第二部分 数据挖掘工具
第4章 数据挖掘方法概述
 4.1 数据挖掘方法
 4.2 数据挖掘视野
 4.3 数据挖掘的作用
 4.4 实证数据集
附录4A
第5章 聚类分析
 5.1 聚类分析
 5.2 聚类分析的描述
 5.3 类数量的变动
 5.4 聚类分析的运用
 5.5 在软件中使用聚类分析
 5.6 大数据集的方法运用
 5.7 软件产品
附录5A
第6章 数据挖掘中的回归算法
 6.1 回归模型
 6.2 逻辑回归
 6.3 线性判别分析
 6.4 数据挖掘中回归的实际应用
 6.5 大样本数据集的模型应用
第7章 数据挖掘中的神经网络
 7.1 神经网络
 7.2 数据挖掘中的神经网络
 7.3 神经网络的商业应用
 7.4 神经网络应用于大样本数据集
 7.5 神经网络产品
第8章 决策树算法
 8.1 决策树的工作方式
 8.2 机器学习
 8.3 决策树的应用
 8.4 决策树法运用到大型的数据集
 8.5 决策树的软件产品
附录8A
第9章 基于线性规划的方法
 9.1 线性判别分析
 9.2 多重标准线性规划分类
 9.3 模糊线性规划分类
 9.4 信用卡证券管理:线性规划的实际应用
 9.5 线性规划的软件支持
附录9A
第三部分 商业应用
第10章 商业数据挖掘的应用
 10.1 应用
 10.2 不同数据挖掘方法的比较
第11章 市场购物篮分析
 11.1 定义
 11.2 实证
 11.3 市场购物篮分析的局限
 11.4 市场购物篮分析软件
附录11A
第四部分 发展中的问题
第12章 文本挖掘与web挖掘
 12.1 文本挖掘
 12.2 Web挖掘
附录12A
第13章 数据挖掘中的道德规范
 13.1 数据访问的隐患
 13.2 Web数据挖掘问题
 13.3 网络问题
 13.4 网络道德
 13.5 控制方法
术语表


数据仓库
汇总搜集到的各种数据,历史的,存档的,归纳的,计算的
根据需求,采用不同的模型,从搜集到的数据中,挖掘出有价值的,能辅助决策的信息。


业务系统、外部数据源 → 数据准备区 → 数据仓库数据库 → 数据集市/知识挖掘库 → 应用工具 → 决策者

数据准备区清洗,按标准进入数据库,按主题需求进入挖掘模型,输出到应用工具,显示给决策者

分布式数据仓库
总部设置全局数据仓库,分部各自设立局部数据仓库用以存储各自的未经转换的细节数据,全局数据库存储经过转换的综合数据。

数据仓库的基本层
数据抽取、筛选、清理,清理后数据加载,设立数据集市,完成数据仓库的查询、决策分析和数据的挖掘。

数据仓库的管理层,分成数据管理与元数据管理两部分,主要负责对数据仓库中的数据抽取、清理、加载、更新与刷新等操作进行管理。

数据仓库环境支持层,包含数据传输和数据仓库基础两部分。


数据来源
业务数据、历史数据、办公数据、Web数据、外部数据以及数据源元数据。

数据准备区功能结构部分由数据标准化处理、数据的过滤与匹配、数据的净化处理、标明数据的时间戳、确认数据质量与元数据抽取和创建等操作组成。

数据仓库的功能结构,数据重整、数据仓库创建、元数据管理。

挖掘库的功能结构与数据仓库的功能结构极为相似

数据仓库的数据存取与使用结构,主要为数据仓库的最终用户提供进行决策分析和挖掘知识的功能。数据仓库的数据存取与使用结构应该包含数据仓库存取与检索、元数据管理以及数据仓库分析与报告


数据仓库的管理层
数据管理层中的数据抽取、新数据需求与查询管理主要负责完成从数据源中抽取数据的管理。
数据仓库中的数据加载、存储、刷新和更新系统则负责对从数据源中所抽取的数据在完成筛选、净化处理以后,将这些数据加载、存储到数据仓库中。
捕获数据源中的数据变化,用最新数据充实数据仓库,根据用户的需求和数据仓库管理的要求对数据仓库进行更新等工作。
安全性与用户授权管理系统主要负责数据仓库的安全管理工作。
数据仓库的数据归档、恢复及净化系统主要负责定期对数据仓库中的数据进行归档、备份。净化系统则负责对从数据源所抽取的数据进行数据筛选、数据标准的统一、数据内容的统一等各种求精、重整净化工作的管理。

数据仓库的元数据管理层
负责管理数据仓库所使用的元数据,包括
数据仓库、数据集市/挖掘库和词汇表管理
元数据抽取、创建、存储和更新管理
预定义的查询和报表以及索引管理
刷新与复制管理,登陆、归档、恢复与净化管理。

数据仓库的环境支持层
数据传输和传送网络
客户/服务器代理和中间件
复制系统
数据传输的安全保障系统

传统数据分析工具与数据挖掘工具
传统分析工具,数据量小,方法相对简单,需求单一,应用广泛,对决策者价值低

数据挖掘工具,数据量大,因为数据量大,需要建模处理,同样因为数据量大,复合分析后可以预测未来趋势,应用单一,对决策者价值高


常用数据挖掘技术
数据挖掘的发展受到数据库系统、统计学、机器学习、可视化技术、信息技术以及其他学科的影响,例如神经网络、模糊/粗糙集理论、知识表示、归纳技术与高性能计算等。

常用的数据挖掘技术分类
传统分析类
知识发现类
其他最新发展的数据挖掘技术。

按使用方式分类
决策方案生成工具、商业分析工具和研究分析工具

按技术分类
基于神经网络的工具、基于规则和决策树的工具、基于模糊逻辑的工具和综合性数据挖掘工具

按应用范围分类
专用型工具与通用性工具

工具的评价标准
模式种类的数量
解决复杂问题的能力
操作性能
数据获取能力
挖掘结果的输出
噪声数据的处理及挖掘工具的鲁棒性

 

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!