大数据项目测试<二>项目的测试工作
大数据的测试工作: 1、模块的单独测试 2、模块间的联调测试 3、系统的性能测试:内存泄露、磁盘占用、计算效率 4、数据验证(核心) 下面对各个模块的测试工作进行单独讲解。 0. 功能测试 1. 性能测试 2. 自动化测试 3. 文档评审 4. 脚本开发 一、后台数据处理端 后端的测试重点,主要集中在数据的采集处理、标签计算效率、异常数据排查(功能),测试脚本编写(HiveQL)、自动化脚本编写(造数据、数据字段检查等) 1.数据的采集处理(Extract-Transform-Load) ETL:即将数据从源系统加载到数据仓库的过程。源系统包括:数据文件(excel、log等)、RDD数据库、非RDD数据库等; extract:从源系统提取需求数据。 transform:清洗数据(数据格式转化、异常数据处理等)。 Load:将清洗的数据加载至数据仓库。 ETL测试:即确保根据需求将源系统的数据经过处理后加载到目标的数据是准确的。即源和目的数据之间转化过程中的数据验证。 测试类型 测试场景 券商等金融机构,其用户每天都会产生大量的交易数据,这部分数据最初都会存储在客户的关系型数据库中(oracle),因此后台每天需要先进行数据采集,将数据采集至Hadoop的hdfs系统;数据采集过后