十步法原则解决数据质量问题
一、相关概念 1.1 数据质量 数据的一组固有属性满足数据消费者要求的程度。 1)数据固有属性 真实性:即数据是客观世界的真实反映 及时性:即数据是随着变化及时更新的 相关性:即数据是数据消费者关注和需要的 2)高质量数据满足要求(消费者角度) 可得的,当数据消费者需要时能够获取到; 及时的,当需要时,数据获得且是及时更新的; 完整的,数据是完整没有遗漏的; 安全的,数据是安全的,避免非授权的访问和操控; 可理解的,数据是可理解和解释的; 正确的,数据是现实世界的真实反映。 1.2 数据质量管理 数据质量管理,是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。 二、评估维度 任何改善都是建立在评估的基础上,知道问题在哪才能实施改进。通常数据质量评估和管理评估需通过以下几个维度衡量。常见的以下维度: 1)完整性 完整性,是指数据信息是否完整,是否存在缺失情况。数据缺失的情况可能是整个数据记录缺失,也可能是数据中某个字段信息的记录缺失。记录的完整性,一般使用统计的记录数和唯一值个数。完整性的另一方面,记录中某个字段的数据缺失,可使用统计信息中的NULL的个数进行审核。一般空值的占比基本恒定,同样可以使用统计的空值个数来计算空值占比