数据分析 - 基础理论 - 描述统计学
数据类型 数据数据一般是可以直接加载运算的数据, 一般是整形浮点型等 分类数据则为文本数据, 比如男女, 雌雄等 分类数据描述统计 数值数据描述统计 平均数, 中位数, 众数 平均数 - 求和均分 - 较为适合再数据平稳的样本中 中位数 - 最中间的数值 - 目的查看最中间的数据 众数 - 最多的数值 - 目的查看构成最多的数据 平均数和中位数可以联动分析 平均数比中位数大的话说明 极大数据量或者较大数据量比较集中, 数据向上偏移 平均数比中位数小的话说明 极小数据量或者较小数据量比较集中, 数据向下偏移 中位数 中位数可以四等分, 10等分, 百等分等等 最中间的中位数就是普通的中位数 方差, 标准差 用于描述数值的离散程度, 公式计算如下 方差的单位是平方 因此这里引入标准差, 对方差开根号, 从而可以得出的现实意义是 大部分的数据波动再 平均值附近 +- 标准查的上下限, 从而得出一个理论上的阈值 描述上更喜欢用标准查来更好的贴合业务 数据标准化 Z-Score x i 每组数据的具体值, u 平均值, σ 标准差。 Z x 标准化后的结果 不同数量级不同纬度的数据是没办法一起对比的 因此需要对数据进行统一格式, 或者压缩格式标准化处理 标准化后的数值会在 0-1 之间上下波动, 从而反应原始数据的一个特征 权重预估 数据标准化时可以加入权重, 比如 (3 x a +