R | 探索性数据分析 EDA
一、集中趋势和离中趋势 表示集中趋势的指标们: 均值、中位数、众数、百分位数 异常值判定: 3σ原则原则(还有很多别的原则):超出(μ-3σ,μ+3σ)的值,即超出箱线图上下边界的点 离散程度指标: 极差(range) 标准差(sta.dev) 方差(variance) 变异系数(CV):对标准差做去量纲化,消除两组数据间测量尺度和量纲的影响 通过箱线图来查看集中趋势 (通过R自带的鸢尾花数据集 iris) iris boxplot(iris[,2]) 二、相关系数( cor ) Pearson相关系数 衡量两个数据集合是否在一条线上面,它用来衡量定距变量间的线性关系 Spearman相关系数 衡量排序(秩)一致性 Kendall相关系数 计算多个等级变量相关程度的一种相关量 # 工作时间和薪水 jobtime = c(14,12,11,12,11) salary = c(20000,17000,1650,1670,540) # cor 默认的 method 为 pearson cor(jobtime,salary) # 指定使用 spearman cor(jobtime,salary, method="spearman") 相比于线性关系,案例中的时间与薪水的排序效果更明显,所以此处求得的 Spearman 比 Pearson 更大 通过两两变量的组合图来查看相关关系