如何将杂乱的数据整理好(一)数据完整性判断

只愿长相守 提交于 2021-02-06 10:41:45

来源:丁点帮你

作者:丁点helper

在前面的文章中,我们跟大家一起学习了R中的数据导入、基本的操作方法、描述性统计等内容。

这其中的很多操作都是针对格式和内容都完好的数据而言的。但在实际工作中,我们收集到的数据往往不那么完美,需要先进行一番清理。今天开始,我们来学习如何将杂乱的数据整理得井井有条。

示例数据导入

多重线性回归,一般是指有多个自变量X,只有一个因变量Y。前面我们主要是以简单线性回归为例在介绍,两者的差距主要在于自变量X的数量,在只有一个X时,就称简单线性回归。

示例数据是某高校教师对本班学生的调查结果,为方便练习,大家可先下载:

文件名:survey.csv

链接: https://pan.baidu.com/s/1XZgdyb59wPyWy6wp_hmoQw

密码: 5lyw

接下来导入数据至R中:

survey <- read.csv("//Users//Desktop//titanic.csv", header = TRUE)

用下面的语句来了解一下这个数据:

#数据有多少行多少列dim(survey)[1] 238 17#获取数据中的变量名称 names(survey) [1] "ClassProb" "Status" "Year" "Division" "Gender" "HtCm" "Hand" "Haircut" [9] "Exercise" "Coursework" "Web" "TV" "Social" "Econ" "Animal" "Friends" [17] "Pulse"

可以知道,这项调查共涉及到238名同学,调查项目有17项。

数据清理第一步:有无缺失
多重线性回归,一般是指有多个自变量X,只有一个因变量Y。前面我们主要是以简单线性回归为例在介绍,两者的差距主要在于自变量X的数量,在只有一个X时,就称简单线性回归。

今天这篇文章只介绍如何对数据的完整性进行判断。

在survey这个数据库的238条记录中,如果某条记录中的17个变量都获取到了信息,不存在漏填的情况,那么认为这条记录是完整的。

1. 用complete.cases()这个函数得到数据中的每条记录是否完整,其结果是一个逻辑型变量。

如下面的结果,survey这个数据的第一条记录(第一行)是完整的,而第232条记录是不完整的。

complete.cases(survey) [1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE FALSE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE [20] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE [39] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE [58] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE [77] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE FALSE TRUE TRUE TRUE TRUE [96] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE[115] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE[134] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE[153] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE FALSE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE[172] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE FALSE TRUE TRUE[191] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE[210] TRUE TRUE TRUE TRUE TRUE TRUE FALSE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE[229] TRUE TRUE TRUE FALSE TRUE TRUE TRUE TRUE TRUE TRUE2. 那么有多少条记录是完整的呢?根据下面的结果,答案是232条。

下面的语句中,which()的作用是得到逻辑型变量complete.cases(survey)中值为TRUE的顺序号。大家可以自行运行一下which(complete.cases(survey))这个语句,看看结果是什么。

所以最后用length(),可以得到共有多少条记录的完整性检验结果为TRUE。

length(which(complete.cases(survey)))[1] 232

3. 仅保留所有完整的记录,并生成一个新数据集。有两种方法:

# 仅保留complete.cases(survey) = TRUE的记录 survey_com <- survey[complete.cases(survey),] # 去掉有缺失情况的记录survey_com <- na.omit(survey)

4. 我们也可以看看有缺失的记录是哪些,来进一步考察数据的缺失规律。

survey_miss <- survey[!complete.cases(survey),] survey_miss

结果如下图:

由图可知:

  • Pulse这个变量缺失情况最严重;
  • survey_miss这个缺失数据集的行名称为各条记录在原始数据集survey中的行序号。

小结
多重线性回归,一般是指有多个自变量X,只有一个因变量Y。前面我们主要是以简单线性回归为例在介绍,两者的差距主要在于自变量X的数量,在只有一个X时,就称简单线性回归。

面对一个数据,除了了解数据的行、列、变量等,每条记录的完整性是我们首先需要关注的问题之一。因为缺失记录和未缺失记录之间的差异很可能会对数据分析结果的准确性有直接影响。

通过本文介绍的4个方面来判断数据的缺失情况、定位完整数据和缺失数据,可以对所得样本的质量进行估计,也可为数据填补做好准备。

关于缺失数据的处理方法,大家可以参考这篇文章。

如果你也有待处理的数据,那么快用今天学的方法检验一下你的数据是否完整吧。

只有从根本上了解自己的数据,把每一个缺失值处理好,才可能做出逻辑严密、有说服力的结果。

http://uniu56bl7kgzt0uf.mikecrm.com/BiiX5Vo (二维码自动识别)

标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!