R语言| 缺失值判断
缺失值判断 一、缺失值判断 通常用“NA"表示,判断数据是否存在缺失值的常用方法 使用函数is.na( ) 使用函数is.na( ),该函数是判断缺失值的最基本的函数。可以用于判断不同的数据对象,如向量、列表和数据框. 其函数的基本书写格式为:is.na( x ) 判断数据集中是否存在缺失值,如果存在,返回 TRUE ; 如果不存在,则返回FALSE 例: > library ( DMwR) > data ( "algae" ) > sum ( is . na ( algae ) ) [ 1 ] 33 可以看到数据集algae中一共有33个缺失值 使用函数complete.cases( ) complete.cases( )判断数据集的每一行是否存在缺失值,如果不存在,则返回TRUE,如果存在,则返回TRUE。 例: > sum ( !complete . cases ( algae ) ) [ 1 ] 16 > algae [ !complete . cases ( algae ) , ] #输出含有缺失值的行 可以看到数据集algae一共有16行记录存在缺失值 Summary( )判断数据集中分类变量是否含有缺失值 例: 对输出结果进行分析,如可以看到变量mxPH中含有1个缺失值,变量CHla中含有12个缺失值。 二、缺失模型判断 在处理缺失值之前,需要先对缺失模式进行判断