统计学上数据的处理和图标的展示原则

泪湿孤枕 提交于 2019-12-02 12:18:36

1.数据的预处理:
    是在对数据分类或者分组之前所做的必要处理 内容包括 数据的审核 筛选 排序
    
    1.1 数据审核:检查数据中是否有错误 主要从完整性和准确性去审核 考虑数据的适用性和时效性
                  完整性:是否有遗漏 填写是否齐全
                  准确性:是否有错误 和  异常值[看异常值是否正确]
                  
    1.2 数据筛选:找出符合特定条件的某类数据[使用Excel]

    1.3 数据排序:按照一定顺序将数据进行排列 以便于发现明显的特征或者趋势 有助于对数据的纠错 重新归类或分组提供方便
    
    1.4 数据透视表:借助Excel来生产数据透视表 进行分类汇总和作图 形成一个符合需要的交叉表(列联表)
                    列联表[两个或两个以上变量交叉分布的频数分布表] 二维列联表---->交叉表
                    
2.品质数据的整理与展示:
    预处理后的数据,根据需要进一步做分类和分组
    
    2.1 分类数据的整理与图示:
        需要计算出每一类别的频数/频率、比例/比率 形成一张频数分布表 再根据需要进行展示 以便于对数据的特征有初步的了解
            2.1.1 频数与频数分布:
                  频数是指落在某一特定类别或组中的数据个数 
                  把各个类别及其落在其中相应频数 用表格的形式表现出来----->频数分布
                  
            2.1.2 分类数据的图示:
                  用图形来表示会更加的形象和直观 ----> 条形图[长短直观表现]、
                                                       帕累托图[分类数据排序后频数的分布]、
                                                       饼图[研究结构性问题的分布,多个样本的分布情况]
                                                       两个总体或两个样本的分类相同且问题可比---> 环形饼图
                                                       
    2.2 顺序数据的整理与图示:
            1.累积频数:将各有序类别或组的频数逐级累加起来得到的频数
                        ----> 从变量大/小 向变量小/大一方进行累加 分别成为 向下/上累积
                        通过累积频数 可以看出某一类别以下/上的数值之间的频数之和 
                      
            2.累积频率:将各有序类别或组的百分比逐级累加起来得到的频数 也具有向上和向下累积两种方法
              
              
    2.3 数值型数据的整理与图示:
            1.数据分组:根据研究需要 将原始数据按照某种标准分成不同的组别 分组后的数据成为---->分组数据
                        分组目的:主要的为了观察数据的分布特征
                        方法:单变量分组[离散型] 组距分组[连续型]
                        最大/小值:上限和下限
                            1.确定组数:适中--->5≤K≤15
                            2.确定各组组距: (max-min)/组数 向上取整
                            3.根据分组整理成频数分布表(Excel)
                            注意:不重不漏的原则 
                                  不重:上组限不在内[相邻两组的上下限重叠 140-149 150-159]
                                  在组距分组中 如果全部数据中的最大值和最小值与其他数据悬殊 为避免出现空白组 可以采取“xxx以上”的方法
                        组中值:(上限+下限)/2
                        
            2.数据型数据的图示:
                        2.1 分组数据:直方图、折线、曲线
                        2.2 未分组数据:茎叶图[可以看出数据的分布形状及数据的离散状况 对称 集中]
                                        箱线图[最大值 最小值 (上/下)四分位 中位数]--->离群点 
                        2.3 时间序列数据:线图[用来反映现象随时间变化的特征] 
                        2.4 多变量:散点图 [两个变量之间的关系]
                                    气泡图[三个变量]
                                    雷达图[对比各变量数值总和、多个变量的相似程度]   

3.合理的使用图表:
        正确的使用统计表和图表是做好统计分析最基本的技能 
            3.1 鉴别图形优劣的准则:尽可能的简洁 但要能够清晰地显示数据、合理的表达统计目的为依据
                1、显示数据 2、让读者把注意力集中在图形的内容上 而不是制作图形的程序上
                3、避免歪曲 4、强调数据之间的比较
                5、服务与一个明确的目的 6、有对图形的统计描述和文字说明
                          

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!