大数据统计学基础

喜你入骨 提交于 2020-01-23 01:52:11

介绍

  1. 统计学的分类
  2. 数据集中趋势的表现
  3. 数据离散程度的描述
  4. 各种数据图(直方图、箱线图、茎叶图、线图、柱状图、饼图)

统计学可以分为:描述统计学与推断统计学

  • 描述统计学:使用特定的数字或图表来体现数据的集中程度和离散程度。
  • 推断统计学:根据样本数据推断总体数据特征。
  • 应用:统计学的应用十分广泛,目前比较热门的应用:经济学,医学,心理学等。

集中趋势
在这里插入图片描述

  1. 均值——算术平均数,描述平均水平
  2. 中位数——将数据按大小排列后位于正中间的数描述,描述中等水平
  3. 众数——数据中出现最多的数,描述一般水平
    在这里插入图片描述
    在这里插入图片描述

离散程度的描述
极差:最大值-最小值,简单的描述数据的范围大小
方差:在这里插入图片描述,描述数据的离散程度
例如:
在这里插入图片描述
简化方差:
在这里插入图片描述
标准差:在这里插入图片描述与方差一样,标准差的值越大,表示数据越分散。

直方图
使用直方图的原因:数据过于复杂,无法直观表示。

  1. 找出最大值与最小值,确定数据的范围
  2. 整理数据,分组(选取数据的范围),并记录所分的组中,含有数据的多少(频数)构成表格(频数分布表)
  3. 依据频数分布表画出直方图(频数为纵轴、分组为横轴)

箱线图

在这里插入图片描述

  1. 对数据进行排序
  2. 找出中位数
  3. 找出上四分位数与下四分位数(注意:下四分位数:Q1,将所有数据按照从小到大的顺序排序排在第25%位置的数字;上四分位数:Q3,将所有数据按照从小到大的顺序排序排在第75%位置的数字)
  4. 判断异常点(异常点:小于Q1-1.5IQR或大于Q3+1.5IQR的值)
  5. 找出最大值和最小值
  6. 选取第二个最大值和最小值,指向,最大值和最小值
    在这里插入图片描述

茎叶图

  1. 将数据分为茎和叶两部分,这里的茎是指十位上的数字,叶是指个位上的数字
  2. 将茎部分(十位)从小到大,从上到下写出来
  3. 相对于各自的茎,将同一茎(十位)的叶子(个位)从小到大,从左往右写出来
    在这里插入图片描述

线图
在这里插入图片描述
以时间为横坐标,变量为纵坐标,反映变量随时间推秱的变化趋势

柱状图
在这里插入图片描述
柱状图与直方图的区别在于:

  1. 直方图是同一个变量的分组划分,而柱形图则是不同的组别
  2. 直方图用于显示一组数据的分布情况,而柱形图则是用于比较丌同组别的数据差异

饼图
在这里插入图片描述

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!