统计学基本知识

考研数学
概统
作者

Kengroo1024

发布日期

2024年3月24日

修改的

2024年3月26日

统计学是收集、处理、分析、解释数据,并从中得到结论的学科。统计学是一门研究数据的学科

1 数据的分类

  • 分类数据是非数字型数据,又分为有序类别数据和无序类别数据,有序如优中良差等,无序如制造业,金融业,旅游业等。总的来说,分类数据是离散的,可被因子化。
  • 数值数据是以数字为尺度的观察值,又分为连续数据和离散数据。虽然连续数据可以在某个区间内连续变化,但是我们观察到的数据的取值仍然是离散的。
  • 截面数据是在几乎相同的时间上收集的,不同空间产生的数据;时间序列数据通常是在同一空间观察到的,不同时间产生的数据。

2 统计中的几个基本概念

  1. 总体是包含所研究的全部个体的集合。总体分为有限总体和无限总体。无限总体又分为可数总体和不可数总体。

    当确定总体比较困难时,可以根据研究目的确定总体。

    例如,研究某地的居民抽烟情况,居民就构成一个总体,一个居民就是个体。

  2. 样本是从总体中抽取的一部分元素的集合,样本集元素的数目称为样本量。

  3. 参数是总体的统计特征,例如平均数,方差,总体比例,峰度系数,偏度系数等。

  4. 统计量,统计量是一个有关统计数据的函数,并且不包含任何其他变量,也就是说能通过样本数据直接计算出来。常见的统计量有样本平均数,样本方差等。

  5. 统计变量和数据的分类一样,因为统计数据就是统计变量的取值。

3 抽样方法

3.1 概率抽样

  • 简单随机抽样
  • 分层抽样
  • 系统抽样
  • 整群抽样

3.2 非概率抽样

  • 方便抽样
  • 自愿抽样
  • 配额抽样

4 实验设计

需要分出实验组和对照组。

需要使用尽可能少的实验次数获取尽可能多的信息

5 误差

误差是搜集到的数据和真实结果之间的差异,分为两类,抽样误差和非抽样误差。误差是不可避免的。

5.1 抽样误差

抽样误差表示样本可能的结果与总体真值的平均差异。

影响因素:

  1. 样本量越大,抽样误差越小
  2. 总体变异性越大,抽样误差越大

抽样误差可以减小但是不可以消除。

5.2 非抽样误差

  1. 抽样框误差
  2. 回答误差
  3. 无回答误差
  4. 调查员误差
  5. 测量误差

非抽样误差有些是实验设计/调查问卷不合理带来的,有些是无法避免的。

5.3 误差控制

抽样误差可以计算,计算出公式后进行控制的主要方法是改变样本量,使得抽样误差控制在一个可以接受的范围内。

非抽样误差控制非常复杂,包括问卷设计,抽样框设计等。

6 数据预处理的步骤

  1. 数据审核
  2. 数据筛选,可以通过 Excel 的筛选功能,也可以使用 Python 中的 filter 函数,R 中的 filter 函数等
  3. 数据排序,使用 Excel 货 Python 等工具可以轻松完成

7 数据展示

使用 Excel、Python、R、SPSS 等工具对数据进行分析后,结果通常用频数分布表,联表,图表等展示。

7.1 条形图和帕累托图

条形图是展示绝对数量数据最常用的图,帕累托图是对条形图进行排序并增加累计百分比后的条形图。

7.2 饼图和环形图

饼图是展示百分比数据最常用的图,环形图将饼图中间挖空,可以存放更多组别的数据。