统计学基本知识
考研数学
概统
统计学是收集、处理、分析、解释数据,并从中得到结论的学科。统计学是一门研究数据的学科
1 数据的分类
- 分类数据是非数字型数据,又分为有序类别数据和无序类别数据,有序如优中良差等,无序如制造业,金融业,旅游业等。总的来说,分类数据是离散的,可被因子化。
- 数值数据是以数字为尺度的观察值,又分为连续数据和离散数据。虽然连续数据可以在某个区间内连续变化,但是我们观察到的数据的取值仍然是离散的。
- 截面数据是在几乎相同的时间上收集的,不同空间产生的数据;时间序列数据通常是在同一空间观察到的,不同时间产生的数据。
2 统计中的几个基本概念
总体是包含所研究的全部个体的集合。总体分为有限总体和无限总体。无限总体又分为可数总体和不可数总体。
当确定总体比较困难时,可以根据研究目的确定总体。
例如,研究某地的居民抽烟情况,居民就构成一个总体,一个居民就是个体。
样本是从总体中抽取的一部分元素的集合,样本集元素的数目称为样本量。
参数是总体的统计特征,例如平均数,方差,总体比例,峰度系数,偏度系数等。
统计量,统计量是一个有关统计数据的函数,并且不包含任何其他变量,也就是说能通过样本数据直接计算出来。常见的统计量有样本平均数,样本方差等。
统计变量和数据的分类一样,因为统计数据就是统计变量的取值。
3 抽样方法
3.1 概率抽样
- 简单随机抽样
- 分层抽样
- 系统抽样
- 整群抽样
3.2 非概率抽样
- 方便抽样
- 自愿抽样
- 配额抽样
4 实验设计
需要分出实验组和对照组。
需要使用尽可能少的实验次数获取尽可能多的信息
5 误差
误差是搜集到的数据和真实结果之间的差异,分为两类,抽样误差和非抽样误差。误差是不可避免的。
5.1 抽样误差
抽样误差表示样本可能的结果与总体真值的平均差异。
影响因素:
- 样本量越大,抽样误差越小
- 总体变异性越大,抽样误差越大
抽样误差可以减小但是不可以消除。
5.2 非抽样误差
- 抽样框误差
- 回答误差
- 无回答误差
- 调查员误差
- 测量误差
非抽样误差有些是实验设计/调查问卷不合理带来的,有些是无法避免的。
5.3 误差控制
抽样误差可以计算,计算出公式后进行控制的主要方法是改变样本量,使得抽样误差控制在一个可以接受的范围内。
非抽样误差控制非常复杂,包括问卷设计,抽样框设计等。
6 数据预处理的步骤
- 数据审核
- 数据筛选,可以通过 Excel 的筛选功能,也可以使用 Python 中的 filter 函数,R 中的 filter 函数等
- 数据排序,使用 Excel 货 Python 等工具可以轻松完成
7 数据展示
使用 Excel、Python、R、SPSS 等工具对数据进行分析后,结果通常用频数分布表,联表,图表等展示。
7.1 条形图和帕累托图
条形图是展示绝对数量数据最常用的图,帕累托图是对条形图进行排序并增加累计百分比后的条形图。
7.2 饼图和环形图
饼图是展示百分比数据最常用的图,环形图将饼图中间挖空,可以存放更多组别的数据。