统计学数据分析过程（数据分析必掌握的统计学知识）

威哥 2023-04-23 07:25:16 489

统计学数据分析过程（数据分析必掌握的统计学知识）相关性与回归分析：一般数据分析的基本模型置信区间与假设检验：如何进行验证分析基本的统计量：均值、中位数、众数、方差、标准差、百分位数等概率分布：几何分布、二项分布、泊松分布、正态分布等总体和样本：了解基本概念，抽样的概念

此文是《10周入门数据分析》系列的第7篇

想了解学习路线，可以先阅读学习计划 | 10周入门数据分析

统计学是数据分析的基石。学了统计学，你会发现很多时候的分析并不靠谱。比如很多人都喜欢用平均数去分析一个事物的结果，但是这往往是粗糙的，不准确的。如果学了统计学，那么我们就能以更多更科学的角度看待数据。

大部分的数据分析，都会用到统计方面的以下知识，可以重点学习：

基本的统计量：均值、中位数、众数、方差、标准差、百分位数等

概率分布：几何分布、二项分布、泊松分布、正态分布等

总体和样本：了解基本概念，抽样的概念

置信区间与假设检验：如何进行验证分析

相关性与回归分析：一般数据分析的基本模型

通过基本的统计量，你可以进行更多元化的可视化，以实现更加精细化的数据分析。这个时候也需要你去了解更多的Excel函数来实现基本的计算，或者python、R里面一些对应的可视化方法。

有了总体和样本的概念，你就知道在面对大规模数据的时候，怎样去进行抽样分析。

3.异常值

小于Q1-1.5(IQR)或者大于Q3 1.5(IQR);

对于异常值，我们在数据处理的环节就要剔除；

4.方差

统计学数据分析过程（数据分析必掌握的统计学知识）(1)

5.平方偏差

方差的算术平方根

6.贝塞尔矫正：修正样本方差

实际在计算方差时，分母要用n-1，而不是样本数量n。原因在于，比如在高斯分布中，我们抽取一部分的样本，用样本的方差表示满足高斯分布的大样本数据集的方差。由于样本主要是落在x=u中心值附近，那么样本如果用如下公式算方差，那么预测方差一定小于大数据集的方差（因为高斯分布的边沿抽取的数据也很少）。为了能弥补这方面的缺陷，那么我们把公式的n改为n-1，以此来提高方差的数值，这种方法叫贝塞尔矫正系数。

三、归一化

1.标准分数

一个给定分数距离平均数多少个标准差？

标准分数是一种可以看出某分数在分布中相对位置的方法。

标准分数能够真实的反映一个分数距离平均数的相对标准距离。

统计学数据分析过程（数据分析必掌握的统计学知识）(2)

四、正态分布

1.定义：随机变量X服从一个数学期望为μ，方差为σ⊃2;的正态分布，记为N(μ σ⊃2;)

随机取一个样本，有68.3%的概率位于距离均值μ有1个标准差σ内；

有95.4%的概率位于距离均值μ有2个标准差σ内；

有99.7%的概率位于距离均值μ有3个标准差σ内；

统计学数据分析过程（数据分析必掌握的统计学知识）(3)

五、抽样分布

1.中心极限定理

设从均值为μ，方差为σ⊃2;的任意一个总体中抽取样本量为n的样本，当n充分大时，样本均值的抽样分布近似服从均值为μ、方差为σ⊃2;/n的正态分布

2.抽样分布

设总体共有N个元素，从中随机抽取一个容量为n的样本，在重置抽样时，共有N·n种抽法，即可以组成N·n不同的样本，在不重复抽样时，共有N·n个可能的样本。每一个样本都可以计算出一个均值，这些所有可能的抽样均值形成的分布就是样本均值的分布。但现实中不可能将所有的样本都抽取出来，因此，样本均值的概率分布实际上是一种理论分布。数理统计学的相关定理已经证明：在重置抽样时，样本均值的方差为总体方差的1/n。

举个例子：

48盆MM豆，计算出每盆有几个蓝色的MM豆，48个数据构成了总体样本。然后随机选择五盆，计算五盆中含有蓝色MM豆的平均数，然后反复进行了50次。这就是n为5的样本均值抽样。

统计学数据分析过程（数据分析必掌握的统计学知识）(4)