简单统计学读书心得(赤裸裸的统计学读书笔记)
简单统计学读书心得(赤裸裸的统计学读书笔记)我们还有四分位数,即把数据分成四部分,第一四分位数就是底部的占25%的数据,以此类推。当然,还有十分位数等等...这类数字的好处在于:它们描述了某个具体的值与其他数据进行比较的位置。你知道了相对位置,就可以忽略一些信息了,比如考试,只要知道了排名,就不用去考虑考试的难易了。2.中位数的亲戚们:最常用的求平均数。在统计中,其实很难用一个特征去总结某件事情。比如,如何衡量这几十年美国中产阶级的经济状况?一个答案是观察这部分人群的人均收入(平均值)的变化,但是这是有缺陷的,比如你并没有考虑通货膨胀的问题。而且,你怎么找到这部分人群也是一个问题。除外,平均值还容易受异常值的影响,就像是一群普通人和比尔盖茨坐在一个酒馆里,这时候平均收入显然就不合理了。所以我们可以尝试一下“中位数”,也就是在中间的那个数。这时我们就解决了上面那个问题,并且当数据中没有什么异常值的时候,平均值和中位数值是差不多的。所以
生活中,我们通常需要对数据进行简化,将一系列复杂的数据序列减少为几个能够起到描述作用的数字,比如奥运会体操比赛中,我们将一套多难度组合的复杂动作浓缩为一个得分。
这些描述性数据为我们提供了一个针对某一现象的可操作,有意义的概括。
1.平均数和中位数
描述任务的第一步通常是估量某套数据的“中间位置”,也就是统计学家所说的“集中趋势”。
最常用的求平均数。
在统计中,其实很难用一个特征去总结某件事情。比如,如何衡量这几十年美国中产阶级的经济状况?一个答案是观察这部分人群的人均收入(平均值)的变化,但是这是有缺陷的,比如你并没有考虑通货膨胀的问题。而且,你怎么找到这部分人群也是一个问题。除外,平均值还容易受异常值的影响,就像是一群普通人和比尔盖茨坐在一个酒馆里,这时候平均收入显然就不合理了。所以我们可以尝试一下“中位数”,也就是在中间的那个数。这时我们就解决了上面那个问题,并且当数据中没有什么异常值的时候,平均值和中位数值是差不多的。所以,可以结合中位数和平均值这两个指标来研究你的数据。
无论是中位数还是平均数,要求出它们并不难,关键在于根据具体情况确定哪一个“中间位置”能够更准确的反映问题的实质
2.中位数的亲戚们:
我们还有四分位数,即把数据分成四部分,第一四分位数就是底部的占25%的数据,以此类推。当然,还有十分位数等等...这类数字的好处在于:它们描述了某个具体的值与其他数据进行比较的位置。你知道了相对位置,就可以忽略一些信息了,比如考试,只要知道了排名,就不用去考虑考试的难易了。
3.“绝对数值”:
“绝对”的数值本身就是有意义的。是能够被理解的,比如我在NBA一场比赛中得了50分,你不需要知道比赛的情况就可以对我的表现进行评价。而如果我告诉你,我的主队排名第九,那么这就是一个相对数据。
4.方差和标准差:
用以衡量数据相对于平均值的分散程度。比如说一队运动员和几个普通家庭,这两组假设他们体重平均数是相同的,但是我们都知道普通家庭成年人的体重肯定是高于运动员的,但是由于小孩儿的存在,平均数下来了。这时如果用标准差去衡量,就会发现普通家庭的标准差远大于运动员们,这就说明,他们的体重数据是很分散的。而标准差的重要性在于,你可以分辨某数据是正常还是异常的,比如身高,假设中国人身高1.7,你身高是1.8,这不正常吗??当然不是,你的身高是在标准差范围内的。
方差和标准差是测量和描述数据分布的离散情况最常用的统计学技巧。方差通常用符号σ²表示,体现各个数值距离它们的平均值的距离远近。但要注意的是,在计算时需要对具体数值和平均值之差进行平方,然后再用平方之和除以数值的个数。
标准差公式是一种数学公式。标准差也被称为标准偏差,或者实验标准差,公式如下所示:
标准差计算公式
5.正态分布:
图像就是一个钟型的图。这种分布可以用来描述很多现象,比如考试分数,在中间的人肯定是最多的,两端的较少。简单来说,正态分布的美在于我们通过定义可以清楚地知道,有多少数据处于平均值一个标准差范围内,多少处于两个标准差范围内.
正态分布有两个参数,即期望(均数)μ和标准差σ
实际工作中,正态曲线下横轴上一定区间的面积反映该区间的例数占总例数的百分比,或变量值落在该区间的概率(概率分布)。
6.百分率,百分差:
当我们描述数据的变化时,通常使用百分比较好。举个例子,你爸爸在2017年赚的钱比2016年少了10万,这是不是有点可怕?但万一你爸爸是马云呢?10万只是个零头了。所以,这种时候百分比则可以带来数据显示的正确的意义。当然有时候用百分比来描述数据也可以掩盖一些事情,比如,有人说今年赚的比去年多20%,但去年他压根就没赚到什么钱,所以就算增加20%,也相当于没赚......
税率 从3% 上涨到 5% 绝对值变化
税率上升67%, (5-3)/3 = 2/3 即67% 更能体现税率变化带来的影响
小结:
对于各种指数,它们的优点和缺点都是将复杂的信息浓缩成了一个数据。我们可以靠这些指数做出来各种排名,但是最后我们会意识到对于排名的争论永远不会停息。不过,这些指数总体来说还是给我们提供了一个较为合理的判断依据。
懒惰和拖延使我至今才补完之前的笔记,希望后续自己做到读书的频次越来越高。