快捷搜索:  汽车  科技

统计抽样最佳方法,每天一点统计学

统计抽样最佳方法,每天一点统计学样本的作用是用它判定总体情况。为了确保得到正确结果,需要明智地选择样本。只有先认清总体的实质,以便让样本尽量具有代表性。如何进行抽样设计抽取样本方法必须满足两个条件:独立性:从总体中抽取一个元素不影响其他任何元素的抽取概率。随机性:每一次选取,总体中的所有元素(抽样单位)都有相同的被选概率。

统计需要处理数据,数据从何而来呢?

有时候数据很容易收集——比如一个班级学生的考试成绩,或者是一个企业所有职员的年龄身高。但有时候不又不太容易,比如国家统计局统计全国人口、气象预报局统计一年的降雨量等等,这个时候该怎么办呢?当需要统计的数量十分庞大时,很难决定该从何处着手收集数据。在实际工作中,如何有效地、正确地、省时省力地收集数据呢?这就是抽样设计要解决的问题。

抽样设计

从总体中抽取合适样本的方法,使得由样本到总体的推断是合理的,这一过程称为抽样设计,即对一个存在的测量总体,制定一种从中抽取测量样本的方法。

抽取样本方法必须满足两个条件:

  1. 独立性:从总体中抽取一个元素不影响其他任何元素的抽取概率。

  2. 随机性:每一次选取,总体中的所有元素(抽样单位)都有相同的被选概率。

如何进行抽样设计

样本的作用是用它判定总体情况。为了确保得到正确结果,需要明智地选择样本。只有先认清总体的实质,以便让样本尽量具有代表性。

  1. 确定目标总体。首先要弄清楚目标总体是什么,才知道样本取自那里。这里的目标总体是指正在研究的、并且打算为其采集结果的群体,你所选择的目标总体在很大程度上取决于你的研究目的。目标总体要尽可能精确,这样能更为容易地得出尽可能代表总体的样本。

  2. 确定抽样单位。一旦确定目标总体,就需要决定抽取哪一类对象,通常,要抽样的对象类型就是在确定目标总体时所描述的对象类型。

  3. 确定抽样空间。假设有一张表,表中列出了目标总体范围内的所有抽样单位,并且每个抽样单位都有对应的名字或编号,这张表被称为抽样空间,我们需要从抽样空间中选取样本。

有时候不可能得出涵盖整个目标总体的抽样空间,选取的样本要做到客观反映目标总体也是很苦难的。

无偏样本

偏倚样本无法代表目标总体,由于样本与总体的特性不相似,无法根据样本对总体做出判断。如果使用偏倚样本的分布形状预测总体的分布形状,最终会得出错误的结果。

统计抽样最佳方法,每天一点统计学(1)

偏倚样本

如何选择样本

我们已经知道如何进行抽样设计,假如已经确定了样本空间,又要如何选取实际样本,才能尽可能减少偏倚样本的发生呢?

  • 简单随机抽样设计:就是使总体中所有抽样单元都有相等的概率被抽取到样本中去的一种抽样方法,常用的简单随机抽样方法有抽签,或使用随机编号。

  • 分层随机抽样设计:如果总体包含一些不重叠的互斥部分(称为层),这是由年龄、性别、种族或地理位置等因子引起的,如果这样的层存在,那么分层随机抽样设计从每一层抽取样本。这样获得的样本比简单随机抽样获得的样本更具有代表性,使推断更有效。若每一层的随机样本容量在样本中所占的比例与该层元素在总体中所占的比例相等,称为比例分层随机抽样,否则,称为非比例分层随机抽样。

  • 系统随机抽样设计:如果抽样框架非常大,通常采用系统随机抽样。在系统随机抽样中,抽样框架中每隔k个元素都被选为样本元素,而第一个被抽取元素(称为初始元素)是从前k个元素中随机选择的。如果在抽样框架中存在明显的周期性或循环,应避免使用系统随机抽样。

  • 整群随机抽样设计:如果一个总体很大且非常分散,那么整群随机抽样的抽样成本较低。将总体元素划分为若干互斥部分(称为群),每部分尽可能是异质的。整群随机抽样可以分为:单阶段整群随机抽样,两阶段整群随机抽样和多阶段整群随机抽样,区别是两阶段整群随机抽样是对单阶段整群随机抽样抽出的群再进行整群随机抽样,以此类推。例如,对国家进行民意调查,每一个省是异质的,可以看做抽样中的一个群,若进行单阶段整群随机抽样,则随机抽取若干个省,省内的每一个人都作为样本,若是两阶段整群随机抽样,则在抽取的省中再随机抽取若干个市,以此类推。

猜您喜欢: