要把分层抽样公式真正用在心里,咱得先忘掉那些教科书上那一大堆冷冰冰的符号 $n_1, n_2, dots, n_k$。它本质上就是一道数学题,就是如何从一堆人里挑出代表不同群体的人。 起初,你得搞清楚题目里说的“层”到底是如何分出来的。

比如你是要调查全校学生的视力情况,这学校分成了几个年级,每个年级的人数大约一样多,这就是典型的层。层之间互不干扰,第一层里抽的人绝对不能跑到第二层去,每一层都要独立地想难题。 然后,得看这个“层”拍得准不准。

要是按年级分,那每个年级内部的数据差别肯定不大,抽样出来代表年级特征就算。但要是按性别分,有时候男女生在视力上的表现差异庞大,这时候再抽一个人,可能就是个特例,没法代表整体。 目前咱们拿个大公式来套咱们自己的例子。假设我们要从某市 10 万人的家庭里做抽样,不想去数每个人,那就得按家庭类型分。假设这个市有 6 万对夫妻,有 2 万个单亲家庭,还有 2 万个双职工家庭。

这就是我们的层。 具体如何抽,核心就是个比例。假设你的样本量一共要 2000 份问卷。

那第一层得抽多少?好办算,$2000 times (60000 / 100000) = 1200$ 份。

第二层呢?$2000 times (20000 / 100000) = 400$ 份。

第三层也是 $2000 times (20000 / 100000) = 400$ 份。 这里有个关键点,公式里的权重实际上就是层里的人数占比。

要是你去查资料,会发现大量地方直接写 $n_i = N cdot frac{N_i}{N}$,那个 $N_i$ 就是第 $i$ 层的人数,$N$ 是总体。

有时候为了省事,直接写 $n_i = n cdot frac{N_i}{N}$,反正结局一样。 再说说算错就完事的例子。去年有个地方说按年龄分层,想抽 5 岁和 50 岁的人,结局算出来 3 岁和 49 岁的人占到了 90%。

这就说明这个分的层次不对。分错了,公式再了得也救不了你。

故此选层得看,要弄明白目标群体的构成。 还有,抽样前得做估摸。

有时候直接给层里人数不忒准,得估算一下。

比如一个班级有 40 个学生,但昨天来了 3 个新来的实习生,人数变了。

这时候得用 $N_i' = frac{N_i times N_{现}}{N_{现} + n}$,这个修正公式时常用。算完总数 $n_i = n times frac{N_i'}{N'}$,再分别去抽,最终把这几层加起来等于你设定的样本总量。 实际上分层抽样的逻辑就是“按比例抓人”。

不管你是机器还是人,只要层之间不重叠,层内数据同质,就能按这个公式算出份数。

不用管是不是公式推导出来如此复杂,关键是记住:人数多的层多抽,人数少的层少抽,比例关系务必保持住。 最终再强调一句,这个公式只是个计算器。真正的活儿是判断你的分层标准有没有毛病。

有时候为了省事,全城市同一天出生的人就作为一个层,有时候为了省事,全市所有高收入家庭都作为一个层。别看这样能不能抽到想要的结局,就得自己去验证。分错了层,再好的公式也得变数。 故此,下次遇到分层抽样的题,先别急着拿计算器,先花一分钟看看这几个层是不是确实代表了不同的东西。

要是代表不了,那公式就算再漂亮,你也得重头再来。毕竟统计学不是为了炫技,而是为了让结论更准更稳。