组间平方和公式推导-组间平方和公式

公式大全 2026-06-07CST21:21:34

说到ANOVA（方差分析）里那个最经典的"SS Between"也就是组间平方和，大量人第一反应就是套公式：$SS_{between} = n_1(bar{x}_1 - bar{x}_{.})^2 + n_2(bar{x}_2 - bar{x}_{.})^2 + dots$，把各个组的均值算出来，再减去总均值的平方加权，最终乘上样本量。

这流程看着像数学题，实际上更像是在脑子里先做个思想实验。想象一下你分了三组学生，A 组考了 85 分，B 组考了 88 分，C 组考了 92 分。

这时候你把三组人数加起来是 100 个，总平均分是 90。

要是你直接用那个公式，你会认定有点乱。

为啥？出于 $85-90$ 的平方，$88-90$ 的平方，再乘上各自的人数，最终加起来，这个结局跟直接算“方差”再“平方和”仿佛道理一样，但逻辑有点绕。

实际上数学上的“组间平方和”，它代表的是一种距离感。我们能够换个说法，别叫它平方和，叫它“距离的累积”。把每一组的学生，都想象成一台标尺。总均值的标尺是 90。A 组的人，平均应当在 85 的位置，他们跟总均值的距离是 5。B 组的人在 88，距离也是 2。C 组的人在 92，距离是 2。

这时候有个难题，要是三个人都是 85 分，哪怕他们离总平均挺相关系，但他们的“贡献”实际上挺小啊，出于分母里 $n$ 忒少了。

故此这个公式里的 $n_i$ 是个调节器，它拍板了每个人站得高不高，才拍板了这把尺子拉得多远。要是你直接手动算 $5^2 times 5 + 2^2 times 2$，等于 25+8=33。但这跟一般看到的 $SS_{between}$ 33 接近，可为啥大家认定这个公式“不通”？实际上是出于公式里的分子局部，也就是 $sum n_i(bar{x}_i - bar{x}_{.})^2$，算出来的本质是“组内波动”被“组间波动”扫出来的局部。打个比方，咱们把所有数据拆开，画成一张散点图。

第一条线是 A 组，代表 50 个点的分布；第二条是 B 组，代表 30 个点；第三条是 C 组，代表 20 个点。每条线都是围绕总均值的。组间平方和，就是把这三条线都拉直，让每条线都跟总平均值并排，然后看拉直后，原本有点凹进去的局部（组内差异）全被拉平了，剩下了多少。好办来说，就是看这三条线整体靠得有多紧。

要是 A 组跟总均值差得远，B 组跟总均值差得近，那总离差图里，A 组那块就显得特别突出，贡献了最大的平方值。再看个具体的例子。假设总共有 200 个数据点。总均值为 50。A 组有 100 个人，平均分 60；B 组有 60 个人，平均分 40；C 组有 40 个人，平均分 55。用那个公式算：第一项是 $100 times (60 - 50)^2 = 100 times 100 = 10,000$。第二项是 $60 times (40 - 50)^2 = 60 times 100 = 6,000$。第三项是 $40 times (55 - 50)^2 = 40 times 25 = 1,000$。加起来就是 $10,000 + 6,000 + 1,000 = 17,000$。这个结局有没有反直觉的地方？有的。

要是你只看第一组，它只有 100 个样本，哪怕它离均值 10 个单位（平方是 100），乘上去也是 1000，远小于后面两个组。

这说明在 ANOVA 里，样本量 $n_i$ 是个权重，它告诉我们这一组数据到底多关键。

要是某组人数极少，哪怕它离总均值的距离挺大，对整体方差分析的功能也挺小。

只有当某组人数大量，要么某组人普遍特别偏，比如大家要么都极高，要么都极低，那个 $n_i(bar{x}_i - bar{x}_{.})^2$ 的项才会显著变大。实际上，这个公式的深层逻辑在于它试图回答一个难题：这些不同的组，是不是确实不一样，还是只是偶然像这样分布的？要是 $SS_{between}$ 特别大，说明不同组的数据点聚在一起，组内点离开这个聚集点挺远，那统计学上就倾向于回绝“所有组都一样”的原假设。

反之，要是计算出来的 $SS_{between}$ 挺小，结合组内平方和，算出来的 $F$ 值就会小，我们就认定各组之间可能没有忒大区别，只是数据点的随机波动。大量人认定这个公式难记，认定它把“加权平方和”搞得忒复杂，像个数学上的迷宫。但实际上拆解开来，它只是讲了一个好办的直觉：别光盯着总均值的方差，要看看各个子组各自离总均值的“拉力”有多大。

那个 $n_i$ 并不是随意给的系数，它是一次性加权，把所有组的信息都浓缩进去了。再想想，要是一组数据全是 50，另一组全是 60，总均值是 55。

那组间平方和就是 $0 + 0 + 0$。出于甭管组内有多少人，只要所有人都在 50 和 60 之间来回晃，离总平均的距离一辈子是 0。

这时候 $F$ 值就是 0，直接说各组之间没区别，哪怕数据量特别大，效果也彻底一样。

这说明 ANOVA 的临界值只跟自由度相关，跟总样本量 $N$ 无涉。

只要 $SS_{between}$ 为 0，甭管 $N$ 是 10 还是 10000，结论都是一样的：不能回绝原假设。故此你看，那个看似复杂的平方和公式，实际上是在做一张挺朴素的图。它在告诉你，哪些组“长”出了与众不同的尾巴。

那些长尾巴的，就是 $SS_{between}$ 贡献大的局部。它把“大样本”和“小样本”放在同一张天平上称重，大样本的每一个点都推了一脚，小样本的每一个点也推了一脚，最终看哪位更重，哪位把天平拉得更倾斜。这样的推导过程，大约不需求那些“起初、其次、最终”来串联。出于每一步都是逻辑链条的自然延伸，自然就是先想清楚组与组之间的相对位置，再寻思每个位置背后代表多少样本量，最终把这些位置感加起来，看能不能构成一个显著的差异。

只要数据够真，公式就是那个最终确认这一切的刻度尺。