离均差平方和公式-离均差平方和公式

公式大全 2026-06-14CST03:16:24

离差平方和这东西，有时候就像人身上长的那个包，有时候又像人心里那个结。它可别总被硬生生拽成一条直线，得先把它揉成团，看看里面到底藏着多硬的疙瘩。想象一下，咱手头有一堆数据，比如几支股票的价格，要么几个人的身高体重。咱们得先把它们排个序，这就好比在货架上把东西摆规整。

然后，从最低的那个数启动，往上提，每一次都算一下：这个数减去它前面那个数，再乘它，平方。

这时候，所有的数字都在慢慢变大，像是在长蘑菇。咱们的目标，就是把这些蘑菇全体捡起来，加在一起，算出总和。

这个总和，就是离差平方和。别听我扯嘴皮子，直接上干货。咱们拿个老数据试试。假设有四组数据：2, 4, 6, 8。咱们先算第一组的平方和。2 的平方是四，4 的平方是一六（十六），6 的平方是三六（三十六），8 的平方是六四（六十四）。加一下：四加一六等于二十，再加三十六是五十六，最终再加六四是一二零。咱们记个号，叫 $SS_{total}$，那就是这一堆数据原始平方相加的总数。

这玩意儿实际上挺好办算，就是好办粗暴的加法。但离差平方和这东西，讲究的是“变形”。它不直接问这总和等于几，而是问“变化量”是多少。

起初，咱得算出平均数，也就是这组数据的“中心体温”。用总和除以个数，20 除以 4，等于五。

这一步，有些同学会认定难，实际上没啥。就像做菜，先要算平均水温，不然煮出来的饭就不好吃了。有了平均值，离差平方和的计算就顺了。核心逻辑是：每个数据都减去平均值，再乘以它，平方。咱们刚刚那个例子里，平均值是 5。

第一组数据 2，减去 5 等于 -3，再乘上 2 是 -6，平方是三十六。

第二组 4，减去 5 是 -1，乘上 4 是 -4，平方是十六。

第三组 6，减去 5 是 1，乘上 6 是 6，平方是三十六。

第四组 8，减去 5 是 3，乘上 8 是 24，平方是五十六。最终把这些数加起来：三十六加十六等于五十二，再加三十六是一八四，最终再加五十六是一二零。哎，咦？

如何还是 120？

如何还是 120？两个 120 如何变？这就叫“平方差”的效应。

你看，第一个 2 离基准差得挺远，直接贡献了 48（出于 $(-3)^2=9$，$9 times 4=36$，哦不对，$3 times 2 times 3 = 18$，平方是 36，之前算错了，重来）。重来，重新算一遍那个例子，这次务必严谨。数据是 2, 4, 6, 8。平均值 $bar{x} = 5$。 $2 - 5 = -3$，平方是 9，乘以 2 得 18。 $4 - 5 = -1$，平方是 1，乘以 4 得 4。 $6 - 5 = 1$，平方是 1，乘以 6 得 6。 $8 - 5 = 3$，平方是 9，乘以 8 得 72。加起来：$18 + 4 + 6 + 72 = 100$。这就对了，离差平方和是 100。这时候，你可能会想，离差平方和能干嘛？它能干嘛？它就是个“热量计”。在统计学的实验室里，离差平方和就是用来烘焙面包的原料量。你把数据做成表格，左边是离差平方和，右边是自由度。自由度就是数据的“自由度”，也就是 $N - 1$。比如刚刚那个例子，$N=4$，自由度就是 $4-1=3$。

这就好比你切了两刀，每刀可行走的面积削减了，总共有多少块？只能切出三块。公式就是：$SS = sum x^2 - frac{(sum x)^2}{n}$。这个公式看着复杂，实际上就两步。

第一步算平方和，第二步算偏方的和（平方平均差额）。咱们用这公式做件大事。假设我们要比较三组实验数据，看看它们有没有区别。数据组 A：10, 10, 10。平均值显然是 10。离差平方和就是 0。出于每个点都重合在平均值上，离差全是 0。数据组 B：12, 12, 12。平均值也是 12。离差平方和也是 0。数据组 C：11, 11, 11。平均值 11。离差平方和也是 0。这组数据没啥区别，离差平方和全为 0，就像三个相同的硬币堆在一起，没有任何厚度。但要是数据组 D：11, 12, 13。平均值是 $11+12+13/3 = 36/3 = 12$。 $11 - 12 = -1$，平方是 1，乘以 11 得 11。 $12 - 12 = 0$，平方是 0，乘以 12 得 0。 $13 - 12 = 1$，平方是 1，乘以 13 得 13。离差平方和就是 $11 + 0 + 13 = 24$。这组数据别看平均值一样，但波动大啊！离差平方和是 24。这时候，最精彩的一步来了。我们要做的，是把所有数据放在一起，算出一个总离差平方和 $SS_{total}$。把所有组加起来，再减去它们各自的平方和（已经算过了），再减去它们的自由度局部。 $SS_{total} = SS_{total}(原始) - sum (SS_{group})$。这里有个公式变形：$SS_{total} = sum x^2 - (sum x)^2 / n$。代入数据： $sum x^2 = 10^2+10^2+10^2 + 12^2+12^2+12^2 + 11^2+12^2+13^2$ $= 300 + 300 + 300 + 144 + 144 + 144 + 121 + 144 + 169$ $= 1800$。 $(sum x)^2 = 36^2 = 1296$。 $n = 9$。 $SS_{total} = 1800 - 1296/9 = 1800 - 144 = 1656$。刚刚算的三组数据总离差平方和是多少？组 A: 0 组 B: 0 组 C: 0 组 D: 24 总共是 24？不对，公式里的 $SS_{total}$ 是所有原始数据的平方和减去调整项。啊，我明白了。离差平方和本身就是一个独立的统计量。 $SS_{total} = sum x^2 - frac{(sum x)^2}{n}$。对于那三组纯重复数据的总和：$1800 - 1296/9 = 1656$。对于那三组“纯”数据的总平方和：$1800 - 1296/9 = 1656$。这俩实际上是一样的。出于 $SS_{total}$ 衡量的是所有数据偏离总体均值的距离。我们刚刚算的组 A、B、C、D 的离差平方和分别是 0, 0, 0, 24。目前要做减法。公式是 $SS_{total} = sum x^2 - frac{(sum x)^2}{n}$。这个公式算出来的 1656，实际上就是组内平方和在某种意义上的总和？不对。对的逻辑是： $SS_{total} = sum x^2 - frac{(sum x)^2}{n}$ 这里 $sum x^2$ 是所有数据的原始平方和。 $frac{(sum x)^2}{n}$ 是所有数据的偏方和。相减，拿到的是总平方和。刚刚算的 1656，就是总平方和。那组别呢？组 A 的平方和是 0。组 B 的平方和是 0。组 C 的平方和是 0。组 D 的平方和是 24。总离差平方和 = 0 + 0 + 0 + 24 = 24。这就怪了。

为啥总平方和是 1656？啊，我懂了。总平方和 1656 是包含了组 A、B、C、D 所有内部变异的总和。而组 D 的 24 只是组 D 内部的。组 A、B、C 的平方和是 0，意味着它们没有内部变异。故此，总离差平方和 1656，减去组内平方和的总和（0+0+0+24=24），剩下的就是组间的离差？不对，公式是 $SS_{between}$。 $SS_{between} = SS_{total} - sum SS_{within}$。 $1656 - 24 = 1632$。故此，组间离差平方和是 1632。这说明，这三组数据的平均值别看都是 12，但它们各自围绕 12 的不同波动幅度，加起来的总量，贡献了 1632 的距离感。这就好比三个人的跑步速度。总体平均速度是 12 单位/秒。 A 组跑得了 10 秒/米，方差挺小。 B 组跑得了 12 秒/米，方差挺小。 C 组跑得了 11 秒/米，方差挺小。 D 组跑得了 13 秒/米，方差挺大。别看平均速度一样，但 D 组跑起来最累，出于每个人走的步子不一样大。把这些步子分一分，D 组贡献了 24 的“额外距离”，A、B、C 贡献了 0。总的距离感（离差平方和）是 1656。要是我们只看 D 组，离差平方和是 24。要是我们看总数据，离差平方和是 1656。这就是个庞大的数字，出于它包含了所有可能的波动。这时候，你可能会问，这个 24 有啥特殊意义？它在统计学里叫组内平方和，要么叫误差平方和。它表示的是，在管住了整体平均值（12）之后，各组数据各自内部的随机波动。 A 组、B 组、C 组都是常数，内部波动为 0。 D 组内部波动为 24。故此，总的离差平方和 1656，主要由 D 组贡献了 24。 A、B、C 贡献了 0。差一局部，就是 D 组本身。这就好比拆快递。总包裹价值 1656 元。 D 组快递本身价值 24 元。 A、B、C 组没有包裹价值。剩下的钱，都给了 D 组。这就是离差平方和的魔力。它把凌乱无章的数据，通过“取差”和“平方”，强行理出了秩序。再举个例子，咱们做做回归分析吧。假设我们要研究身高和重量的关系。数据点： (170, 70) (180, 80) (190, 90) (160, 60) (175, 75) 先算均值。 $x_{avg} = (170+180+190+160+175)/5 = 875/5 = 175$。 $y_{avg} = (70+80+90+60+75)/5 = 375/5 = 75$。算一下离差平方和。 $170-175=-5, (-5)^2 times 170 = 25 times 170 = 4250$（不对，乘的是 $x^2$ 还是 $(x-x_{avg})^2$？乘的是 $x^2$ 再减去调整项）。公式直接套公式： $sum x^2 = 170^2+180^2+190^2+160^2+175^2 = 28900+32400+36100+25600+30625 = 153625$。 $sum y^2 = 70^2+80^2+90^2+60^2+75^2 = 4900+6400+8100+3600+5625 = 28625$。 $sum xy = 170 times 70 + 180 times 80 + 190 times 90 + 160 times 60 + 175 times 75$ $= 11900 + 14400 + 17100 + 9600 + 13125 = 66125$。 $SS_{total} = sum x^2 + sum y^2 - 2sum xy$ $= 153625 + 28625 - 2 times 66125$ $= 182250 - 132250 = 50000$。这是总离差平方和。分组做一下。组 1: 170, 70。$bar{x}=170, bar{y}=70$。$SS_{1} = 25 times (170-170)^2 + 25 times (70-70)^2 = 0$。组 2: 180, 80。$bar{x}=180, bar{y}=80$。$SS_{2} = 25 times (180-180)^2 + 25 times (80-80)^2 = 0$。组 3: 190, 90。$bar{x}=190, bar{y}=90$。$SS_{3} = 25 times (190-190)^2 + 25 times (90-90)^2 = 0$。组 4: 160, 60。$bar{x}=160, bar{y}=60$。$SS_{4} = 25 times (160-160)^2 + 25 times (60-60)^2 = 0$。组 5: 175, 75。$bar{x}=175, bar{y}=75$。$SS_{5} = 25 times (175-175)^2 + 25 times (75-75)^2 = 0$。哇，这组数据忒完美了，全是重复的点。组内平方和全是 0。那总离差平方和 50000 全归给了组间？是的，出于每组的均值都不同！什么的，这组数据的均值都是 175, 180, 190, 160, 175？不对，我刚刚算的均值： x 均值：175。 y 均值：75。数据点：(170, 70), (180, 80), (190, 90), (160, 60), (175, 75)。前 4 组的均值确实是 (170, 70), (180, 80) 什么的。组 1: (170, 70)。平均值 (170, 70)。组 2: (180, 80)。平均值 (180, 80)。 ... 组 5: (175, 75)。平均值 (175, 75)。故此每一组内部的 $x$ 和 $y$ 都彻底重合。那么组内离差平方和确实都是 0。那总离差平方和 50000，全体来自于组间？是的。为啥？出于 $x$ 和 $y$ 都完美地随组别变化。别看 $x$ 的均值是 175，但数据里有 160, 180, 190。别看 $y$ 的均值是 75，但数据里有 60, 70, 80, 90。你看，组 1 的 $x$ 是 170，平均 170。组 2 的 $x$ 是 180，平均 180。组 3 的 $x$ 是 190，平均 190。组 4 的 $x$ 是 160，平均 160。组 5 的 $x$ 是 175，平均 175。总共有 5 组。故此 $SS_{total} = 50000$。 $SS_{between} = SS_{total} - SS_{within} = 50000 - 0 = 50000$。这说明，这五组数据的均值差异（170 到 190 的跨度），还有 $y$ 的均值差异（70 到 90 的跨度），全体转化为了离差平方和。这就好比五辆颜色不同的车，在一条直线上跑。它们的平均速度不同，有的快，有的慢。别看每辆车的个体速度可能差不多（比如都在 170-180），但整体队伍的平均速度差异庞大。离差平方和就把这种“队伍整体跑得快或慢”的效应量化了。最终，咱们聊聊应用场景。离差平方和这东西，在 ANOVA 里是关键。要是做单因素方差分析，你算出来的 $SS_{total}$，再减去组内平方和，剩下的就是组间平方和。这组间平方和越大，说明组间的差异越显著。比如，对比两组实验。组 A 实验，离差平方和是 100。组 B 实验，离差平方和是 50。这俩实验，A 组变异大，B 组变异小。要是样本量一样，A 组的结局更不稳定，B 组更稳定。这时候，离差平方和就成了裁判。裁判依据离差平方和的大小，来判断哪个实验更有效，要么哪个分组更合理。要是 $SS_{between}$ 远大于 $SS_{within}$，说明组间差异大，总体效应显著。要是 $SS_{between}$ 接近 $SS_{within}$，说明组间没啥区别，全是噪音。离差平方和，说白了，就是数据的多巴胺。当你看到一堆乱七八糟的数字时，它帮你算出个总价值。当你把它们揉成团，减去平均值，再平方，再加起来，它就变成了一部专属的“距离记录仪”。它记录了每个点偏离中心的距离。它记录了每个组内数据的波动。它记录了总体的混乱。它就是统计学的基石，别看公式看着像天书，但拆开看，实际上就是“算个总账，再减去自己的账”。别管它叫离差平方和，叫平方和，叫离差平方和，它就是个把数据“压缩”并“突出”的数学工具。有时候它大，有时候它小。大，说明数据乱。小，说明数据规矩。这就是离差平方和，它从不讲话，只负责计算。