离均差平方和公式-离均差平方和公式
离差平方和这东西,有时候就像人身上长的那个包,有时候又像人心里那个结。它可别总被硬生生拽成一条直线,得先把它揉成团,看看里面到底藏着多硬的疙瘩。 想象一下,咱手头有一堆数据,比如几支股票的价格,要么几个人的身高体重。咱们得先把它们排个序,这就好比在货架上把东西摆规整。
然后,从最低的那个数启动,往上提,每一次都算一下:这个数减去它前面那个数,再乘它,平方。
这时候,所有的数字都在慢慢变大,像是在长蘑菇。咱们的目标,就是把这些蘑菇全体捡起来,加在一起,算出总和。
这个总和,就是离差平方和。 别听我扯嘴皮子,直接上干货。咱们拿个老数据试试。假设有四组数据:2, 4, 6, 8。咱们先算第一组的平方和。2 的平方是四,4 的平方是一六(十六),6 的平方是三六(三十六),8 的平方是六四(六十四)。加一下:四加一六等于二十,再加三十六是五十六,最终再加六四是一二零。咱们记个号,叫 $SS_{total}$,那就是这一堆数据原始平方相加的总数。
这玩意儿实际上挺好办算,就是好办粗暴的加法。 但离差平方和这东西,讲究的是“变形”。它不直接问这总和等于几,而是问“变化量”是多少。
起初,咱得算出平均数,也就是这组数据的“中心体温”。用总和除以个数,20 除以 4,等于五。
这一步,有些同学会认定难,实际上没啥。就像做菜,先要算平均水温,不然煮出来的饭就不好吃了。 有了平均值,离差平方和的计算就顺了。核心逻辑是:每个数据都减去平均值,再乘以它,平方。咱们刚刚那个例子里,平均值是 5。
第一组数据 2,减去 5 等于 -3,再乘上 2 是 -6,平方是三十六。
第二组 4,减去 5 是 -1,乘上 4 是 -4,平方是十六。
第三组 6,减去 5 是 1,乘上 6 是 6,平方是三十六。
第四组 8,减去 5 是 3,乘上 8 是 24,平方是五十六。最终把这些数加起来:三十六加十六等于五十二,再加三十六是一八四,最终再加五十六是一二零。 哎,咦?
如何还是 120?
如何还是 120?两个 120 如何变?这就叫“平方差”的效应。
你看,第一个 2 离基准差得挺远,直接贡献了 48(出于 $(-3)^2=9$,$9 times 4=36$,哦不对,$3 times 2 times 3 = 18$,平方是 36,之前算错了,重来)。 重来,重新算一遍那个例子,这次务必严谨。数据是 2, 4, 6, 8。平均值 $bar{x} = 5$。 $2 - 5 = -3$,平方是 9,乘以 2 得 18。 $4 - 5 = -1$,平方是 1,乘以 4 得 4。 $6 - 5 = 1$,平方是 1,乘以 6 得 6。 $8 - 5 = 3$,平方是 9,乘以 8 得 72。 加起来:$18 + 4 + 6 + 72 = 100$。 这就对了,离差平方和是 100。 这时候,你可能会想,离差平方和能干嘛? 它能干嘛?它就是个“热量计”。 在统计学的实验室里,离差平方和就是用来烘焙面包的原料量。你把数据做成表格,左边是离差平方和,右边是自由度。自由度就是数据的“自由度”,也就是 $N - 1$。 比如刚刚那个例子,$N=4$,自由度就是 $4-1=3$。
这就好比你切了两刀,每刀可行走的面积削减了,总共有多少块?只能切出三块。 公式就是:$SS = sum x^2 - frac{(sum x)^2}{n}$。 这个公式看着复杂,实际上就两步。
第一步算平方和,第二步算偏方的和(平方平均差额)。 咱们用这公式做件大事。假设我们要比较三组实验数据,看看它们有没有区别。 数据组 A:10, 10, 10。平均值显然是 10。离差平方和就是 0。出于每个点都重合在平均值上,离差全是 0。 数据组 B:12, 12, 12。平均值也是 12。离差平方和也是 0。 数据组 C:11, 11, 11。平均值 11。离差平方和也是 0。 这组数据没啥区别,离差平方和全为 0,就像三个相同的硬币堆在一起,没有任何厚度。 但要是数据组 D:11, 12, 13。平均值是 $11+12+13/3 = 36/3 = 12$。 $11 - 12 = -1$,平方是 1,乘以 11 得 11。 $12 - 12 = 0$,平方是 0,乘以 12 得 0。 $13 - 12 = 1$,平方是 1,乘以 13 得 13。 离差平方和就是 $11 + 0 + 13 = 24$。 这组数据别看平均值一样,但波动大啊!离差平方和是 24。 这时候,最精彩的一步来了。我们要做的,是把所有数据放在一起,算出一个总离差平方和 $SS_{total}$。 把所有组加起来,再减去它们各自的平方和(已经算过了),再减去它们的自由度局部。 $SS_{total} = SS_{total}(原始) - sum (SS_{group})$。 这里有个公式变形:$SS_{total} = sum x^2 - (sum x)^2 / n$。 代入数据: $sum x^2 = 10^2+10^2+10^2 + 12^2+12^2+12^2 + 11^2+12^2+13^2$ $= 300 + 300 + 300 + 144 + 144 + 144 + 121 + 144 + 169$ $= 1800$。 $(sum x)^2 = 36^2 = 1296$。 $n = 9$。 $SS_{total} = 1800 - 1296/9 = 1800 - 144 = 1656$。 刚刚算的三组数据总离差平方和是多少? 组 A: 0 组 B: 0 组 C: 0 组 D: 24 总共是 24?不对,公式里的 $SS_{total}$ 是所有原始数据的平方和减去调整项。 啊,我明白了。离差平方和本身就是一个独立的统计量。 $SS_{total} = sum x^2 - frac{(sum x)^2}{n}$。 对于那三组纯重复数据的总和:$1800 - 1296/9 = 1656$。 对于那三组“纯”数据的总平方和:$1800 - 1296/9 = 1656$。 这俩实际上是一样的。出于 $SS_{total}$ 衡量的是所有数据偏离总体均值的距离。 我们刚刚算的组 A、B、C、D 的离差平方和分别是 0, 0, 0, 24。 目前要做减法。公式是 $SS_{total} = sum x^2 - frac{(sum x)^2}{n}$。 这个公式算出来的 1656,实际上就是组内平方和在某种意义上的总和?不对。 对的逻辑是: $SS_{total} = sum x^2 - frac{(sum x)^2}{n}$ 这里 $sum x^2$ 是所有数据的原始平方和。 $frac{(sum x)^2}{n}$ 是所有数据的偏方和。 相减,拿到的是总平方和。 刚刚算的 1656,就是总平方和。 那组别呢? 组 A 的平方和是 0。 组 B 的平方和是 0。 组 C 的平方和是 0。 组 D 的平方和是 24。 总离差平方和 = 0 + 0 + 0 + 24 = 24。 这就怪了。
为啥总平方和是 1656? 啊,我懂了。总平方和 1656 是包含了组 A、B、C、D 所有内部变异的总和。 而组 D 的 24 只是组 D 内部的。 组 A、B、C 的平方和是 0,意味着它们没有内部变异。 故此,总离差平方和 1656,减去组内平方和的总和(0+0+0+24=24),剩下的就是组间的离差? 不对,公式是 $SS_{between}$。 $SS_{between} = SS_{total} - sum SS_{within}$。 $1656 - 24 = 1632$。 故此,组间离差平方和是 1632。 这说明,这三组数据的平均值别看都是 12,但它们各自围绕 12 的不同波动幅度,加起来的总量,贡献了 1632 的距离感。 这就好比三个人的跑步速度。总体平均速度是 12 单位/秒。 A 组跑得了 10 秒/米,方差挺小。 B 组跑得了 12 秒/米,方差挺小。 C 组跑得了 11 秒/米,方差挺小。 D 组跑得了 13 秒/米,方差挺大。 别看平均速度一样,但 D 组跑起来最累,出于每个人走的步子不一样大。 把这些步子分一分,D 组贡献了 24 的“额外距离”,A、B、C 贡献了 0。 总的距离感(离差平方和)是 1656。 要是我们只看 D 组,离差平方和是 24。 要是我们看总数据,离差平方和是 1656。 这就是个庞大的数字,出于它包含了所有可能的波动。 这时候,你可能会问,这个 24 有啥特殊意义? 它在统计学里叫组内平方和,要么叫误差平方和。 它表示的是,在管住了整体平均值(12)之后,各组数据各自内部的随机波动。 A 组、B 组、C 组都是常数,内部波动为 0。 D 组内部波动为 24。 故此,总的离差平方和 1656,主要由 D 组贡献了 24。 A、B、C 贡献了 0。 差一局部,就是 D 组本身。 这就好比拆快递。总包裹价值 1656 元。 D 组快递本身价值 24 元。 A、B、C 组没有包裹价值。 剩下的钱,都给了 D 组。 这就是离差平方和的魔力。它把凌乱无章的数据,通过“取差”和“平方”,强行理出了秩序。 再举个例子,咱们做做回归分析吧。 假设我们要研究身高和重量的关系。 数据点: (170, 70) (180, 80) (190, 90) (160, 60) (175, 75) 先算均值。 $x_{avg} = (170+180+190+160+175)/5 = 875/5 = 175$。 $y_{avg} = (70+80+90+60+75)/5 = 375/5 = 75$。 算一下离差平方和。 $170-175=-5, (-5)^2 times 170 = 25 times 170 = 4250$(不对,乘的是 $x^2$ 还是 $(x-x_{avg})^2$?乘的是 $x^2$ 再减去调整项)。 公式直接套公式: $sum x^2 = 170^2+180^2+190^2+160^2+175^2 = 28900+32400+36100+25600+30625 = 153625$。 $sum y^2 = 70^2+80^2+90^2+60^2+75^2 = 4900+6400+8100+3600+5625 = 28625$。 $sum xy = 170 times 70 + 180 times 80 + 190 times 90 + 160 times 60 + 175 times 75$ $= 11900 + 14400 + 17100 + 9600 + 13125 = 66125$。 $SS_{total} = sum x^2 + sum y^2 - 2sum xy$ $= 153625 + 28625 - 2 times 66125$ $= 182250 - 132250 = 50000$。 这是总离差平方和。 分组做一下。 组 1: 170, 70。$bar{x}=170, bar{y}=70$。$SS_{1} = 25 times (170-170)^2 + 25 times (70-70)^2 = 0$。 组 2: 180, 80。$bar{x}=180, bar{y}=80$。$SS_{2} = 25 times (180-180)^2 + 25 times (80-80)^2 = 0$。 组 3: 190, 90。$bar{x}=190, bar{y}=90$。$SS_{3} = 25 times (190-190)^2 + 25 times (90-90)^2 = 0$。 组 4: 160, 60。$bar{x}=160, bar{y}=60$。$SS_{4} = 25 times (160-160)^2 + 25 times (60-60)^2 = 0$。 组 5: 175, 75。$bar{x}=175, bar{y}=75$。$SS_{5} = 25 times (175-175)^2 + 25 times (75-75)^2 = 0$。 哇,这组数据忒完美了,全是重复的点。 组内平方和全是 0。 那总离差平方和 50000 全归给了组间? 是的,出于每组的均值都不同! 什么的,这组数据的均值都是 175, 180, 190, 160, 175? 不对,我刚刚算的均值: x 均值:175。 y 均值:75。 数据点:(170, 70), (180, 80), (190, 90), (160, 60), (175, 75)。 前 4 组的均值确实是 (170, 70), (180, 80) 什么的。 组 1: (170, 70)。平均值 (170, 70)。 组 2: (180, 80)。平均值 (180, 80)。 ... 组 5: (175, 75)。平均值 (175, 75)。 故此每一组内部的 $x$ 和 $y$ 都彻底重合。 那么组内离差平方和确实都是 0。 那总离差平方和 50000,全体来自于组间? 是的。 为啥?出于 $x$ 和 $y$ 都完美地随组别变化。 别看 $x$ 的均值是 175,但数据里有 160, 180, 190。 别看 $y$ 的均值是 75,但数据里有 60, 70, 80, 90。 你看,组 1 的 $x$ 是 170,平均 170。 组 2 的 $x$ 是 180,平均 180。 组 3 的 $x$ 是 190,平均 190。 组 4 的 $x$ 是 160,平均 160。 组 5 的 $x$ 是 175,平均 175。 总共有 5 组。 故此 $SS_{total} = 50000$。 $SS_{between} = SS_{total} - SS_{within} = 50000 - 0 = 50000$。 这说明,这五组数据的均值差异(170 到 190 的跨度),还有 $y$ 的均值差异(70 到 90 的跨度),全体转化为了离差平方和。 这就好比五辆颜色不同的车,在一条直线上跑。 它们的平均速度不同,有的快,有的慢。 别看每辆车的个体速度可能差不多(比如都在 170-180),但整体队伍的平均速度差异庞大。 离差平方和就把这种“队伍整体跑得快或慢”的效应量化了。 最终,咱们聊聊应用场景。 离差平方和这东西,在 ANOVA 里是关键。 要是做单因素方差分析,你算出来的 $SS_{total}$,再减去组内平方和,剩下的就是组间平方和。 这组间平方和越大,说明组间的差异越显著。 比如,对比两组实验。组 A 实验,离差平方和是 100。 组 B 实验,离差平方和是 50。 这俩实验,A 组变异大,B 组变异小。 要是样本量一样,A 组的结局更不稳定,B 组更稳定。 这时候,离差平方和就成了裁判。 裁判依据离差平方和的大小,来判断哪个实验更有效,要么哪个分组更合理。 要是 $SS_{between}$ 远大于 $SS_{within}$,说明组间差异大,总体效应显著。 要是 $SS_{between}$ 接近 $SS_{within}$,说明组间没啥区别,全是噪音。 离差平方和,说白了,就是数据的多巴胺。 当你看到一堆乱七八糟的数字时,它帮你算出个总价值。 当你把它们揉成团,减去平均值,再平方,再加起来,它就变成了一部专属的“距离记录仪”。 它记录了每个点偏离中心的距离。 它记录了每个组内数据的波动。 它记录了总体的混乱。 它就是统计学的基石,别看公式看着像天书,但拆开看,实际上就是“算个总账,再减去自己的账”。 别管它叫离差平方和,叫平方和,叫离差平方和,它就是个把数据“压缩”并“突出”的数学工具。 有时候它大,有时候它小。 大,说明数据乱。 小,说明数据规矩。 这就是离差平方和,它从不讲话,只负责计算。
声明:演示网站所有内容,若无特殊说明或标注,均来源于网络转载,仅供学习交流使用,禁止商用。若本站侵犯了你的权益,可联系本站删除。
