方差公式怎么推倒-方差公式如何推导

公式大全 2026-06-17CST04:16:29

方差这东西，咱们平时算概率要么做回归分析的时候见得不少，但真要把它掰开揉碎讲透彻，有时候比解几道方程还让人头大。别急着记书本上那个死记硬背的公式 $sigma^2 = frac{1}{N}sum_{i=1}^{N}(x_i-bar{x})^2$，也别想着一学就会。

这玩意儿的核心实际上就一句话：方差就是“平均数”离“真情况”有多远，要么说，数据本身有多“散”。要是把一组数据比作一群人在操场上跑步，那“平均数”就是大家跑的平均速度，咱们关心的是“方差”，那就要看这组人里，有人跑得飞起，有人摔在地上。

要是所有人速度差不多，那方差就小；要是有人神速如风，有人像醉汉一样东倒西歪，那方差立马就大了起来。举个最好办的例子，假设有两组数据，都是两个老人。

第一组老李 65 岁，老王 70 岁，那平均岁数就是 67.5 岁。

要是我们想评估大家的“年纪稳定性”，咱们算平方差。李李离平均值还有 2.5 岁，平方是 6.25；老王离平均值还有 2.5 岁，平方也是 6.25。一组算下来就是 12.5。

这时候我们再拿第二组数据，李李 63 岁，老王 68 岁，正好对称。李李离平均 3 岁，平方是 9；老王离平均 4 岁，平方是 16。一减一和是 25。

你看，两个老李数据规整划一，方差就小；两个老李数据参差不齐，方差就大。实际上把数据放进同一个框里，就能直观看出差别。

比如前面那组，数据都在 60 到 70 之间晃悠，中间夹着 67.5，离中心点的距离都在 3 以内，平方加起来也就几。而后面的那组，李李跑到了 63，老王跑到了 68，别看算术平均数没变，但平方差却从 12.5 变成了 25，足足翻倍了。

这就好比，同样一个班级里，两人背对背站，距离是 3 米，平方是 9；两人面对面站，距离也是 4 米，平方是 16。同样的逻辑，用在方差里，就是让数据分布越窄、越聚拢，平方和就越小。大量人一启动会困惑，为啥要除以 N，为啥不是除以 N-1，要么为啥要开平方。

实际上这背后全是想告诉你“方差”这个概念的本质。

要是你只关心“偏移量”，为啥不直接用 $sum(x_i-bar{x})^2$ 呢？出于平方之后，数据都是正数，并且能避免负负得正抵消的难题，这样算出来的平方和就能直接反映离散程度。但要是你直接用平方和当方差，那标准差的量纲就变了——原来是米，目前变成了平方米，没法直接跟距离比。

故此除以 N 是为了让量纲还原；开平方是为了把无量纲的数变回有尺度的数；最终还要除以 N 或 N-1，是为了让统计结局跟样本表现更贴合真情况。实际上啊，方差是个有点“抽象”的词，不像平均数那样一眼就能看懂是“命中率”要么“增长率”。它更像是个描述“混乱感”的量表。平均数告诉你“整体在哪”，方差告诉你“整体如何动”。我们生活里到处都是方差。

你看天气预报，跟天气预报打结局的人，一般是死对头，他们的方差小，预测准；而跟天气预报反着喊的人，方差大，要么说下雨，要么说晴天，互不相让。再比如大家选学校，要是大家都喜爱 A 校，那方差就小；要是家的人有的喜爱 B，有的喜爱 C，就连有人根本不想去学校，那方差就大。方差越小，大家越有一致性；方差越大，大家越分崩离析。有时候我们就连不用计算，光凭感觉就能知道方差大不大。

要是一个数列上的点，画在坐标纸上，看起来像一条又细又长的小线，那方差就是小，数据挺靠谱；要是是一条粗粗的波浪线，那方差就大，数据挺乱。

这种视觉上的感受，实际上就是方差在告诉你数据的稳定性。自然，方差也不是越大越好。在机器学习中，要是目标变量是二分类的，方差忒大，意味着数据极度分裂，模型可能连如何分类都艰难；要是方差忒小，数据忒均匀，那就凑巧了，模型可能学偏了。但在描述数据的波动时，方差确实是衡量“自己有多散”的金标准。故此啊，别死记硬背公式。

记住，方差就是数据跟平均值之间距离的平方累计。它不是用来追求极致的大，而是用来量化混乱。当你面对一组乱七八糟的数据，要么需求评估一个项目标稳定性时，算一下方差，大约就知道这组数据到底是个啥情况了。

这也就够了，反正赶明儿做题、聊事的时候，那数值也就信了。