在统计学里,我们常说“求和公式”是计算期望的基石,你把一组数值一个个加起来除以个数,这就得出了那个代表平均水平的数字,比如课本上写的那个 $frac{1}{n}sum_{i=1}^{n} X_i$。但这跟“方差”可沾不上边,方差更偏向于衡量这组数据“散不散”,也就是大家围着那个平均值晕还是聚在一块儿。 variance 的公式看着复杂,但核心逻辑实际上挺好办:先把每个数值跟平均值扯上关系,算出它们偏离了多少,再平方,这样正负偏差就抵消了,剩下的就是整体波动的大小。 这就好比你问:“这十个人,身高在 175 厘米上下浮动,大家离这个标准值平均有多远?”这时候你就用到了方差公式

起初得算出每个人身高跟 175 的差距,比如有人是 172,这就是差了 3;有人是 180,那就是差了 5。千万别忘记第一步——得把负数变成正数,比如那个 172 的差是 -3,那就要变成 3,不然负负得正之后,原本的差异趋势就没了。接下来是对这些小差距一个个平方,这样 3 的平方是 9,5 的平方是 25。

这时候你再把它们全都加起来,除以总人数,结局出来的就是这个数值,它代表了所有身高值在整个分布里的平均波动幅度。公式里的符号表示挺讲究,$mu$ 是均值(平均值),$x_i$ 是每一个独立的随机变量,方差就是 $sigma^2$,它的定义式写成了 $E[(X-mu)^2]$,什么的这个 E 括号,也是语言习惯难题,别纠结符号了,重点是在算这个“平均偏离的平方”。 咱们来具体拆解一下这个公式如何用。假设我们有一组离散的随机变量数据,比如抛硬币的结局:正面朝上出现 5 次,反面朝上出现 3 次。要找这个实验结局的期望方差

起初求期望,就是把每种结局乘以其形成的概率,再求和。正面概率是 0.5,价值记为 1;反面概率是 0.5,价值记为 0。算出 0.5 乘 1 加上 0.5 乘 0,就等于 0.5。

这就是说,理论上来说,你每次扔硬币,正面出现的概率就是 0.5。 再算方差,那是另一套规则。先求均值,这里就是刚刚算出来的 0.5。

然后分别计算每一项的偏差平方。正面那边,差值是 $1 - 0.5 = 0.5$,平方之后是 0.25;反面那边,差值是 $0 - 0.5 = -0.5$,平方之后也是 0.25。把这两个平方值加起来,再除以总的试验次数(这里是 2,但在离散型概率里有时候会除以观测次数,有时候除以概率质量,这里为了直观说明,按概率质量要么假设观测次数为 2 来演示,比如假设我们实际进行了 20 次)。假设我们进行了 20 次实验,那么总和是 $0.25 times 20 + 0.25 times 20 = 10$。再除以观测次数 20,结局就是 0.5。 这个结局跟期望一样,都是 0.5,但这实际上是出于这里所有的方差都是 0.25,加起来平均下来还是 0.25。

什么的,这里我犯了一个小迷糊,方差的定义是除以观测次数还是除以概率?要是是除以观测次数(n),那结局应当是 $10 / 20 = 0.5$;要是是除以概率态(1),那结局就是 $0.25$。在概率论里,离散型随机变量的方差一般定义是 $sum p_i (x_i - mu)^2$,也就是除以 1。

故此要是是等概率的伯努利分布,方差直接就是 $p(1-p)$,也就是 $0.5 times 0.5 = 0.25$。

那我刚刚那个除以 20 的算法,拿到的结局就是样本方差的估摸值,要是是大样本的话才用期望来算总体方差。 为了让你更直观地感受方差期望的区别,我们再来一个更生活化的例子。想象一个老师在布置作业,他有 10 个学生,他们的作业搞定工夫分别是:20 分钟,25 分钟,20 分钟,30 分钟,25 分钟,20 分钟,25 分钟,20 分钟,25 分钟,20 分钟。先算期望工夫,把所有工夫加起来除以 10。加起来是 $20+25+20+30+25+20+25+20+25+20 = 230$。除以 10,平均下来是 23 分钟。

这个 23 分钟就是他们对工夫的“心理预期”。 目前算方差,得看大家离这个 23 分钟有多远。

第一个学生(20 分钟),差了 3 分钟,平方是 9;第二个学生(25 分钟),差了 2 分钟,平方是 4。

接着算,第一个学生是 9,第二个是 4,再算第三个(20 分钟)差也是 3,平方是 9;第四个(30 分钟)差 7,平方是 49。

第五个(25 分钟)差 2,平方 4。

第六个(20 分钟)差 3,平方 9。

第七个(25 分钟)差 2,平方 4。

第八个(20 分钟)差 3,平方 9。

第九个(25 分钟)差 2,平方 4。

第十个(20 分钟)差 3,平方 9。 目前把这些平方数加起来:$9 + 4 + 9 + 49 + 4 + 9 + 4 + 9 + 4 + 9 = 108$。接下来除以总人数 10,拿到样本方差是 10.8。

这个数值说明啥呢?说明这 10 个人的作业搞定工夫,大局部(9 个人)都聚拢在 20 到 25 分钟之间,这 10.8 是个衡量“平均波动”的数字。

要是方差是 0,那就意味着所有人都完美一致,都在 23 分钟做;要是方差挺大,说明有人快有人慢,差异庞大。

这个 10.8 就代表了大家在这个作业工夫上的“情绪波动”要么“离散程度”。 实际上你会发现,方差公式里有一个平方操作。出于平方之后,大数会放大,小数会被放大,这样原本细小的差异就被放大了,负负得正之后,整个数据就变成了围绕均值展开的“山脉”形状。而期望公式里的加法,则是把正负两边的差异直接叠加,但出于期望只关切一个中心点,故此它的结局一般比较小,比较稳定。方差是为了把数据“甩开”看看散在哪儿,期望则是为了把人“拉回”看看大家到底在哪。 要是你不懂这些,别慌,这些公式都是工具,只要把数据喂给它们,它们就会吐出结局。

有时候你会认定方差公式看着忒复杂,到处都是求和符号和期望符号,实际上那是为了处理连续型的数据设计的。

要是你有一堆连续的数据,比如身高、体重,要么连续的工夫流逝,你就不能直接套用离散的求和公式了,得用积分。但要是你是在做离散型概率题,比如掷骰子、抛硬币,要么数数有多少个苹果,那公式就挺好办了。 最终总结一下,期望方差别看写在一张纸上,但它们的“味道”彻底不同。期望告诉你“平均水平在哪儿”,方差告诉你“平均水平有多不稳定”。在学校做题时,求期望一般是为了验证你的理解,比如“这个抽奖的奖品期望值是多少?”然后求方差,往往是老师问你“大家拿到奖品的感觉是一样吗?”这时候你脑子里应当浮现出方差那个代表波动性的数值。自然,有时候为了简化计算,我们会直接忽略高阶矩,只要关切到二阶中心矩(方差)就够了,这时候实际上是在用更少的信息换取更高的计算效率,毕竟 $E[(X-mu)^2]$ 这个公式,核心就是计算出那个“平均偏离的平方”罢了。希望这些例子能帮你把那些枯燥的符号,变成脑子里一个个生动的故事。