方差公式怎么推倒-方差公式如何推导
方差这东西,咱们平时算概率要么做回归分析的时候见得不少,但真要把它掰开揉碎讲透彻,有时候比解几道方程还让人头大。别急着记书本上那个死记硬背的公式 $sigma^2 = frac{1}{N}sum_{i=1}^{N}(x_i-bar{x})^2$,也别想着一学就会。
这玩意儿的核心实际上就一句话:方差就是“平均数”离“真情况”有多远,要么说,数据本身有多“散”。 要是把一组数据比作一群人在操场上跑步,那“平均数”就是大家跑的平均速度,咱们关心的是“方差”,那就要看这组人里,有人跑得飞起,有人摔在地上。
要是所有人速度差不多,那方差就小;要是有人神速如风,有人像醉汉一样东倒西歪,那方差立马就大了起来。 举个最好办的例子,假设有两组数据,都是两个老人。
第一组老李 65 岁,老王 70 岁,那平均岁数就是 67.5 岁。
要是我们想评估大家的“年纪稳定性”,咱们算平方差。李李离平均值还有 2.5 岁,平方是 6.25;老王离平均值还有 2.5 岁,平方也是 6.25。一组算下来就是 12.5。
这时候我们再拿第二组数据,李李 63 岁,老王 68 岁,正好对称。李李离平均 3 岁,平方是 9;老王离平均 4 岁,平方是 16。一减一和是 25。
你看,两个老李数据规整划一,方差就小;两个老李数据参差不齐,方差就大。 实际上把数据放进同一个框里,就能直观看出差别。
比如前面那组,数据都在 60 到 70 之间晃悠,中间夹着 67.5,离中心点的距离都在 3 以内,平方加起来也就几。而后面的那组,李李跑到了 63,老王跑到了 68,别看算术平均数没变,但平方差却从 12.5 变成了 25,足足翻倍了。
这就好比,同样一个班级里,两人背对背站,距离是 3 米,平方是 9;两人面对面站,距离也是 4 米,平方是 16。同样的逻辑,用在方差里,就是让数据分布越窄、越聚拢,平方和就越小。 大量人一启动会困惑,为啥要除以 N,为啥不是除以 N-1,要么为啥要开平方。
实际上这背后全是想告诉你“方差”这个概念的本质。
要是你只关心“偏移量”,为啥不直接用 $sum(x_i-bar{x})^2$ 呢?出于平方之后,数据都是正数,并且能避免负负得正抵消的难题,这样算出来的平方和就能直接反映离散程度。但要是你直接用平方和当方差,那标准差的量纲就变了——原来是米,目前变成了平方米,没法直接跟距离比。
故此除以 N 是为了让量纲还原;开平方是为了把无量纲的数变回有尺度的数;最终还要除以 N 或 N-1,是为了让统计结局跟样本表现更贴合真情况。 实际上啊,方差是个有点“抽象”的词,不像平均数那样一眼就能看懂是“命中率”要么“增长率”。它更像是个描述“混乱感”的量表。平均数告诉你“整体在哪”,方差告诉你“整体如何动”。 我们生活里到处都是方差。
你看天气预报,跟天气预报打结局的人,一般是死对头,他们的方差小,预测准;而跟天气预报反着喊的人,方差大,要么说下雨,要么说晴天,互不相让。再比如大家选学校,要是大家都喜爱 A 校,那方差就小;要是家的人有的喜爱 B,有的喜爱 C,就连有人根本不想去学校,那方差就大。方差越小,大家越有一致性;方差越大,大家越分崩离析。 有时候我们就连不用计算,光凭感觉就能知道方差大不大。
要是一个数列上的点,画在坐标纸上,看起来像一条又细又长的小线,那方差就是小,数据挺靠谱;要是是一条粗粗的波浪线,那方差就大,数据挺乱。
这种视觉上的感受,实际上就是方差在告诉你数据的稳定性。 自然,方差也不是越大越好。在机器学习中,要是目标变量是二分类的,方差忒大,意味着数据极度分裂,模型可能连如何分类都艰难;要是方差忒小,数据忒均匀,那就凑巧了,模型可能学偏了。但在描述数据的波动时,方差确实是衡量“自己有多散”的金标准。 故此啊,别死记硬背公式。
记住,方差就是数据跟平均值之间距离的平方累计。它不是用来追求极致的大,而是用来量化混乱。当你面对一组乱七八糟的数据,要么需求评估一个项目标稳定性时,算一下方差,大约就知道这组数据到底是个啥情况了。
这也就够了,反正赶明儿做题、聊事的时候,那数值也就信了。
声明:演示网站所有内容,若无特殊说明或标注,均来源于网络转载,仅供学习交流使用,禁止商用。若本站侵犯了你的权益,可联系本站删除。
