在讲评一道解方程题的时候,老师讲得挺耐心,哪怕学生把步骤写得乱七八糟,只要算出对答案,老师就会竖起大拇指。而当时坐在旁边的小明,心里默默算了一下,发现老师讲的那套方式,实际上就是把几个步骤加起来,最终等于那个对答案。
这种“看似绕远路,实际上速路”的感觉,让我突然想起统计里的离差,也就是我们常说的方差和标准差。
标准离差,说白了就是数据跟那个平均值有多远。
要是所有数据都死死地钉在平均值旁边,那离差就接近零。
反过来,要是数据散得乱七八糟,离平均值就近乎无限大。
这就好比你在操场上散步,要是你每次都离圆心几米,那离差就不大;要是你今天跑了一圈绕着操场跑五圈,明天又跑六圈,你今天离圆的距离和明天离圆的距离别看都在几米范围内,但离差却像空气突然变热了一样,变得忽大忽小,就连能够说“无穷大”。
说到具体如何算,历史老师有个经典例子。假设咱们把 1900 年到 1940 年的 41 个年份加起来,求个平均值,结局是 1912.6。目前咱们拿这 41 个数跟 1912.6 做减法,比如 1901 年减去 1912.6,等于 -11.6;1920 年减去 1912.6,等于 +7.4……一直算到 1940 年。
这时候你会发现,有些年份的数据和平均值差得远,有些差得近。
然后,我们把这些差值再平方,比如把 -11.6 平方变成 134.56,7.4 平方变成 54.76。平方这一步挺关键,出于原来的负负抵消了,但平方之后全是正数,并且“大数平方更大”,这样一来,数据的波动就被放大了,变得明显起来。
最终,我们把这些平方值加起来,再除以年份个数,开根号,就能算出标准离差了。
要是某个年份的数据和平均值彻底一样,那差值是 0,平方也是 0,对结局没影响。但要是某一年份的差值是 5,平方就是 25。
这时候标准离差就会变大。
比如,假设两组数据的平均值都是 100。
第一组数据是 90, 100, 90。
第二组数据是 80, 110, 80。
这时候第一组数据离平均值都挺近,差值分别是 -10, 0, -10,平方后分别是 100, 0, 100,加起来 200。
第二组数据差值分别是 -20, 10, -20,平方后分别是 400, 100, 400,加起来 900。用标准离差公式算,第一组的标准离差大约是 6.32,第二组大约是 9.49。
你看,第二组的数据波动比第一组大大量,标准离差也更大。
这就好比两个人追同一个物体的速度一样快,但一个人有时候快,有时候慢,你揪心他的位置变化;另一个人一直稳稳当当原地不动,你就不需求揪心。标准离差就是那个衡量“波动大小”的标尺。
再举个例子,假设有一组数据是 10, 12, 10, 12, 10。平均值是 11。差值分别是 -1, 1, -1, 1, -1。平方和是 5。
要么数据是 10, 11, 10, 11, 10。差值分别是 -1, 0, -1, 0, -1。平方和是 2。
这时候第二组数据更聚拢,标准离差更小。
这就像你昨天去逛街,今天又去了,别看地点一样,但昨天可能逛了个集市,今天逛了个公园,感知到的“离目标点”的距离感就不同了。
还有那种极端的情况,比如数据全是 100,那就只有这一种情况,标准离差为零,毫无意义。但要是数据是 100, 100, 200, 200。平均值是 150。差值分别是 -50, -50, 50, 50。平方和是 1000。
这时候你会发现,把 -50 变成 50 后,平方变成了 2500,数据瞬间变得剧烈波动,标准离差自然大幅上升。
实际上,当我们看到标准离差时,我们关切的是相对位置。1900 年差 -11.6,1901 年差 -11.6,这两个年份在离差上彻底一样,但距离平均值 1912.6 的距离不同,一个是上面,一个是下面。同样的逻辑,离差为 5 和离差为 -5,它们离平均值一样远。
故此标准离差别看是个绝对数值,但它反映的是数据分布的“状态”,而不是具体的“位置”。
最终,我想说,标准离差这个工具,在数学里是个挺古老的帮手。它让那些乱七八糟的数据有了秩序,让波动的大小变得可衡量、可比较。当我们看到标准离差大时,我们心里会想:“这组数据也忒不稳定了,要么数据本身就有难题,要么就是情况确实变化忒快了。”反之,要是标准离差小,我们也会认定数据比较靠谱,差不多。别看有时候这个公式看起来有点老套,像个公式箱子,但用得好,它总能帮我们在复杂的数据海洋里,抓住那些值得关切的波峰和波谷。
毕竟,在数学的世界里,有时候最严谨的推导,就是那个看似迟钝的平方和开根号的过程。