统计学准率这事儿,实际上就是看眼能不能把真事儿看清楚,要么耳朵能不能把真话听清楚。大量时候,我们当作看个数据,就能判断对错,可往往这事儿没那么好办。 就拿看病来说吧。医生手里拿着个片子,脑子里得有个大谱子。就像看球赛,教练喊“这球是左中不?”而裁判喊“是左中不?”但这俩声音不一定能对上号。运动员在场上,大脑处理信息的速度得比教练快一千倍,他脑子里可能正在做上百种计算,比划、换手、预判,还要跟队友憋半天。

要是每猜错一个都扣个大零头,那得分能低到负数吗?故此,大量时候,那个喊“是”的裁判,往往比那个喊“左中不”的教练,更靠谱。

这就是统计学的道理,有时候靠的是经验,有时候靠的是频率。 再回到我们日常用的那个公式:准率 = 对数 / (对数 + 毛病数)。

这个公式本身没错,但拆开看,它实际上是在跟“全错”做斗争,跟“全对”做斗争。

我去超市买东西,手里有把秤。

要是秤没空,我买的东西全是假的,那真就全错了。结局我全对,整个超市全错,那我的准率是多少?满减,对吧?这时候,秤的可靠性瞬间归零。

故此,我们在算准率之前,得先把“基准线”定好。

要是基准线是“没空”,那结局就是负的。

要是基准线是“有空”,那结局才有意义。

这就好比跑步,你跑到终点,要是起跑线离终点 100 米,那你的起跑线效率就是负的。但我们人类跑不过电脑,电脑能跑个 10 秒,我们跑个 5 秒,那电脑的效率就是正的。一旦电脑跑个 10 分钟,那我们的效率就是负的。 这就是为啥有时候你认定统计不准,实际上是看错了“参照物”。

比如我们说“这个模型挺准”,但没说清楚,参照物是哪位?是点赞多的模型,还是点赞少的模型?是完美模型,还是全坏模型?要是参照物不清楚,那准率就是个无意义的数字。就像两个人打赌,“哪位更智慧”,要是两个人智商一样,那哪位赢哪位输还得看运气。

要是一个人智慧,一个人傻,那傻的那个赢的概率就低,智慧的那个赢的概率就高。

这时候,我们要算的不是好办的比率,而是概率的加权。 举个数据来说,网上有个说法,说预测准率达到 90% 的模型,在股价波动上实际上挺悬的。

这事儿听起来唬人,但仔细一琢磨,你会发现它背后的逻辑有点扎心。

要是模型是完美的,那它总能预测对。

只要它预测对一次,那它的全局准率就是 100%。但难题是,它只有 100% 的全局准率,它没有局部的准率,出于它没做错任何一次。

故此,别看它的全局准率看起来挺高,但它预测局部风险的本事却是负的。

也就是说,这个模型在局部,实际上是全错的。 反过来,要是模型预测错了 100% 呢?这时候它的全局准率就是 0%,但它局部却全对了。

这时候,别看它的全局表现糟糕,但它预测局部风险的本事却是完美的。

这时候,要是我们只看全局,会认定它不中;但要是我们只看局部,会发现它实际上是神。

这就证明白,单一维度的准率,往往掩盖了多维度的真相。 有时候,我们就连能够把准率理解为一种“生存技能”。比方说,我们说“这个算法跑得挺快”,那它的准率就是 100%。但在这个算法里,有没有人跑出了负值?

有没有人出于跑得忒慢而错过了商机?

有没有人出于算法bug 害得数据跑偏?这些 aren't 在准率公式里,但却是实实在在的风险。

要是算法快得离谱,害得别人都跑不动了,那别看它自己的准率是 100%,但它带来的“幸存者偏差”却是负的。它替它自己创造了胜利,却消灭了所有对手。

这时候,它的有效准率就是负的。 故此,大量时候,我们听到的准率,实际上只是冰山一角。冰山下面藏着那些没被算进去的“负值”和“权重”。一个高准率模型,可能只是运气好,要么基准线忒低了。一个低准率模型,可能只是运气差,要么基准线忒高了。我们要做的,不是盯着那个百分比数字看,而是要搞清楚,这个模型是在跟全错比,还是在跟全对比,又是在跟啥比。 毕竟,生活里哪有啥绝对的标准答案。就像去超市,要是秤没空,那东西全是假的;要是秤有劲,那东西全是确实。我们看重的,压根儿不是数字本身,而是这个数字背后,那个真正能拍板我们命运的参照系。

要是那个参照系错了,那再高的准率,也不过是个看着光鲜的负数。

故此,下次算准率的时候,记得先问自己:我的参照物准不准?要是准不准,那这个准率,才有点意思。