协方差直接计算公式-协方差计算公式直接

公式大全 2026-06-12CST10:10:24

好，咱们不整那些虚头巴脑的“起初、其次、最终”，直接上活儿。协方差这个玩意儿，说白了就是两个东西在一起“贴贴”看亲疏远近。你往例子里数一数，比如我明天去健身，后天去考公，后天那个数据是不是就在“后”字后面？对，就是离得越近，关系越好。

这个“近”，就是正相关，算是“好”的。那要是我明天去健身，后天去刷剧，后天那个数据就在“后”字前面呢？这就叫负相关，算是“坏”的。

本质上，这就是在算两个变量值一一对应的“距离”。

要是两个数越接近，说明它们走得“近”；要是两个数越远，说明它们走得“远”。这里有个挺直观的例子。假设你老张是个典型的“翻身币”选手，他的账户波动特别大，有时候一天涨 30%，第二天直接腰斩。目前来看看你（老张的粉丝）和老张这两个变量。你每天盯着老张看，你高兴他涨，他高兴你涨；你悲伤他跌，他悲伤你跌。你和他的心情，简直就像两个在比赛同一个赛道上，却背道而驰的兄弟。当你兴奋时，老张也兴奋，这俩人的高度简直同步，相似度极高，这就是正协方差的高光时刻。再换个角度，假设你老李是个“稳重派”，他逆来顺受，压根儿不嘟囔。你每天去看他，他看你，你们俩的状态彻底反之。你哭，他笑；你笑，他哭。

这种时候，你的状态和他状态之间差了整整半拍，能够说是正反相关。

这时候算出来的协方差就是负的，说明两者的变化趋势是截然反之的。实际上不用非得举这些生活化的例子，数学里的定义实际上就挺好办粗暴。协方差公式里，$E[XY] - E[X]E[Y]$ 这一坨，实际上就是要求你把两个变量的期望值乘起来，然后减去它们各自平方期望值的乘积。

要么换个说法，就是把两个变量的期望值一个个减完，再拿乘积结局去减，剩下的那个差值，就是协方差。这个差值在统计学上有个挺明确的定义：它就是两个随机变量联合分布的期望值。通俗点说，就是所有可能的数据组合，算出它们的“平均相关性”。

要是这个平均值是正的，说明整体上两个变量是“同向”跑路的；要是是负的，就是“反向”跑。大量人好办把协方差和方差搞混，实际上区分开就挺好办。方差是一个变量跟自己自己差不多，是衡量它自己波动的幅度，它是正的。而协方差是两个变量之间的关系，它是负的，代表关系方向。举个数字化的例子说得更直白些。假设你投资一只股票，它的波动性（方差）是 0.1。目前你看一只债券，它的波动性是 0.1。

要是这只股票和这只债券的相关系数是 -0.5（意味着它们变化彻底反之），那么算出来的协方差就是负的。

要是相关系数是 1，那协方差就是正的。这就解释了为啥有时候相关性高，有时候相关性低，有时候就连可能彻底没关系。

比如身高和体重，一般都是正相关的。但要是有一群人，要么特别矮特别壮，要么特别高特别瘦，那他们的相关系数就是负的。

这时候协方差就是负的，说明身高和体重在变的时候是“跷跷板”式的。咱们再看一个有点反直觉的例子。假设拉布拉多狗和狗尾巴草的协方差。

一般狗尾巴草是水平的，狗是垂直的，这俩应当是负相关的，协方差是负的。但要是有一堆拉布拉多狗和狗尾巴草摆在一起，狗尾巴草的结构被狗压得乱七八糟，这时候它们的协方差就可能是正的。这种情况在大数据里特别常见。

比如用户行为数据和推荐系统。

有时候你会认定用户喜爱看某部剧，系统就推给某类人，这看起来正相关。但有时候你会认定某类人喜爱看某部剧，系统反而把另一部剧推给他们，这时候相关系数就是负的。故此，协方差这个公式，本质上是在做一件事：它试图把两个变量变化的“步调”对齐。

要是步调一致，协方差就是正的；要是步调反之，协方差就是负的。最终总结一下，协方差不是那个让你手心出汗的“方差”，也不是教科书里那种死板的定义。它就是两个变量之间“对齐”程度的量化。正负号代表了方向，数值大小代表了关系强度。

只要你记住“越近越正，越远越负”这个核心逻辑，就能把它算得明明白白。至于具体算出来是几分几秒，那不关键，关键的是它告诉你两个东西是不是在同一个频道上。