协方差cov计算公式推导-协方差公式推导举例

公式大全 2026-06-13CST09:00:48

把一堆数塞进数学公式里，实际上就像把一堆散乱的砖头强行拼成一座楼。协方差（Covariance）就是那根起核心功能的脚手架，它负责告诉你砖块 A 和砖块 B 之间是搭得紧还是松。

要是它们搭得越紧，协方差就越高；搭得松、就连反过来拉扯，那数值就变负了。

这就好比两个人一起跑步，你迈大步他迈小步，跑得越远，他们之间的距离拉得就越长，协方差自然负数；要是你俩步调一致，那数值就是正的，意味着趋势同向。先不说那些高高在上的理论，咱们直接上手算一算。假设你有两组数据，一组是气温，一组是冰淇淋销量。

要是天气热的时候（比如 30 度），冰淇淋卖得特别卖，这时候气温和销量是正相关的，它们的协方差肯定是个正数。

反之，要是夏天到了，气温 30 度，冰淇淋销量反而暴跌，那就意味着这两个量在“相斥”，协方差就是负数。

这种负号实际上挺有意思的，它不是单纯表示大数乘小数，而是表示这两个方向在“打架”。

要是两个东西彻底不相关，比如你家冰箱的温度和你家里的股票价格，那它们的协方差就是 0，说明一个涨了另一个彻底不受影响。那到底如何推导呢？实际上能够从几何直觉启动想。协方差本质上是所有数据点都在二维坐标系里，它们分布在一条斜线上时，这个斜线的“陡峭程度”要么是“倾斜方向”。

要是斜线是往右上去的，说明两个变量同向变化，协方差为正；要是斜线是往左下去的，它们反向变化，协方差为负；垂直要么水平线，那就归零。为了更具体地展示，咱们手里只有一组样本，记作 $(x_1, y_1)$, $(x_2, y_2)$, ..., $(x_n, y_n)$。在数学上，这看起来像是一个线性方程的截距 $b$。而协方差就是那一个斜率参数，拍板了 $y$ 对 $x$ 的敏感度。

要是你画个图，把 $x$ 轴画在横边，$y$ 轴画在纵边，然后把这些点连起来。目前有个难题，这些点是散落在一条直线旁边的，还是刚好铺平铺直呢？要是它们是铺平的，就像所有点都落在了 $y = mx + c$ 这条直线上，那它们的协方差就是 $m$，也就是那个单斜率。

要是它们不是铺平的，而是有点散，那我们就得通过计算这些点“拉”出来的那条总趋势的斜率来定。

这个过程实际上就是把 $y$ 轴上的变化量，折算成 $x$ 轴上的单位长度变化量，再乘以共同的权重，最终把权重归一化，拿到的就是协方差。再拿一个具体的例子来对比一下。

比如我们有两组数据：第一组：(1, 2), (2, 3), (3, 4) 第二组：(1, 2.1), (2, 3.2), (3, 4.3) 乍一看，你会发现第二组第二点的 $y$ 值比第一组第二点高出一点点，第三点也高出一点点。

要是你直接拿每对的差值乘积加起来再除以数量，算出来的协方差会是一个正数，并且比第一组要大。

这说明啥？说明当 $x$ 增添时，$y$ 不仅增添了，并且增添的幅度比第一组要“陡峭”一些。

要是我们把 $x$ 的权重拉平，去掉那个原本就存有的偏移量，只关切斜率的变化，那么协方差就体现了这种“额外”的线性趋势。

要是这两个数据组实际上是彻底一样的，只是数字偏移了一下，那它们的协方差就会相等。

反之，要是第二组里的点有点乱，比如改成 (1, 1), (2, 5), (3, 4)，这时候斜率就变平要么变负了，协方差自然会变负要么变小。这里有个挺直观的比喻：协方差就像是一个“推力”。

要是你有两个弹簧，一个是压缩的，一个是拉伸的（反向），它们之间形成的相互功本事是排斥的，这就是负协方差。

要是你俩都压缩要么都拉伸，那就是同向的，形成的是正协方差。

这个推力的大小取决于弹簧的劲度系数（方差）还有两个方向拉开的距离（协方差）。

要是两个弹簧彻底没劲（方差为 0），那不管你拉多远，它们之间都没有直接的弹性相互功能，协方差为零。

要是两个弹簧劲度一样大，并且彻底同步拉伸，那它们之间的“推力”就最大了，也就是协方差绝对值最大。在统计学里，我们一般会把协方差除以一个东西，叫作“标准差”，这就变成了“相关系数”。

为啥如此做？出于协方差有时候的单位挺乱的。

比如温度和体重的协方差可能是 100 度1 公斤，这时候正数代表啥？要是是正相关，那是好事；但要是温度和体重的协方差是 -100，代表的又是啥？这时候务必先看单位，看能不能消掉。

故此加个标准差，就是一个“单位换算器”，它把那个混乱的“推力”转换成了一个标准意义上的“斜率”。实际上推导协方差的过程中，我们会用到到大量关于平均值 $mu$ 和方差 $sigma^2$ 的公式。当你把样本均值代入，那些交叉项就自动简化了。

比如 $(x_i - mu)(y_i - mu)$ 这一项，展开后就是 $x_i y_i - x_i mu - mu y_i + mu^2$。

要是你把这三项加起来再除以分母，你会发现中间那些 $-sum x_i mu$ 和 $-sum mu y_i$ 实际上是抵消掉的，最终只剩下 $frac{1}{n} sum x_i y_i - mu_x mu_y$。

这一整坨复杂的计算，本质上就是在算一组数据的“重心”。

你看到的协方差公式 $frac{1}{n} sum (x_i - bar{x})(y_i - bar{y})$，实际上就是直接把这个重心的偏移量计算出来，然后求和。不过，有时候我们会看到另一种写法，把方差放前面，变成 $frac{1}{n-1} sum (x_i - bar{x})(y_i - bar{y})$。

这个 $n-1$ 是如何回事？这叫贝塞尔校正，是为了让计算出的方差无偏估摸。在样本估摸总体参数时，我们总希望算出来的结局比真值更准、更诚实，而不是出于偷懒多算了一次。但在好办的协方差推导里，这个 $n-1$ 实际上是个“坑”。

要是你不把它归一化掉，你会拿到的是总体协方差，而不是样本协方差。样本协方差需求除以 $n-1$，才能拿到一个无偏的估摸量。

这一点在严谨的统计推导里挺关键，但在一些快速估算要么特定场景下，除以 $n$ 也是能够的，只是精度会低一点点。再说说数据的分布情况。

要是数据分布挺瘦长，也就是大局部点都聚拢在均值附近，那协方差就会比较小。

那时候这两个变量变化不大，关系也就比较平，协方差接近 0。

要是数据全是塌一块的，那就是完美的正态分布要么先正态分布，这时候协方差绝对值最大。

要是数据是极度分散的，比如一把散沙，那均值就在中间，方差挺大，但这时候你挺难定义一个稳定的“协方差趋势”，出于点忒多了，斜率根本找不准。最终总结一下，协方差不是那个罕见的、不可考的概念，它就是把两个变量的变化关系翻译成人话的工具。它告诉我们，当 $x$ 变的时候，$y$ 是会跟着走，还是走反方向，要么是彻底没有反应。通过计算 $(x_i - mu_x)(y_i - mu_y)$ 的总和，我们量化了这种“同向”或“反向”的紧密程度。别看推导过程充满了积分和求导的数学符号，但核心思想挺好办：就是看这两堆数据，是不是在一条直线上斜着跑。把斜率算出来，就是协方差。

这就是它存有的意义，也是统计学里最基础也是最实用的一个工具。