协方差直接计算公式-协方差计算公式直接
好,咱们不整那些虚头巴脑的“起初、其次、最终”,直接上活儿。 协方差这个玩意儿,说白了就是两个东西在一起“贴贴”看亲疏远近。你往例子里数一数,比如我明天去健身,后天去考公,后天那个数据是不是就在“后”字后面?对,就是离得越近,关系越好。
这个“近”,就是正相关,算是“好”的。 那要是我明天去健身,后天去刷剧,后天那个数据就在“后”字前面呢?这就叫负相关,算是“坏”的。
本质上,这就是在算两个变量值一一对应的“距离”。
要是两个数越接近,说明它们走得“近”;要是两个数越远,说明它们走得“远”。 这里有个挺直观的例子。假设你老张是个典型的“翻身币”选手,他的账户波动特别大,有时候一天涨 30%,第二天直接腰斩。目前来看看你(老张的粉丝)和老张这两个变量。你每天盯着老张看,你高兴他涨,他高兴你涨;你悲伤他跌,他悲伤你跌。你和他的心情,简直就像两个在比赛同一个赛道上,却背道而驰的兄弟。当你兴奋时,老张也兴奋,这俩人的高度简直同步,相似度极高,这就是正协方差的高光时刻。 再换个角度,假设你老李是个“稳重派”,他逆来顺受,压根儿不嘟囔。你每天去看他,他看你,你们俩的状态彻底反之。你哭,他笑;你笑,他哭。
这种时候,你的状态和他状态之间差了整整半拍,能够说是正反相关。
这时候算出来的协方差就是负的,说明两者的变化趋势是截然反之的。 实际上不用非得举这些生活化的例子,数学里的定义实际上就挺好办粗暴。协方差公式里,$E[XY] - E[X]E[Y]$ 这一坨,实际上就是要求你把两个变量的期望值乘起来,然后减去它们各自平方期望值的乘积。
要么换个说法,就是把两个变量的期望值一个个减完,再拿乘积结局去减,剩下的那个差值,就是协方差。 这个差值在统计学上有个挺明确的定义:它就是两个随机变量联合分布的期望值。通俗点说,就是所有可能的数据组合,算出它们的“平均相关性”。
要是这个平均值是正的,说明整体上两个变量是“同向”跑路的;要是是负的,就是“反向”跑。 大量人好办把协方差和方差搞混,实际上区分开就挺好办。方差是一个变量跟自己自己差不多,是衡量它自己波动的幅度,它是正的。而协方差是两个变量之间的关系,它是负的,代表关系方向。 举个数字化的例子说得更直白些。假设你投资一只股票,它的波动性(方差)是 0.1。目前你看一只债券,它的波动性是 0.1。
要是这只股票和这只债券的相关系数是 -0.5(意味着它们变化彻底反之),那么算出来的协方差就是负的。
要是相关系数是 1,那协方差就是正的。 这就解释了为啥有时候相关性高,有时候相关性低,有时候就连可能彻底没关系。
比如身高和体重,一般都是正相关的。但要是有一群人,要么特别矮特别壮,要么特别高特别瘦,那他们的相关系数就是负的。
这时候协方差就是负的,说明身高和体重在变的时候是“跷跷板”式的。 咱们再看一个有点反直觉的例子。假设拉布拉多狗和狗尾巴草的协方差。
一般狗尾巴草是水平的,狗是垂直的,这俩应当是负相关的,协方差是负的。但要是有一堆拉布拉多狗和狗尾巴草摆在一起,狗尾巴草的结构被狗压得乱七八糟,这时候它们的协方差就可能是正的。 这种情况在大数据里特别常见。
比如用户行为数据和推荐系统。
有时候你会认定用户喜爱看某部剧,系统就推给某类人,这看起来正相关。但有时候你会认定某类人喜爱看某部剧,系统反而把另一部剧推给他们,这时候相关系数就是负的。 故此,协方差这个公式,本质上是在做一件事:它试图把两个变量变化的“步调”对齐。
要是步调一致,协方差就是正的;要是步调反之,协方差就是负的。 最终总结一下,协方差不是那个让你手心出汗的“方差”,也不是教科书里那种死板的定义。它就是两个变量之间“对齐”程度的量化。正负号代表了方向,数值大小代表了关系强度。
只要你记住“越近越正,越远越负”这个核心逻辑,就能把它算得明明白白。至于具体算出来是几分几秒,那不关键,关键的是它告诉你两个东西是不是在同一个频道上。
声明:演示网站所有内容,若无特殊说明或标注,均来源于网络转载,仅供学习交流使用,禁止商用。若本站侵犯了你的权益,可联系本站删除。
