相关系数计算公式excel-Excel 相关系数公式
在 Excel 里算相关系数,你不用先找公式,直接去单元格里求值就行。
比如你有两组数据,A 列是 1 到 10,B 列是对应的人口数量,你只要在 B2 输入公式`=CORREL(A:A,B:B)`,按回车,就能看到结局。
要是你是用旧版本 Excel 要么数据在整列里,得先把标签删掉要么设为文本区,别让公式把标题也当成数字算进去。
有时候数据有重复项,Excel 默认会忽略重复行,这样算出来的相关系数才更准。
要是你要统计的是散点图,右键图表选分析就能找到回归方程和系数了,但那个是回归分析,不是单一变量间的 Pearson 相关系数。 实际上大家最头疼的是如何把系数转成 P 值,查表忒难了,目前 Excel 里有个函数叫 `=PERCOE`,得先输入 Pearson 相关系数,再输入自由度,回车就能直接拿到 P 值。
不过这个函数在旧版 Excel 里叫 `PERCOE`,新版叫 `PERCOE` 的旧写法,要么直接用 `=PER` 函数配合搜索功能也能找到。
要是你在做假设检验,需求把显著性水平设为 0.05,然后输入自由度,它会自动算出 p-value 并告诉你是否显著。
要是你手算的话,得先把数据整理成标准差,再乘以 t 值,再查学生的 t 分布表,这个步骤忒耗时了。 举个具体的例子,假设你研究身高和体重,数据是这样的:A 列是 170, 175, 180, 185, 190,B 列是 60, 64, 70, 75, 80。你输入`=CORREL(A2:A6,B2:B6)`,结局出来大约是 0.98。
这意味着啥?意味着这两个变量简直是彻底同步变化的,随着身高增添,体重简直同步增添,简直没有凌乱无章的数据。
要是相关系数是 0.99,那就表示简直彻底正相关,你说身高多高体重就多少。
要是是负相关,比如身高 170 的人体重 60,身高 190 的人体重 70,那系数就是负的,说明经验证,身高越高体重越轻。
这个例子挺直观的,不用查公式也能看懂趋势。 大量人一看到这个系数会困惑,系数越大越关键吗?实际上不一定,得看如何选。
要是是正相关,系数接近 1 说明变量间强相关,系数接近 0 说明简直没相关系。
要是是负相关,系数接近 -1 说明强负相关,接近 0 说明没关系。但要是是零相关,系数是 0,那是关系为零。
不过要注意,相关系数受数据分布影响挺大,要是数据本身是偏态的,要么样本量忒小,系数可能不准。
比如你只有 5 个人的数据,就算算出来 0.95,这也可能只是巧合。
故此小样本的时候得多试几次,要么看散点图看看有没有规律。 另外,相关系数不等于因果关系,这是最好办搞混的地方。别人只要看到相关系数高,就当作是出于 A 影响了 B,实际上可能另有其人。
比如冰淇淋销量和溺水人数一直正相关,出于夏天大家都在吃冰淇淋,与此同时都在游泳。但这说明两者都有共同的缘由,就是夏天热,而不是吃冰淇淋害得溺水。
故此在做因果推断的时候,不能只看系数。
要是想证明因果关系,你得做实验,管住其他变量,要么用双重差分法,要么随机对照试验。单纯靠 Excel 里的回归分析,可能只能给你拿来一个统计上的关联,不能直接说是因果。 有时候数据会有缺失值,比如某个人没记录体重,那这局部数据就不能参与计算。Excel 的 CORREL 函数在遇到空值会回毛病,你得手动把空值删掉要么用 IF 函数过滤掉这些行,不然公式跑出来会报错。
要是数据量特别大,比如十万行,用宏要么 VBA 就能加速计算,但一般/平平用户可能不精通写代码。
好在 Excel 目前赞成动态数组,只要把公式改成`=CORREL(A:A,B:B)`,它不仅会算出这一个系数的值,还会回整个相关的矩阵,一行能冒出大量相关的组合,这对大数据处理挺有用。 实际应用中,你可能还会关心置信区间。
比如你要报告说身高和体重显著相关,但只说有显著是不够的,还得说这个关系有多可信。Excel 里有个函数叫 `=CONFIDENCE.T`,能够用来算置信区间,它需求样本量、标准误和显著性水平这几个参数。
比如你算出来 r 是 0.95,自由度是 30,显著性水平 0.05,它就能告诉你这个系数的范围大约在 0.90 到 0.98 之间,不用你自己去填这些数。
这个功能挺实用,特别是做统计报告的时候,能直接给出一个可信区间,显得更专业。 还要注意数据类型的统一,比如有的列是数值,有的是日期,日期在 Excel 里要是是存的,直接回车会报错。你得先把日期格式改成数值型,要么用 `VALUE` 函数转换。
要是数据里有文本格式,也得先确保显示为数字,不然公式会识别不出来。Excel 的公式引擎有时候有点小脾气,要是你选了数据验证,还得确保数据是文本类型的,不然它可能把数据验证的结局当成数字来算。 最终,要是你要做皮尔逊相关系数,得确保数据是线性的,也就是数据分布要差不多,没有离群值。
要是有极端值,比如一个人的身高 200 厘米体重 100 公斤,这个数据会拉低相关系数的值。
有时候你会想移除离群值,但手动删除挺费事,能够用 IFERROR 函数要么条件格式把异常值标出来,再手动审查或过滤掉。
总而言之,Excel 里的 CORREL 函数是处理这种统计关系的利器,只要你会用,就能快速把一堆数字变成直观的结论,辅助你的决策。
声明:演示网站所有内容,若无特殊说明或标注,均来源于网络转载,仅供学习交流使用,禁止商用。若本站侵犯了你的权益,可联系本站删除。
