偏相关关系 和 复相关关系 的定义 及 具体的案例

news/2024/7/24 2:23:44 标签: 机器学习, 算法, 人工智能

偏相关系数复相关系数 是统计学中用于衡量变量之间关系的两个重要概念。


文章目录

      • 偏相关系数
        • 计算公式
        • 解释
      • 偏相关系数
        • 例子
      • 复相关系数
        • 计算公式
        • 解释
        • 例子
      • 总结


偏相关系数

偏相关系数(Partial Correlation Coefficient)用于衡量在控制其他变量影响的情况下,两个变量之间的净相关性。换句话说,偏相关系数可以剔除其他变量的干扰,更准确地反映两个变量之间的真实关系。

计算公式

假设有三个变量 X X X Y Y Y Z Z Z,想要计算 X X X Y Y Y 之间的偏相关系数,同时控制 Z Z Z 的影响。偏相关系数 r X Y . Z r_{XY.Z} rXY.Z 的计算公式如下:

r X Y . Z = r X Y − r X Z ⋅ r Y Z ( 1 − r X Z 2 ) ( 1 − r Y Z 2 ) r_{XY.Z} = \frac{r_{XY} - r_{XZ} \cdot r_{YZ}}{\sqrt{(1 - r_{XZ}^2)(1 - r_{YZ}^2)}} rXY.Z=(1rXZ2)(1rYZ2) rXYrXZrYZ

其中:

  • r X Y r_{XY} rXY X X X Y Y Y 之间的简单相关系数。
  • r X Z r_{XZ} rXZ X X X Z Z Z 之间的简单相关系数。
  • r Y Z r_{YZ} rYZ Y Y Y Z Z Z 之间的简单相关系数。
解释

偏相关系数的值介于 -1 和 1 之间。正值表示 X X X Y Y Y 之间存在正向关系,负值表示存在负向关系。值越接近 1 或 -1,表示关系越强;值越接近 0,表示关系越弱。

偏相关系数

例子

假设正在研究学生的数学成绩( X X X)、阅读成绩( Y Y Y)和学习时间( Z Z Z)之间的关系。想要知道数学成绩和阅读成绩之间的净相关性,剔除学习时间的影响。

  1. 数据收集:收集一组学生的数学成绩、阅读成绩和学习时间的数据。假设有以下数据:

    • 数学成绩 X X X:80, 85, 90, 75, 95
    • 阅读成绩 Y Y Y:70, 75, 80, 65, 85
    • 学习时间 Z Z Z:10, 12, 14, 8, 16
  2. 计算简单相关系数

    • r X Y r_{XY} rXY:使用皮尔逊相关系数公式计算 X X X Y Y Y 之间的相关系数。
      r X Y = ∑ ( X i − X ˉ ) ( Y i − Y ˉ ) ∑ ( X i − X ˉ ) 2 ∑ ( Y i − Y ˉ ) 2 r_{XY} = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum (X_i - \bar{X})^2 \sum (Y_i - \bar{Y})^2}} rXY=(XiXˉ)2(YiYˉ)2 (XiXˉ)(YiYˉ)
      计算结果 r X Y = 0.98 r_{XY} = 0.98 rXY=0.98
    • r X Z r_{XZ} rXZ:计算 X X X Z Z Z 之间的相关系数。
      r X Z = ∑ ( X i − X ˉ ) ( Z i − Z ˉ ) ∑ ( X i − X ˉ ) 2 ∑ ( Z i − Z ˉ ) 2 r_{XZ} = \frac{\sum (X_i - \bar{X})(Z_i - \bar{Z})}{\sqrt{\sum (X_i - \bar{X})^2 \sum (Z_i - \bar{Z})^2}} rXZ=(XiXˉ)2(ZiZˉ)2 (XiXˉ)(ZiZˉ)
      计算结果 r X Z = 0.97 r_{XZ} = 0.97 rXZ=0.97
    • r Y Z r_{YZ} rYZ:计算 Y Y Y Z Z Z 之间的相关系数。
      r Y Z = ∑ ( Y i − Y ˉ ) ( Z i − Z ˉ ) ∑ ( Y i − Y ˉ ) 2 ∑ ( Z i − Z ˉ ) 2 r_{YZ} = \frac{\sum (Y_i - \bar{Y})(Z_i - \bar{Z})}{\sqrt{\sum (Y_i - \bar{Y})^2 \sum (Z_i - \bar{Z})^2}} rYZ=(YiYˉ)2(ZiZˉ)2 (YiYˉ)(ZiZˉ)
      计算结果 r Y Z = 0.96 r_{YZ} = 0.96 rYZ=0.96
  3. 计算偏相关系数
    r X Y . Z = r X Y − r X Z ⋅ r Y Z ( 1 − r X Z 2 ) ( 1 − r Y Z 2 ) r_{XY.Z} = \frac{r_{XY} - r_{XZ} \cdot r_{YZ}}{\sqrt{(1 - r_{XZ}^2)(1 - r_{YZ}^2)}} rXY.Z=(1rXZ2)(1rYZ2) rXYrXZrYZ
    代入数值:
    r X Y . Z = 0.98 − 0.97 ⋅ 0.96 ( 1 − 0.9 7 2 ) ( 1 − 0.9 6 2 ) = 0.24 r_{XY.Z} = \frac{0.98 - 0.97 \cdot 0.96}{\sqrt{(1 - 0.97^2)(1 - 0.96^2)}} = 0.24 rXY.Z=(10.972)(10.962) 0.980.970.96=0.24

这意味着在控制学习时间的影响后,数学成绩和阅读成绩之间存在较弱但显著的正相关关系。


复相关系数

复相关系数(Multiple Correlation Coefficient)用于衡量一个变量与一组其他变量之间的线性相关程度。复相关系数通常用于多元回归分析中,表示因变量与多个自变量之间的总体相关性。

计算公式

假设有一个因变量 Y Y Y 和一组自变量 X 1 , X 2 , … , X k X_1, X_2, \ldots, X_k X1,X2,,Xk,复相关系数 R Y . X 1 X 2... X k R_{Y.X1X2...Xk} RY.X1X2...Xk 的计算公式如下:

R Y . X 1 X 2... X k = 1 − S S R S S T R_{Y.X1X2...Xk} = \sqrt{1 - \frac{SSR}{SST}} RY.X1X2...Xk=1SSTSSR

其中:

  • S S R SSR SSR 是回归平方和(Sum of Squares due to Regression)。
  • S S T SST SST 是总平方和(Total Sum of Squares)。
解释

复相关系数的值介于 0 和 1 之间。值越接近 1,表示因变量 Y Y Y 与自变量组 X 1 , X 2 , … , X k X_1, X_2, \ldots, X_k X1,X2,,Xk 之间的线性关系越强;值越接近 0,表示关系越弱

例子

假设正在研究房价( Y Y Y)与房屋面积( X 1 X_1 X1)、地理位置( X 2 X_2 X2)和房龄( X 3 X_3 X3)之间的关系。想要知道房价与这三个因素的总体相关性。

  1. 数据收集:收集一组房屋的房价、面积、地理位置和房龄的数据。假设有以下数据:

    • 房价 Y Y Y:200, 250, 300, 150, 350
    • 房屋面积 X 1 X_1 X1:100, 120, 140, 80, 160
    • 地理位置 X 2 X_2 X2:5, 7, 9, 3, 11
    • 房龄 X 3 X_3 X3:10, 8, 6, 12, 4
  2. 多元回归分析:进行多元回归分析,得到回归平方和 S S R SSR SSR 和总平方和 S S T SST SST

    • S S R SSR SSR:回归平方和,表示模型解释的变异量。
    • S S T SST SST:总平方和,表示总变异量。

    假设通过多元回归分析得到 S S R = 25000 SSR = 25000 SSR=25000 S S T = 30000 SST = 30000 SST=30000

  3. 计算复相关系数
    R Y . X 1 X 2 X 3 = 1 − S S R S S T R_{Y.X1X2X3} = \sqrt{1 - \frac{SSR}{SST}} RY.X1X2X3=1SSTSSR
    代入数值:
    R Y . X 1 X 2 X 3 = 1 − 25000 30000 = 1 − 0.833 = 0.167 = 0.41 R_{Y.X1X2X3} = \sqrt{1 - \frac{25000}{30000}} = \sqrt{1 - 0.833} = \sqrt{0.167} = 0.41 RY.X1X2X3=13000025000 =10.833 =0.167 =0.41

这意味着房价与房屋面积、地理位置和房龄之间存在中等程度的线性关系。


总结

  • 偏相关系数:用于衡量在控制其他变量影响的情况下,两个变量之间的净相关性。
  • 复相关系数:用于衡量一个变量与一组其他变量之间的线性相关程度。


http://www.niftyadmin.cn/n/5545872.html

相关文章

如何在 Odoo 16 中生成 CSV 报告

在 Odoo 中,我们需要生成多种类型的文件以用于不同的目的。CSV 报告允许用户从 Odoo 数据库导出结构化数据。CSV 格式受到各种应用程序和工具的广泛支持,因此可以轻松地与外部系统(如电子表格(例如 Microsoft Excel、Google Sheet…

在Mac上一键安装Mysql(解决所有安装问题)

重点强调安装mysql成功的关键在于安装的版本不能是最新!! 目录 一:下载mysql数据库安装部分到此结束 二:配置mysql数据库三:启动mysql数据库四:各类奇葩问题总结 一:下载mysql数据库 1.进入MyS…

探索 Scikit-Learn:机器学习的强大工具库

Scikit-Learn 探索 Scikit-Learn:机器学习的强大工具库主要功能模块分类(Classification)回归(Regression)聚类(Clustering)降维(Dimensionality Reduction)模型选择&…

vue3+ts 重复参数提取成方法多处调用以及字段无值时不传字段给后端

参数提取前的写法,此写法值为空的时候也会传空字段给后端 会把无值的空字段传给后端 修改后的写法,不会把没有值的字段传给后端 // 列表和导出需要传给后端的公共参数(加 || undefined即可过滤空字段) const getCurentParam () …

【React Hooks原理 - useEffect、useLayoutEffect】

介绍 在实际React Hooks项目中,我们需要在项目的不同阶段进行一些处理,比如在页面渲染之前进行dom操作、数据获取、第三方加载等。在Class Component中存在很多生命周期能让我们完成这个操作,但是在React Hooks没有所谓的生命周期&#xff0…

自定义控件三部曲之绘图篇(六)Paint之函数大汇总、ColorMatrix与滤镜效果、setColorFilter

在自定义控件的绘图篇中,Paint 类是核心的组成部分之一,它控制了在 Canvas 上绘制的内容的各种属性,包括颜色、风格、抗锯齿、透明度等等。下面将详细介绍 Paint 的主要功能以及如何使用 ColorMatrix 和 setColorFilter 来实现滤镜效果。 Pa…

2024年 春秋杯 网络安全联赛夏季赛 Web方向 题解WirteUp 部分

brother 题目描述:web哥,打点容易提权难。 打点就是最简单的SSTI。 执行下find / -user root -perm -4000 -print 2>/dev/null找一下具备suid权限的命令 /usr/lib/dbus-1.0/dbus-daemon-launch-helper /usr/bin/chsh /usr/bin/gpasswd /usr/bin/n…

Redis连接Resp图形化工具和springboot

Redis连接Resp图形化工具和springboot 1.redis配置1.1 备份、修改conf文件1.2 Redis的其它常见配置:1.3 启动Redis:1.4 停止服务:1.5 开机自启: 2. resp的安装、配置和连接:2.1 GitHub上下载2.2 开始连接redis ![在这里…