您好, 欢迎来到 !    登录 | 注册 | | 设为首页 | 收藏本站

在统计模型中捕获高多重共线性

在统计模型中捕获高多重共线性

可以通过检查检测的高多重共线性 特征值相关矩阵 。极低的特征值表明数据是共线的,相应的 特征向量 表明哪些变量是共线的。

如果数据中不存在共线性,则可以预期所有特征值都不接近零:

>>> xs = np.random.randn(100, 5)      # independent variables
>>> corr = np.corrcoef(xs, rowvar=0)  # correlation matrix
>>> w, v = np.linalg.eig(corr)        # eigen values & eigen vectors
>>> w
array([ 1.256 ,  1.1937,  0.7273,  0.9516,  0.8714])

但是,如果说x[4] - 2 * x[0] - 3 * x[2] = 0,那么

>>> noise = np.random.randn(100)                      # white noise
>>> xs[:,4] = 2 * xs[:,0] + 3 * xs[:,2] + .5 * noise  # collinearity
>>> corr = np.corrcoef(xs, rowvar=0)
>>> w, v = np.linalg.eig(corr)
>>> w
array([ 0.0083,  1.9569,  1.1687,  0.8681,  0.9981])

特征值之一(这里是第一个)接近零。对应的特征向量为:

>>> v[:,0]
array([-0.4077,  0.0059, -0.5886,  0.0018,  0.6981])

基本上忽略了 几乎为零的 系数,上面基本上说x[0]x[2]并且x[4]是共线性的(如预期的那样)。如果一个标准化xs值并乘以该特征向量,则结果将在零附近徘徊,并且变化很小:

>>> std_xs = (xs - xs.mean(axis=0)) / xs.std(axis=0)  # standardized values
>>> ys = std_xs.dot(v[:,0])
>>> ys.mean(), ys.var()
(0, 0.0083)

注意,ys.var()基本上本征值接近于零。

因此,为了捕获高多线性度,请查看相关矩阵的特征值。

其他 2022/1/1 18:30:17 有480人围观

撰写回答


你尚未登录,登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进,让解决方法与时俱进

请先登录

推荐问题


联系我
置顶