(large data - Why does the condition number of the covariance matrix explode as number of variables increases?)
发布于 2020-09-17 17:33:08
从股票的资产收益构造对称协方差矩阵size ,将资产收益作为变量处理。
这个讨论解释了当特征/变量具有不同尺度时条件数的恶化,但这显然不适用于我的情况,因为所有变量都在相同的单位:回报。 我的情况与他们的情况有一个共同点,即变量的标准偏差高于或低于另一个(股票的风险比另一个更高或更低),但我不会将其称为规模差异。 为什么协方差矩阵条件数对变量数量的增加如此敏感? Questioner
proof_by_accident
2020-09-18 02:46:19
在评论中解释这一点有点限制,抱歉: 假设居中数据矩阵,那么你的协方差矩阵。这将具有高的条件数,如果奇异值的范围是高的,因为条件数被定义,其中和是最小和最大的奇异值。 让我们看看哪些特征会在信号值中产生高范围。一般来说,奇异值满足:
其中(V 的列)是一些正交向量,并且是一个对角矩阵,其对角线元素是奇异值,其他一切都是 0。由于(因为正交)我们可以看到即:
让表示 的列,矩阵乘法被设置为:
因此,如果 的某些列非常大而其他列非常小,那么某些将非常大而其他将非常小。发生这种情况时,你的条件数将很大(根据条件数的定义)。
回忆一下线性代数,因为是正交矩阵,所以 的列只是 的列的旋转。实际上,乘法所做的是旋转数据矩阵,使其变化最大的方向与数据空间的基本方向对齐。的大列对应数据变化较大的方向,小列对应数据变化很小的方向。对于你的数据,听起来好像只有 的列具有可观的量级,而其余的列非常小。这个数字不会增长太多,但会增长。作为增长,数据在每个新维度上的变化越来越小,越来越低,并导致爆炸。 |
|