大数据

东方135 2022-12-10 发布于河北

展开全文

(large data - Why does the condition number of the covariance matrix explode as number of variables increases?)

发布于 2020-09-17 17:33:08

从 $N$ 股票 $N \times N$ 的资产收益构造对称协方差矩阵size ，将资产收益作为变量处理。

当变量 $N$ 数量相当少时，例如 $N = 5$ or $N = 12$ ，条件数量在 cond 附近相对较低 $= 1 - 5$ 。
当我增加协方差矩阵中的变量数量时，例如 $N = 30$ or $N = 50$ ，它已经爆炸到 cond $= 500^{+}$ 范围。

这个讨论解释了当特征/变量具有不同尺度时条件数的恶化，但这显然不适用于我的情况，因为所有变量都在相同的单位：回报。

我的情况与他们的情况有一个共同点，即变量的标准偏差高于或低于另一个（股票的风险比另一个更高或更低），但我不会将其称为规模差异。

为什么协方差矩阵条件数对变量数量的增加如此敏感 $N$ ？

Questioner

proof_by_accident 2020-09-18 02:46:19

在评论中解释这一点有点限制，抱歉：

假设居中数据矩阵 $X$ ，那么你的协方差矩阵 $M = X^{T} X$ 。这将具有高的条件数，如果奇异值的范围 $M$ 是高的，因为条件数被定义 $κ (M) = \frac{s_{max}}{s_{min}}$ ，其中 $s_{max}$ 和 $s_{min}$ 是最小和最大的奇异值 $M$ 。

让我们看看哪些特征 $X$ 会在信号值中产生高范围。一般来说，奇异值 $M$ 满足：

M = \sum_{i = 1}^{N} s_{i} v_{i} v_{i}^{T} = V Σ V^{T}

其中

v_{i}

（V 的列）是一些正交向量，并且

Σ

是一个对角矩阵，其对角线元素是奇异值

s_{i}

，其他一切都是 0。由于

V^{- 1} = V^{T}

（因为正交）我们可以看到即：

Σ = V^{T} M V = V^{T} X^{T} X V = (X V)^{T} (X V)

让

(X V)_{i}

表示的

i^{th}

列

X V

，矩阵乘法被设置为：

s_{i} = (X V)_{i}^{T} (X V)_{i} = | (X V)_{i} |^{2}

因此，如果的某些列

X V

非常大而其他列非常小，那么某些

s_{i}

将非常大而其他将非常小。发生这种情况时，你的条件数将很大（根据条件数的定义）。

回忆一下线性代数，因为 $V$ 是正交矩阵，所以的列 $X V$ 只是的列的旋转 $X$ 。实际上，乘法 $V$ 所做的是旋转数据矩阵，使其变化最大的方向与数据空间的基本方向对齐。的大列 $X V$ 对应数据变化较大的方向，小列对应数据变化很小的方向。对于你的数据，听起来好像只有的 $D << N$ 列 $X V$ 具有可观的量级，而其余的列非常小。这个数字 $D$ 不会增长太多，但 $N$ 会增长。作为 $N$ 增长，数据在每个新维度上的变化越来越小，越来越 $s_{min}$ 低，并导致 $κ (M)$ 爆炸。