分享

大数据

 东方135 2022-12-10 发布于河北

(large data - Why does the condition number of the covariance matrix explode as number of variables increases?)

发布于 2020-09-17 17:33:08

N股票N×N的资产收益构造对称协方差矩阵size ,将资产收益作为变量处理。

  • 当变量N数量相当少时,例如N=5or N=12,条件数量在 cond 附近相对较低=15
  • 当我增加协方差矩阵中的变量数量时,例如N=30or N=50,它已经爆炸到 cond=500+范围。

这个讨论解释了当特征/变量具有不同尺度时条件数的恶化,但这显然不适用于我的情况,因为所有变量都在相同的单位:回报。

我的情况与他们的情况有一个共同点,即变量的标准偏差高于或低于另一个(股票的风险比另一个更高或更低),但我不会将其称为规模差异。

为什么协方差矩阵条件数对变量数量的增加如此敏感N

Questioner
proof_by_accident 2020-09-18 02:46:19

在评论中解释这一点有点限制,抱歉:

假设居中数据矩阵X,那么你的协方差矩阵M=XTX。这将具有高的条件数,如果奇异值的范围M是高的,因为条件数被定义κ(M)=smaxsmin,其中smaxsmin是最小和最大的奇异值M

让我们看看哪些特征X会在信号值中产生高范围。一般来说,奇异值M满足:

M=i=1NsiviviT=VΣVT
其中vi(V 的列)是一些正交向量,并且Σ是一个对角矩阵,其对角线元素是奇异值si,其他一切都是 0。由于V1=VT(因为正交)我们可以看到即:
Σ=VTMV=VTXTXV=(XV)T(XV)
(XV)i表示 的ithXV,矩阵乘法被设置为:
si=(XV)iT(XV)i=|(XV)i|2
因此,如果 的某些列XV非常大而其他列非常小,那么某些si将非常大而其他将非常小。发生这种情况时,你的条件数将很大(根据条件数的定义)。

回忆一下线性代数,因为V是正交矩阵,所以 的列XV只是 的列的旋转X。实际上,乘法V所做的是旋转数据矩阵,使其变化最大的方向与数据空间的基本方向对齐。的大列XV对应数据变化较大的方向,小列对应数据变化很小的方向。对于你的数据,听起来好像只有 的D<<NXV具有可观的量级,而其余的列非常小。这个数字D不会增长太多,但N会增长。作为N增长,数据在每个新维度上的变化越来越小,越来越smin低,并导致κ(M)爆炸。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多