分享

数学模型告诉你,为什么你总遇不到合适的人?

 星光闪亮图书馆 2018-06-16

两个人要走到一起,并且能长久地相爱下去并不是一件容易的事情。俗话说“门当户对”、“天造地设”,恋爱是两个人的事情,每个人的择偶标准不同、自身条件不同、三观也不同。那么,在一生中,我们是否能够遇到属于自己最合适的那个人呢?

单身狗注孤生定理:你永远遇不到合适的人。

在本推导中,我们将择偶标准大致分为两类:客观自然标准、社会人文标准。

前者即每个人的出厂硬件设定,比如身高、体重、颜值等等,后者则是像财富值、职业、价值观、兴趣爱好等后天积累和养成的因素。为什么这样划分呢?主要是考虑到这两类标准所服从的概率分布模型不同,这一点之后会有详细的说明。


我们先讨论客观自然标准。

高斯分布(亦称“正态分布”)是在自然界中广泛存在的一个概率分布模型,许多自然现象都符合高斯分布,比如人类的身高、学生的学习成绩、随机误差等等。

假设你只有一个满足高斯分布的择偶标准A(比如身高、体重等)。一般来说,人们对于这类自然标准的选择会青睐于中上水平的,即不能低于平均水平太多,也不能太高。例如,身高不能低于170cm,但也不能太高,高于190cm的你可能也会犹豫。

服从高斯分布的择偶标准A的概率密度函数如下:

其中,μ是择偶标准A在人群中的均值,σ是标准差。

将高斯分布的概率密度积分,即可得到随机变量X在某一范围内取值的概率,在概率密度图像上可表现为其所围的面积。

可见,高斯变量落在(μ-3σ,μ+3σ)范围外的概率小于千分之三,这就是人们常用的3σ检验原则

如果你的择偶要求(眼光)较高,意味着你对于择偶条件A的接受范围大概位于(μ+σ,μ+2σ)的区间(图中阴影部分):

那么你遇到一个标准A满足要求的人的概率约为13.6%左右

当然,大部分人的择偶要求没有那么苛刻。假设择偶标准位于(μ-σ,μ+2σ)的区间(图中阴影部分):

那么你遇到一个标准A满足要求的人的概率约为81.85%左右。

乍一看,是不是感觉这个概率还蛮高的!

事实上,绝大多数人的择偶要求不会这么低,因为大部分的正常人都能满足这个条件……

这个择偶标准区间已经算是很低的门槛了,一般人的择偶标准会比这个严苛很多。而且,最关键的是,这只是满足其中一个择偶标准的概率!你总不可能看到身高合适的就上吧~

现在我们同时考虑两个择偶标准会如何呢?比如择偶标准A(体重)、B(颜值)。

假设A和B都服从高斯分布,此时我们需要引入二元高斯分布模型

其中,X~N(μ112),Y~N(μ222),ρ是X和Y的相关系数。

有的朋友可能会问,为啥从1个变量到2个变量就复杂了这么多呢?不能直接把两个变量的概率直接相乘吗?

答案是:大多数情况下,不能。

在概率统计中,概率能直接相乘的条件是变量之间互相独立。

而类似于身高、体重这样的两个变量并不是独立的,存在着某种相关性。所以不能简单地将它们的概率相乘。

由于不能直接相乘,我们可以根据概率密度函数的定义,对其求二重积分进而算出概率,即:

其中f(x,y)是二元正态分布函数。

二重积分示意图

回想在一元正态分布下有“3σ原则”,那么推广到二元的情况呢?

是否在二元正态分布下,两个变量同属1σ的区间(x∈(μ1111) & y∈(μ2222))的概率就是0.6826×0.6826=0.4659呢?

答案是否定的,因为两个随机变量不一定是独立的,即二元正态分布受到参数ρ(相关系数)的影响。

下面我们观察不同的相关系数ρ对概率的影响。

由于该积分无法直接求出解析解,我们使用matlab求定积分数值解:

得到曲线如下:

图1

图1中,横坐标是变量X和Y的相关系数ρ,纵坐标是概率。2D-1σ(蓝线)表示X和Y都落在各自的1σ区域,即x∈(μ1111)且 y∈(μ2222)的概率;1D-1σ(紫虚线)表示一元高斯变量的值落在1σ区间内概率,即上文提到的0.6826。

其中,相关系数ρ越大,说明变量X和Y的线性相关性越强,相关系数ρ=0说明变量X和Y不相关。

注意:随机变量独立和不相关是两个概念,独立一定不相关,但不相关不一定独立,不相关要弱于独立。

但是可以证明对于高斯分布来说,独立就等价于不相关。所以,当ρ=0时,高斯分布变量X和Y独立,于是有P(XY)=P(X)×P(Y)。

从图1中也可以看出,当ρ=0时,以下结果成立:

这很好地应证了上面所说的高斯分布由变量不相关可以推导出独立的结论。

从图1中可以看到,如果我们的择偶标准A和B相关性较高,那么你遇到同时满足要求的人的概率也就会大一些,但是最高也不会超过你遇到满足你最严苛的条件的人概率。

也就是说,如果你遇到满足择偶条件A的人的概率是60%,遇到满足择偶条件B的人的概率是40%,那么你想要遇到同时满足这两个条件的人概率最大不会超过40%(可以算作某种意义上的“短板效应”)。

而随着择偶标准A和B相关性的下降(比如A是身高,B是学习成绩),你遇到那个ta的概率会随之下降。这一点其实很显然,与我们的直观感受一致。

下面我们再考察三组实验,看看有什么有趣的结果:

(1)以严苛的条件同时限制择偶标准A和B,即A和B都得落在各自的(μ+σ,μ+2σ)区间内。

(2)以严苛的条件限制择偶标准A,以宽松的条件限制择偶标准B,即A得落在(μ+σ,μ+2σ)区间内,B也落在(μ-σ,μ+2σ)区间内。

(3)以宽松的条件同时限制择偶标准A和B,即A和B都落在各自的(μ-σ,μ+2σ)区间内。

同样,我们使用matlab求解。

实验结果如下图:

图2

表1

从图2不难看出,当我们将择偶标准从1个增加到2个之后,无论你的择偶条件是严苛还是宽松,你遇到合适的人的概率都大幅下降了。表1中列出了不同择偶条件组合下遇到合适的人的最大概率和最小概率。

从最好情况的概率来看仿佛一切都还ok,但是,很遗憾地告诉大家,最好情况在这里并没有什么卵用……因为最好情况是当相关系数ρ接近1时得到的,这意味着我们选择的两个择偶标准A和B有着很强的线性关系,比如学习成绩和努力程度。既然这两个择偶标准已经有很强的相关性了,那么我们为何还要把他们分成两个指标呢?

事实上,在现实生活中,我们能够选为择偶标准的指标之间的相关性都比较弱,也只有这样才能够多维度、全方位地评价一个人。你会把身高、勤奋度作为两个不同的择偶指标,但没必要把科研能力和顶级期刊论文发表数这两个相关性很强的指标单列为两个择偶标准。所以,我们要关注的更多的是当ρ比较小时的情况,也就是最差情况的概率。

这是想说明什么呢?在两个择偶标准下,你遇到合适的人的概率已经大幅缩水了,尤其是如果你的眼光比较高的话,你现在遇到满足要求的人的概率已经不足2%了,哪怕你只对一个条件比较严苛而对另一个条件抱有宽宏的态度,你现在遇到合适的人的概率也只剩11%。

更可怕的是……现在还只是讨论了两个择偶标准的情况。显然,你挑选恋人不会只在乎两个标准吧,你不可能对今后要结婚生子、托付终身的人只有两个要求吧?

所以,接下来,我们将对自然客观类的择偶标准推广到n维的情况……

结果是什么我想你已经可以预见了吧……

结局会是多么的凄凉惨淡、不忍卒读……

n元高斯分布的概率密度函数如下:

其中∑是协方差矩阵,μ是均值向量。

n元高斯分布的累计概率分布为:

由于高维无法用图表示,我们示意性地画一个二维情况下的概率分布图像:

二元高斯分布累计概率分布函数图像

更高维的情况下大家可以自行想象一下。

下面我们假设n维高斯变量之间两两相互独立,以此来估算一个下界。

假设你有n个服从高斯分布的择偶标准,他们之间相互独立。我们遵循上面的讨论,分为严格和宽松两种条件。我们画出不同宽松组合下你遇到满足要求的人的概率图如下:

上图横坐标m表示宽松组合中严苛的频次,纵坐标表示遇到满足要求的人的概率。比如,当n=5时,表示你有5个不同的择偶标准,横坐标m=1对应的点,代表5个不同的择偶标准中,你有1个标准是以严苛来要求,其余4个是宽松,也即是4宽1严的组合下,你遇到满足要求的人的概率是0.061(6.1%)。

从曲线可以看出,随着n的增大以及m的增大,概率衰减得特别快。

这告诉我们什么呢?想找到男朋友女朋友,就要少提要求、降低门槛,不然你遇到满足条件的人完全就是一个小概率事件(一般概率低于5%的事件就算得上小概率事件了)。然而,怎么可能对另一半不提要求、放宽限制呢?宁缺毋滥!所以,这成功地说明一个道理:你几乎不可能遇到合适的人!!!

以上就是我们对自然客观类择偶标准的讨论。


下面我们考虑社会人文类标准。这类标准有一个特点,就是会受到人类社会活动很强的影响。

除了高斯分布,还有一个常见的分布是幂律分布。实际上,在社会生活中,许多现象并不符合高斯分布,而是更贴近幂律分布,比如人类财富的分布、国家GDP分布、词频分布、社交网络分布等等。著名的80/20定律(20%的人拥有80%的社会资源)即是出自幂律分布。

幂律分布的数学模型是幂函数:

其中C,α是常数。

幂函数示例(C=1,α=3)

在概率统计中,概率密度函数f(x)满足非负性和规范性,即函数值非负并且全域积分为1。

所以,在幂律分布中,就要求有C>0,α>0。除此之外,由微积分的知识不难得出,为了让上述积分收敛,我们一般指定x有一个最小值(下界)xmin于是,我们就引出了著名的Pareto Distribution,也即人们常说的长尾分布。

由上式即可求出规范化常数C的值,进而求出Pareto Distribution的概率密度函数为:

其中,要求α>1。

于是,Pareto Distribution的概率累计分布函数为:

其中,xmin和α是模型的参数。

xmin=1,α不同取值时的Pareto Distribution概率密度图像

xmin=1,α不同取值时的Pareto Distribution概率分布图像

Pareto Distribution有如下性质:

(1)当α>2时才有均值:

(2)当α>3时方差才收敛:

自然界中,幂律分布的参数α大多落在2~3之间。

为了近似拟合“80/20定律”,我们这里取α=3。

注意:“80/20定律”并不严格说明控制80%资源的关键部分就是20%,而是一个从图像上得到的直观笼统的概念。实际上,在当前假设下,无法求解关键部分的确切占比(如果对幂律分布做截断处理,规定最大最小值,那么有可能设计出恰好的“80/20分布”)。

接下来,我们可以从以下两个角度对其进行观察分析。

第一个角度将从较为直观的“80/20定律”出发,这个角度不存在严格的数学推导与证明。

假设你有一个择偶条件A服从“80/20定律”,比如财富值。举个具体的例子,若现在共有100个人,假设他们的财富分布表如下:

这意味着,你有80%的概率,遇到的人都属于“长尾部分”(没钱的那部分)。反过来说,如果你的择偶条件对财富值有较高的要求,那么你只有20%的概率接触到率先组成总财富80%的那个富裕集团的成员。

如果你放宽一些条件呢?遇到率先组成总财富90%的群体的成员的概率是多少呢?由于幂律分布极快的收缩性,这个概率也并不会很高,大约会在30%左右。也就是说,剩下70%的人总共的财富加起来才只占人类总财富的10%……

这说明了什么呢?说明这个世界上,绝大部分的人都挺穷……(啊,终于找到了安慰自己的理由)

也就是说,直观上,“80/20定律”告诉了我们这么一个道理:真正的有钱人是真正的少,但他们是真真正正的有钱!你想遇到真正的有钱人的概率是真正的低,因为你身边都是真真正正的穷人!(当然,也包括我和你

第二个角度我们将从概率密度函数的数学意义入手,诠释幂律分布的准确意义。

让我们回顾一下这张图。

在数学上,概率密度f(x)是指随机变量X落在某一点处“单位宽度”内的概率。概率密度函数在某个区域上的积分,就表示了随机变量X的取值落在该区域之内的概率。

于是,上图在概率统计上的意义即是,对于服从xmin=1,α=3的长尾分布的随机变量X,X的取值落在[1,2.236]范围之内的概率是80%。

弄清楚这个之后,我们就可以将其和择偶概率联系起来了。

同前文所述的高斯分布一样,这里的横坐标表示某一个择偶标准的度量,比如在这里我们假设择偶标准A是财富值,横坐标就表示财富等级,等级越高说明财富值越大,最小值1是当前系统内的最小财富值等级。

我们先来算一下这个系统内的财富值均值。根据前文的公式,有:

于是,均值μ=2。

假设你的择偶条件是该系统内财富值大于均值μ的人,那么概率为:

也就是说,你的要求仅仅是能够达到平均水平就行,但是遇到满足条件的人的概率也只有25%!

倘若你的要求稍微高一些呢?比如你想找到该系统内该指标大于两倍均值μ的人,概率为:

天呐!概率已经骤降为6.25%了!!!

(这个要求很高么?不高啊!)

可见,对于社会人文类的择偶标准,哪怕你的要求看上去算是很宽松了,你遇到合适的人的概率也还是很低很低!这还只是一个择偶标准的情况,现实中我们的择偶标准肯定不止一个吧……


下面,我们将自然客观择偶标准和社会人文择偶标准结合起来。我们之前讨论过变量之间不独立的问题,但是鉴于计算的可行性以及针对该问题我们可以近似认为择偶标准之间相关性很低,这里我们假设变量两两独立,以此来估算一个下界。

我们假设在两类标准中各选两个择偶标准,则共有9种不同的宽松组合。

虽然这个概率只是一个下界(最差情况),但是相信大家还是能从中感受到一股寒意……并且我们这里只讨论了四个择偶标准,实际情况肯定还要比这个复杂多变,意味着真实概率可能比这个还要低……

还有一个更关键的问题,就算你很幸运地遇到了满足你要求的人,但是你满足对方的要求了吗?

你喜欢别人,别人喜欢你吗?你觉得对方是你的最佳选择,对方或许都没把你写入备胎名单!(这些问题需要大家每日三省!)

没错,这就是你找不到合适的人的原因——因为在概率上,你已经凉了!

好了,一首凉凉先送给大家!


转载自:中科院物理所,转载请注明出处。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多