【ZenjoYao的回答(35票)】: 对数据做一些变换的目的是它能够让它符合我们所做的假设,使我们能够在已有理论上对其分析。 对数变换(log transformation)是特殊的一种数据变换方式,它可以将一类我们理论上未解决的模型问题转化为已经解决的问题。我将说两类比较有代表性的模型。
![]()
左边是正常数据,可以看到随着时间推进,电力生产也变得方差越来越大,即越来越不稳定。这种情况下常有的分析假设经常就不会满足(误差服从独立同分布的正态分布,时间序列要求平稳)。 这必然导致我们寻求一种方式让数据尽量满足假设,让方差恒定,即让波动相对稳定。而这种目的可以通过对数转换做到。 理论上,我们将这类问题抽象成这种模型,即分布的标准差与其均值线性相关。 即 ![]()
,其中 ![]()
。 由定义可推: ![]()
,利用log函数的性质: ![]()
(当x足够小) 那么 ![]()
. 那么很容易就知道 ![]()
和 ![]()
. 所以对数变换能够很好地将随着自变量的增加,因变量的方差也增大的模型转化为我们熟知的问题。
![]()
,其中 ![]()
是每年增长率(不很大)。 我们可以考虑对数变换: ![]()
这样,我们又可以将研究数据的增长率分布存在一定规律的模型转化为我们熟知的问题。 在对数转换后,人们又思考了很多其他的转换方式(如Cox-Box转换)。但总而言之,每一种转换方式都是为了让数据符合我们的假设,来对其进行分析。我所说的对数变换原因只是冰山一角,如有不正确的地方还请各位多多指正。 【五雷的回答(4票)】: To transform ornot to transform? That is the question! 总的说来,对数变换是数据变换的一种常用方式,数据变换的目的在于使数据的呈现方式接近我们所希望的前提假设,从而更好的进行统计推断。但需要注意的是,数据是离散变量时进行对数变换要额外小心! 当然,我们可以追问的更多:
至于,怎么去做数据变换(Box-Cox正态性变换还是均匀变换)?(When)什么时候需要做什么样的数据变换?(What)数据变换后的结果是什么,如何解释?当理清上述两个为什么时,我想应该基本就能回答了。当然,我的回答一定还存在问题与遗漏,不当之处还望指正^_^ 【徐惟能的回答(4票)】: 一般当研究自变量和应变量的弹性关系的时候,需要取对数,得到的参数解释的是,在其他条件不变的前提下,当自变量变化1%时,因变量(若也取了对数)变化a%。另外,在作线性回归分析的时候,如果变量不满足正态分布,但取了对数以后满足或接近正态分布,则可以取对数以后作回归。 【xiaoxuwu的回答(1票)】: 当变量程指数增长的时候,如果不取对数,就会有大量的信息被堆积在零附近。而取了对数,就可以把这些信息展开来了。 【霍霍大叔的回答(1票)】: 前面各位都解释的很专业,这里我想从另外一个角度来扩展一下,希望可以丰富答案多样性。 ------------------------------------------------日常生活和工作中离不开自然计数法,但在一些自然科学和工程计算中,对统计量的描述往往采用对数计数法。从人的心理感知的角度来说,在这些场合用对数形式描述变量是因为它们符合人的心理感受特性。在一定的刺激范围内,当所研究的变量呈指数变化时,人们的心理感受是呈线性变化的,这就是心理学上的韦伯-费希钠定律。它揭示了人的感官对宽广范围刺激的适应性和对微弱刺激的精细分辨,好像人的感受器官是一个对数转换装置一样。生活中的例子大家可以参考一下八度音程的概念和分贝的应用。采用对数描述变量,一是如上面各位所说的变化率的问题。二是用对数能够描述较大的动态范围。三是符合人的心理感知特性。 【知乎用户的回答(0票)】: 想到极大似然估计中的取对数,把连续乘机通过 ![]()
转换成求和形式。 例如: ![]()
取对数之后转化为 ![]()
拉格朗日乘数法 ![]()
求得极值得出极大似然估计。 还有在信号处理中,通常在描绘幅频特性曲线的时候,横坐标为 Hz 的时候非常麻烦,有的元件通频带很宽达到 M 级,总不可能在一张纸中分割出1M 个小格子吧。 取对数之后就方便很多了。 ========================楼上的公式表达有误=============================== 【潘家邦的回答(0票)】: 把一些非线性的东西变成线性的。 ![]()
, ![]()
。 【JohnGao的回答(0票)】: 因为你的变量不是线性。要用线性回归,所以要取对数。 原文地址:知乎 |
|