针对小伙伴们有关无量纲化处理的提问,今天将常用的无量纲化处理方法进行一个汇总说明,SPSSAU提供17种数据无量纲化处理方法,如下图: 一、无量纲化 1、定义 无量纲化,也称为数据的标准化、规范化,是指不同指标之间由于量纲不同导致的不具有可比性,所以需要先进行无量纲化处理;它是通过数据变换来消除原始变量的量纲影响的方法;消除量纲影响后再进行后续分析。 2、解释说明 二、无量纲化方法选择 在研究时具体应该使用哪一种处理方式呢,其实并没有固定的要求,而是结合实际情况或者实际研究进行。 比如熵值法计算权重时,通常需要处理数据的方向问题,可以使用正向化、逆向化处理方式;但对于数据的单位问题,可以处理也可以不处理,对于分析并没有太大影响,如果要处理可以选择归一化处理方式。 常用分析方法的无量纲化处理方式对比如下表: 三、SPSSAU无量纲化处理 使用SPSSAU进行无量纲化处理,位于SPSSAU数据处理->【生成变量】 可批量选中需要进行无量纲化处理的指标,选择相应无量纲化处理方法,确认处理即可完成。 四、17种无量纲处理方法说明 SPSSAU共提供17种无量纲化处理方法,其中比较常用的比如:标准化、中心化、归一化、均值化、正向化、逆向化等等;汇总说明如下表: 备注:表格中,X表示某数据,Mean表示平均值,Std表示标准差;Min表示最小值,Max表示最大值,Sum表示求和,Sqrt表示开根号;接下来将逐个进行说明。 1、标准化(S) 2、中心化(C) 3、归一化(MMS) 4、均值化(MC) 5、正向化(MMS) 计算公式为:(X - Min)/ (Max - Min)。 正向化的目的是对正向指标保持正向且量纲化。比如GDP增长率、科研产出数量这两个指标;GDP增长率、科研产出数量是数字越大越好。正向化的目的就是让数字越大越好的意思,而且同时其还让数据压缩在 [0,1] 范围内即进行了量纲处理。 6、逆向化(NMMS) 计算公式为:(Max - X)/ (Max - Min) 逆向化的目的是对逆向指标正向且量纲化。比如失业率这个指标;失业率是数字越小越好。逆向化的目的就是让数字越小越好的意思,而且同时其还让数据压缩在 [0,1] 范围内即进行了量纲处理。 从公式就可以看出,分母永远是大于0,随着X的增大,分子会越来越小,那么就对逆向指标逆向化处理之后就会得到一个这样的特征,即数字越大越好(数字越大时,其实X是越小)。 相当于将逆向指标逆向化后,新的数据为数字越大越好,这样便于进行方向的统一,尤其是在指标同时出现正向指标和逆向指标时,针对逆向指标进行逆向处理,是非常常见的处理方式。 7、适度化(M) 其计算公式为:-|X-K| 适度化其目的是让K适度系数值作为参考标准,比如K=1,其意义为数字越接近于1,适度化后数字越大,适度化处理后数字均小于等于0,但越接近0说明其离K值越近; 8、区间化(Interval)) 其计算公式为: 区间化的目的是让数据压缩在 [a,b] 范围内,a和b是自己希望的区间值,如果a=0,b=1,那么其实就是一种特殊情况即归一化; 9、初值化(Init) 计算公式为:X / 该列第1个不为空的数据 初值化在综合评价时有可能使用,比如进行灰色关联法研究时就常用此种处理方式;即以数据中第1个不为空的数据作为参照标准,其余的数据全部去除以该值。 比如说2000,2001,2002,2003,一直到2022共计23年的GDP数据,第1个数据就是2000年的GDP,所有的数据都去除以2000年的GDP,相当于以2000年GDP作为参照标准,所有数据全部除以2000年的GDP(包括2000年GDP除以自己得到数字1)。 一般来说,初值化这种处理方式适用于有着一种趋势或规律性的数据,比如上述2000~2022年的GDP等,而且数据正常情况下都是全部大于0,因为出现负数,通常会失去其特定意义。 10、最小值化(MinS) 其计算公式为:X / Min 最小值化其目的是让最小值作为参照标准,所有的数据全部除以最小值; 需要特别说明一点是,此种处理方式时一般都是要求数据全部大于0,否则可能就不适合用此种无量纲化处理方式。 11、最大值化(MaxS) 计算公式为:X / Max 最大值化其目的是让最大值作为参照标准,所有的数据全部除以最大值;即以最大值作为单位,全部数据全部去除以最大值。 需要特别说明一点是,此种处理方式时一般都是要求数据全部大于0,否则可能就不适合用此种无量纲化处理方式。 12、求和归一化(SN) 计算公式为:X / Sum(X) 求和归一化其目的是让'求和值’作为参照标准,所有的数据全部除以求和值,得到的数据相当于为求和的占比。 13、平方和归一化(SSN) 计算公式为:X / Sqrt(Sum(X^2)) 平方和归一化其目的是让 ' 平方和值 ’ 作为参照标准,所有的数据全部除以平方和值,得到的数据相当于为平方和的占比。 需要特别说明一点是,此种处理方式时一般都是要求数据全部大于0,否则可能就不适合用此种量纲方式。TOPSIS法的时候使用此种处理方式较多。 14、固定值化(CloseFixedValue) 计算公式为: 固定值化其目的是让某一固定值FixedValue作为标准;比如固定值为10,则分母为一定值——代表所有数据离10的最远距离。固定值化的实际意义为离10的相对距离(处理后数字越大越接近,数据越小越远离),经过固定值化处理,使数据压缩在 [0,1] 之间,0代表远离10,1代表刚好为10。固定值化时离固定值FixedValue越近越好。 15、偏固定值化(OffFixedValue) 计算公式为: 偏固定值化其目的是让某一固定值FixedValue作为标准;比如固定值为10,固定值化的实际意义为离10的相对距离(处理后数字越大越远离,数据越小越接近),经过固定值化处理,使数据压缩在 [0,1] 之间,0代表刚好为10,1代表远离10。偏固定值化时离固定值FixedValue越远越好。 16、近区间化(CloseInterval) 计算公式为: 近区间化其目的是让某一区间(p,q)作为标准,属于该区间的数值取数字1,不属于的进行近区间化处理,近区间化时离(p,q)区间越近越好。 17、偏区间化(OffInterval) 其计算公式为: 偏区间化其目的是让某一区间(p,q)作为标准,属于该区间的数值取数字1,不属于的进行偏区间化处理,偏区间化时离(p,q)区间越远越好。 数据无量纲化处理方法相关内容可查看SPSSAU帮助手册:https:///helps/otherdocuments/methodsdataformat.html 若要了解数据分析相关的更详细知识,可进入SPSSAU官网查看帮助手册or联系智能客服or人工客服为您解答。 以上就是今天的全部内容啦~ 若您想看其他干货内容 请在评论区告诉SPSSAU 数据分析救命神器 让你的数据处理 非常简单! SPSSAU 数据科学分析平台 www. |
|