能力驗(yàn)證上報(bào)數(shù)據(jù)(n個(gè)數(shù)據(jù))通過什么方法處理后進(jìn)行的判定?這些問題都涉及數(shù)據(jù)標(biāo)準(zhǔn)化。
在數(shù)據(jù)分析之前,通常需要先將數(shù)據(jù)標(biāo)準(zhǔn)化(normalization),利用標(biāo)準(zhǔn)化后的數(shù)據(jù)進(jìn)行數(shù)據(jù)分析。數(shù)據(jù)標(biāo)準(zhǔn)化也就是統(tǒng)計(jì)數(shù)據(jù)的指數(shù)化。
為什么要進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化處理?
由于不同變量常常具有不同的單位和不同的變異程度。不同的單位常使系數(shù)的實(shí)踐解釋發(fā)生困難。例如:第1個(gè)變量的單位是kg,第2個(gè)變量的單位是cm,那么在計(jì)算絕對(duì)距離時(shí)將出現(xiàn)將兩個(gè)事例中第1個(gè)變量觀察值之差的絕對(duì)值(單位是kg)與第2個(gè)變量觀察值之差的絕對(duì)值(單位是cm)相加的情況。使用者會(huì)說5kg的差異怎么可以與3cm的差異相加?不同變量自身具有相差較大的變異時(shí),會(huì)使在計(jì)算出的關(guān)系系數(shù)中,不同變量所占的比重大不相同。例如如果第1個(gè)變量(兩水稻品種米粒中的脂肪含量)的數(shù)值在2%到4%之間,而第2個(gè)變量(兩水稻品種的畝產(chǎn)量)的數(shù)值范圍都在1000與5000之間。為了消除量綱影響和變量自身變異大小和數(shù)值大小的影響,故將數(shù)據(jù)標(biāo)準(zhǔn)化。
數(shù)據(jù)標(biāo)準(zhǔn)化處理主要包括數(shù)據(jù)同趨化處理和無量綱化處理兩個(gè)方面。數(shù)據(jù)同趨化處理主要解決不同性質(zhì)數(shù)據(jù)問題,對(duì)不同性質(zhì)指標(biāo)直接加總不能正確反映不同作用力的綜合結(jié)果,須先考慮改變逆指標(biāo)數(shù)據(jù)性質(zhì),使所有指標(biāo)對(duì)測(cè)評(píng)方案的作用力同趨化,再加總才能得出正確結(jié)果。數(shù)據(jù)無量綱化處理主要解決數(shù)據(jù)的可比性。數(shù)據(jù)標(biāo)準(zhǔn)化的方法有很多種,常用的有“最小—最大標(biāo)準(zhǔn)化”、“Z-score標(biāo)準(zhǔn)化”和“按小數(shù)定標(biāo)標(biāo)準(zhǔn)化”等。經(jīng)過上述標(biāo)準(zhǔn)化處理,原始數(shù)據(jù)均轉(zhuǎn)換為無量綱化指標(biāo)測(cè)評(píng)值,即各指標(biāo)值都處于同一個(gè)數(shù)量級(jí)別上,可以進(jìn)行綜合測(cè)評(píng)分析。
一、Min-max 標(biāo)準(zhǔn)化
min-max標(biāo)準(zhǔn)化方法是對(duì)原始數(shù)據(jù)進(jìn)行線性變換。設(shè)minA和maxA分別為屬性A的最小值和最大值,將A的一個(gè)原始值x通過min-max標(biāo)準(zhǔn)化映射成在區(qū)間[0,1]中的值x',其公式為:
新數(shù)據(jù)=(原數(shù)據(jù)-極小值)/(極大值-極小值)
二、z-score 標(biāo)準(zhǔn)化
這種方法基于原始數(shù)據(jù)的均值(mean)和標(biāo)準(zhǔn)差(standard deviation)進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化。將A的原始值x使用z-score標(biāo)準(zhǔn)化到x'。
z-score標(biāo)準(zhǔn)化方法適用于屬性A的最大值和最小值未知的情況,或有超出取值范圍的離群數(shù)據(jù)的情況。
新數(shù)據(jù)=(原數(shù)據(jù)-均值)/標(biāo)準(zhǔn)差
spss默認(rèn)的標(biāo)準(zhǔn)化方法就是z-score標(biāo)準(zhǔn)化。
用Excel進(jìn)行z-score標(biāo)準(zhǔn)化的方法:在Excel中沒有現(xiàn)成的函數(shù),需要自己分步計(jì)算,其實(shí)標(biāo)準(zhǔn)化的公式很簡單。
步驟如下:
1.求出各變量(指標(biāo))的算術(shù)平均值(數(shù)學(xué)期望)xi和標(biāo)準(zhǔn)差si ;
2.進(jìn)行標(biāo)準(zhǔn)化處理:
zij=(xij-xi)/si
其中:zij為標(biāo)準(zhǔn)化后的變量值;xij為實(shí)際變量值。
3.將逆指標(biāo)前的正負(fù)號(hào)對(duì)調(diào)。
標(biāo)準(zhǔn)化后的變量值圍繞0上下波動(dòng),大于0說明高于平均水平,小于0說明低于平均水平。
三、Decimal scaling小數(shù)定標(biāo)標(biāo)準(zhǔn)化
這種方法通過移動(dòng)數(shù)據(jù)的小數(shù)點(diǎn)位置來進(jìn)行標(biāo)準(zhǔn)化。小數(shù)點(diǎn)移動(dòng)多少位取決于屬性A的取值中的最大絕對(duì)值。將屬性A的原始值x使用decimal scaling標(biāo)準(zhǔn)化到x'的計(jì)算方法是:
x'=x/(10*j)
其中,j是滿足條件的最小整數(shù)。
例如 假定A的值由-986到917,A的最大絕對(duì)值為986,為使用小數(shù)定標(biāo)標(biāo)準(zhǔn)化,我們用1000(即,j=3)除以每個(gè)值,這樣,-986被規(guī)范化為-0.986。
注意,標(biāo)準(zhǔn)化會(huì)對(duì)原始數(shù)據(jù)做出改變,因此需要保存所使用的標(biāo)準(zhǔn)化方法的參數(shù),以便對(duì)后續(xù)的數(shù)據(jù)進(jìn)行統(tǒng)一的標(biāo)準(zhǔn)化。
文章來源于網(wǎng)絡(luò),轉(zhuǎn)載只為分享知識(shí),如有侵權(quán)請(qǐng)聯(lián)系刪除。
在數(shù)據(jù)分析之前,通常需要先將數(shù)據(jù)標(biāo)準(zhǔn)化(normalization),利用標(biāo)準(zhǔn)化后的數(shù)據(jù)進(jìn)行數(shù)據(jù)分析。數(shù)據(jù)標(biāo)準(zhǔn)化也就是統(tǒng)計(jì)數(shù)據(jù)的指數(shù)化。
為什么要進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化處理?
由于不同變量常常具有不同的單位和不同的變異程度。不同的單位常使系數(shù)的實(shí)踐解釋發(fā)生困難。例如:第1個(gè)變量的單位是kg,第2個(gè)變量的單位是cm,那么在計(jì)算絕對(duì)距離時(shí)將出現(xiàn)將兩個(gè)事例中第1個(gè)變量觀察值之差的絕對(duì)值(單位是kg)與第2個(gè)變量觀察值之差的絕對(duì)值(單位是cm)相加的情況。使用者會(huì)說5kg的差異怎么可以與3cm的差異相加?不同變量自身具有相差較大的變異時(shí),會(huì)使在計(jì)算出的關(guān)系系數(shù)中,不同變量所占的比重大不相同。例如如果第1個(gè)變量(兩水稻品種米粒中的脂肪含量)的數(shù)值在2%到4%之間,而第2個(gè)變量(兩水稻品種的畝產(chǎn)量)的數(shù)值范圍都在1000與5000之間。為了消除量綱影響和變量自身變異大小和數(shù)值大小的影響,故將數(shù)據(jù)標(biāo)準(zhǔn)化。
數(shù)據(jù)標(biāo)準(zhǔn)化處理主要包括數(shù)據(jù)同趨化處理和無量綱化處理兩個(gè)方面。數(shù)據(jù)同趨化處理主要解決不同性質(zhì)數(shù)據(jù)問題,對(duì)不同性質(zhì)指標(biāo)直接加總不能正確反映不同作用力的綜合結(jié)果,須先考慮改變逆指標(biāo)數(shù)據(jù)性質(zhì),使所有指標(biāo)對(duì)測(cè)評(píng)方案的作用力同趨化,再加總才能得出正確結(jié)果。數(shù)據(jù)無量綱化處理主要解決數(shù)據(jù)的可比性。數(shù)據(jù)標(biāo)準(zhǔn)化的方法有很多種,常用的有“最小—最大標(biāo)準(zhǔn)化”、“Z-score標(biāo)準(zhǔn)化”和“按小數(shù)定標(biāo)標(biāo)準(zhǔn)化”等。經(jīng)過上述標(biāo)準(zhǔn)化處理,原始數(shù)據(jù)均轉(zhuǎn)換為無量綱化指標(biāo)測(cè)評(píng)值,即各指標(biāo)值都處于同一個(gè)數(shù)量級(jí)別上,可以進(jìn)行綜合測(cè)評(píng)分析。
一、Min-max 標(biāo)準(zhǔn)化
min-max標(biāo)準(zhǔn)化方法是對(duì)原始數(shù)據(jù)進(jìn)行線性變換。設(shè)minA和maxA分別為屬性A的最小值和最大值,將A的一個(gè)原始值x通過min-max標(biāo)準(zhǔn)化映射成在區(qū)間[0,1]中的值x',其公式為:
新數(shù)據(jù)=(原數(shù)據(jù)-極小值)/(極大值-極小值)
二、z-score 標(biāo)準(zhǔn)化
這種方法基于原始數(shù)據(jù)的均值(mean)和標(biāo)準(zhǔn)差(standard deviation)進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化。將A的原始值x使用z-score標(biāo)準(zhǔn)化到x'。
z-score標(biāo)準(zhǔn)化方法適用于屬性A的最大值和最小值未知的情況,或有超出取值范圍的離群數(shù)據(jù)的情況。
新數(shù)據(jù)=(原數(shù)據(jù)-均值)/標(biāo)準(zhǔn)差
spss默認(rèn)的標(biāo)準(zhǔn)化方法就是z-score標(biāo)準(zhǔn)化。
用Excel進(jìn)行z-score標(biāo)準(zhǔn)化的方法:在Excel中沒有現(xiàn)成的函數(shù),需要自己分步計(jì)算,其實(shí)標(biāo)準(zhǔn)化的公式很簡單。
步驟如下:
1.求出各變量(指標(biāo))的算術(shù)平均值(數(shù)學(xué)期望)xi和標(biāo)準(zhǔn)差si ;
2.進(jìn)行標(biāo)準(zhǔn)化處理:
zij=(xij-xi)/si
其中:zij為標(biāo)準(zhǔn)化后的變量值;xij為實(shí)際變量值。
3.將逆指標(biāo)前的正負(fù)號(hào)對(duì)調(diào)。
標(biāo)準(zhǔn)化后的變量值圍繞0上下波動(dòng),大于0說明高于平均水平,小于0說明低于平均水平。
三、Decimal scaling小數(shù)定標(biāo)標(biāo)準(zhǔn)化
這種方法通過移動(dòng)數(shù)據(jù)的小數(shù)點(diǎn)位置來進(jìn)行標(biāo)準(zhǔn)化。小數(shù)點(diǎn)移動(dòng)多少位取決于屬性A的取值中的最大絕對(duì)值。將屬性A的原始值x使用decimal scaling標(biāo)準(zhǔn)化到x'的計(jì)算方法是:
x'=x/(10*j)
其中,j是滿足條件的最小整數(shù)。
例如 假定A的值由-986到917,A的最大絕對(duì)值為986,為使用小數(shù)定標(biāo)標(biāo)準(zhǔn)化,我們用1000(即,j=3)除以每個(gè)值,這樣,-986被規(guī)范化為-0.986。
注意,標(biāo)準(zhǔn)化會(huì)對(duì)原始數(shù)據(jù)做出改變,因此需要保存所使用的標(biāo)準(zhǔn)化方法的參數(shù),以便對(duì)后續(xù)的數(shù)據(jù)進(jìn)行統(tǒng)一的標(biāo)準(zhǔn)化。
文章來源于網(wǎng)絡(luò),轉(zhuǎn)載只為分享知識(shí),如有侵權(quán)請(qǐng)聯(lián)系刪除。