試題反應理論

航海王魯夫 2009-05-22

展开全文

試題反應理論的介紹(十三) ——試題偏差的診斷英譯名：(The detection of item bias) 余民寧著英譯名：(Min-Ning Yu) 社會大眾對心理測驗或教育測量有個相當迫切的關注，那就是測驗的公平性(test fairness)問題。例如，我們的大學聯考試題對少數族群（如：偏遠地區、離島、或少數殘障的學生）的考生而言，都很公平嗎？我國的高普考試試題對性別不同的男女考生而言，也都很公平嗎？這些類似問題的答案，也許都不是。由於編製測驗試題的專家，受到自己本身的專業素養、國學程度、文化認知、甚至主觀偏見等限制和影響，以致所編製出的試題有時只會有利於某些族群的考生，而不利於另一些族群的考生，這種現象和問題，便是本文所要探討的試題偏差(item bias)的問題。雖然，在古典測驗理論裡也談試題偏差的診斷和補救，但試題反應理論對此問題所提出的理論基礎和考驗架構，卻是相當完整、周延、和嚴謹的。傳統上對診斷試題偏差的作法是：收集所關懷的少數族群(minority)在測驗試題上的表現好壞資料，以及多數族群(majority)的表現資料，再比較其差異，以作為判斷試題有否偏差的實徵證據(empirical evidence)。其實，表現有差異存在的實徵證據是結論說試題有偏差的必要條件，而非充分條件；也就是說，這種結論已超過資料所能推論的範圍。為了區別實徵證據與結論間的不同，學者們往往使用「不同的試題運作功能」（differential item functioning，簡寫成DIF）一詞來取代涵意不明確的「偏差」(bias)概念，以用來描述實徵證據背後所涵蓋的偏差涵意(Berk, 1982)。即使對什麼樣的DIF的定義才較適當？也有很多爭辯存在。目前有個關於測驗公平性問題的看法認為：「在某個試題上，如果多數族群和少數族群的平均表現有所不同的話，該試題便顯示出具有DIF的現象。」其實，這種看法也有個缺失，那就是未考慮其他影響變項的可能性，如：原本這兩個族群的能力就有所不同，因此才導致他們在某個試題（或某份測驗）上表現不同(Lord, 1980)。目前，比較被心理計量學者所接受的DIF的定義為：「來自不同族群，但能力相同的個人，如果在答對某個試題上的機率有所不同的話，則該試題便顯現出DIF的現象。」有了這項定義，試題反應理論(IRT)很自然的提供一個研究DIF的架構，因為試題特徵函數正可以說明答對某個試題的機率，是與受試者的潛在能力和試題的潛在特徵有某種關聯存在。因此，DIF的定義可以被寫成下列的操作型定義：「某個試題特徵函數如果對不同的族群而言都不相同的話，則該試題便顯現出DIF；反之，如果跨越不同族群的試題特徵函數都相同的話，則該試題便不具有DIF。」本文即談論試題反應理論對診斷試題偏差（或說試題DIF）的各種方法，並舉例說明它的用法。診斷DIF的IRT方法根據上述的定義，我們只要比較兩個或多個族群在某個試題特徵函數上的差
1
異，就可以判別該試題是否具有DIF存在。試題反應理論常用來診斷試題偏差的方法有三種：一為比較試題特徵曲線的參數；另一為比較介於試題特徵曲線間的面積；最後一種為比較反應模式與資料間的適合度。茲分別描述如下：一、比較試題特徵曲線的參數如果兩個試題特徵函數的參數值相同的話，則該試題特徵曲線在線上所有點的功能會相同，答對該試題的正確機率值也會一樣。因此，試題特徵函數的參數均相等的虛無假設，可以表示如下： Hbbaacc0121212:;;=== 足標表示不同族群的參數估計值。如果我們能夠拒絕某個試題的虛無假設，則顯示該試題具有DIF的現象。這種診斷的方法，需要用到參數估計值的變異數－共變數矩陣（或訊息函數矩陣），其診斷的步驟如下： 1.選取一個適當的試題反應模式。 2.分別估計不同族群考生的能力及試題參數。 3.經由銜接的過程，將參數值建立在共同的量尺上。 4.以矩陣表示試題參數所組成的向量，例如：Xabciii=[,,]，並計算其訊息矩陣或變異數－共變數矩陣。 5.計算虛無假設的統計考驗值如下： XXXXX2121112=−∑−−()() 其中，∑表示是參數估計值之差值的變異數－共變數矩陣。此統計值將成為X2P個自由度的卡方分配，P為我們所選用的試題反應模式的參數個數；例如，選用三個參數對數型模式時，P為3；選用二個參數對數型模式時，P為2。 6.選定臨界點（如α=.05），並查卡方分配表的顯著臨界值。如果計算出的值大於查表的卡方值，則要拒絕虛無假設，而說某個試題在不同的族群上具有DIF存在。 X2 上述這種診斷方法，也遭到幾種批評：一為即使在某種能力範圍內，某兩條試題特徵曲線沒有實質上的差異存在，也會獲得很顯著差異的試題參數。Linn, Levine, Hastings & Wardrop(1981)便舉例說明這種現象也有可能存在，因此容易產生誤判的結論。另一為這種卡方分配曲線的統計考驗值，只是一種漸近的曲線（也就是說它必須使用大樣本才行）而已，它只有在能力參數為已知的情況下，才能適用到試題參數的估計值上，對於要多大的樣本才適用？能力與試題參數同時估計的情況下，是否還適用？這種卡方統計值並無法解答這些質疑。二、比較介於試題特徵曲線間的面積我們曾於前文說過，試題參數不受考生能力分佈的影響（亦即具有樣本獨立的估計特性），因此，根據不同族群考生所估計出來的同一個試題參數或試題特徵曲線，在經過銜接或等化之後，這些試題參數應該都已建立在共同的量尺上，其試題特徵曲線(ICC)應該會相同，此時，試題特徵曲線間的面積應該等於零(Rudner,
2
Getson & Knight, 1980)；如果這些面積不是為零的話，則顯示該試題對不同族群考生而言，具有DIF的現象。這種診斷方法的步驟如下： 1.選取一個適當的試題反應模式。 2.分別估計不同族群考生的能力及試題參數。 3.經由銜接的過程，將不同族群考生之能力及試題參數加以銜接，以建立在共同的量尺上。 4.將能力量尺自到之間，分成−30.+30.K個等分。 5.以每個等分的中點為中心，畫出該等分的條狀長方形圖。 6.計算出每個等分的中點處所能獲得的試題特徵曲線（機率）值。 7.計算出兩組不同族群考生在每個等分中點處之機率差值的絕對值。 8.並將該絕對值差值乘上每個等分的寬度（即條狀長方形圖之寬度），最後，將這些乘積值加總起來。如以數學符號來表示，本步驟可以寫成： APPiijijjK=−=∑|()()|121θθ?θ
其中，?θ表示每個等分的寬度，Pi1()θ和Pi2()θ分別代表兩個不同族群考生在某個試題之試題特徵曲線（機率）值。 i9.判斷值，如果值很大，則表示試題對不同族群考生而言，具有DIF的現象。 AiAii 上述這種診斷方法也有幾項難處：第一，當選用三個參數對數形模式時，如果參數對兩組不同族群考生而言不是零或相等的話，則值的顯著考驗便無法進行。第二，由於兩組的試題參數都需要估計，因此也需要能力值範圍較廣的考生加入，所以往往需要使用大樣本；如果每組使用的人數不夠多（即能力值範圍不夠寬廣）的話，則容易導致一個錯誤的DIF的結論。 CAi 三、比較反應模式與資料間的適合度如果不同族群考生產生不同的適合度估計值，也表示試題具有DIF的現象。這種利用模式與資料間的適合度作為診斷的方法，其步驟如下： 1.將不同族群考生的資料合併起來，並進行試題與能力參數的估計。 2.根據估計出的參數值，將每位考生在每個試題上的答對機率值算出。 $(,,;,,PinjNij==11LL )
3.計算不同的考生族群在每個試題上的平均值和答對率。 $Pij4.比較各族群在每個試題上的平均值和答對率是否有差別存在，以判定試題具有DIF的程度。 $Pij 上述這種診斷方法也有些缺失，例如，比較不同族群在每個試題上的平均值和答對率的差異時，不論是用卡方考驗或 t 考驗，都很容易因為使用大樣本或大題數而達到顯著差異，造成反應模式與資料間的不適合，因而錯誤下結論說某試題具DIF現象。 $Pij
3
實例舉隅假設從多數族群（以安格魯美國人為主）中隨機抽取1000名受試者當樣本，另從少數族群（以土著美國人為主）中隨機抽取另外的1000名受試者為樣本，並從題庫中隨機抽取25個試題給這兩個族群樣本施測。假定選用三個參數對數形模式，作為這兩族群樣本的適合反應模式，並估計出這兩族群的試題參數，其中b值並予以標準化，以將這兩族群的參數建立在同一量尺上。接著，計算出這兩族群在每個試題上所夾的面積，以bθ=001.為計算單位，算出能力值在±3之間的面積，並以模擬資料所算出之沒有DIF情況下之最大分割面積值為0.498，若每個試題被兩個族群的試題特徵曲線所夾之面積大於0.498時，則該試題被判定具有DIF，並以*來表示。另外，以和作為兩種考驗試題參數間是否有顯著的指標，前者沒有把參數列入考慮，後者則有，其分別的臨界值為和。最後，將這三種診斷結果表列於表一中，其中，標示*者為被診斷出具有DIF的試題。 xab2xabc2cx200121382,..=x300121627,..= 表一 25個隨機試題的試題參數估計值、面積統計數、和卡方值多數族群少數族群 DIF統計數試題 b1 a1 c1 b2 a2 c2 面積 xaba2 xabcb2 1 3 5 8 11 13 14 16 20 21 30 38 41 45 46 49 50 52 56 57 0.840 -0.412 -1.347 0.125 0.319 0.693 -0.308 -0.193 -0.337 -0.514 -1.463 -1.168 1.011 1.808 -0.481 -0.663 0.409 1.444 0.338 0.281 0.575 0.773 0.413 0.608 0.639 0.714 1.044 0.977 0.536 0.529 0.488 0.549 0.849 1.166 0.583 0.661 0.431 1.050 0.404 0.685 0.190 0.190 0.190 0.190 0.190 0.190 0.190 0.190 0.190 0.190 0.190 0.190 0.190 0.137 0.190 0.190 0.190 0.190 0.190 0.190 0.823 -0.008 -0.953 0.286 -0.197 0.728 -0.650 0.286 -0.106 -0.628 -0.716 -1.175 0.943 2.778 0.140 -1.128 0.265 1.246 1.545 -0.497 0.896 0.906 0.821 0.414 0.645 0.303 0.551 1.999 0.595 0.407 0.839 0.433 1.054 0.509 0.586 0.528 0.430 1.201 0.405 0.489 0.170 0.170 0.170 0.170 0.170 0.170 0.170 0.231 0.170 0.170 0.170 0.170 0.170 0.125 0.170 0.170 0.170 0.137 0.170 0.170 0.417 0.388 0.609*0.344 0.342 0.732*0.494 0.405 0.238 0.217 0.637*0.195 0.214 0.641*0.540*0.290 0.057 0.315 0.880*0.536*5.84 7.90 21.13* 5.31 17.80* 21.86* 17.12* 29.13* 1.57 2.20 11.14 4.15 1.33 14.74* 11.62 5.73 0.56 1.94 14.11* 32.43* 6.01 9.52 12.99 5.21 14.74 19.38*15.83 23.07*2.42 2.22 9.78 4.64 1.76 12.08 13.09 3.64 0.15 3.19 16.42*21.54*
4
60 64 68 73 75 0.904 0.245 -1.398 -0.567 1.646 0.569 0.442 0.340 0.640 0.317 0.190 0.190 0.190 0.190 0.190 1.154 -0.387 -0.122 -0.007 0.534 0.531 0.280 0.693 1.223 0.562 0.170 0.170 0.170 0.170 0.170 0.257 0.467 0.942*0.648*0.722*1.19 10.52 15.41* 20.29* 23.53* 2.10 5.56 15.07 20.04*15.24 a. x200121382,..=b. x300121627,..=*表示達.001顯著水準由表一資料可知，前兩種診斷方法的一致性達77%，二者的等級相關係數為.71。圖一和圖二分別是診斷出的DIF型態，茲分別說明如下。 -4-3-2-1012341能力機率0.90.80.70.60.50.40.30.20.10多數族群少數族群圖一多數族群和少數族群在試題56上的ICC圖 -4-3-2-1012341能力機率0.90.80.70.60.50.40.30.20.10多數族群少數族群圖二多數族群和少數族群在試題13上的ICC圖由圖一所示可知，兩個族群在試題56上的ICC線，多少可以說是平行的，主
5
要的差別只在b參數值上，亦即兩條ICC線的座落位置參數(location parameter)不同而已。這種類型的DIF稱作「均一變化曲線的DIF」(uniform DIF)，亦即在所有的能力範圍內，這兩種族群間的成功機率之差值，是呈均一變化的曲線。由圖二所示可知，兩個族群在試題13上的ICC線表現不同：在低能力量尺的部份，少數族群表現得比多數族群好；而在高能力量尺部份，多數族群卻表現得比少數族群還好。這種類型的DIF稱作「非均一變化曲線的DIF」(nonuniform DIF)，這時，兩個族群在機率上的差異不是呈均一變化的曲線。由上述表一可知，所診斷出的偏差試題數比所診斷出者還多，可見後者的診斷方法比前者以及面積統計數法還保守。這種利用IRT的程序來診斷試題偏差的一項優點是：這些方法對不同類型的DIF極為敏銳。這項特色並非其他非IRT程序所能媲美的(Holland & Thayer, 1988; Swaminathan & Rogers, 1990)。但是由上述例子的分析可知，當這些診斷方法所找到的解答不完全一致時，便無法進一步解釋其間的結果為什麼會有差異存在了(Hambleton, Swaminathan & Rogers, 1991)。 xab2xabc2 參考書目Berk, R. A. (Ed.) (1982). Handbook of methods for detecting test bias. Baltimore, MD: Johns Hopkins University Press. Hambleton, R. K., Swaminathan, H., & Rogers, H. J. (1991). Fundamentals of item response theory. Newbury Park, CA: Sage. Holland, P. W., & Thayer, D. T. (1988). Differential item performance and the Mantel-Haenszel procedure. In H. Wainer & H. I. Braun (Eds.), Test validity. (pp. 129-145). Hillsdale, NJ: Lawrence Erlbaum. Linn, R. L., Levine, M. V., Hastings, C. N., & Wardrop, J. L. (1981). Item bias in a test of reading comprehension. Applied Psychological Measurement, 5, 159-173. Lord, F. M. (1980). Applications of item response theory to proctical testing problems. Hillsdale, NJ: Lawrence Erlbaum. Rudner, L. M., Getson, P. R., & Knight, D. L. (1980). Biased item detection techniques. Journal of Educational Statistics, 5, 213-233. Swaminathan, H., & Rogers, H. J. (1990). Detecting differential item functioning using logistic regression procedures. Journal of Educational Measurement, 27, 361-370. 6