項目區辨力

航海王魯夫 2009-05-22

展开全文

Chapter Seven
項目分析

項目分析可能是根據內容和形式所進行的質化分析，也可能是根據統計特性所進行的量化分析。質化分析包括內容效度的考量，以及從項目撰寫程序的有效性來評量題目。量化分析主要包括項目難度和項目區辨性的測量。任何側驗的效度和信度最終都由其題目的特徵所決定。透過項目分析可以使測驗建立高信度和高效度。
項目難度
通過百分比(percentage passing)
項目難度的定義是答對人數的百分比(或比例)。題目越簡單，答對者的百分比越高。
在標準化樣本中，70%的人所答對的字(p=0.70)要比只有15%的人答對的字(p=0.15)更簡單。

項目難度
p=0及p=1.00的題目在測驗中是多餘的，這兩類題目都不能提供有關個別差異的訊息。由於這些題目不會影響測驗分數的變異性，它們對於信度和效度也沒有任何貢獻。
難度越接近1.0或0，它就越不能夠區分受測者的表現。相反地，難度越接近0.5，題目的區辨力就越大。假設在100人當中，有50人通過某一題，另外50人則失敗(p=0.50)。這道題目可以讓我們區分通過和失敗的人。因此我們可以進行50*50或2500次配對比較，或是得到2500種區辨訊息。
項目難度
為了擴大區辨力，我們似乎應該選擇所有難度水準0.50的題目。但當題目間有相關時，最好選擇的題目在難度上有所差異，但平均值為0.5。題目間的相關越高，選擇的難度分布範圍應該越廣。
對於可能導致猜測行為的題目，設定的答對比例應該要更高一點。
項目難度
等距量尺(interval scales)
以通過百分比來表達項目難度的量尺是一種次序量尺。例如有三題的通過人數比例分別為10%、20%、30%，期間的難度差異並不等量。因此，可以利用常態分配圖加以轉換成等距的量尺，例如p=0.84對應常態分配圖後得到平均數以下1個標準差的z值。
圖7-1

項目難度
塞斯通絕對量尺
對於不同能力範圍的團體來說，前述次序或等距轉換的量尺只適用於與該受測團體能力接近的團體。亦即不同能力團體獲得的項目難度無法比較。
可以藉由能力範圍相互重疊的任何團體，採用下述方法將個別題目的難度轉換為相同量尺。
1.分別將每個團體內各題目的通過比例轉換為z值。
2.選定其中一個團體為標準或參考團體，將這些量尺值轉換為對應於此團體的量尺值。如圖7-2
項目難度
分數分配
測驗的整體難度水準直接取決於組成測驗之題目的難度。我們可以檢驗總分的分配，而得知整體測驗對於所使用之母群的難度。
如果分配曲線右偏，分數集中再低分的一端，代表缺少低難度的題目來區辨低分群的受測者。若分配曲線左偏，分數集中在高分的一端，代表缺少高難度的題目來區辨高分群的受測者。
當分數分配形成常態分配時，才能使受測者的能力達到最大區辨程度。
項目難度
項目難度與測驗目標之間的關連
在建構特殊用途的測驗時，適當項目難度的選擇以及測驗分數分配的最佳形式都取決於所欲尋求的區辨類型。
因此，用於篩選的測驗應該採用難度值最接近選擇率的題目。例如，如果要選擇分數最高的20%個案，最適合的題目難度值應該集中於通過百分比0.20附近(如果考慮猜題因素，也可以略為提高)。
項目區辨力
效標的選擇
項目區辨力意指某一題目可以正確地根據測驗所欲測量之行為來區分受測者。當整個測驗是藉由效標相關程序建立效度的時候，題目本身的評量和選擇也可以根據它們與外在效標的關係來決定，尤其是性格測驗和興趣測驗。
對成就測驗與性向測驗而言，項目區辨力通常以測驗總分為效標。
以外在效標為準來選擇題目可以增加以外在效標為基礎的測驗效度。以測驗總分為準來選擇題目則增進測驗的內在一致性或同質性。在某些情況下，這兩種取向可能導致相反的結果，此時可以使用分測驗的方式組成測驗組，分測驗內的題目具同質性(利用分測驗總分為效標)，分測驗間則較無關，但每一個分測驗都對外在效標有一定的預測力。
項目區辨力
項目區辨力的統計指標
項目區辨力指標涉及二分變項(題目)和連續變項(效標)。某些情況下，效標也可能是二分變項，像是大學畢業或未畢業、工作的成功或失敗。除此之外，為了達到分析的目標，也可以將連續的效標二分。
某些區辨力指標與項目難度無關，但有一些指標則在難度水準接近0.50時產生較高的區辨力。
項目區辨力
極端團體的應用
項目分析的常見作法是比較效標組的通過比例。如果效標屬於連續變項，例如學業成績、工作評等或測驗總分，則可以從分配兩端選擇高分(U)和低分(L)效標組。
一般選擇最高分和最低分兩端各27~33%的人為高分效標組及低分效標組。
項目區辨力
小團體的簡單分析
表7-1
概略的區辨力指標可用每一題的高分組通過人數減去低分組通過人數。
表7-2
針對特定題目裡選擇各個答案的人數進行補充分析。
項目區辨力
區辨力指標
區辨力指標可用每一題的高分組人數通過比例減去低分組人數通過比例，以D來表示。以通過比例來表示較不受樣本大小影響。
D值並非獨立於項目難度，而是有利於中等難度水準的題目。如表7-4
項目區辨力
Φ係數(phi coefficient)
許多項目區辨力指標都以相關係數來表達題目和效標之間的關係， Φ係數即是一例。
Φ係數的計算是根據U和L效標組的通過和失敗人數比例，利用卡方值(chi-square, )間接求得。其值介於+1.00~-1.00之間。

項目區辨力
二系列相關(biserial correlation, )
二系列相關與Φ係數有兩個主要差異。
1.二系列相關假設二分的題目答案和效標變項所測量的潛在特質都是連續的常態分配
2.它所求出的題目-效標關係指標與項目難度無關。
項目反應理論
項目-測驗迴歸
項目-測驗迴歸圖可以同時呈現項目難度和項目區辨力的訊息。
表7-5，圖7-5
每一題的難度水準可以定在50%的閾限。每一題的區辨力由曲線的陡峭程度所決定，曲線越陡峭，題目表現與總分的相關就越高，區辨力指標也越高。
項目反應理論
項目反應理論(IRT)：基本概念
項目表現與受測者之「潛在特質」估計值有關。在認知測驗中，潛在特質通常被稱為該測驗所欲測量的能力。測驗總分就是該項能力的最初估計值。但項目特徵曲線是根據數學函數所繪製，不同於項目-測驗迴歸是由實徵資料所得出。
圖7-6
速度測驗的項目分析
無論速度是否與所測量的功能有關，速度測驗的項目指標都可能造成誤導。速度測驗的項目指標將會反映出項目在測驗中的位置，而不是它本身的難度或區辨力。
對於並非所有受測者都能達到的題目而言(即後段題目)，其項目區辨力指標傾向於被高估。若剔除隨機猜測的作答者後，則區辨力可能被低估。
如果選擇已經做到後段題目的人來進行項目分析，會降低後段題目的難度水準，因為經過選擇的優異樣本中，通過百分比會比整體樣本中更高。若以整體樣本來計算，則所得到的題目難度會比實際上更高。
交叉效度
交叉效度的意義
以不同於選題時所使用的樣本來計算效度是非常重要的。這種整體測驗之效度的獨立確認程序就稱為交叉效度的建立。以選題時的相同樣本所算出的效度係數可能因為特殊樣本的抽樣誤差而提高。
交叉效度
影響效度縮減的條件
在交叉效度建立的過程中，如果樣本很小、原先的題庫很大但保留在測驗中的題目比例很小，而且未能根據先前形成的原理來組合題目，則效度縮減的幅度最大。
區分性題目功能
統計程序
分析重點在於：對於來自不同文化或經驗背景的團體而言，個別題目的相對難度。此一項目分析的領域稱為區分性題目功能(differential item functioning, DIF) ，它致力於找出能力相當者之答對機率因為所處之文化團體不同而有所差異的題目。
圖7-6
區分性題目功能
判斷程序
適用於測驗建構的最初和最終階段，也就是在統計分析之前和之後。通常在測驗發展初期，它可以用來篩選可能攻擊或詆毀少數團體的內容，或是使得關於職業或其他社會腳色之文化刻板印象繼續存在的內容。
對於偏離題目的適當評估必須同時考慮測驗的內容領域和受測族群的經驗差異。例如，同一道題目在不同團體中並未測量到相同的建構。
項目發展探索
在傳統上，撰寫題目是藝術而非科學。即使在最佳狀況下，撰寫題目者的任務只不過是要指名題目的形式以及涵蓋內容。根據預試的結果來評量項目難度和區辨力仍然是常見的實際作法。
最近的發展方向是透過認知心理學的作業分解程序來探討測驗刺激的認知要求。