分享

測驗等化

 航海王魯夫 2009-05-22
行政院國家科學委員會專題研究計畫 成果報告
大型教育測驗等化設計及效果之研究
計畫類別: 個別型計畫
計畫編號: NSC94-2413-H-142-001-
執行期間: 94 年08 月01 日至95 年07 月31 日
執行單位: 國立臺中教育大學教育測驗統計研究所
計畫主持人: 許天維
共同主持人: 劉湘川,郭伯臣
計畫參與人員: 王暄博、張鈺卿、張雅媛、楊智為
報告類型: 精簡報告
處理方式: 本計畫可公開查詢
中 華 民 國 95 年10 月30 日
1
壹、研究動機與計畫概述
國內缺乏長期量化指標和標準測量工具來檢視學生學習成就的表現與差
異,以致無法確實瞭解課程實施之成效,亦不利於課程發展之進行與相關教育政
策之研擬。隨著國際互動日益密切,國內急需建置一套完整且客觀的學生學習成
就資料庫,以利客觀且量化的比較。因此,教育資料庫的建立普遍受到重視,而
目前國內正建置中的教育資料庫主要有「台灣教育長期追蹤資料庫(TEPS)」與
「台灣高等教育資料庫之建置及相關議題之探討」兩類,卻無針對全國國民小學
學生學習成效資料庫之建置。因此,教育部於2004 年推動「台灣學生學習成就
評量資料庫之建置計畫」,欲建置完善的長期追蹤資料庫,以追蹤學生學習的成
果並分析其變遷趨勢,進而檢視目前國家教育體制與政策實施是否完善。
TASA 計畫中針對目前國內國小四年級、六年級、國中二年級、高中二年級
以及高職二年級學生,進行跨年級、跨學科之學生學習成就長期性資料庫的建
置,以便透過資料所衍生的訊息,提供教育政策參考以及國內專家學者或學術單
位進行基礎性的研究。計畫中以能力指標為基準,欲建立同年級不同測驗及不同
年級不同測驗之量尺,然而,在進行測驗等化及題庫建製時,容易遭遇到的困難
有:
1. 受試者人數有限,受測時間有限;
2. 同年級與不同年級測驗間之能力量尺連結;
3. 命題範圍廣大,必須施測大量的試題,方可涵蓋欲測量之範圍。
此外,為了滿足此一目標所建立之題庫,需涵蓋不同認知層次及不同難度,
試題數量將無法由單一受試學生於短時間內完成。在此限制下,若希望能滿足測
驗之目標、減輕受試學生之負擔、比較不同年級及不同年度之變化與擔保所有評
量內容都能測驗到,建立共同量尺,乃是不得不研究的課題。而共同量尺的建立,
必須藉助於測驗等化(test equating)技術之配合,若等化之技術不被採用,則大型
測驗將無法順利進行。
測驗等化的目的就是允許相同的測驗在不同的形式下,測驗分數是可以被使
用與解釋的。由於不同受試者能力與不同試題難度控制不易,所以等化方法更為
重要。測驗等化屬於ㄧ種統計和心理測量的方法及技術,在相同的測量結構下,
去調整並連結不同測驗的測驗分數,使得這些測驗是可互相比較的。因此,透過
2
多重矩陣抽樣程序(multiple matrix sampling procedures),使得每位受試者僅需要
施測題庫中的部分試題,卻能達到作答不同測驗學生之分數可量尺化。
為了達到上述目的必須考慮不同測驗間之連結與量尺之等化,而一般在進行
測驗等化時,國內外較常使用的兩種等化設計為:平衡不完全區塊設計(balanced
incomplete block design, BIB)與定錨不等組設計(non-equivalent groups with anchor
test design, NEAT)。此外,在建構測驗題庫時,能力指標個數的多寡會影響測驗
試題總數,而試題總數又會牽動BIB 與NEAT 等化設計的試題區塊數,以致產
生不同BIB 與NEAT 設計的問題。其次,由於施測人數的多寡通常會影響測驗
成本與等化品質的兩難取捨,解決之道唯有透過模擬試驗之結果來作決定,然而
在母群體未知的狀況下,本研究假設學生之能力分布為常態分布。職是之故,本
研究就能力分布與施測人數的不同以及為進行垂直等化而牽動的不同定錨試題
數來進行模擬試驗,以了解等化後所估計的能力值與試題參數誤差效果,期能了
解在最少人數下,估計誤差達到尚能接受的程度,並保持等化的效果,以提供決
策者決斷的訊息。
因此,計畫的主要目的為利用BIB 與NEAT 等化設計,以測驗資料模擬之
方式,比較等化後估計的能力值誤差與試題參數誤差效果。此外,為了建立同年
級不同測驗及不同年級不同測驗之量尺,計畫中將進行水平及垂直測驗之等化設
計。基本上,設定研究目的為:
1. BIB 及NEAT 設計於不同施測人數下水平等化效果;
2. BIB 及NEAT 設計於不同試題區塊數下水平等化效果;
3. BIB 及NEAT 設計於不同施測人數下垂直等化效果;
4. BIB 及NEAT 設計於不同試題區塊數下垂直等化效果;
5. BIB 及NEAT 設計於不同定錨試題數下垂直等化效果;
貳、文獻探討
本研究的目的在於探討不同的測驗等化設計,進行測驗等化所產生之等
化效果。因此,本章節將探討「測驗等化的意義與種類」、「測驗等化設計」、與
「試題反應理論等化方法」之相關文獻。
3
一、測驗等化的意義與種類
測驗等化是利用統計方法,將受試者在某一測驗的分數轉換至另一測驗分數
量尺,以比較兩測驗分數關係的過程。這些測驗的內容及難度都極為相似,為了
用來測量相同的特質或能力,因此,測驗等化的目的在調整測驗難度之差異而非
測驗內容之差異(Kolen & Brennan, 1995;吳裕益,民80)。而且,測驗分數等化
不受試題內容和受試者能力分布的影響,但必須滿足:對稱性(symmetry)、相等
性(equity)、團體不變性(group invariance property)、測驗必須是單一向度
(unidimensionality of the tests)四項特性,等化才能進行(Lord, 1980;Hambleton &
Swaminathan, 1985;Kolen & Brennan, 1995)。
測驗等化的種類可分為水平等化與垂直等化兩種,茲介紹如下:
(一)水平等化
水平等化係指利用測驗分數等化之技術,將兩個或兩個以上測量相同特質、
相同能力的測驗,其原始分數轉換之過程。這些測驗是利用題庫分成數個類似平
行測驗(parallel test)的題本,其目的是為了保護試題的安全性(test security)及減低
練習因素(practice effect)。然而,為了確定這些測驗的結果能夠比較,必須利用
量尺等化(scale equating)的方法,將其轉換至同一量尺上,此一過程即稱為水平
等化。
水平等化的實施是當某一種測驗有數種不同形式的題本,而這些題本都是用
來測量某一特質,且受試者的能力分布與試題難度又相似時,為了要比較不同題
本的分數,將透過等化程序建立題本之間的等化分數(equating scores)。這些題本
經由等化的過程,其測驗成績即可在相同的量尺上進行比較。水平等化也常應用
在許多測驗方面,例如:托福、GRE的考試就有多種複本測驗,可以進行一年多
次的考試機會。
(二)垂直等化
垂直等化係指利用測驗分數等化之技術,將兩個或兩個以上測量相同特質、
相同能力的測驗,其原始分數轉換之過程。垂直等化的實施是當某一種測驗有數
種不同形式的題本,而這些題本都是用來測量某一特質,但受試者的能力分布與
試題難度卻不相同時,為了要比較不同題本的分數,透過等化程序而建立題本之
間的等化分數(equating scores)。此一測驗,受試者的能力是屬於不同年齡或年級
的分配情形,如美國的加州成就測驗(California Achievement Tests , CAT)、愛奧
4
華基本技能測驗(Iowa Test of Basic Skills)等,即利用垂直等化進行測驗分數間之
連結。
此外,若某一計畫之目的為長時間研究受試者的某種能力成長情形時,等化
的議題將受到矚目,且水平及垂直等化是必須同時進行的。而較著名的NAEP
大型測驗,藉由等化連結的成果,將受試者測驗之分數轉換到一個共同的量尺
上,以期作為教育者比較各州、各地區、各學校、甚至個人表現的評比依據
(National Research Council, 1999;Kolen, 2000;陳煥文,民93)。目前國內TASA
計畫,也是藉由等化連結的方法,將受試者測驗的分數轉換到同一上,以提供國
內專家學者或學術單位進行跨年級、跨學科、甚至跨年度的比較。因此,可知長
期追蹤之大型測驗,除了有助於建立相同年級及不同年級之量尺外,並可藉此量
尺分析來探究學生在各學科及不同年級之學習差異。
二、測驗等化設計
測驗等化設計指的是施測者收集等化資料的方法,依目的使用符合的設計。
常見的等化設計有單組設計、平衡對抗隨機組設計、等群組設計、試題預先等化
設計、平衡不完全區塊設計、定錨不等組設計等(王寶墉,民84;Kolen & Brennan,
1995)。以下茲介紹本研究所採用的BIB 與NEAT 等化設計:
(一) BIB 設計
BIB 設計是將試題分成若干試題區塊,區塊間與區塊內的試題皆不重複,受
試者只需接受若干試題區塊的試題,且不同受試者可能接受部分相同、完全相
同、或完全不同的試題區塊。最後,將所有受試者的作答反應資料堆疊進行等化
分析,以達到能力估計的目的。BIB 設計如表2-1(曾玉琳、王暄博、郭伯臣、許
天維,民95)。
表2-1 BIB 設計
題本序號 區塊(k1) 區塊(k2) 區塊(k3)
S1 M1 M2 M4
S2 M2 M3 M5
S3 M3 M4 M6
S4 M4 M5 M7
S5 M5 M6 M1
S6 M6 M7 M2
S7 M7 M1 M3
表2-1為BIB設計的一個範例,在此設計中,有7個題本(S1~S7);7個試題區
5
塊(M1~M7)。BIB設計中試題區塊序號的組合不重複,如:S1題本是由試題區塊
M1、M2、M4組合而成,則S2~S7題本就不會再出現試題區塊M1、M2、M4的組
合。
BIB 設計的優點為試題區塊與題本(booklet)的配置方式,使用螺旋(spiral)式
排列方式,可使每一個試題區塊的施測次數相同(van der Linden, Veldkamp &
Carlson, 2004;Nemhauser & Wolsey, 1999)。此設計在無作答時間(response time)
的限制情形下,必須滿足以下限制式:
∑=
=
t
i
is k x
1
, S s ,..., 1 = (2.1)
∑=

S
s
is r x
1
, t i ,..., 1 = (2.2)
∑=

S
s
ijs z
1
λ, t j i ,..., 1 = < (2.3)
ijs js is z x x 2 ≥ + , t j i ,..., 1 = < , S s ,..., 1 = (2.4)
其中:t 指試題區塊數;
s 指題本代號, S s ,..., 1 = ;
k 指每個題本配置的試題區塊數,即區塊數目(number of blocks);
r 指試題區塊在題本中出現的次數;
i 指題庫中個別區塊代號, t i ,..., 1 = ;
j 指題庫中成對區塊中第二個區塊代號, N j ,..., 1 = ;
λ指成對試題區塊出現在相同區塊位置的次數;
is x 指試題區塊與題本的配置組型,其中: { } 1 , 0 ∈ is x , t i ,..., 1 = , S s ,..., 1 = ;
ijs z 指成對試題區塊與題本的配置組型, { } 1 , 0 ∈ ijs z , t j i ,..., 1 = < , S s ,..., 1 = 。
式子(2.1)代表每一個題本配置的試題區塊數目;式子(2.2)代表每一個試題區
塊在所有題本中出現的次數;式子(2.3)代表成對試題區塊在所有題本中出現的次
數;式子(2.4)代表成對試題區塊與組型的一致性。BIB 設計須符合式子(2.1)至(2.4)
的要求,求出符合的最佳解。
美國的NAEP 和荷蘭的PPON(Periodiek Peilingsonderzoek van het Onderwijs)
即依據BIB 設計的原則。這個設計假設題庫中的試題被區分為數個區塊,並利
用這些試題區塊編製成題本。在區分試題區塊的過程不為隨機,但必須考量受試
6
者可以有足夠的時間完成所有的題目,且試題區塊數也要事先確定。最後題本根
據最小單位,經由螺旋排序並束在一起(spiraled and bundled)的方式確保每一試題
區塊出現的次數均等,以減低順序因素。所以施測時,必須依據排好的順序將題
本循序發給考生。另外,根據NAEP 1998 年的技術性報告中指出,每一試題在
施測時,大約需要500 個測試樣本(Allen, Donoghue & Schoeps, 2001)。
BIB 設計有三項基本限制:
1. 每一個題本內的試題區塊數要相同;
2. 試題區塊作結合以求出最小題本數;
3. 每一個試題區塊在所有題本中出現的次數要相同。
然而,這只是BIB 設計必須符合的三項基本限制,但在實際設計時,還需
考慮試題的內容、形式及作答時間。
(二) NEAT 設計
NEAT 設計內包含兩個獨立的單組設計,其設計方式為在兩組受試者的母群
體中,隨機抽取兩組受試者樣本(P 和Q)。其中,P 組受試者接受X 測驗,Q 組
受試者接受Y 測驗,且兩組受試者施測的時間不同。P 和Q 兩組受試樣本另
外須接受定錨試題A 測驗,通常定錨試題在兩樣本的測驗順序是一樣的,以避
免順序因素的影響,而測驗內容和難度必須與X、Y 測驗十分類似,其測驗長度
相當於一個分測驗(von Davier, Holland, & Thayer, 2004;Dorans & Holland,
2000;Tianyou, 2005)。NEAT 設計如表2-1 (Kolen & Brennan,1995;von Davier,
Holland, & Thayer, 2004)。
表2-1 NEAT 設計
受試者群 X測驗 Y測驗 定錨測驗A
P V V
Q V V
“V”為受試者必須受測之測驗
NEAT 設計為常見的測驗等化設計,MCAS(Massachusetts comprehensive
assessment system)即使用NEAT 設計進行不同年度間學生之測驗等化,因為它只
需要假設受試群體是隨機抽取,不必假設兩受試群體有相同的能力值。NEAT 設
計定錨試題內容要盡可能相似且試題難度要相同,因為定錨試題是用來調整兩個
不同能力之群體所造成的等化誤差(Petersen, Kolen & Hoover,1993)。
7
本研究測驗等化設計即採用BIB 與NEAT 設計進行模擬研究,此兩設計均
將試題分成若干試題區塊,使用每個題本配置若干個試題區塊來進行施測。而最
大的差異在於,BIB 設計的每個試題區塊施測次數皆相同,且題本與試題區塊使
用螺旋式排列來進行等化分析,使得部份題本無共同試題,依然可進行等化分
析;NEAT 設計的每個試題區塊施測次數並不相同,且以每個題本中之共同試
題,作為等化分析之連結。
綜合上述,可知NEAT設計為一般常用的等化設計,此設計每個題本必須有
共同試題才能進行等化連結;BIB設計則可利用無共同試題之題本進行連結等
化。因此,本研究擬利用BIB設計以補NEAT設計不足,進行BIB與NEAT設計等
化效果之比較。
三、試題反應理論等化方法
試題反應理論等化方法是利用不同組群受試者的反應資料,推估試題參數值
和能力參數值,在經過連結的過程,將參數值轉化到同一量尺上。其中較常用使
用的等化估計方法有同時估計法(concurrent estimation)及分離估計法(separate
estimation),在分離估計法中,包含平均數法(mean method)、平均數與標準差法
(mean and sigma method)、特徵曲線法(characteristic curve method) (Hanson &
Beguin, 2002;Haebara, 1980;Kolen & Brennan, 1995;Stocking & Lord, 1983)。
(一)同時估計法
同時估計法是藉由測驗等化設計與IRT電腦軟體所提供之功能作連結,將所
有測驗之測驗資料同時進行試題校準,經由校準後,即能將所有測驗之受試者能
力值與試題參數放置在相同量尺上。其主要的原理為:將測驗等化設計測驗題本
中之試題參數估計值同時對應於相同能力量尺上。此方法比其他的等化方法利用
更多的試題參數訊息,包括了定錨試題之參數估計值(如鑑別度、難度、及猜測
度參數),與此定錨試題參數估計值之變異數共變數矩陣(variance-covariance
matrix)(Mislevy & Bock, 1982)。
在等化的過程中,利用等化係數將不同測驗題本之試題參數估計值轉化於相
同的量尺上時,若所使用之等化係數估計值不甚正確,將產生等化誤差。然而,
使用同時估計法則可避免此種缺點,並且能應用最多試題訊息來完成等化。因
此,採用此方法將優於以線性技術為基礎之等化方法,例如:特徵曲線法等
8
(Stocking & Lord, 1983;李源煌、楊玉女,民89)。本研究之BIB設計在試題參數
估計時也較適合使用同時估計法,且國內外許多文獻亦證實,採用同時估計法能
獲得較佳的精準度(Hanson & Beguin, 2002;Kim & Cohen, 1998;陳煥文,民93)。
因此,在本研究之等化估計即採用同時估計法。
(二)分離估計法
分離估計法在進行測驗等化時,是先分別估計不同測驗之試題參數,再利用
各測驗間之定錨試題及試題參數量尺化的方法,將各測驗量尺轉換在同ㄧ量尺上
進行比較。以下茲介紹三種常見之試題參數量尺化方法:
(一)平均數法
若有兩測驗(X測驗和Y測驗)需要等化,在平均數法中,利用兩測驗定錨試
題之鑑別度參數及難度參數的平均數,計算出量尺線性轉換的斜率α與截距β,
再將X測驗分數利用線性轉換至Y測驗分數對應的分數。其計算模式如下(Kolen
& Brennan, 1995):
) (
) (
Y
X
a
a
μ
μ
α= (2.5)
) ( ) ( X Y b b αμ μ β − = (2.6)
其中, a 參數指鑑別度參數;
b 參數指難度參數;
) ( X a μ 、) ( Y a μ 為X及Y定錨測驗參數a 之平均數;
) ( X b μ 、) ( Y b μ 為X及Y定錨測驗參數b 之平均數。
(二)平均數與標準差法
若有兩測驗(X測驗和Y測驗)需要等化,在平均數與標準差法中,利用兩測
驗定錨試題之難度參數的標準差和平均數,計算出量尺線性轉換的斜率α與截距
β,再將X測驗分數利用線性轉換至Y測驗分數對應的分數。其計算模式如下
(Kolen & Brennan, 1995):
) (
) (
X
Y
b
b
σ
σ
α= (2.7)
) ( ) ( X Y b b αμ μ β − = (2.8)
其中,b 參數指難度參數;
) ( X b μ 、) ( Y b μ 為X及Y定錨測驗參數b 之平均數;
9
) ( X b σ 、) ( X b σ 為X及Y定錨測驗參數b 之標準差。
(三)特徵曲線法
特徵曲線法是Haebara(1980)及Stocking & Lord(1983)提出,假設xk ξ 與yk ξ 為
受試者k 在X測驗及Y測驗的真分數,並求出兩真分數差異之最小值,其計算模
式如下:
∑=
=
n
i
xi xi xi k xk c b a P
1
) , , , ( θ ξ (2.9)
∑=
=
n
i
yi yi yi k yk c b a P
1
) , , , ( θ ξ (2.10)
∑=
− =
N
a
yk xk N
F
1
2 ) ( 1 ξ ξ (2.11)
其中,試題參數設定為:
α
xi
yi
a a = 、β α + = xi yi b b 及xi yi c c = , F 為兩真
分數差異之最小值。
接著,利用Newton-Raphson 求出偏導數方程式,即可得兩真分數的最小值。
0 = =
β α d
dF
d
dF (2.12)
特徵曲線法是利用三個試題參數,因此,等化效果應較佳(李文忠,民84)。
參、研究方法
一、共同變項設定
本研究利用電腦模擬建置題庫資料,探討BIB 與NEAT 設計進行兩種不同
情況下之測驗等化模擬。在共同變項設定為:
1. 每個題本施測題數為36 題;
2. 每個題本配置的試題區塊數為3 個;
3. 每個年級施測人數為5460 人、7500 人及10000 人;
4. 每一個不同條件中,均重覆進行50 次的資料模擬。
不同情況下之測驗等化模擬變項之受試者能力值及試題參數分布會分布如
下:
(一)水平等化之共同變項設定
10
1. 受試者群能力分布
能力分佈設定為截尾常態分布(truncated normal distribution),平均數為0,標
準差為1,將範圍界定於3 ~ 3 − ,記為) 1 , 0 ( N 。
2. 試題參數分佈
(1) 鑑別度(discrimination)參數:為截尾常態分佈,平均數為1,標準差為
0.25,將範圍界定於5 . 1 ~ 5 . 0 ,記為) 25 . 0 , 1 ( N ;
(2) 難度(difficulty)參數:為截尾常態分佈,平均數為0,標準差為1,將範
圍界定於3 ~ 3 − ,記為) 1 , 0 ( N ;
(3) 猜測度(pseudochance)參數:為截尾常態分佈,平均數為0.125,標準差
為0.0625,將範圍界定於25 . 0 ~ 0 ,記為N(0.125,0.0625)。
(二)垂直等化之共同變項設定
1. 受試者群能力分布
垂直等化之受試者群能力分布,將其設定為H 年級與L 年級兩群,H 年級
代表年級較高之受試者,L 年級代表年級較低之受試者,進行不同年級間量尺之
垂直等化。受試者群能力分布為:
(1) H 年級:為截尾常態分布,平均數為1,標準差為3 / 2 ,將範圍界定於
3 ~ 1 − ,記為) 3 / 2 , 1 ( N ;
(2) L 年級:為截尾常態分布,平均數為1 − ,標準差為3 / 2 ,將範圍界定於
1 ~ 3 − ,記為) 3 / 2 , 1 (− N 。
2. 試題參數分佈
(1) 鑑別度參數:為截尾常態分布,平均數為1,標準差為0.25,將範圍界
定於5 . 1 ~ 5 . 0 ,記為) 25 . 0 , 1 ( N ;
(2) 難度參數:為截尾常態分布,依不同年級而區分成,H 年級的) 3 / 2 , 1 ( N ,
範圍3 ~ 1 − 、L 年級的) 3 / 2 , 1 (− N ,範圍1 ~ 3 − ;
(3) 猜測度參數:為截尾常態分布,平均數為0.125,標準差為0.0625,將範
圍界定於25 . 0 ~ 0 ,記為) 0625 . 0 , 125 . 0 ( N 。
此外,本研究在不同年級中設定3題、6題及9題之定錨試題數,以比較不同
定錨試題數對於不同等化設計之影響。
11
二、BIB 設計
(一)水平等化之BIB 設計
BIB設計必須符合下列條件:





=
≤ − × ×
= − × = − ×
× = ×
3
36 ) 1 (
12 ) 1 ( ) 1 (
k
k r k
t k r
t r k b
λ
求出符合上式BIB設計參數如下表:
表3-1 BIB 模式之參數設定
等化設計 b t k r λ
BIB 26 13 3 6 1
此參數設定係依據van der Linden & Veldkamp & Carlson,於2004年發表的
「Optimizing Balanced Incomplete Block Designs for Educational Assessments」
中,26個題本、13個試題區塊的最佳BIB設計,其設計的配置如下:
表3-2 BIB 設計表
區塊位置 區塊位置
題本序號 k1 k2 k3 題本序號k1 k2 k3
S1 M1 M10 M11 S14 M1 M4 M12
S2 M6 M8 M11 S15 M6 M10 M13
S3 M2 M6 M12 S16 M3 M7 M13
S4 M7 M9 M10 S17 M8 M9 M12
S5 M2 M7 M11 S18 M2 M4 M10
S6 M4 M6 M7 S19 M3 M5 M6
S7 M1 M7 M8 S20 M5 M8 M10
S8 M1 M6 M9 S21 M2 M5 M9
S9 M11 M12 M13 S22 M4 M9 M13
S10 M5 M7 M12 S23 M1 M5 M13
S11 M3 M9 M11 S24 M2 M8 M13
S12 M3 M10 M12 S25 M4 M5 M11
S13 M1 M2 M3 S26 M3 M4 M8
資料來源:van der Linden & Veldkamp & Carlson,2004
「BIB的設計表」中,包含26個題本(S1~S26);13個試題區塊(M1~M13)。
12
每個題本包含3個試題區塊,成對試題區塊在每個題本出現的次數只有1次(λ =
1),且每個題本中試題區塊的組合不重複。例如:S1的試題區塊為M1、M10、
M11,則S2至S26中不會出現試題區塊M1、M10、M11的組合。此外,每一個試
題區塊在所有題本中出現的次數為6次(r=6),如:試題區塊M1出現在題本S1、S7、
S8、S13、S14、S23,依此類推。
(二)垂直等化之BIB 設計
本研究在垂直等化之BIB 設計,利用不同年級間之定錨試題做等化連結,
等化設計排列的格式如下:
表3-3 不同年級間BIB 等化設計(垂直等化)模式
L 年級 H年級
1 M L − 1 M H − 包含1 1 − −M L ~ g M L − − 1
2 M L − 2 M H − 包含1 2 − − M L ~ g M L − − 2
3 M L − 3 M H − 包含1 3 − − M L ~ g M L − − 3
4 M L − 4 M H − 包含1 4 − − M L ~ g M L − − 4
...
...
13 M L −

13 M H − 包含1 13 − − M L ~ g M L − − 13
每個試題區塊(M)各抽取g 題為定錨試題,本研究探討g=1、2、3 之效果。
表3-3 為不同年級不同測驗之BIB 垂直等化設計模式,其中: j M 代表試題
區塊代號, 13 , , 1 K = j ; 1 M H − ~ 13 M H − 代表H 年級所包含之試題區塊數、
1 M L − ~ 13 M L − 代表L 年級所包含之試題區塊數、1 1 − − M L 代表L 年級試題區
塊1 的第1 題。
BIB 垂直等化設計中,不同兩年級的試題排列均依照BIB 設計排列,在定錨
試題部分是將H 年級中每個試題區塊中,放入L 年級對應試題區塊中難度較難
的試題。如表3-3,H 年級的試題區塊1( 1 M H − )中,包含L 年級試題區塊1 內
試題難度較難的g 題( 1 1 − − M L ~ g M L − − 1 )定錨試題。本研究只討論每個試
題區塊中定錨試題為1 題、2 題及3 題之效果,即探討不同年級間每個題本定錨
試題數為3 題、6 題及9 題之等化效果。
(三)題數設定
本研究模擬每個題本施測試題數為36 題,試題區塊數為3,因此,每個試
題區塊之試題數為12 題。在BIB 設計中,同年級不同測驗之總試題數,為試題
13
區塊數之設定;不同年級不同測驗之總試題數,隨著定錨試題數的多寡而不同,
定錨試題數與總試題數之對照如下表:
表3-4 BIB 設計之定錨試題數與總試題數對照表
等化設計 試題區塊數 不同年級間
定錨試題數
各年級施測
總試題數
兩年級間施測
總試題數
3 156 299
6 156 286 BIB 13
9 156 273
(四)人數設定
本研究模擬三種施測人數(5460 人、7500 人及10000 人),因此,不同年級
之受測人數為10920、15000 人及20000 人。人數的設定考量如下:
1. 每一份題本人數必須相同;
2. 兩年級的受測人數必須相同;
3. 每一試題受測人數至少500 人以上;
4. 每年級受測人數為5460 人、7500 人及10000 人;
依上列4 個條件整理如表3-5。
表3-5 BIB 設計中題本、試題及定錨試題受測人數
等化設計 受測人數 每年級
受測人數
每個題本
受測人數
每個試題
受測人數
不同年級間定錨
試題受測人數
10920 5460 210 1260 2520
15028 7514 289 1734 3468 BIB
20020 10010 385 2310 4620
三、NEAT 設計
(一)水平等化之NEAT 設計
NEAT設計為一般測驗等化常用的設計,本研究為了利用NEAT設計之等化
效果與BIB設計之等化效果進行比較。因此,NEAT設計的試題區塊數是根據BIB
設計而來,13個試題區塊及總試題數為156題。NEAT設計模式如下表:
表3-6 NEAT 模式之參數設定
等化設計 題本數 試題區塊數每個題本配置的試題區塊數
NEAT 6 13 3
將NEAT設計模式依NEAT設計整理成表3-7。
14
表3-7 NEAT設計表
區塊位置
題本序號k1 k2 k3
S1 M1 M2 M3
S2 M1 M4 M5
S3 M1 M6 M7
S4 M1 M8 M9
S5 M1 M10 M11
S6 M1 M12 M13
表3-7為NEAT設計表,包含6個題本(S1~S6);13個試題區塊(M1~M13)。
題本的配置如下:S1的試題區塊為M1、M2、M3;S2的試題區塊為M1、M4、
M5;S3的試題區塊為M1、M6、M7;S4的試題區塊為M1、M8、M9;S5的試題
區塊為M1、M10、M11;S6的試題區塊為M1、M12、M13。
(二)垂直等化之NEAT 設計
NEAT 設計不同年級間之等化垂直等化設計排列格式如下:
表3-8 不同年級間NEAT 等化設計(垂直等化)
L 年級 H年級
1 M L − 1 M H − 包含1 1 − − M L ~ h M L − − 1
2 M L − 2 M H −
3 M L − 3 M H −
4 M L − 4 M H −
..
.
..
.
13 M L −

13 M H −
每個區塊(M)各抽取h 題為定錨試題,本研究探討h=3、6、9 之效果。
表3-8 為不同年級不同測驗之NEAT 垂直等化設計模式, j M 為試題區塊代
號, 13 , , 1 K = j 。在NEAT 垂直等化設計中,不同年級的試題排列均依照NEAT
設計排列,為了比較在不同定錨試題下兩種等化設計的效果,NEAT 設計根據
BIB 設計,將不同年級之每個題本總定錨試題數設定為3、6、9 題。
本研究將NEAT 設計之試題區塊1 M 設定為定錨試題區塊,因此,垂直等化
之定錨試題必須為試題區塊1 M 內選出,如表3-8,H 年級試題區塊1( 1 M H − )
中,包含L 年級試題區塊1 內試題難度較難的h 題( 1 1 − − M L ~ h M L − − 1 )定錨
試題,而本研究只討論試題區塊1 中定錨試題為3、6、9 題之效果。
15
(三)題數設定
本研究NEAT設計是根據BIB設計,每個題本施測試題數亦為36題,試題區
塊數為3,每個試題區塊之試題數為12題。NEAT設計中,同年級不同測驗之總
試題數,為試題區塊數;不同年級不同測驗之總試題數,隨著定錨試題數的多寡
而不同。題數變化情形如下表:
表3-9 不同年級間NEAT 設計之定錨試題數與總試題數對照表
等化設計 試題區塊數 不同年級間
定錨試題數
各年級施測
總試題數
兩年級間施測
總試題數
3 156 309
6 156 306 NEAT 13
9 156 303
(四)人數設定
NEAT 設計亦根據BIB 設計之設定,模擬三種施測人數(5460 人、7500 人及
10000 人) ,因此,不同年級之受測人數為10920、15000 人及20000 人。人數的
設定考量如下:
1. 每一份題本人數必須相同;
2. 兩年級的受測人數必須相同;
3. 每一試題受測人數至少500 人以上;
4. 每年級受測人數為5460 人、7500 人及10000 人;
依上列4 個條件整理如表3-10。
表3-10 NEAT 設計中題本、試題及定錨試題受測人數
等化設計 總受測
人數
每年級
受測人

每個題
本受測
人數
各年級定
錨試題受
測人數
各年級非
定錨試題
受測人數
不同年級間
定錨試題受
測人數
10920 5460 910 5460 910 10920
15000 7500 1250 7500 1250 15000 NEAT
20004 10002 1667 10002 1667 20004
四、估計精準度
本研究使用BILOG-MG(Zimowski & Muraki & Mislevy & Bock, 2003)進行等
化,並估計受試者能力值與試題參數值。估計精準度指估計誤差值的大小,估計
誤差值愈小,表示估計愈精準。本研究使用能力真值與能力估計值,及試題參數
真值與試題參數估計值的根均方差(root mean square error, RMSE)作為估計的精
16
準度,其估計精準度的公式計算如下:
N
RMSE
N
i
i i ∑=

= 1
2 ) ˆ (
) ˆ , (
η η
η η
其中,N:表示受試者人數;
( ) N η η η η η ,..., , , 3 2 1 = :表示受試者能力真值或試題參數真值;
( ) N η η η η η ˆ ,..., ˆ , ˆ , ˆ ˆ 3 2 1 = :表示受試者能力估計值或試題參數估計值。
肆、研究結果
一、BIB 與NEAT 設計等化後估計結果
(一)水平等化測驗之等化結果
根據模擬研究的結果,將BIB 與NEAT 設計在水平等化測驗中,等化後之
RMSE 整理成表4-1:
表4-1 BIB 及NEAT 等化設計在水平等化測驗中之誤差結果表
誤差值(RMSE)
等化設計 各年級總人數
能力值 鑑別度 難度 猜測度
0.3221 0.1359* 0.1434* 0.0460* 5460 (0.0033) (0.0100) (0.0136) (0.0031)
0.3207 0.1204* 0.1312* 0.0440* 7514 (0.0030) (0.0098) (0.0113) (0.0033)
0.3205 0.1068* 0.1228* 0.0423*
BIB
10010 (0.0020) (0.0062) (0.0092) (0.0025)
0.3180* 0.1386 0.1449 0.0464 5460 (0.0036) (0.0092) (0.0120) (0.0029)
0.3179* 0.1233 0.1320 0.0442 7500 (0.0026) (0.0095) (0.0114) (0.0035)
0.3178* 0.1135 0.1281 0.0432
NEAT
10002 (0.0024) (0.0081) (0.0109) (0.0028)
“*”表不同設計中,受試者能力值與試題參數之最小誤差值
由表4-1等化誤差結果,可以得到以下的結論:
1. 在三種施測總人數中,不論是受試者能力值或試題參數,誤差值均隨著
受試者人數增加而減少,即人數越多估計越精準。因此,BIB與NEAT設計在水
平等化測驗中,能力誤差值與試題參數誤差值,在施測人數10000人時有最佳等
化效果。亦即BIB與NEAT設計,受試人數為10000人之等化誤差最小、受試人數
為7500人之等化誤差次之、受試人數為5460人之等化誤差最大。此外,隨著受試
17
人數增加,BIB與NEAT設計對於估計受試者能力誤差值影響較小,對於估計試
題參數誤差值影響較大。
2. 不論受試人數為何,BIB設計在試題鑑別度參數、試題難度參數與試題猜
測度參數的誤差值較NEAT設計等化效果好;NEAT設計在受試者能力的誤差值
較BIB設計等化效果好。
3. 在相同的受試者人數下,BIB與NEAT設計之間的受試者能力誤差值介於
0.0027~0.0041間、試題鑑別度參數誤差值介於0.0027~0.0067間、試題難度參數誤
差值介於0.0008~0.0058間、試題猜測度參數誤差值介於0.0002~0.0009間。因此,
可知在不同等化設計中,對於估計試題猜測度參數之誤差值變異較小,估計受試
者能力值、試題鑑別度參數與試題難度參數之誤差值變異較大,但彼此間差異並
不大。
(二)垂直等化測驗之等化結果
根據模擬研究的結果,將BIB 與NEAT 設計在垂直等化測驗中,等化後之
RMSE 整理成表4-2:
表4-2 BIB 與NEAT 等化設計在不同定錨試題數下之誤差結果表
誤差值(RMSE)
等化設計 各年級
總人數
各題本內
定錨試題
數 能力值鑑別度 難度 猜測度
3 0.3633 0.1676* 0.2629 0.0544
6 0.3427 0.1663* 0.2615 0.0538 5460
9 0.3373 0.1641* 0.2760 0.0537
3 0.3596 0.1413* 0.2475 0.0539
6 0.3418 0.1399* 0.2404 0.0542 7514
9 0.3356* 0.1419* 0.2488 0.0531
3 0.3574 0.1274* 0.2431 0.0536
6 0.3393 0.1304* 0.2253 0.0522
BIB3
10010
9 0.3351* 0.1240* 0.2278 0.0530
3 0.3472* 0.1746 0.2334* 0.0517*
6 0.3377* 0.1751 0.2294* 0.0518* 5460
9 0.3371* 0.1761 0.2438* 0.0518*
3 0.3464* 0.1557 0.2192* 0.0516*
6 0.3369* 0.1578 0.2157* 0.0510* 7500
9 0.3364 0.1593 0.2200* 0.0513*
3 0.3462* 0.1375 0.2141* 0.0509*
6 0.3365* 0.1404 0.2149* 0.0510*
NEAT3
10002
9 0.3361 0.1430 0.2183* 0.0509*
“*”表不同設計中,受試者能力值與試題參數之最小誤差值
18
由表4-2等化誤差結果,可以得到以下的結論:
1. 在垂直等化測驗中,不論受試人數及定錨試題數為何,NEAT設計在受試
者能力值、試題難度參數與試題猜測度參數的誤差值較BIB設計等化效果好,除
了受試者能力值在受測人數為7500人及10002人、定錨試題數為9題時例外;BIB
設計在試題參數鑑別度的誤差值較NEAT設計等化效果好。
2. 在相同的受試者人數及相同定錨試題數下,BIB與NEAT設計之間的受試
者能力誤差值介於0.0002~0.0161間、試題鑑別度參數誤差值介於0.0070~0.0190
間、試題難度參數誤差值介於0.0095~0.0322間、試題猜測度參數誤差值介於
0.0012~0.0032間。因此,可知在不同等化設計中,對於估計試題猜測度參數之誤
差值變異較小,估計受試者能力值、試題鑑別度參數與試題難度參數之誤差值變
異較大。
3. 在相同的受試者人數及相同定錨試題數下,隨著試題區塊數增加,受試
者能力值亦跟著增加;在不同定錨試題數中,定錨試題數為3 題至6 題時變異較
大;定錨試題數為6 題至9 題時變異較小。
二、BIB 與NEAT 設計的優缺點
本模擬研究之BIB 與NEAT 等化設計,應用於實際施測資料時,可依施測
所需的定錨題數與施測人數來選擇較適用之等化設計。在此,研究者列出BIB
與NEAT 等化設計的優缺點,作為採用時的參考依據:
(一)BIB 設計的優點
1. 對於有非共同試題的試題卷,依然可進行等化連結;
2. 每題試題作答人數均等(除兩年級的定錨試題外),試題平均分配施測。
(二)NEAT 設計的優點
1. 試題區塊配置方式容易找尋;
2. NEAT 設計在估計受試者能力誤差值的等化效果較BIB 設計好。
(三)BIB 設計的缺點
1. 題本與試題區塊的配置方式不易找尋;
2. BIB 設計等化效果須在施測人數及定錨試題數夠多時,才有最好的等化效
果。
(四)NEAT 設計的缺點
1. 進行等化的題本,必須有共同的定錨試題,才能進行等化;
19
2. 進行垂直等化時,NEAT等化設計試題區塊內所包含的試題數,將限制不
同年級間之定錨試題數。
伍、結論與建議
一、結論
本研究欲了解進行測驗等化時,不同施測樣本數與不同定錨試題數,在水平
及垂直等化測驗中,使用BIB與NEAT設計下等化連結之效果。
本研究比較三種施測人數(5460 人、7500、10000人)與垂直等化之三種定錨
試題數(3題、6題、9題)之等化情形。得到下列結論:
1. 在水平等化測驗中,不論受試人數為何,BIB設計在試題鑑別度參數、試
題難度參數與試題猜測度參數的誤差值較NEAT設計等化效果好;NEAT設計在
受試者能力的誤差值較BIB設計等化效果好。
2. 在垂直等化測驗中,不論受試人數與定錨試題數為何,BIB設計在試題鑑
別度參數的誤差值較NEAT設計等化效果好;NEAT設計在受試者能力值、試題
難度參數與試題猜測度參數的誤差值較BIB設計等化效果好。
3. 施測人數越多,各種參數估計越精準,對於受試者能力值影響較小、對
於試題參數值影響較大。但受試人數在7500及10000人時,各種參數估計差距不
大,則若考慮施測成本,採用7500人的受測人數即可達10000人的效果。
4. 不同年級之定錨試題數越多,各種參數估計越精準,但定錨試題數為6題
或9題的估計精準度差異不大。因此,在進行測驗時可選擇6題的定錨試題數,減
少年級間定錨試題量,以增加測驗的題庫量。
二、改進建議
本模擬研究在水平及垂直等化測驗中,共同變項僅設定三種施測人數,分別
為5460人、7500人及10000人:三種試題區塊數,分別為7個、9個及13個;受試
者能力分布為常態分布;與垂直等化測驗中,三種定錨試題數,分別為3題、6
題及9題,來進行BIB與NEAT設計等化設計之模擬比較。茲就本研究未盡完備之
處,提出一些研究建議,供後續研究者參考。
(一)本研究僅考慮一種受試者能力與試題參數分布,未來研究可考量進行不
同參數分布之等化效果比較。
20
(二)本研究僅考慮三種試題區塊數、三種定錨試題數與三種施測人數,未來
研究可考量不同的試題區塊數、定錨試題數與施測人數作為等化效果之研究。
(三)本研究僅討論一種試題區塊數及一種試題區塊的配置方式,未來研究可
就不同試題區塊數及配置方式探討其等化效果。
(四)本研究BIB與NEAT等化設計,僅模擬產生二元計分之作答反應組型,未
來研究可考量多元計分對於BIB與NEAT設計之等化效果比較。
(五)本研究只探討進行測驗等化時,水平等化與垂直等化兩種情況,並無針
對不同年度之等化效果研究,因此,未來研究可針對同年級不同年度測驗與不同
年級不同年度測驗之等化效果比較。
陸、本研究目前所出版相關論文
1. 曾玉琳、王暄博、郭伯臣、許天維(2006)。不同BIB 設計對測驗等化的影響。
測驗統計年刊,第十三輯下期,頁209-229。台中市:國立台中教育大學。
2. 郭伯臣、王暄博、許天維、張雅媛(2005)。大型測驗不同等化設計效果之模
擬研究。2005 年教育與心理測驗學術研討會,2005 年11 月12 日,國立政
治大學。
柒、參考文獻
一、中文部份
王寶墉(民84)。現代測驗理論。臺北市:心理出版社。
李文忠(民84)。以無參數反應理論之等化模式探討測驗等化與能力成長曲線。國
立台中師範學院國民教育研究所碩士論文,未出版。
吳裕益(民80)。IRT等化法在題庫建立之應用。初等教育學報,第四輯,pp.319-365。
國立臺南師範學院初等教育學系。
陳煥文(民93)。垂直等化連結特性之研究-四種連結方法的比較。國科會專題研
究計畫。
曾玉琳、王暄博、郭伯臣、許天維(民95)。不同BIB 設計對測驗等化的影響。
測驗統計年刊,第十三輯下期,頁209-229。台中市:國立台中教育大學。
21
二、英文部份
Allen, N.L., Donoghue, J.R., & Schoeps, T.L. (2001). The NAEP 1998 technical
report. Washington, DC: National Center for Educational Statistics.
Dorans, N. J. & Holland, P. W. (2000). Linking Scores from Multiple
Instruments.Evaluation of National and State Assessments of Evaluation. Board
on Educational Testing and Assessment. Washington, DC: National Academy
Press.
Hanson, B.A. & Beguin, A.A. (2002). Obtaining a Common Scale for Item Response
Theory Item Parameters Using Separate Versus Concurrent estimation in the
Common-Item Equating Design. Applied Psychological Measurement, 26, 3-24.
Hambleton, R.K., & Swaminathan, H. (1985). Item Response Theory: Principles and
Application. Boston, MA:Kivwer-Nijhoff.
Haebara, T. (1980). Equating Logistic Ability Scales by a Weighted Least Squares
Method. Japanese Psychological Research, 22, 144-149.
Kolen, M. J. (2000). Issues in Combing State NAEP and Main NAEP. In J. W.
Pellegrino, L. R. Jones, & K. J. Mitchell, (Eds.), Grading the Nation’s
Reportcard: Research from the Evaluation of NAEP. Committee on the
Kolen, M.J. & Brennan, R.J. (1995). Test Equating: Methods and Practices. New York:
Springer-Verlag.
Lord, F. M. (1980). Applications of Item Response Theory to Practical Testing
Problems. Hillsdale, NJ: Lawrence Erlbaum.
Mislevy, R. J. & Bock R. D. (1982). Implementation of the EM algorithm in the
estimation of item parameters: The BILOG computer program. In: Item
Response Theory and Computerized Adaptive Testing Conference Proceedings
(Wayzata, MN).
Nattional Research Council. (1999). Uncommon Measures: Equivalency and Linkage
of Educational Tests. Washington, DC: Author.
Nemhauser, G. L., & Wolsey, L. A. (1999). Integer and Combinatorial Optimization.
New York: John Wiley.
Petersen, Nancy S., Kolen, Michael J., Hoover, H.D. (1993). Scaling, Norming, and
Equating. In R.L. Linn (Ed.), Educational Measurement (3rd ed., pp221-262).
New York: Macmillan.
Stocking, ML. & Lord, F.M. (1983). Developing a Common Metric in Item Response
22
Theory. Applied Psychological Measurement, 7(2).201-211.
Tianyou, W. (2005). An Alternative Continuization Method to the Kernel Method in
von Davier, Holland and Thayer's (2004) Test Equating Framework.
van der Linden, W.J., & Veldkamp, B.P.,& Carlson, J.E. (2004).Optimizing Balanced
Incomplete Block Designs for Educational Assessments. Applied Psychological
Measurement, 28, 317-331.
von Davier, A. A., Holland, P. W., & Thayer, D. T. (2004). The kernel method of test
equating. New York: Springer.

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多