測驗的效度
林陳涌 國立台灣師範大學 生物學系 信度…... 信度所關心的是測驗分數的一致性或穩定性。 一個具有良好信度的測驗,使用在不同的主試者 評分者 時間 情境或使用類似的問題,其所得的分數應該接近相同或一致。 一般而言分數愈一致,受誤差的影響愈小。所以信度主要在說明測驗分數中測量誤差所佔的成分。 效度…... 測驗有種種不同的目的, 這些目的是否能達到需視測驗效度高低而定。 測驗的效度高,則測驗能實現所欲測量的目的。如果效度低,不僅無法達成目標,甚至會提供不正確的資料而作成錯誤的決定。 效度的意義
傳統定義 指測驗分數的正確性。指一個測驗能夠測量到他所想要測量的特質的程度。 數學測驗的分數若主要是由語文能力來決定,這樣的測驗就無效(效度低)。 以上的定義說明一個測驗只有一個效度,事實不然,效度可依不同的方法得到不同效度。 較滿意的定義 一個測驗在使用目的上的有效性。更具體的是指測驗能夠達到某種目的的程度。 效度的特性 效度無法直接測量,但可從其他資料推論。因此使用者必須審慎判斷效度的證據是否適當或令人滿意。 效度的判斷,主要依據測驗分數的使用目的,或測驗結果的解釋。因此,效度是屬於測驗的結果,而非測驗工具本身。因此,效度稱為測驗結果的效度或測驗結果解釋的效度,更為適當。 效度的特性 效度是程度上的差別,而非全有或全無的問題。因此選擇測驗時,應考慮測驗是否適合使用的需要?如果是,其效度有多高?在甚麼情境下有效? 效度在使用的目的和情境方面具有特殊性,不宜視為普遍性的特質。對某個目的可能有很高的效度,對另一個目的可能很低。因此選擇測驗時,應依據使用的獨特目的而選用具有適當效度資料的測驗。 效度的理論
一個測驗的總變異量包含三個部分 Sx ²=Sco ² +Ssp ² +Se ² Sx ² 總變異量 Sco ² 共同因素變異量 Ssp² 獨特變異量 Se ² 誤差變異量 效度的理論
共同因素 指某個測驗的變異量和其他測驗的變異量所共同分享的部分。易言之,就是指兩個或兩個以上的測驗所有的共同因素。 獨特因素 指某測驗的系統變異量,義及非由其他測驗所分享的部分。 效度的理論
Sx ²/Sx ² =Sco ² /Sx ² +Ssp ² /Sx ² +Se ² /Sx ² 效度可界定為由共同因素所造成的變異量比率。
Val.=Sco ² /Sx ² =1-Ssp ² /Sx ² -Se ² /Sx ² 效度的種類 測驗效度既然要視測驗達到其使用目的的程度而定,評估一個測驗的效度因而不能只看效度的高低,尚需考慮資料是否適合使用的目的。 美國心理學會依目的分為 內容效度 效標關聯效度 構念效度 內容效度的意義 指測驗內容的代表性或取樣的適切性。 考量成就測驗的內容效度,需考慮題目能否代表以下因素
教學目標 教材內容 判斷內容效度的方法
內容效度沒有一個數量的表示方法,他的確定主要是採用邏輯的分析方法,仔細判斷每一個題目是否符合教材內容與教學目標。 如果測驗的題目很能代表教材內容的樣本,及所預期的行為改變,而沒有其他無關因素(如閱讀能力或指導語不清楚)的影響,則表示測驗有良好的內容效度。 所以又稱合理或邏輯的效度 。 判斷內容效度的方法
雙向細目表 教材的內容與教學的目標 專家判斷 複本的編制 兩組人編制兩套試題,如果兩份內容大致符合,則表示測驗內容適當。 內容效度的應用 內容效度最適合於成就測驗的效度考驗。 因為內容效度可以解答成就測驗效度的基本問題: 測驗是否涵蓋特定的技能與知識的代表性樣本? 測驗成績是否不受無關因素的影響? 此外,成就測驗具有獨特的教材內容與學習經驗,測驗內容從中選擇出來,較易從事邏輯的分析和合理的判斷 。 表面效度
表面效度缺乏系統的邏輯分析,他只是指測驗給人的第一個印象好像測量甚麼東西,而不是指測驗事實上能測量到甚麼東西。 一般而言,具有內容效度的測驗,通常也具有表面效度,反之卻不盡然。 但表面效度對一個測驗來說,仍然是很重要的,因為具有表面效度,可使受試者感到親切感,並願意合作。 效標關聯效度
以經驗性的方法,研究測驗分數與一些外在效標間的關係,故又可稱為經驗效度或統計效度。 如果測驗分數和外在效標的相關愈高,表示測驗愈能有效預測外在效標。 外在效標指測驗所要預測的某些行為或量數。學業性向測驗以學校的學業成績作為效標。 同時效度與預測效度 同時效度 指測驗分數與實施測驗同一個時間所取得的效標之間的相關,旨在使用測驗分數估計個人在效標方面的目前實際表現。 新編職業測驗 目前工作成績 新編生物成就測驗 在校生物月考成績 易於取得,故較易於考驗。此種效度可用來取代收集資料的複雜方法。 預測效度
指測驗分數與實施測驗後一段時間所取得的效標之間的相關,旨在使用測驗分數預測個人在效標方面的未來表現。 新編職業測驗 錄取後一段時間後的工作成績 預測效度對於人員選擇與分類的測驗最為適當。 性向測驗 智力測驗 成就測驗 同時效度與預測效度的不同
效標取得的時間不同。 同時 隔一段時間 測驗的目的不同。 估計目前的情形 預測未來的行為 效標的特性
適切性 能反映測驗所欲測量的重要特徵,這沒有經驗的證據,只有依賴價值的判斷。 可靠性
效標資料具有可靠性,否則如何被預測。 效標的特性
客觀性 能避免偏差: 系統性的偏差 避免效標混淆: 使參與效標評定的人不知受試者的測驗成績 可用性
時間 經費 效標的種類
學業成就 智力測驗 特殊化的訓練成績 性向測驗 實際的工作成績 性向測驗 對照團體 性向測驗 精神病學的診斷 人格測驗 評定成績(Rating) 人格測驗 先前有效的測驗 新編測驗 預期表
效標關聯效度的一種表示方法,比相關係數更容易瞭解測驗分數與效標之間的關係。 構念效度的意義 構念效度指測驗能夠測量到理論上的構念或特質的程度。易言之就是指測驗分數能夠依據某種心理學的理論構念加以解釋的程度。因此凡是根據心理學的構念,對測驗分數的意義所做的分析和解試,即為構念效度。 構念效度的意義 構念(construct)是心理學上的一種理論構想或特質,他是觀察不到的,但心理學假設他是存在的,以便解釋一些個人的行為。像智力 性向 動機 焦慮 批判思考 社會性 內向性 或 機械性向等均為心理學上的理論構念或假設性的概念。 這些構念都有其心理學上的理論基礎,依據其理論可以預測人類的行為,而提出行為上的假設,然後加以驗證。 構念效度一般發展步驟
1. 根據構念的理論分析,發展一套測量的題目。構念 行為 題目 2. 提出可考驗構念與其他變項間關係的預測。 3. 從事實證性的研究以驗證上述的預測。 4. 淘汰和理論的構念相反的題目,或重新從預測開始修正。若再得負向支持,則可能測驗真的缺乏效度或理論有問題。 新編智力測驗的構念效度之考驗方法 從智力這個夠念的有關理論可預測 1. 測驗分數在發展成熟之前,隨年齡增長。 2. 測驗分數可預測學業成就。 3. 測驗分數和教師評定的智力等級有鄭相關。 4. 測驗分數可以鑑別不同能力的團體,如資優或智能不足者。 5. 測驗分數受直接教學影響不大。 新編智力測驗的構念效度之考驗方法
以上五個預測可以採用實證的方法收集證據,逐一予以驗證。 正向支持則智力測驗所測得的東西和理論的構念符合一致。 負向支持則需重新從預測開始修正,再得負向支持,則可能測驗缺乏效度或理論有問題。 獲得構念效度證據的方法 構念效度是一個範圍很廣的概念,涵蓋內容效度與效標關聯效度,故有關內容效度的資料,均可用來作為分析構念效度的證據。 構念效度的考驗需要從許多不同的資料來源中,逐步累積兼顧邏輯分析與經驗分析的方法。 相關研究--獲得構念效度證據的方法一 新編測驗和已經公認有效的類似測驗的相關,常用來作為新編測驗也能測量相關特質的依據。 新智力測驗----就智力測驗 計算新編測驗和測驗不同特質的其他測驗的(沒有)相關,以說明新測驗沒有受到無關因素的影響。 智力測驗----閱讀能力測驗 團體差異分析--獲得構念效度證據的方法二 測驗分數因團體的特性不同而異。 生物成就測驗 研究生分數>大三學生>大一學生 實驗研究--獲得構念效度證據的方法三
比較實驗處理前後的分數差異。 內部一致性分析--獲得構念效度證據的方法四
此法的特徵是以測驗本身的總分為效標。 對照團體法 分析高低分組在每題題目的通過比例 相關方法 計算每一題目通過-失敗和總分的系列相關 計算分測驗與總分的相關 相關高則內部一致性好 分測驗的相關高好?還是低好? 因素分析--獲得構念效度證據的方法五
藉著共同因素的發現而確定觀念的結構成分,以認定心理學上的特質。 40個題目的量表最多可抽出40個因素,但也可以只抽一個因素。由統計來決定。 因素負荷 每個題目和共同因素的相關 共同性 將各題在所有共同因素上的負荷量平方和。 因素分析摘要表 題目 共同因素 共同性(h2) A B 1 .83 .01 0.6890 2 .79 .10 0.6341 3 .70 .10 0.5000 4 .10 .70 0.5000 5 .10 .79 0.6341 6 .01 .83 0.6890 平方和 1.8231 1.8231 3.6462 因素分析摘要表 題1 0.832 +0.012 =0.6890 表示第一題的總變異量中,有68.9%由A與B兩個共同因素所造成的。其中A較重要而B較不重要。 在從A和B因素的平方何來看,均為1.8231,表示這兩個因素對測驗總分具有同樣的重要性。 多項特質--多項方法分析--獲得構念效度證據的方法六 Multitrait-multimethod approach 主要是用來建立區別性效度(discriminant validity)和輻合性效度(convergent validity)的主要方法。 區別性效度:測驗分數要與測量相同構念或特質的其他測驗的分數有高的相關 輻合性效度:測驗分數要與測量不同構念或特質的其他測驗的分數有低的相關 多項特質--多項方法分析--獲得構念效度證據的方法六 採用多項特質--多項方法分析的基本條件 必須有兩種以上的測量方法測量兩種以上的特質,其所測量的特質均一樣。 方法:M1. 人格量表 M2. 教師評定 特質:A. 成就性 B. 社會性 C. 獨立性 多項特質--多項方法分析--獲得構念效度證據的方法六 相同方法相同特質: 信度 高 相同方法不同特質: 區別性效度 低 不同方法相同特質: 輻合性效度 高 不同方法不同特質: 區別性效度 低 課本小錯誤 p.109 方法難 因素分析 多項特質--多項方法分析 量化的觀念,較難,但較具有說服力
影響效度的因素 測驗品質 指導語 用字 題目難度 暗示 測驗實施 物理條件 心理條件 受試者的因素 身心狀況 反應(答題)模式 影響效度的因素
效標的品質 效標與測驗分數的關係 效標的可靠性(信度) 團體的性質 同質性太高 The end!
效度與信度的關係 信度是效度的必要條件而非充分條件 效度--->信度
信度 穩定度
效度 準確性 效度與信度的關係 效度與信度的變異數關係 效度係數的絕對值不會大於信度係數的平方根 效度的解釋與應用 效度與效標分數的預測 效度與人員的選擇 效度與效標分數的預測 迴歸公式 Y= aX+b 估計標準誤
Sest.y=Sy 根號(1- rxy2) 範圍=M±Z x Sest.y 效度與人員的選擇 錯誤的接受與拒絕 效度與人員的選擇 基準比率 效度與人員的選擇
選擇比率
效度與人員的選擇
效度 選擇比率與正確選擇的關係 |
|