2011年10月3日 星期一

測驗編製步驟(4)及其對應的教育與心理測驗標準

4.編寫試題

標準 3.6
題型、作答方式、評分程序、和施測步驟等,都需要在測驗的目的、測量的內容範圍、和所針對的受測群體的基礎上進行選擇。
在可能程度內,所選擇的測驗內容應能保證對於不同次群體的受測者的分數的推論都具有同等效度。
測驗的審查過程應該包括實證數據資料分析。恰當的時候,還應邀請專家來審查試題和作答方式,而這些專家的資格、相關經歷以及人口統計學方面的特徵等資料也須要作成書面說明。

說明:專家可能做的工作有確認對參加測驗的次群體受測者可能不合適、不清楚或具有冒犯性的材料。例如,可能會請專家們確認,數學文字題裡缺少上下文對於有些學生來講是否會造成問題。
各種受測者次群體可按年齡、族裔、文化、性別、殘障類型、或人口統計學方面的地區分佈來劃分。但這種證據也是有限的,專家的審查可能會使施測中的不公平現象緩解一些。

標準 3.7
對於試題的研發、審查、預試(try out),以及從題庫裡選題的程序都必須作成書面說明。
如果根據測驗規格明細表(specification)將試題分類成幾個類別或分測驗時,分類的程序以及分類結果的適當性和正確性都須作成書面說明。

說明:在根據測驗規格明細表對試題進行分類時,可以使用實證證據(empirical evidence)和/或專家判斷(expert judgment)。例如,有時候會請專家小組將試題進行分類,或是判斷測驗編製者的分類架構是否合適。小組成員的資格和小組進行判斷所用的程序,都將影響分類的正確性。

標準 3.17
當已有的研究表明,與構念無關的變異量(irrelevant variance)可能會混淆測驗的內容領域的定義時,測驗編製者應該調查與構念無關變異量的來源。
只要可能,測驗編製者應該排除或減少這些無關變異量的來源。

標準 7.2
當研究報告表明不同的受測者次群體在某個測驗的某部分在構念無關變異量效應上不相等時,這測驗應該只用於那些有證據表明可以從測驗分數中獲取有效的推論的次群體。

說明:對於「某個測驗不適合某個次群體」的結論要有替換的解決辦法。這可能涉及到選擇一個適合所有次群體受測者的測驗,或是在使用不同的構念等同測驗有可能時,對這個現行測驗不能很好測量其構念的次群體受測者採用另一個測驗。
在有些情形下可能會把幾個測驗合起來用,使得其綜合分數在所有次群體中認證有效的推論成為可能。
在愗些情況下,諸如甄聘測驗,也有可能因法律或其他因素的約束而必須對不同次群體的受測者使用不同的測驗。
有時候,受測者請求使用的試卷版本並不是測驗編製者或使用者覺得最合適的版本。比如,一名殘障人士可能推辭替代性考卷而要求使用正常人用的標準考卷。在讓受測者完全清楚測驗本身如何使用及其結果之後,允許受測者這樣的要求並不算違反這條標準。

標準 13.18
透過多媒體或電腦進行施測與評分的測驗,需要將其設計、模式、計分演算法、以及評分和分類的方法等做成書面說明。
在測驗的設計和使用過程中,需要考慮那些因為使用電腦或其他媒體施測所引起的與構念無關的變異量(construct-irrelevant variance)來源,如受測者對科技和測驗形式的熟悉程度。

說明:在做書面說明時,注意不要危及試題的保密性,不要因此而對測驗分數解釋的效度造成負面影響。
在技術質量要求方面,電腦化或多媒體形式的測驗,與其他形式的測驗要求是一樣的。

沒有留言: