2011年9月26日 星期一

測驗編製步驟(1)及其對應的教育與心理測驗標準

1.測驗編製計畫

標準1.1
應該呈現對於測驗分數的每一建議的解釋和用途的理論根據,並且附上該用法或解釋的證據和理論的綜合性摘要。

說明:理論根據應指明研究所建議解釋需要什麼樣的前提條件。
綜述應結合邏輯分析和實證證據對測驗的理論提出證據。
證據可取自測驗將要使用的情境的區域性的研究;也可取自前人的研究;或取自現有的研究結果的全面統計綜合,而這些結果已明顯達到效標。

沒有一種類型的證據天生就比別的證據更可取,而是證據的品質和它對預期用途的關連性決定了該種證據的價值。
對任何一點的實證證據的敘述在科學文獻理應對所有的有關發現都給予應有的份量,甚至包括和預期解釋或用途不一致的結果。

測驗編製者有責任對自己提出的建議提出支持性的證據,但測驗使用者有責任評鑑所提供的效度證據的品質,和它與本地情況的關連性。

標準 3.2
測驗目的(purposes)、內容領域(domain)的定義、和測驗規格明細表(specifications)應該講得非常清楚,這樣人們才能夠判斷所定義的內容範圍對於測驗的目的是否合適,試題之間的關係對於它們試圖代表的範疇內各方面的知識點是否相吻合。

說明:測驗分數解釋的合適性和合用性依賴於測驗目的和測驗所要代表的內容領域在定義和闡述上的嚴密性。

內容領域定義應該充分、詳盡、準確地表明有哪些方面的知識、技能、過程、態度、價值、情緒或行為是包括在測驗中,而哪些是被排除的。

清楚的描述將有助於審查人員和其他有關人員對於已經定義的內容領域和測驗題目之間的一致性作出正確的判斷。

標準 3.9
當測驗編製者在評鑑試題的心理計量特性時,應以書面說明其使用的是古典理論模式或是試題反應理論模式(IRT)。對於用來作試題分析的樣本應有詳盡的描述,而且樣本的大小和多樣性應該與試題分析方法相配合。
選題的過程和用來作選題的數據資料(如試題難易度、試題鑑別度和(或)試題訊息度等),也都應作成書面說明。
若是用試題反應理論模式來估計編製中測驗的試題參數的話,那試題反應模式、估算步驟、以及模式的適配性(model fit)的證據,都應該做成書面說明。

說明: 雖然整個樣本的大小很重要,但在對於試題的心理計量上特性有決定作用的地區,抽取恰當數量的樣本也同樣重要。如果這個測驗期望在分數軸上的特定區域達到最精確的估算值,且這種考慮影響到試題的選擇時,試題統計參數使用的方法需要仔細說明。

當以試題反應理論(IRT)作為測驗編製的理論基礎時,要記錄下採用的模式和數據資料間的適配程度的數值就非常重要。這一點可以通過檢查試題反應理論的假設條件的滿足程度來完成(比如﹕單維性、試題局部獨立性、或試題斜率參數)。

測驗編製者應該證明,試用版測驗和正式測驗的實施條件之間如有任何差異都不應影響試題發揮。

會影響試題統計參數的條件包括:試題在測驗中的位置、測驗時間限制、測驗題數、測驗方式(如:紙筆測驗還是電腦輔助性的測驗)、計算器或其他工具的使用。例如,在檢驗試題時,把某一試題放在試卷末尾時所得到的統計參數,就可能會比把它放在試卷中間時還要差。

沒有留言: