2011年9月26日 星期一

測驗編製步驟(1)及其對應的教育與心理測驗標準

1.測驗編製計畫

標準1.1
應該呈現對於測驗分數的每一建議的解釋和用途的理論根據,並且附上該用法或解釋的證據和理論的綜合性摘要。

說明:理論根據應指明研究所建議解釋需要什麼樣的前提條件。
綜述應結合邏輯分析和實證證據對測驗的理論提出證據。
證據可取自測驗將要使用的情境的區域性的研究;也可取自前人的研究;或取自現有的研究結果的全面統計綜合,而這些結果已明顯達到效標。

沒有一種類型的證據天生就比別的證據更可取,而是證據的品質和它對預期用途的關連性決定了該種證據的價值。
對任何一點的實證證據的敘述在科學文獻理應對所有的有關發現都給予應有的份量,甚至包括和預期解釋或用途不一致的結果。

測驗編製者有責任對自己提出的建議提出支持性的證據,但測驗使用者有責任評鑑所提供的效度證據的品質,和它與本地情況的關連性。

標準 3.2
測驗目的(purposes)、內容領域(domain)的定義、和測驗規格明細表(specifications)應該講得非常清楚,這樣人們才能夠判斷所定義的內容範圍對於測驗的目的是否合適,試題之間的關係對於它們試圖代表的範疇內各方面的知識點是否相吻合。

說明:測驗分數解釋的合適性和合用性依賴於測驗目的和測驗所要代表的內容領域在定義和闡述上的嚴密性。

內容領域定義應該充分、詳盡、準確地表明有哪些方面的知識、技能、過程、態度、價值、情緒或行為是包括在測驗中,而哪些是被排除的。

清楚的描述將有助於審查人員和其他有關人員對於已經定義的內容領域和測驗題目之間的一致性作出正確的判斷。

標準 3.9
當測驗編製者在評鑑試題的心理計量特性時,應以書面說明其使用的是古典理論模式或是試題反應理論模式(IRT)。對於用來作試題分析的樣本應有詳盡的描述,而且樣本的大小和多樣性應該與試題分析方法相配合。
選題的過程和用來作選題的數據資料(如試題難易度、試題鑑別度和(或)試題訊息度等),也都應作成書面說明。
若是用試題反應理論模式來估計編製中測驗的試題參數的話,那試題反應模式、估算步驟、以及模式的適配性(model fit)的證據,都應該做成書面說明。

說明: 雖然整個樣本的大小很重要,但在對於試題的心理計量上特性有決定作用的地區,抽取恰當數量的樣本也同樣重要。如果這個測驗期望在分數軸上的特定區域達到最精確的估算值,且這種考慮影響到試題的選擇時,試題統計參數使用的方法需要仔細說明。

當以試題反應理論(IRT)作為測驗編製的理論基礎時,要記錄下採用的模式和數據資料間的適配程度的數值就非常重要。這一點可以通過檢查試題反應理論的假設條件的滿足程度來完成(比如﹕單維性、試題局部獨立性、或試題斜率參數)。

測驗編製者應該證明,試用版測驗和正式測驗的實施條件之間如有任何差異都不應影響試題發揮。

會影響試題統計參數的條件包括:試題在測驗中的位置、測驗時間限制、測驗題數、測驗方式(如:紙筆測驗還是電腦輔助性的測驗)、計算器或其他工具的使用。例如,在檢驗試題時,把某一試題放在試卷末尾時所得到的統計參數,就可能會比把它放在試卷中間時還要差。

測驗編製步驟(2)及其對應的教育與心理測驗標準

2. 界定試題內容取樣範圍

標準1.6
當以測驗內容的適當性作為效度驗證(validation)的一部分時,應該測驗所測量的構念或所代表的學科領域,對於確定和編寫測驗內容的步驟加以說明並提出充分理由
如果界定的內容是結合重要性、出現頻率、或關鍵性等規準(criteria)來抽樣時,也應該對這些規準作出清楚的解釋並提出充分理由。

說明:例如,測驗編製者可能提供一個邏輯架構,排列出試題在學科領域的分佈,表明每道題目的相關性,和整套題目及與之代表的學科領域的符合性。學科領域裡沒有包括在測驗裡的部分最好也加以說明。

標準 3.2
測驗目的、內容領域的定義、和測驗內容細則應該講得非常清楚,這樣人們才能夠判斷所定義的內容範圍對於測驗的目的是否合適,試題之間的關係對於它們試圖代表的範疇內各方面的知識點是否相吻合。

說明:測驗分數解釋的合適性和合用性依賴於測驗目的和測驗所要代表的內容領域在定義和闡述上的嚴密性。

內容領域定義應該充分、詳盡、準確地表明有哪些方面的知識、技能、過程、態度、價值、情緒或行為是包括在測驗中,哪些又不包括在測驗內。清楚的描述將有助於審查人員和其他有關人員對於已經定義的內容領域和測驗題目之間的一致性作出正確的判斷。

標準 3.11
測驗編製者應將測驗內容所代表的領域和測驗規格明細表都作成書面說明,以利於作出有效的分數解釋。

說明:測驗編製者必須提供試題和評分規程代表限定內容領域的程度的證據,這樣有助於確定測驗分數是否能夠概推到所評量的內容領域。這一點對於只有少量試題的實作評量特別重要。這類證據可經由專家仲裁來提供

標準 14.8
基於測驗內容的效度證據要求對於有關的內容領域有透徹和清晰的界定。
對於用於選拔、分類和晉陞的測驗,對內容領域的特徵描述需要根據工作分析(job analysis)。

說明:一般說來,應該根據工作任務、工作人員的知識、技能、能力和其他人格特徵等方面來描述工作內容領域。這些特點應該具有清晰的量化定義,以便與測驗內容相連接。同時,這些工作要求在一段時間內不會出現明顯的變化。
這些包括在內容領域裡的知識、技能、和能力,也應該是那些工作應徵者在被僱用時應該擁有的。

測驗編製步驟(3)及其對應的教育與心理測驗標準

3. 編寫測驗規格明細表

標準 3.3
測驗規格明細表(test specification)及其研發的理論依據和過程應該作成書面說明。
測驗規格明細表應對測驗內容、建議的試題數目、題型、試題的心理計量特性上的要求、以及各部分試題的安排等作出界定。
測驗規格明細表中還需要說明測驗的時間限制、對受測者的指示、施測和評分的步驟,以及其他有關事項。

說明:專業判斷在測驗規格明細表的製訂中扮演重要角色。
製訂規格明細表的具體步驟要根據測驗目的而定。
例如,在編製授與執照或證書的測驗時,對實際開業人員知識能力的分析和工作內容的分析,常為界定測驗規格明細表的範圍提供了實務的基礎。
而工作內容分析也為僱用測驗提供了基礎。
對於一門課結束時的學業成就測驗而言,測驗的規格明細表須要以課程內容大綱和教學目標為準。
但對安置測驗(placement test)來說,可能有必要審視好幾門課程在起步時所需要的知識和技能。

標準 3.4
解釋測驗分數的程序必須作成書面說明。合適時,建立常模的或標準化的樣本,以及所使用的效標的詳細說明也須作成書面說明。

說明:測驗規格明細表可以註明測驗分數的解釋是相對的還是絕對的,或是兩者兼而有之。

在相對分數解釋(常模參照式測驗)情形下,一個人(或一群人)的位置是由這個人的分數(或次群體的平均分數)相對於他所比較的一個或多個事先劃定的次群體而定的。

在絕對分數解釋(標準參照式測驗)情況下,分數(或平均數)被認為是直接反映受測者(或受測者次群體)在某個已經定義的效標領域的能力或精熟水準。

針對一種解釋而設計的測驗,對於另一種解釋,可能效果不是那麼好。但是,如果試題選擇完全吻合領域的界定,且如果可以衍生出一無可非議的標線標準的話,常模參照測驗裡得出的分數,也有可能做出有效的絕對分數解釋。

反之亦然,標準參照測驗裡產生的絕對分數也可能做出合理的相對分數解釋。但是設計來測量某一水準的精熟測驗(Mastery Tests),可能無法提供足夠的變異性來讓這些受測者做出正確且精細的排序,因此難以建立合理的常模。