2011年10月30日 星期日

測驗編製步驟(12)及其對應的教育與心理測驗標準

12. 測驗技術報告


標準 3.1
測驗和施測計畫應建立在正確的科學基礎上。測驗編製者和出版商要編輯、記錄測驗編製的合適證據。

標準 6.5
當可以得到提供分數信度證據和建議解釋效度的統計描述和分析時,這些資料只要是和測驗解釋有關的,就應包括在測驗文獻編製中。
測驗文獻一般應包括試題層次的材料、分數線和構成切截分數的規則、原始分數和推導分數的材料、常模數據資料、測量標準誤差及關於試卷等化過程的描述。

標準 6.13
當測驗有實質性的改變時,應該對測驗的相關文獻進行修訂、補充或修正,以保持資料的及時性,並提供有用的額外訊息或告誡。

標準 6.14
每一份題本和輔助文件都應該印有版權日期或出版日期。

說明:在正式使用測驗的期限中,可能有新的或修訂過的題本出版,可能增加或修訂手冊以及其他材料。

目前和將來的使用者都有權知道包括題本在內的各種文件的出版日期。在實證性質的研究中,若某些特定測驗文件在研究報告裡被引用得含糊不清時,研究人員之間的溝通就會受到妨礙。

測驗編製步驟(11)及其對應的教育與心理測驗標準

11.建立題庫

標準 6.4
測驗起初所針對的受測者群體和測驗規格明細表應該做成書面說明。
如果適用的話,也應在相關的測驗手冊中描述題庫和建立分數量尺的程序。
如果有常模數據的話,應描述建立常模群體的相關人口統計學方面的變項,以及報告數據收集的年份。

說明:在測驗文獻中還需清楚闡述對某個測驗群體而言,已知的測驗的侷限性。另外,如果某一個測驗有不同語言的版本時,在測驗文獻中應提供測驗翻譯或改編的程序、每個建立常模的樣本和人口統計學資料、以及各種語言版本在分數解釋方面的問題。

測驗編製步驟(10)及其對應的教育與心理測驗標準

10. 報告測驗結果


標準 8.13
在教育測驗和證書及執照測驗實務中,特殊情況需要時,受測者有資格在解決有關測驗的爭端中受到公平對待和合理的處理,並獲知任何現行的索取補償的方法。

說明:當受測者的分數被質疑,並可能被宣佈無效時,或當受測者尋求複核或修改他的分數或測驗、評分、成績報告中的某些問題時,受測者有資格接受一定的審查程序,使得測驗主持人或使用者能提出有效的意見或審核決策程序。

根據與測驗有關的後果的重要性,這個過程可以從測驗主持人對所有相關數據作一個內部複核,到與受測者作非正式談話,到一個完整的行政程序的聽證會。

後果影響越大,有步驟的保護程度就應該越大,還應該通告受測者要求補償的步驟、費用、決議形式、所需時間、以及對受測者造成的任何可能後果。有些測驗計畫會勸告受測者可以請律師,儘管律師費可能要由受測者自付。

標準11.6
測驗使用者有責任及時向受測者和其他有權得到相關訊息者,提供清晰易懂的成績單,除非當時的情形確實需要扣留測驗結果。

說明:成績單的性質常常受實際需要的支配。有時候,可能只需一個簡短的打印成績單就行了。在其他情況下,也許口頭和書面的成績報告兩者都需要。

分數解釋應根據接收對象的理解能力而調整。當受測者是一個幼童時,通常要向家長或監護人解釋測驗結果。

當測驗目的是選拔或晉陞時,通常不需要提供成績單或分數解釋之類的回饋。

標準 11.12
測驗使用者或測驗主辦單位應向受測者說明:如果機會允許,他們可以重考。
測驗使用者也應說明成績單送達收件人的最早和最遲的時間。


說明:有些測驗計畫允許受測者可以一再覆參加,並允許取消成績,或不把成績單寄送接收機構(指申請的學校或企業)。如果受測者享有這樣的權利,應該告知受測者和成績接收機構雙方。

標準 11.15
測驗使用者應該警惕那些潛在的錯誤解釋和可能出現的事與願違的後果。測驗使用者應採取措施,將可以預見的錯誤解釋和事與願違的負面後果降低到最低限度,甚至避免這樣的事情發生。

說明:善意的、缺乏專業知識的社會大眾也許會過於簡單地解釋測驗分數,或將高分、低分或平均分數都歸結為單一的原因。經驗豐富的測驗使用者有時能預見這樣的錯誤解釋,並應設法防止其發生。

顯然,並非所有的事與願違的後果都可以預見,但我們需要盡力去防止出現負面後果,並鼓勵正確的解釋。

標準 11.20
在教育測驗、臨床診斷、和諮商測驗中,不應該單獨地解釋受測者的測驗分數;應考慮綜合其他訊息,這樣做可能對該受測者分數會產生一些不同的解釋。

說明:不必要也不可能對每一個受測者的分數做詳盡的分析。有時候,也許沒有什麼綜合的或有價值的訊息。然而,在教育、臨床和諮商情境中,很可能存在相當多的相關訊息。

對於低分數的幾種明顯的解釋,一般包括動機不足、語言欠流暢以及不熟悉測驗題目裡的文化背景、知覺障礙或運動機能不平衡等。

在臨床診斷和諮商中,測驗使用者不應忽視受測者在日常生活中的表現。

標準 11.21
除非測驗使用者擁有專業知識,能夠判斷由電腦產製的測驗分數解釋對於不同受測者的合適性,否則他們不應該依賴這些解釋。

說明:評分機構有責任記錄解釋測驗成績的依據。使用電腦化評分並報告成績的人,有義務熟悉電腦產製的測驗分數解釋的一般原理。

測驗使用者應能借助受測者其他的相關證據來評鑑電腦產製的分數解釋。

電腦自動產製的、敘述性的報告不能夠取代中肯的專業判斷。

標準 13.19
在教育環境中,在報告學生群體的平均分數和總分的時候,需要同時報告樣本大小、分數的分佈形態、或離散程度等補充訊息。

說明:在設計分數報告時,應力爭以清晰有效的方式將訊息傳達給接收對象。在多數情況下,除比較平均分數之外,還需要有其他更全面的分數報告,以幫助使用者更明智地使用和解釋測驗分數。

根據測驗目的和分數報告對象的情況,補充訊息可以包括標準誤差或其他關於分數變化幅度的常用測量指標,或每個分數分佈裡若干經過選擇的百分位數(percentile point)。

另一種可能的變通方式是,在建立基準分數之後,在報告各個群體或地區的分數的同時,報告獲得不同基準分數的受測者的比例。例如,這種基準分數可以根據若干經過選擇的百分位數來確定,而這些百分位數是建立在包括所有群體和所有地區的受測者總體的分佈上的。

其他一些概括分數分佈狀態的分數報告方式也很有用。在通報測驗分數的過程中,需要在力求詳細與力求簡明之間保持平衡。

標準15.10
應告知那些有正當理由瞭解某個評量的人測驗的目的,測驗如何施測和評分,測驗記錄會保留多久,以及對誰、在什麼條件下測驗記錄可以公佈。

說明:那些有正當理由的人可能包括受測者、他們的父母或監護人,或是會受到測驗結果影響的人:老師、計畫人員)。

標準15.11
當測驗結果對社會大眾或對決策人員公佈時,負責公佈的人要提供任何輔助材料,並解釋之,使人們對於結果的可能誤解降到最小。

說明:應該描述所做研究的環境條件和侷限性,特別是對有因果關係的研究方法,要著重描述。

2011年10月21日 星期五

測驗編製步驟(9)及其對應的教育與心理測驗標準

9. 設定切截(通過)分數

標準 4.19
當所要做的分數解釋涉及到一個或更多的切截分數時,用來建立這些切截分數的理論依據和程序要清楚地以書面說明。

說明:設定切截分數有時只是為了挑選一定數目的受測者(如填滿現有缺額),雖然這時應把主要注意力放在法律規定上,而不太需要詳細說明切截分數是怎樣設定的。
但在另外一些情形下,切截分數可能用來劃分受測者的類別(如診斷性分類,或及格/不及格),而它又沒有事先定好的比例。這時,設立切截分數的方法就必須清楚地說明。

最理想的狀況,是在設計測驗時就把切截分數在測驗使用及解釋中的地位考慮進去。分數量尺在切截分數附近區域有恰當的精確度是正確劃分受測者類別的先決條件。

如在設立切截分數時用到效標群體(criterion groups)的分數分佈資料,或分數相對於一個或多個效標變項(criterion variables)的資料時,應在技術文件裡綜述這些數據資料。

如果是使用專家共同判斷的方法來確定切截分數,那麼所使用的人數、資格、步驟等也要詳細記載。無論這些共同判斷是針對人員、試題或測驗表現、或測驗分數所預測的其他效標表現,這些判斷所要求的精確度都應呈現出來。

在文件中還應記載這些判斷者的挑選方法及資格、提供的研習、對他們的判斷意見的含義作出的反饋,以及判斷者之間任何交換意見的機會。若可以的話,各判斷結果之間的變異量也應加以報告。

假若設定切截分數的程序可以重做一遍時,應該提供預期的切截分數變異量的估計值。

標準 4.20
若受測者類別的解釋意義在實質上截然不同,這樣的切截分數的建立應該以穩固的實證資料為基礎,如測驗分數與有關效標的相關係數。

說明:在甄聘測驗中,儘管建立測驗分數和職位實作表現的關係很重要,測驗和效標之間的準確聯繫可能對切截分數的選擇沒有多大份量。然而,當不同的分數類別擁有完全不同的解釋時,測驗及其測量的效標之間的實證資料的關係則非同小可。用於解釋診斷性測驗的切截分數可能建立在實證確定的效標群體分數分佈的基礎上。

對於學業測驗或資格測驗(如執照測驗等),常常沒有現成可用且合適的效標群體(如成功或不成功的執業人員)然而,在合適和可行的情形下,最好還是要能夠瞭解在實務中測驗分數和工作表現的關係。

注意,一個完全根據對內容的相關性和試題難度判斷而設計和落實周全的程序可能優於一個用不恰當的準則測量方法或有某些其他的缺陷的實證研究。

在任何給定情況下,確定一種或數種方法合併使用的合適的切截分數設立方法都需要用到專業判斷。一般而言,人們不指望在緊臨切截分數以上或以下的效標變項的程度有明顯不同。但只要實際可行,應提供包括或靠近切截分數的分數域裡測驗和實際標準操作之關聯的證據。

標準 4.21
當界定及格與否或精熟類別的切截分數,是基於對試題、測驗表現、或表現水準的合適程度作直接判斷時,應將判斷過程設計成能夠合理運用判斷人員的知識與經驗。

說明:有時候切截分數的界定是基於試題或測驗分數(如作文)或表現水準的合適程度(如表現臨界線上受測者特性的程度),用於推導出這樣判斷的程序應該產生出合理並經得起考驗的標準,而且這些標準要能正確地反映判斷者的價值觀和意圖。

若要求判斷者所考慮的那種測驗表現是他們已經熟悉的,而且他們對於它的適當性或品質已經形成清楚的概念,那要達到這種判斷就可以很直截了當。

但是當這些測驗表現既不是源自工作樣本(sample),也不是對真正效標領域的知識或技能的逼真模擬(simulation)時,判斷者就不太可能有那麼清楚的理解來完成這判斷。

要有特別的安排,以確保判斷者在作所要求的判斷時,有一個堅實的基礎 。透過對於不同精熟類目的熟悉、在練習判斷工作的難易度時其準確性的反饋、實際做這一測驗的經驗、根據暫定標準會有多少比例會被評為不及格的迴饋,以及其他形式的訊息,都可以幫助判斷者達成重大且原則性的決定。

2011年10月16日 星期日

測驗編製步驟(8)及其對應的教育與心理測驗標準

8. 試題的計分


標準 3.6
題型、作答方式、評分程序、和施測步驟需要在測驗的目的、測量的內容範圍、和所針對的受測群體的基礎上進行選擇。在可能的範圍內,所選擇的測驗內容應該能保證對不同的受測者次群體的分數的推論都具有同等的效度。測驗的審查過程應該包括實證數據資料分析。
在恰當的時候,還應該邀請專家來審查試題內容和作答方式。這些專家的資格、相關經歷以及人口統計學上的特徵,也須要以書面說明。

說明:專家可能做的工作可能包括確認對參加測驗的次群體受測者可能不合適、不清楚或具有冒犯性的材料。例如,可能會請專家們確認,在數學文字題裡缺少上下文對於有些學生來說是否會造成問題。各種受測者次群體可以按年齡、種族、文化、性別、殘障類型、或人口統計學方面的地區分佈來劃分。但這種證據也是有限的,專家的審查可能會使施測中的不公平現象緩解一些。

標準 3.22
測驗編製者應該提供清晰且詳細的評分規程(rubrics)以及(若適當時)評分規準(criteria),以儘可能提高評分的精確度。
評定量尺(rating scales)的使用方式,不論它是經由編碼(coding)、量尺化(scaling)或是對自由反應答案作分類(classifying free responses)所獲得的分數,以及其衍生分數,都應該清楚地加以說明。如果測驗是委託當地人員評閱的話,這一點特別重要。

標準 3.23
測驗編製者應該將對於評分人員的篩選、訓練、資格認證的過程作成書面說明。
訓練資料,比如評分規程,和代表分數量尺上每一點(級別)的受測者答案的樣本,以及訓練評分人員的程序,都應該幫助他們評分結果達到某一程度的一致性,以致於對測驗分數的解釋上能夠符合測驗編製者的期望。
主持評分訓練者對於評分者間信度,以及評分者的評分標準可能飄移的現象,要加以評鑑,並作成書面說明。

標準 3.24
當評分是由地方評量機構負責,並且需要用到評分人員的專業判斷時,測驗使用單位要為評分人員提供合適的研習和說明,並負責檢查評分人員評分結果的一致性和正確性。
測驗編製者應該以書面說明評分人員在評分上的一致性和正確性應該達到什麼水準。

說明:測驗編製者的一個普遍做法是,當測驗是交由地方機構閱卷時,應該提供對方舉辦評分研習會所需要的材料(比如,評分規程rubrics、代表每一分數級別的樣品samples)和評分步驟。

測驗編製步驟(7)及其對應的教育與心理測驗標準

7.測驗的施測


標準 3.18
對於有時間限制的測驗,在確認測驗測量了設計測量內容領域的前提下,測驗編製的調查中應該檢查分數中包含速度部分的程度,並評鑑這一部分的合適性。

標準 3.19
測驗指導語應該要能掌握重點並清楚明確,這樣別人才能夠恰當地重複施行測驗的條件。而信度、效度研究以至常模的數據資料都應該在這種標準化的條件下蒐集。

說明:因為包括學校、工廠企業、和醫療單位在內的所有施測人員都需認真遵守測驗實施上的規定,所以施測人員接受具體的施測指導和施測步驟的說明,就變得非常重要。

標準 3.20
給予受測者的作答指示應該足夠詳細,以使受測者能夠按照測驗編製者的意圖來答題。若可以時,應該在測驗之前提供給受測者樣本材料,比如例題和練習題、評分規程、以及每個主要單元的代表性試題,或是將此類材料作為標準化施測說明的一部分。

說明:例如,在人格量表裡,可能希望受測者以第一反應來答題。那麼這個期望就應在量表的指導語裡清楚講明。再例如,在興趣和職業調查表的說明裡,要求受測者具體標明哪些是他們理想中想做的活動,和那些他們實際認為有機會和有能力做的事情就可能很重要。

練習材料的性質和程度依據對受測者知識程度的期望而定。例如,如採用一種新型的測驗方式時,給予受測者練習的機會就很重要。在有些施測情形下,說明猜題和時間限制,對於測驗分數的影響可能也很重要。

若允許詳細描述測驗說明的話,上面做法的條件須以一般規則的形式再加上有代表性的例題清楚地加以闡述。若詳細描述不允許的話,也須明確說明。測驗發行單位應在材料中包括處理受測者典型問題的指導。測驗使用者也應當被告之,要如何處理測驗期間出現的問題。

標準 3.21
如果測驗編製者指明在受測者之間,或不同受測者次群體之間,允許施測的條件有變化的話,要確認該條件可變化的範圍,以及用書面說明允許有不同施測條件的理由。

說明:在決定施測條件是否可以變更時,測驗編製者必須考慮並研究不同施測條件所造成的可能效果。如果施測條件不同於測驗編製者所研究的條件,或不同於建立常模的條件時,那測驗分數的可比較性就會被削弱,而常模的應用也會受到質疑。

2011年10月3日 星期一

測驗編製步驟(5)及其對應的教育與心理測驗標準

5.測驗設計與編輯


標準 3.7
編擬、審查、檢驗試題、和從題庫裡選題的程序必須作成書面說明。
如果是根據測驗規格明細表分類成幾個單元時,分類的程序和單元的準確性及合適性都須作成書面說明。

說明:實證證據或專家仲裁可用於根據測驗內容細則而作的單元試題分類。例如,專家小組可將試題分類,或是判斷測驗編製者的單元劃分是否合適。挑選專家小組成員和確定程序要非常謹慎,因為兩者都將影響分類的準確性。

標準 3.8
在進行試題預試(item try out)時,挑選參加預測的受測樣本的步驟,和終極樣本的特性都應作成書面說明。
在分派樣本時,應儘量使參加預試的對象能夠充分代表各個次群體。

說明:導致預試樣本相對於其整個預期群體,在解題時可能出現的些微差異狀況,應該適時作成書面說明。比如說,當接受預試的受測者知道他預試的分數對他沒有任何利害關係時,他們的做答動機就不會像正式受測者那麼高。

測驗編製步驟(4)及其對應的教育與心理測驗標準

4.編寫試題

標準 3.6
題型、作答方式、評分程序、和施測步驟等,都需要在測驗的目的、測量的內容範圍、和所針對的受測群體的基礎上進行選擇。
在可能程度內,所選擇的測驗內容應能保證對於不同次群體的受測者的分數的推論都具有同等效度。
測驗的審查過程應該包括實證數據資料分析。恰當的時候,還應邀請專家來審查試題和作答方式,而這些專家的資格、相關經歷以及人口統計學方面的特徵等資料也須要作成書面說明。

說明:專家可能做的工作有確認對參加測驗的次群體受測者可能不合適、不清楚或具有冒犯性的材料。例如,可能會請專家們確認,數學文字題裡缺少上下文對於有些學生來講是否會造成問題。
各種受測者次群體可按年齡、族裔、文化、性別、殘障類型、或人口統計學方面的地區分佈來劃分。但這種證據也是有限的,專家的審查可能會使施測中的不公平現象緩解一些。

標準 3.7
對於試題的研發、審查、預試(try out),以及從題庫裡選題的程序都必須作成書面說明。
如果根據測驗規格明細表(specification)將試題分類成幾個類別或分測驗時,分類的程序以及分類結果的適當性和正確性都須作成書面說明。

說明:在根據測驗規格明細表對試題進行分類時,可以使用實證證據(empirical evidence)和/或專家判斷(expert judgment)。例如,有時候會請專家小組將試題進行分類,或是判斷測驗編製者的分類架構是否合適。小組成員的資格和小組進行判斷所用的程序,都將影響分類的正確性。

標準 3.17
當已有的研究表明,與構念無關的變異量(irrelevant variance)可能會混淆測驗的內容領域的定義時,測驗編製者應該調查與構念無關變異量的來源。
只要可能,測驗編製者應該排除或減少這些無關變異量的來源。

標準 7.2
當研究報告表明不同的受測者次群體在某個測驗的某部分在構念無關變異量效應上不相等時,這測驗應該只用於那些有證據表明可以從測驗分數中獲取有效的推論的次群體。

說明:對於「某個測驗不適合某個次群體」的結論要有替換的解決辦法。這可能涉及到選擇一個適合所有次群體受測者的測驗,或是在使用不同的構念等同測驗有可能時,對這個現行測驗不能很好測量其構念的次群體受測者採用另一個測驗。
在有些情形下可能會把幾個測驗合起來用,使得其綜合分數在所有次群體中認證有效的推論成為可能。
在愗些情況下,諸如甄聘測驗,也有可能因法律或其他因素的約束而必須對不同次群體的受測者使用不同的測驗。
有時候,受測者請求使用的試卷版本並不是測驗編製者或使用者覺得最合適的版本。比如,一名殘障人士可能推辭替代性考卷而要求使用正常人用的標準考卷。在讓受測者完全清楚測驗本身如何使用及其結果之後,允許受測者這樣的要求並不算違反這條標準。

標準 13.18
透過多媒體或電腦進行施測與評分的測驗,需要將其設計、模式、計分演算法、以及評分和分類的方法等做成書面說明。
在測驗的設計和使用過程中,需要考慮那些因為使用電腦或其他媒體施測所引起的與構念無關的變異量(construct-irrelevant variance)來源,如受測者對科技和測驗形式的熟悉程度。

說明:在做書面說明時,注意不要危及試題的保密性,不要因此而對測驗分數解釋的效度造成負面影響。
在技術質量要求方面,電腦化或多媒體形式的測驗,與其他形式的測驗要求是一樣的。