2016年10月4日 星期二

試題的審查

A. 擬題原則的審查

「選擇反應式」的題型之下,有各種題型的擬題原則,「建構反應式」的題型之下,也有各種題型的擬題原則,以下所介紹的則是各種題型皆通用的擬題原則。

@ 除了語文測驗外,要盡可能降低字彙的難度及句子的複雜度。
@ 文字要精簡,以便減少試卷篇幅及閱讀所需時間。
@ 所提的問題要清楚明確,沒有第二種解釋。
@ 要確定每一試題所考的是內容領域裡的重要概念,而非旁枝細節。
@ 同類型的試題中,各題的格式、語法要前後一致。
@ 取材時要避免偏袒某類受試者,以確保測驗的公平性。
@ 撰寫題目時要隨時參考各種題型的命題原則。
@ 要比實際需要量多擬百分之五十的題目,以備檢查、比較後淘汰。
@ 客觀計分的試題,一定要備有各專家都能同意的正確答案或最佳答案。
@ 寫好後過幾天,再自己檢查一次,或請同事檢查,以避免個人的盲點。

B. 公平性的審查

公平性的審查是要找出有偏差的試題,所謂試題偏差(Item bias)是指該試題的內容或敘述方式可能讓某些群體引起不必要的情緒反應或覺得不公平;或是回答該試題時需要用到與測驗目的無關的能力,而使得某些群體處於不利的地位。判斷是否有試題偏差最好要找不同性別、不同種族、不同社經地位或不同性質學校來源的成員來逐題評鑑。
有經驗的審查人員會從認知、情感、及生理三方面找出可能造成分數變動的無關變異量(指與所測量的構念無關,但卻會影響實得分數的變項)

1. 要避免認知方面的無關變異量

a. 排除不必要的深奧詞彙。  除了語文科測驗之外,考試題目中若使用了不必要的深奧詞彙,就會變成在考語文理解能力,不只有利於語文能力佳的考生,也會使測驗效度降低。
b. 排除與構念無關的知識與經驗。 除了少數特殊性質的測驗外,試題內容若涉及軍事、地區主義、宗教、運動、特殊工具、政治意識形態等,通常會對缺少該知識或經驗的考生不利。

2. 要避免情感方面的無關變異量

選擇閱讀材料或邊你試題時要避免包含與構念無關卻易引發情感反應的議題。例如:意外、疾病和天然災害、死亡和頻死、種族或性別等群體之間的歧視、幽默、嘲笑和諷刺、對於不同國家人民的刻版印象、另有負面涵義的文字、奢華行為、對某宗教的褒貶、性行為、物質濫用(菸酒、毒品)、自殺或自傷行為等等,都容易引發考生的情感反應,讓某些人覺得被歧視、被冒犯,進而影響其作答的情緒和意願。

3. 要避免生理方面的無關變異量

在審查試題內容時,很難找出生理方面的無關變異量,除非它已經印製成正式測驗,或許可以看出是否有印刷不清、裝訂錯誤、作答位置太小的問題。但是在考試過程中,生理方面的無關變異量造成的影響比較明顯,例如,考場中的光線不足、噪音干擾、桌椅不舒適等,另外,遇到殘障學生(視障、聽障、腦傷、肢體殘疾等),而需要輔具或或變更試題呈現方式或作答方式,這些都是在排除生理方面所造成的無關因素。

評鑑時任何有偏差嫌疑的試題都應該拿出來公開討論,只要懷疑者能夠說服其他人,該題就應該刪除或更改,不可以未經過討論就以表決方式決定去留。以下是供審查人員使用的試題偏差檢核表:

1 評鑑試題偏差的檢核表
  1.題目中沒有對於次級團體的攻擊性的內容。
2.
題目中沒有對於次級團體的攻擊性的用詞用字。
3.
題目中沒有次級團體可能不熟悉的活動或情境。
4.
題目中沒有對於次級團體的刻版印象。
5.
題目中沒有會助長對次級團體刻板印象的內容。
6.
題目中沒有不必要的艱澀字詞或複雜的句型結構。
7.
題目的格式應該是任何次級團體所熟悉的。
8.
題目的內容應該是任何次級團體所熟悉的。
9.
解答題目所需要的技巧應該是任何次級團體所熟悉的。
10.
提供題目訊息的方式不會使次級團體成員覺得難堪或困惑。

C. 內容的審查

對於草擬試題優劣的評鑑,有兩種方式,一種是經驗判斷法,一種是實證研究法。經驗判斷法又稱「試題內容審查法」,它是找一些相關的人來,並依據一些評鑑標準對編擬好的試題內容做評鑑。有關的評鑑標準、評鑑人員資格及人數、對評鑑結果一致性的要求等都經過整理列在表2中。
至於使用哪些評鑑標準則是由測驗目的來決定,並不是所有標準都得同時使用,但通常不論哪種測驗都有好幾個標準可以適用。

表2 以「試題內容法」評鑑試題的摘要表
評鑑標準
       
     
評鑑者人
結果是否
應該一致
答案正確性
標準答案是否正確?
學科及測驗專家
少許
題意明晰性
是否符合題目編寫標準?
表達是否清楚?
學科及測驗專家
學生
少許
很多
也許
答題難易度
試題難易程度是否恰當?
教師、學生
內容重要性
此一知識技巧是否重要?
學科專家、教師
也許
試題偏差
是否會讓特定團體成員覺的不公平?
各種團體成員
可能不
與測驗計畫符合性
試題是否符合教學目標或命題計畫的界定?
學科及測驗專家
少許
也許
與課程關連性
試題所要測的知能是否出現在課程教材中?
學科專家、教師
很多
不必,但越高越好
與教學關連性
學生是否有充分機會學到試題所要測量的知能?
教師、學生
很多
不必,但越高越好

1. 答案的正確性

答案的正確性是指該題目的標準答案是否取得各專家的一致同意。判斷程序是在該題已經完成所有編改程序後,請多位對該題目所評量的內容深具學養的專家來獨立作答,若答案有不一致,則應該透過相互討論來取得一致;若意見仍不能一致,則該題應該廢棄,絕對不可以採用表決來決定標準答案。

2. 題意的明晰性

題意的明晰性通常是指題目的用字淺顯、精確,句子結構簡短,且格式前後一致,學生不會因為命題者的表達方式而產生困惑。明晰性高的題目可以降低語文理解能力與一般智力對測驗分數的影響,提高學科成就測驗的效度。

例題1
(    )1.
辨別太白粉的方法是什麼?(題意不清)
          A.
加水   B.加食用醋   C.用聞的   D.加碘液
(    )2.
哪一種是辨別太白粉的方法?(較佳)
          A.
加水後會溶解   B.加食用醋會起泡   C.聞起來香香的  D.加碘液會成蘭紫色

3. 試題的難易度

難易度是指全部受測學生答對該題的人數比率。只根據試題內容來判斷試題的難易度確實不容易,尤其是面對新的題型或新的教學單元時,因為缺乏類似題目的經驗,即使是資深教師也難以掌握它的難易度。此一評鑑標準若可以的話應該改用學生實際答對比例來推估。
教師對試題難易度的初步估計可作為預試時排列試題之用,然後再以試題分析求得的通過率取代之。但若無法進行預試及試題分析,那教師的難易度估計將是編排試題的唯一依據,這時可以根據多位教師對該題難易度估計的平均值來排列試題。

4. 內容的重要性

所謂內容的重要性是指該題目所測量的知識技能是課程的最核心部份、或是勝任某一工作所必備的、或是進入下一單元學習所必需的。當我們對題目做重要性的判斷時,最好指出其參照點(如,對......而言是重要的),同時應該容許它有程度上的區分(如,非常重要、有些重要、有關係、無關的)。

5. 與測驗計畫的符合性

一般而言,測驗命題計畫會對教學目標、試題格式、刺激屬性、認知層次、誘答產生原則等都有詳細的敘述,以作為對試題的「界定」(或稱試題規格)。而符合性是指請學科及測驗專家來判斷該試題是否符合命題計畫上的界定
判斷試題與其界定的符合程度是一件技術性很高的工作,評鑑者常需要親自作答,以推論回答該題所真正需要的認知或其他能力。由於題目所測量的內涵有部份取決於學生的學習或其他經驗,而評鑑者常因為對學生經驗了解不夠,而平添了判斷上的困難,例如專家認為可以測量學生應用能力的試題,很可能教師已經當作例題講解過了,因此實際只能測到學生的記憶能力。
另外,評定整份測驗的所有題目是否能夠充分代表所欲測量的內容領域,也是很重要,這種把所有題目與命題規格明細表 (Specification) 做比對的過程稱之為「內容效度的驗證」。

6. 與課程的關連性

當專家們認為試題內容與學校課程內容或職業訓練課程內容相符合時,它即具備了「課程效度」。若該測驗是用來為某一職位篩選合格人員時,它的試題就必須與該職位的工作分析結果或職業角色描述有密切關連。

7. 與教學的關連性

「與教學的關連性」又稱為「教學效度」是指教學評量或畢業資格考試等的試題是否與學生的實際學習內容有密切關連。藉著調查教師所用的教材及教學進度可以評估部份的教學效度;但最直接的方式還是直接詢問教師(和學生),看測驗所考的知識和技能是否他們教(或學)過。此時應注意的是,問題重點不在於題目內容是否在課堂上討論過,而是學生是否都有公平機會學習解答該題目所需要的知識和技巧。

沒有留言: