2016年10月24日 星期一

計分方式:二、主觀計分

所謂「主觀計分」是指試題沒有標準答案,因此若由不同的人來評分,常因評分者個人價值觀或參考標準的不同而有不同的結果。主觀評分實際上是一種批判思考或做評鑑的認知歷程。
主觀評分常用在多種不同的場合,例如:紙筆測驗中的作文、申論題的計分;口試的計分;作曲、繪畫、雕塑、劇本等藝術作品的評分;聲樂、樂器演奏、舞蹈、體操等表演的評分(請參閱第七章第三節實作評量的計分),以及使用評定量表對學生做情意方面的評分。
主觀計分法因為有觀察時以偏蓋全、給分標準寬嚴不一、主試者個人偏好等缺點,因此常需要採取各種努力以降低這些影響,提高評分結果的客觀性。以下是測驗學者在使主觀計分更加客觀化所作的努力。

A. 加強評分人員的訓練

1. 聘請專家製作一份共用的給分量表。 應該先聘請該領域的專家或資深從業人員做為評分人員,然後抽取代表不同能力的試卷來評分,並製作出一給分量表,此量表可以顯示不同層次答案及該答案應得分數。如此有統一的參照標準,可以減少其他評分者標準過嚴或過寬的影響。在小規模的教學評量中,教師可以條列出構成好的或可接受的答案所應包含的要素,以當做計分的依據。
2. 釐清寫作技巧所佔的角色。 如果您是在評生物學試卷的申論題,那麼考生寫錯別字或者文法有錯誤,是否會影響到分數?寫作技巧一般都會影響到您對於答案的整體印象,所以事先決定寫作技巧是否以及什麼程度下會包括在計分規準中視很重要的。但是,無論您做何種決定,把這些寫作技巧分開計分(若那也是教學目標之一),而不要加入該科的總分裡會是比較好的決定。
3. 訓練一般評分人員。 若無法聘請到足夠的該領域專家,則應該辦理一般評分人員的講習,透過講解、示範、練習評分、檢討與更正等過程來幫助評分者熟悉評量工具,提昇其評分的正確性。
當有數位評分者同時進行評分時,應該提供學科專家製作的多種參考答案及該答案應得分數(評分量表)以供評分者參考,若無法製作給分量表,也應該由評分人員事先協議評分重點或標準,以取得評分上的一致性。
4. 淘汰不適當的評分人員。 在評分完後,主持人可以分析比較各評分人員的評分結果,做為下次是否繼續聘請的依據。舉例來說,若有數個評分者同時評量一組學生作品,則各評分者所評的分數可以列出來,如表 6-1

    6-1 五位評分者評分結果分析表
                             
                   A   B    C   D   E
            01   2    1    5    3    9*
  
     02   8    7    5    7    2
            03   6    7    6    9    1*
            04   5    4    5    4    7
  
     05   8    6    6    6    8
            06   7    6    7    7    2
            07   5    5    5    4    2
  
     08   5    7    6    6    1*
            09   5    3    5    6    9*
           10    8    6    6    8    2
最高分       8    7    7    9    9
最低分       2    1    5    3    1
 
          6    6    2    6    8
 平
均數   5.9  5.2  5.5  6.0  5.3

經分析比較之後,下列人員不應該續聘:
1. 該員所評的各分數的全距明顯地比別人的小(鄉愿型),如評分者C評分的目的就是要將學生的能力分出高下,但若評分者能力不足或不認真,就會把每個作品的分數打的很接近,而失去區辨學生能力的功用。
2. 該員所評的各分數與其他評分者所評的有明顯地差距(標準怪異型),如評分者E主觀計分時,就同一作品每個評分者所給的分數常會不一致,但是若其他評分者之間彼此分數差距很小,唯獨此員的分數與別人的差距特別大,則表示此員評分時所持的標準與其他評分者明顯地不同,應該加以剔除,以維持標準的一致性,減少爭論。
3. 該員全部所評分數的平均數比其他評分者的平均數明顯偏高(寬鬆型),或明顯偏低(嚴苛型)。評分者給分寬鬆或嚴苛,在所有的評分者都評閱相同作品時,並不會影響評分的公平性;但是在不同評分者評閱不同作品時(例如,大專聯考的作文評分),這種給分標準的分歧會造成評分上的不公平。

B. 改進評分程序的設計與管制

1. 多人獨立評分後加以平均。 同一份作品由多人獨立評分後,再將分數加以平均,如此可以降低評分者個人主觀的影響,提高評分的信度。但是評分者人數增加則評分的成本也會增加,所以通常只有在採用費時較短、信度較低的整體式評分法時,或是非常重要的測驗上,才會採用多人獨立評分方式。使用此法時,最重要的是「獨立」評分,如果經過共同討論再評分,雖然有可能會使個人觀察的偏差減少,但也可能使個人的偏見傳開來。
若因時間、經費或評分者專長上的限制,無法使每一評分者都評閱全部試卷的所有題目時,可以讓各個評分者分別評閱全部試卷的某一題目,如此使每一份試卷都在相同的人和相同的標準下做比較。國內的公務人員高等考試或研究所入學考試,就常採用多人命題、多人閱卷的方式,命題者即是評分者,且通常只評閱自己命題的那些試題。
2. 釐清錯別字與文法、句法所佔的角色。 由於錯別字和文法的寫作方面的能力一定會影響評分者對於答案的整體印象,所以應該事先決定是否或到什麼程度把這些也納入評分規準。案不論決定如何,謝些寫作技巧應另外給分數,而不是把這些分數加到總分裏頭。
3. 採取多人評分並剔除兩極端分數後,再求平均值。 如果是重要的競賽,而且評分時評分者可以辨識被評者身份時,如奧運會的體操、跳水、花式溜冰,或全國性個人舞蹈、演講、鋼琴演奏比賽等,常採用多位評審同時評分,然後去掉被評者所得的最高分與最低分,再加以平均。這種平均數叫做「去端平均數」,這樣做可以減少評分者故意的偏袒,並提高評分的信度。
4. 若可能,隱藏受試者的身分。 當評分者不知道被評的對象是誰時,就可以排除評分者先前印象的影響並防止評分者故意偏袒的可能。影藏受試者身份的方法包括:將試卷姓名或號碼部份加以彌封、重新編造密碼、弄亂原試卷排列次序、重新謄錄。但是若閱卷者是原來任課教師時,教師仍可由寫作風格及筆跡辨認出學生身份,所有學生都不被認出是不可能的。
5. 先評閱全部試卷的某一題,待該題全部評閱完後,再評閱下一題。 這種閱卷順序,不但使閱卷者能夠集中注意力於同一題目,加速閱卷過程;也使得評分者能夠對同一題目維持相同的標準,增加評分的正確性。相反地,若閱卷順序是每一張試卷的題目全部評完後才評閱下一張,則很容易因為對先前題目的印象而影響到下一題的評分,而造成心理學上所謂的「月暈效應」。

C. 分析式或整體式評分

1.分析式評分

分析式評分(analytical scoring)是將評審的標準分析成幾個代表不同特質的項目,並就各項目賦與不同的比重(佔分比例),計分時則先就每一個項目給分,再合計總分。此法雖然可以提高不同評分者之間的一致性,又能提供診斷性的訊息;但是若項目分得太細則會增加評分者的負擔,反而使分項計分流於形式。除此之外,越是強調獨創性、整體性的作品,越不容易採用分項計分,所以無法普遍使用。

2.整體式評分


整體式評分(global or holistic scoring)是只就每一被評審對象給一總分或排列其等級,而不另外分項給分。此法的優點是:1.簡便易行,計分速度快,2.可用於難以分析成不同特質的評分對象上。缺點是:1.個人的主觀因素的影響變大,分數的信度較低,2.無法提供充分的回饋訊息,讓學生有所改進。

計分方式:一、客觀計分

A. 手工計分方式

所謂手工計分(hand scoring)及是以閱卷者的肉眼來核對試卷上的答案是否與標準答案一致,並以手做記號來算分數。計分者可以採用下列方式提高計分效率並減少錯誤。
1. 紙條對照式。 計分者把正確答案寫在紙條上,然後放在學生作答位置旁邊,使正確答案能夠對應並緊靠著學生的答案,接著逐題核對以「V」表示答對,以「×」表示答錯,再計算答對題數;若只以「╱」標示答錯題目,錯誤率較高。這種方式比較適用於直接在試卷上作答的測驗。
2. 厚紙打洞式。 以厚紙印製答案卡,然後在正確答案處打洞,稱之為「計分卡」計分時將它疊在學生的答案紙上,數數看這些洞中出現幾個作答記號即是其原始分數。以這種方式計分時,計分者先要逐題檢查是否有一題選兩個答案的情形,如果有應該用紅筆把該題劃掉後再計分。
3. 透明膠片式。 以透明膠片放在標有正確答案的答案紙上,並在正確答案處以色筆畫圈,作成計分膠片,然後疊放將它在學生答案紙上,數數看有多少個圈內有作答記號,即其原始分數。
4. 複寫紙式。 有些標準化測驗的答案紙具有複寫紙的功能,上面一張和平常的答案紙一樣,下面一張則是標有正確答案位置的計分紙,由於兩張重疊且周沿密封,所以學生並不能看到下一張的答案。計分時才把兩張紙撕開,數算計分紙上正確答案位置內的符號即可算出其原始分數。

B. 手工計分應注意事項

使用手工計分時應該注意下列事項:
A. 由他人計分時,應抽取10% 做複查,若錯誤率偏高時,應該全部重閱。若事先要求計分者署名負責,通常可以減少錯誤比率。
B. 評閱填充題、簡答題、應用題時,若把錯別字、文法、書法、或計算過程完整性等變項也都納入計分,並無不對,但應該事先告知學生才公平。
C. 相同題型內的各個試題不要因為重要性或難度不同而給予不同的加權。研究證明,試題間的加權計分只會提高計分工作的複雜性及錯誤的可能性,並不能提高分數的信度。
D. 選擇題若採用「部份知識計分」(即以挑錯方式作答),或「信心加權計分」(即依據各題信心指數及答案對錯來加減分數),只會增加計分複雜性,是弊多於利。

C. 機械計分方式

進行大型的測驗計畫或是常用的團體能力測驗時,因為受測人數龐大,需要有更有效率的計分方法。資訊科技的發展,使得測驗學能夠利用光學掃瞄儀器加上電腦,進行正確又快速的機器計分(machine scoring),唯其共同的缺點是作答記號未塗滿或稍有偏斜或顏色太淡,光學掃瞄器就不起反應。
機械計分依據答案紙大小可分成下列兩種:
1. 單面讀卡式。 此法的優點是機器處理速度快、卡片印刷成本低;缺點在於因為卡片的面積小,所能夠容納的題數較少;作答位置太小且太密,不適於國小兒童或手眼協調不佳者使用。答案卡格式通常如圖6-1



2. 光學掃瞄式。 使用此計分方式時要考慮紙張的透光率及正兩面作答位置是否重疊等技術問題,因此其缺點是製作技術較難、印刷成本較高,但其優點是採用A4規格紙張,且正反兩面都可作答,所以可容納題數很多。試題很多的考試(如GRESATTOEFL 或分測驗很多的綜合性向測驗、成就測驗(如GATB, DAT )中常採用光學掃瞄式計分。答案紙格式通常如圖11-1






111  機械光學掃瞄式答案紙

D. 機械計分應注意事項

使用機械計分雖然有迅速、正確的優點,但也應該注意下列事項,以避免錯誤的發生:
1. 事先確定學生都已經熟悉答案紙格式及作答方法。 若可能應該做模擬練習,以減少學生的焦慮與困惑;大部份的學者都主張小學二年級以下不應該使用機械計分的答案紙。
2. 要求學生作答時要將選答的位置塗滿並塗黑。 否則光學機械可能不起反應,而當成空白處理。
3. 要求學生更改答案時一定要擦拭乾淨。 即使不小心造成的污點也要擦拭,以免機械誤判。

4. 事先測試機械性能,以免產生大規模的錯誤分數。 例如:光學閱讀機的敏感度如何?電腦程式對於單選題中讀到兩個答案時會如何處理?答案紙起皺紋到什麼程度就不能處理?等等。

計分方法:四、各種擴大試題區辨力的客觀計分方式

二元計分法是客觀計分法中使用最廣泛的。它只就學生的反應做全對或全錯的判斷,而不需要根據反應的完整程度或正確程度而給予部份的分數。傳統的是非題、選擇題、配合題、填充題都是採用這種計分法,它因為具有方法簡易、時間節省、及結果一致的特性,而廣被採用。
傳統的二元計分法雖然方便,但有時候為了讓測驗結果在有限的題目中產生更多的序階以提高區辨力,降低同分的人數,而不得不採取較複雜的計分方式,例如以下的幾種計分方式:

1. 容許表達方式差異的二元計分法

這種計分法通常用在填充題,它允許正確答案的同義詞、用英文或注音符號表示、答案的上位概念都算做正確答案。此法雖然仍是二元計分,但是卻能避免了因為語文表達能力的差異而影響分數,造成效度的降低。有些填充題要回答的是帶有單位的數值,這時若考生使用了與標準答案(例如15 kg)不同的單位來回答(例如33.07 lbs),若經過換算之後正確,亦可接受該答案。

2. 數值答案帶容許誤差的計分法

這種計分方法是用在答案為數值的填充題,或是計算題。例如,台灣本島的南北縱長為多少公里?若答案在394±10公里之間,可得100%的配分,答案在394±20公里之間,可得50%的配分,其餘答案為零分。

3. 依據刪除錯誤選項數的計分法

這種計分方式是要學生在作答時,不是選出正確答案,而改採刪除錯誤的誘答。學生能刪掉錯誤的選項愈多就愈能拿到高比例的配分。例如,在四選一的單選題,若能刪掉三個錯誤選項,可拿100%的配分;刪掉二個錯誤選項可拿50%的配分;只能刪掉一個錯誤選項就拿25%配分;沒有作答,或刪掉了正確的選項,就得到零分。這種計分法讓有部分知識的學生也能拿到部分的分數,而不是要硬猜一個正確的答案,而使得機遇因素影響分數。

4. 同題多次作答直到答對的計分法

當以電腦作答時,程式可以設計成允許多次嘗試做答,在四選一的單選題上,若在第一次就答對學生可以得配分的100%,若第二次才答對,則可得50%;若第三次才答對,則可得25%;若三次沒答對則該題就是零分。這種方式可讓有部分知識,可以刪掉某幾個選項的學生也能得到部分的分數,因而更精細地區分學生的能力。唯學生需要在電腦上受測,成本較高,且不利於有電腦焦慮症的學生。

5. 答案完全正確則進一步採計時加分法

個人的能力會反映在作答的速度與正確上,但傳統的團體紙筆測驗只能記錄答案是否正確,無法紀錄其反應時間。如果以個別測驗,或以電腦作答時,我們就能夠記錄呈現試題到學生完成作答所花費的時間,這時對於答對,而且反應時間比其他答對者還短者,給予計時加分,就可以增加試題的區辨力。例如,魏氏兒童智力量表(WISC)的「連環圖系測驗」、「圖形設計測驗」、「物形配置測驗」都是採用這種答對就計時加分的計分法。

6. 依選項合理程度給予部分配分的計分法

當選擇題的每一個選項都經過統計上的試題選項分析,以及認知結構上的分析,那麼不同的誘答就可以代表不同程度的部份知識。因此學生雖然沒有答對題目,我們仍然可以依據他選的是哪一個誘答,若仍算部分合理,也給予不同的部份分數(80%~20%)。這種計分法通常比二元計分法更能夠精細區分學生的能力。唯各個選項要事先做過深入的解題思考過程分析,才能決定各選項的加權量,除此之外,因為計分方法複雜,還要有電腦計分的配合,才可以避免人工計分的繁瑣與錯誤。

8. 依試題難易度加權的計分法

當施測紙筆測驗且以人工計分時,通常會採取對於相同題型的題目,不論其難易度,一律給予相同的配分。但是若題目是取自經過試題分析的題庫時,因為已有各個試題的難易度指數,我們就可以改採用較難的試題給予較高的配分,而較簡單的試題給予較低的配分。如此一來,兩個考生都答對30題,但他們的分數卻不相同,答對較多比較難的試題的考生分數會比較高。這種計分方法要有兩個先決條件,第一是試題要先經過試題分析,最好是以項目反應理論(Item Response TheoryIRT)分析過,才能取得比較穩定精確的試題難易度指數;第二是要以電腦計分,才不會因為太過繁雜而出差錯。
9. 依作答者信心加權的計分法
所謂信心加權計分(weighting by degree of confidence是指學生除了寫出答案外,還要指出對自己的答案的信心有多高,計分時就按照其信心程度給予不同的加權,此種計分法可以降低猜答的影響,並擴大分數分配的全距,提高評量的信度。例如是非題可採用表5-7 做加權計分。

5-7  是非題的信心加權計分方法
  學生認為     標準答案為「是」    標準答案為「非」
該題敘述是:   應給分數           應給分數
絕對正確          2                     2
可能正確          1                     0
不確定              0.5                  0.5
可能錯誤          0                     1
絕對錯誤          2                     2
   
選擇題及填空題也可以採類似方法進行加權計分,但有些學者指出當題數超過20題以上時,學生分數的全距自然拉大;且題數越多,以信心加權方法產生的分數差距越顯的微不足道,反而增加計分上的工作量,所以實際上大多採用增加題數,而很少用信心加權法。

10. 重組題的計分

重組題的答案因為有許多種組合方式,而不同的組合也代表著不同的正確程度,所以用全對或全錯的二分法來計分對於那些非常接近正確答案的人是很不公平的。但是依照選項數目把它拆成幾題來分別計分也會產生問題,例如表 5-6 的學生甲在六題中沒有一題答案是完全吻合,所以應得零分,而學生乙恰好有兩題答案完全吻合,卻可得二分,但實際上學生乙的整個答案的排列比甲更離譜。
較理想的計分方法是採用「差異絕對值法」,此法是計算學生答案與標準答案之間差異的絕對值,並累加起來;絕對值越小表示越接近正確答案,應給較高的分數。此法的缺點是需要有電腦的配合,否則以人工計算實在太費時、費力。

5-8  重組題上兩位學生答案與標準答案之差異
(試題:請依據下列各縣的地理位置由北向南排列)
            標準   學生甲   差異      學生乙   差異
            答案   答案     絕對值    答案     絕對值
  雲林      4         3        1                2         2
  彰化      3         4        1                3         0
  苗栗      2         1       1                 4         2
  屏東      6         5       1                 6         0
  嘉義      5         6       1                 1         4
  桃園      1         2       1                 5         4
                         合計= 6                合計=12

11. 比例計分法

比例計分法是依據「要求完成的數量」與「實際完成的數量」之間的比例來計分。它特別適合用在語文科目的默寫、背誦、朗讀等評量方式。例如,要求默寫一篇300字的文章,在扣除錯別字及漏寫的部份後,實際只有240字,佔80%,若再乘以該題配分15分,則實得分數應為12分。
比例計分法只適用於有絕對對錯標準,並且只重視完成數量的評量方法上,而不適用於強調品質高低的評量方法。

12. 猜答現象與矯正方法

當測驗所用的題型為「是非題」或「選擇題」時,盲目猜答也有很高的猜對機率(但依選項數增加而降低),所以難以防止學生猜答;尤其當題數很多而作答時間不夠用時,猜答情形會更嚴重。猜答現象對高能力的學生影響不大,但會使低能力學生的分數更不穩定。
當猜答的題數越多,測驗分數中由隨機誤差所形成的部份就越大,評量結果就越不可靠,所以應該設法將猜答造成的誤差加以減少或均等化。減少猜答造成的誤差的方法是採用猜答矯正(correct for guessing)公式計分。至於要把猜答造成的誤差均等化的方法是在作答說明中「鼓勵所有的學生猜答」。
猜測矯正公式是假定學生答錯的題目都是因為不懂而盲目猜答所造成的。因此,在四個選項的選擇題中,若學生答錯了三題,即可推論他同時也盲目猜對了一題。所以真正答對題數應以下列公式估計:

真正答對題數估計值 =  答對題數 - (答錯題數 / N-1)
                                                                                                                                 
公式中N是選項的數目,在是非題中N=2,在選擇題中N通常是45

使用猜測矯正公式因為有下列缺點,致使實際使用者並不多。
1. 即使已經在作答說明中提出警告,仍然有大膽的學生盲目猜答,而謹慎小心的學生即使有部份知識也不敢猜答,這將使得人格因素影響測驗分數。
2. 增加計分上的困難,除非採用機械計分加上電腦程式的配合,否則人力和時間都會大量增加,且容易出錯。
3. 低能力者可能因為倒扣而得到負的分數,這將難以向家長或行政人員解釋。
4. 學生猜答時並不完全是盲目猜答,學生常以部份的知識進行推理,猜測最可能的答案,這是一種解決問題能力的表現,是教師所應該鼓勵的,而不是要禁止的。
由於猜測矯正公式有上述缺點,再加上測驗專家已由實證研究中發現當鼓勵學生每一題都作答,且給予充裕的作答時間時,無論是否採用矯正公式,兩者的分數排列順序幾乎完全一樣,所以現在大部份的標準化測驗都已經不再使用矯正公式了。

不過在下列狀況還是可以考慮使用矯正公式:
1. 若試題選項數少,題數很多且都偏難時,使用矯正公式可以使低分組學生的分數較可靠。
2. 在選項數少而題數多的速度測驗上(如校對測驗),使用矯正公式可以產生阻嚇盲目猜答的效果。

除了使用猜測校正公式之外,另一種防止盲目猜答的方式是當作答時間短而試題題數過多,且試題已經經過試題分析並依難易度排列,則計分時可以檢查試卷,若在答案紙後半部發現有連續錯數題之後偶然出現一題對的,即可推斷那是在盲目猜答下猜對的,可以不予計分。

施測程序:四、測驗結束後

測驗結束後應該命令所有學生把筆放下,先收回答案紙,再收題本,依這順序可以避免學生乘機亂填未答完部份。當材料收完後主試者應該進行:
1. 整理。 整理是指把收回的題本及答案紙分開排放整齊,並依照編號排順序,其目的是要方便後續的清點及計分。
2. 清點。 實施標準化測驗及入學考試等都非常重視清點工作,因為標準化測驗題本需要重複使用,遺失將造成試題外洩的可能。而入學考試分數則事關重大,遺失試卷將造成極大風波。

評分

1. 檢查答案紙。 若採電腦計分,在將答案卡放入讀卡機或掃描器之前,先檢查畫答案的方式是否正確,是否畫得夠黑;更改的地方是否擦拭乾淨;所有答案紙堆疊時上下和正反面是否都一致;最後,計分鑰是否完整且正確。
2. 安排適當時間和程序。
3. 先試閱幾份測驗卷。 在主觀計分時,先掃閱一些試卷,找幾份表現比較好的試卷進行評閱,以確定給分的標準。若發現多數受測者對某一題目的題意有誤解或回答方向很分歧,就可以考慮直接剔除該題目,不予計分。

發還測驗卷

發還測驗卷只出現在教學評量的情境,特別是以改進學習成效的形成性評量中,然而在標準化測驗或是大規模考試中,受測者除了能得知自己的分數外,是不可能再次看到測驗卷的。
1. 儘早發還測驗卷。 教師若要讓學生的測驗經驗轉化成一正向的學習經驗,那愈快讓學生看到自己的作答結果就愈能夠產生立即回饋的學習效果。
2. 應尊重隱私權。 不要在發還測驗卷的過程中公開個人的分數,這不只會讓學生難堪,也是違反專業倫理的。但是公開表揚少數表現優秀的學生則是可以被接受的。雖然個人分數不應該公布,但是應該報告全班分數的平均數或中位數,以幫助於學生了解自己的表現水準。
3. 要說明計分方式及標準,並要求學生自己核對是否有計分上的錯誤。 通常學生都很在意自己的分數,即使教師未要求,學生自己也會檢查自己的分數,所以倒不如撥出一些時間要求每一個人都自我核對。在選擇反應的題型上,教師要公布標準答案,以及各種題型的配分。至於需要主觀計分的建構反應題型,則需要有更詳細的說明。
4. 找出答對率偏低的題目進行討論。 教師可以逐題唸出正確答案,並以要求答對的人舉手來估計該題的答對率,當某一試題答對率偏低時就應該立刻進行討論,找出學生共同的錯誤概念,進行再教學。
5. 變更計分標準時要全體適用。 除非能夠證明試題有重大瑕疵,否則不應該因為學生抗議而變更試題計分標準(如,變更正確答案、該題不計分等),但若決定要變更,則應該全體適用,而非只用於那些會抗議的學生。
6. 逐題記錄試題瑕疵。 教師應以開放的心胸聽取學生對試題的批評,記錄各試題引起爭論的原因及改進的意見,以便當做下次命題的參考。要記得學生批評的只是你的試題而非你個人,不要過度的自我防衛;而且學生不喜歡的題目也不一定就是不好的題目。

收尾

1. 收回所有材料。  即使是教師自編測驗,教師也應該回收測驗卷和相關材料,這不只是為了登錄分數,也可以避免題目或答案外流,影響日後重複使用這些試題的機會。
2. 登錄測驗分數。 教師通常需要將全班的分數登錄到他的成績簿上,

3. 記錄下所有需要改進之處。 趁著您的記憶還清楚,寫下此測驗在試題、計分方式和作答指導語需要改進的地方。若您做了正式的試題分析,記得要把獲得的各種統計量連同各試題記錄下來,以供日後選用題目的參考。

施測程序:三、管理施測環境

控制施測環境的目的不只是為了要防止學生作弊,還要防止一切無關因素對測驗分數的干擾(參見本章第二節);除此之外,更應該積極地提供舒適、安靜的環境,讓受測者充分發揮其實力。

1. 預防與處理意外干擾

施測情境中的意外干擾是指任何可能轉移學生注意力,而影響其成就表現的事件,例如:發現試題有錯誤,需要更正;學生發問;有訪客進入試場;廣播系統突然宣布事情;突然停電;發生地震等。這些干擾中有些是可以事先預防的,有些只能臨機應變把影響程度減到最小。
要預防測驗受干擾,需要有行政單位的配合,例如:關閉學校的廣播和上下課訊號系統,禁止其他學生在試場附近做活動,在試場附近及入口懸掛「測驗中,請勿干擾」的標示牌。此外,例如提醒學生在考試前上廁所,提醒學生要攜帶足夠且合乎規定的作答工具等,也都是必要的預防措施。
當意外干擾發生時,主試者的處理原則是要冷靜且迅速的處理,避免干擾的擴大,對於已經受干擾的學生要設法把他們的注意力迅速拉回到測驗上。主試者不應該因為有干擾而抱怨或教訓學生,使學生的作答情緒受到影響。

2. 回答學生的發問要考慮公平性

最常發生且難以事先控制的是學生的發問。如果學生問的是有關作答說明不清楚的部份,主試者要仔細回答;如果受試者是低年級或閱讀能力有困難的學生,或者該分測驗的題型對學生而言是比較新穎的,則更應該耐心地解釋作答方法。若非上述情形,而書面作答說明也清楚,則可要求受試者自己仔細再讀一次,以免耽誤時間。
有時學生會開開始作答之後,針對某一試題發問,這時主試者要做明智的判斷,如果問題來自題本印刷不清,主試者應該給予協助。若問題是來自於學生不懂試題內容,則給予協助將會造成不公平,此時只能鼓勵學生盡量嘗試去做,若不會作則跳過去做下一題。若問題是出自於學生對試題作了出人意外但仍屬合理的解釋,這時主試者應該在不提供作答線索的情況下澄清題意,而且要儘量不影響其他學生。

3. 更正試題上的錯誤

若在施測時才發現試題上有錯誤,常會造成困擾,但若在印刷之前做多次校讀通常可以減少這些麻煩。當主試者需要向學生宣告應該更正的試題內容時,應該先把錯誤的及更正後的內容都寫在黑板上,然後再向學生宣布。如果錯誤的部份並不影響學生的作答,就不要宣布它。

4. 認真監考防止作弊

有考試就有作弊,這好像天經地義的事,事實上只要測驗結果和個人的前途或利益有密切的關連,作弊就難以根除;利益越大,敢鋌而走險的人就越多。在防止作弊的努力上,測驗編製者可以設計出多種版本的題本(試題順序不同,或選項順序不同),不同格式的答案紙等。而監考者則可以採取特殊的座位安排、事前清楚告知考場規則、以及嚴密的監考來防止作弊。

5. 提醒學生剩餘時間

一般標準化測驗的分測驗的作答時間都不會超過20分鐘,試題數多,且都是由易而難依序排列,所以不必特別去提醒學生,提醒了反而讓學生焦慮而在最後一分鐘盲目猜答,反而讓機遇誤差擴大,而降低信度。但是有些升學考試或是甄選測驗,常常是連續90分鐘的作答時間,且題型常包含申論題,這時就需要在最後幾分鐘提醒學生作答時間還剩幾分鐘,以免少數學生因為太專心作答而忽略時間的控制,反而使分數偏低,無法反映其真正的能力。在學校的教學評量上,常使用較長時間的實作測驗,或是用整學期完成的專題作業,這時就需要在接近截止之前一再提醒,以免學生懈怠,而在截止前幾天草率完工,降低作業品質。


施測程序:二、測驗當天

1. 建立投契關係          

投契關係(rapport)是指雙方有一種和諧、互信的關係。主試者在進入試場後對於學生的和藹的態度、親切的招呼、及關心的提醒都有助於建立投契關係。
有了投契關係之後,學生的心理放鬆,測驗焦慮降低,遵循指示的意願升高,施測程序的進行將更加順利。

2. 遵循標準化施測程序

測驗指導手冊上都記載有施測順序、各分測驗作答時間限制、指導語、作答器材規定等等,主試者一定要嚴格遵守,否則測得分數無法對照常模,和他人做比較。
所謂標準化就是任何人的施測條件都與當初建立常模時的施測條件一模一樣,這樣這個人的分數才可以對照常模做解釋。而研究結果也發現,主試者在逐字唸測驗指導語(Verbatim directions)時,擅自增減內容會影響學生的表現。
但是若遇到特殊學生,需要調整施測程序以讓考生能顯現其真正能力時,就應該依據其特殊需要及行政規定進行施測材料或試題呈現方式及作答方式的調整。

3. 發收測驗材料

標準化測驗應該先發答案紙,待全部學生依指示填完姓名、年級等基本資料後,再發下題本,如此可避免學生不聽指令偷翻閱試題。測驗完後,應先收回答案紙,再收題本,如此可避免學生利用先收題本時亂填未答完的部份。在大規模的測驗中,為了統一作答起訖時間,會在測驗開始之前數分鐘,先要求考生離開考場,然後由監考人員將答案紙與題本一句編號放置在每一考生的座位上,等考試鐘聲一響,就讓考生就坐並立刻作答。
實施標準化能力測驗時不可能也不允許有提前交卷的情形,但在一般教師自編測驗的考試中,卻可能因為試題太簡單或學生放棄作答,而要求提前交卷,這時候監考者應該注意秩序的控制,提防在學生紛紛交卷之時,發生作弊或試卷遺失的情形。監考者也可以在宣讀測驗指導語之前,明確說明在作答時間內答完試卷要如何:(1)舉手示意,等候監考者收卷,或(2)將答案紙壓在題本下面,即可自由離去。

4. 宣讀測驗指導語

測驗指導語通常在測驗開始計時作答之前,由主試者唸給學生聽,或者直接印在測驗題目之前。若是成套的測驗,會有多個分測驗,那麼每一分測驗的指導語會印在每個分測驗的標題之下,而且以不同於試題的字型或字體大小來印刷。不管指導語試印刷的、朗讀的、或兩者兼有,其內容應該清楚告知測驗目的、作答方法、作答時間限制、答案如何計分、猜錯答案是否倒扣分數等。
當主試者口頭朗讀指導語時,應該速度慢、清晰、且逐字逐句的唸出來。朗讀完指導語之後,要允須學生發問,不管學生的問題看起來如何繁瑣,或沒有必要,主試者都要耐心、認真地回答。遇到對於學生而言比較陌生的題型,更應該詳細解說作答方式,並監督看他們做練習題,以確保每個學生都弄清楚了作答方式,才可正式開始作答。

5. 計時

在標準化的能力測驗中,絕大多數有作答時間限制,若未依照時間限制實施,測驗結果不是高估就是低估學生能力。當測驗性質越傾向於速度測驗,如性向測驗中的校對、圖形知覺、計算等,則作答時間的長短影響越大。
在進行作答時間限制很短的測驗時,最好使用賽跑計時用的碼錶,或以數字顯示的電子錶。若使用一般手錶時,一定要有秒針,並隨手在黑板上寫下開始時刻、作答時間、及應終止時刻,只依靠個人記憶力及心算常會出差錯。
當主試者唸完指導語後,應詢問學生有無問題,若無問題或回答完問題後,即可說:「時間限制X分鐘,翻頁!開始作答!」,並同時按下碼錶,主試者開始進行巡視,當時間限制到達時,應大聲喊:「停!把筆放下!」。在學生作答過程中,絕對不可以自作聰明宣布說:「還剩下X分鐘」,因為那不只是干擾作答,而且引發不必要的焦慮。
若是實施以長時間(50分鐘以上)作答的篩選性測驗,因為是屬於難度測驗,所以應該在時間快到時提醒學生說:「還有X分鐘」,以提醒學生有效地利用剩餘時間,但次數不要太多以免造成干擾。

6. 監考

監考(Proctoring)人員的職責不只是要消極地防止作弊,更要積極地排除各種干擾更鼓勵學生全力以赴,以協助每個學生都充分發揮其能力,除此之外,還要記錄試場特殊狀況,以便事後能夠更正確地解釋測驗結果。
在開始作答後,主試者應該在試場內巡迴觀察,一方面要注意每個學生是否依照指示作答,例如,題本是否都翻到指定的分測驗上,是否都在指定的位置上作答;另一方面則要防止學生抄襲他人答案或互通訊息。監考者若看見學生作答動機薄弱,應該加以鼓勵;看見學生受到外來干擾,應該協助排除;但大部分時間還是以只監看而不講話為原則。

7. 記錄特殊事件

答案紙的封袋上通常會有記錄欄,它不只是用以記錄缺席或遲到的學生,也應該記錄有哪些學生因為生理殘障因素(弱視、腦傷、斷臂等)而無法順利作答;或者有哪些學生在作答過程中因受到嚴重干擾,比如,桌椅故障、染重感冒、或腹瀉等,導致分數可能無法代表他真正的能力。

特殊事件的記錄在解釋測驗分數時很有參考價值,它可以幫助解釋者瞭解有哪些分數應該存疑,以及造成異常分數的原因。