2016年10月24日 星期一

計分方式:二、主觀計分

所謂「主觀計分」是指試題沒有標準答案,因此若由不同的人來評分,常因評分者個人價值觀或參考標準的不同而有不同的結果。主觀評分實際上是一種批判思考或做評鑑的認知歷程。
主觀評分常用在多種不同的場合,例如:紙筆測驗中的作文、申論題的計分;口試的計分;作曲、繪畫、雕塑、劇本等藝術作品的評分;聲樂、樂器演奏、舞蹈、體操等表演的評分(請參閱第七章第三節實作評量的計分),以及使用評定量表對學生做情意方面的評分。
主觀計分法因為有觀察時以偏蓋全、給分標準寬嚴不一、主試者個人偏好等缺點,因此常需要採取各種努力以降低這些影響,提高評分結果的客觀性。以下是測驗學者在使主觀計分更加客觀化所作的努力。

A. 加強評分人員的訓練

1. 聘請專家製作一份共用的給分量表。 應該先聘請該領域的專家或資深從業人員做為評分人員,然後抽取代表不同能力的試卷來評分,並製作出一給分量表,此量表可以顯示不同層次答案及該答案應得分數。如此有統一的參照標準,可以減少其他評分者標準過嚴或過寬的影響。在小規模的教學評量中,教師可以條列出構成好的或可接受的答案所應包含的要素,以當做計分的依據。
2. 釐清寫作技巧所佔的角色。 如果您是在評生物學試卷的申論題,那麼考生寫錯別字或者文法有錯誤,是否會影響到分數?寫作技巧一般都會影響到您對於答案的整體印象,所以事先決定寫作技巧是否以及什麼程度下會包括在計分規準中視很重要的。但是,無論您做何種決定,把這些寫作技巧分開計分(若那也是教學目標之一),而不要加入該科的總分裡會是比較好的決定。
3. 訓練一般評分人員。 若無法聘請到足夠的該領域專家,則應該辦理一般評分人員的講習,透過講解、示範、練習評分、檢討與更正等過程來幫助評分者熟悉評量工具,提昇其評分的正確性。
當有數位評分者同時進行評分時,應該提供學科專家製作的多種參考答案及該答案應得分數(評分量表)以供評分者參考,若無法製作給分量表,也應該由評分人員事先協議評分重點或標準,以取得評分上的一致性。
4. 淘汰不適當的評分人員。 在評分完後,主持人可以分析比較各評分人員的評分結果,做為下次是否繼續聘請的依據。舉例來說,若有數個評分者同時評量一組學生作品,則各評分者所評的分數可以列出來,如表 6-1

    6-1 五位評分者評分結果分析表
                             
                   A   B    C   D   E
            01   2    1    5    3    9*
  
     02   8    7    5    7    2
            03   6    7    6    9    1*
            04   5    4    5    4    7
  
     05   8    6    6    6    8
            06   7    6    7    7    2
            07   5    5    5    4    2
  
     08   5    7    6    6    1*
            09   5    3    5    6    9*
           10    8    6    6    8    2
最高分       8    7    7    9    9
最低分       2    1    5    3    1
 
          6    6    2    6    8
 平
均數   5.9  5.2  5.5  6.0  5.3

經分析比較之後,下列人員不應該續聘:
1. 該員所評的各分數的全距明顯地比別人的小(鄉愿型),如評分者C評分的目的就是要將學生的能力分出高下,但若評分者能力不足或不認真,就會把每個作品的分數打的很接近,而失去區辨學生能力的功用。
2. 該員所評的各分數與其他評分者所評的有明顯地差距(標準怪異型),如評分者E主觀計分時,就同一作品每個評分者所給的分數常會不一致,但是若其他評分者之間彼此分數差距很小,唯獨此員的分數與別人的差距特別大,則表示此員評分時所持的標準與其他評分者明顯地不同,應該加以剔除,以維持標準的一致性,減少爭論。
3. 該員全部所評分數的平均數比其他評分者的平均數明顯偏高(寬鬆型),或明顯偏低(嚴苛型)。評分者給分寬鬆或嚴苛,在所有的評分者都評閱相同作品時,並不會影響評分的公平性;但是在不同評分者評閱不同作品時(例如,大專聯考的作文評分),這種給分標準的分歧會造成評分上的不公平。

B. 改進評分程序的設計與管制

1. 多人獨立評分後加以平均。 同一份作品由多人獨立評分後,再將分數加以平均,如此可以降低評分者個人主觀的影響,提高評分的信度。但是評分者人數增加則評分的成本也會增加,所以通常只有在採用費時較短、信度較低的整體式評分法時,或是非常重要的測驗上,才會採用多人獨立評分方式。使用此法時,最重要的是「獨立」評分,如果經過共同討論再評分,雖然有可能會使個人觀察的偏差減少,但也可能使個人的偏見傳開來。
若因時間、經費或評分者專長上的限制,無法使每一評分者都評閱全部試卷的所有題目時,可以讓各個評分者分別評閱全部試卷的某一題目,如此使每一份試卷都在相同的人和相同的標準下做比較。國內的公務人員高等考試或研究所入學考試,就常採用多人命題、多人閱卷的方式,命題者即是評分者,且通常只評閱自己命題的那些試題。
2. 釐清錯別字與文法、句法所佔的角色。 由於錯別字和文法的寫作方面的能力一定會影響評分者對於答案的整體印象,所以應該事先決定是否或到什麼程度把這些也納入評分規準。案不論決定如何,謝些寫作技巧應另外給分數,而不是把這些分數加到總分裏頭。
3. 採取多人評分並剔除兩極端分數後,再求平均值。 如果是重要的競賽,而且評分時評分者可以辨識被評者身份時,如奧運會的體操、跳水、花式溜冰,或全國性個人舞蹈、演講、鋼琴演奏比賽等,常採用多位評審同時評分,然後去掉被評者所得的最高分與最低分,再加以平均。這種平均數叫做「去端平均數」,這樣做可以減少評分者故意的偏袒,並提高評分的信度。
4. 若可能,隱藏受試者的身分。 當評分者不知道被評的對象是誰時,就可以排除評分者先前印象的影響並防止評分者故意偏袒的可能。影藏受試者身份的方法包括:將試卷姓名或號碼部份加以彌封、重新編造密碼、弄亂原試卷排列次序、重新謄錄。但是若閱卷者是原來任課教師時,教師仍可由寫作風格及筆跡辨認出學生身份,所有學生都不被認出是不可能的。
5. 先評閱全部試卷的某一題,待該題全部評閱完後,再評閱下一題。 這種閱卷順序,不但使閱卷者能夠集中注意力於同一題目,加速閱卷過程;也使得評分者能夠對同一題目維持相同的標準,增加評分的正確性。相反地,若閱卷順序是每一張試卷的題目全部評完後才評閱下一張,則很容易因為對先前題目的印象而影響到下一題的評分,而造成心理學上所謂的「月暈效應」。

C. 分析式或整體式評分

1.分析式評分

分析式評分(analytical scoring)是將評審的標準分析成幾個代表不同特質的項目,並就各項目賦與不同的比重(佔分比例),計分時則先就每一個項目給分,再合計總分。此法雖然可以提高不同評分者之間的一致性,又能提供診斷性的訊息;但是若項目分得太細則會增加評分者的負擔,反而使分項計分流於形式。除此之外,越是強調獨創性、整體性的作品,越不容易採用分項計分,所以無法普遍使用。

2.整體式評分


整體式評分(global or holistic scoring)是只就每一被評審對象給一總分或排列其等級,而不另外分項給分。此法的優點是:1.簡便易行,計分速度快,2.可用於難以分析成不同特質的評分對象上。缺點是:1.個人的主觀因素的影響變大,分數的信度較低,2.無法提供充分的回饋訊息,讓學生有所改進。

沒有留言: