2016年11月8日 星期二

解釋測驗結果

一、解釋測驗分數的一般原則

在實際面對受測者或轉介機構代表時,解釋者要注意下列原則,才可避免測驗被誤用、濫用的情形。

A. 對分數的綜合分析

1. 要事先檢查測驗分數的可靠性。 我們不可以假定受測學生都符合我們的基本假定(亦即,都有最大的作答動機、相同的教育機會等),或者施測條件都已精準地控制(如施測程序、作答時間、測驗環境、計分程序、查對常模等)。因此在解釋分數之前,先查閱施測紀錄或訪談施測者,或者直接詢問受測學生當天受測情形,都可以先確定該測驗分數是否可靠,若前兩者造成的不確定誤差太大,就不必要作進一步的解釋。
2. 要從測驗真正測量的內涵來評估學生。 測驗的名稱通常很簡短,但沒有兩個學術性向測驗或成就測驗所測量的特質是完全相同的,例如,某個數學測驗可能只局限於簡單的計算技巧,但另一個卻含有大量的推理問題。因此,測驗解釋者不只是要先閱讀測驗編制報告或測驗指導手冊,還要親自審閱試題內容,才不會對學生的分數做出錯誤的推論。
3. 應該針對轉介原因或施測目的進行分析。 受測者或轉介者心中都有等待解答的問題,例如,是否應該選讀某一科系?是否應該接受特殊教育?解釋者應該要能夠具體回答,而非只對分數作一般性的解釋。
4. 若涉及重大決定時,應該配合其他相關資料。 解釋測驗結果時應該配合學業成績、與教師或家長面談記錄、其他測驗表現等,不能以單一分數為依據,若資料之間彼此有矛盾,應該再進一步確認哪一種資料比較可靠。

B. 對人的尊重

1. 要尊重個人隱私權。 解釋者只將測驗結果傳達給受試者及其監護人、或原初轉介來源(學校人員、企業雇主)以及法令上有權調閱的相關人士,不應該隨便透漏給無關的第三者。
2. 避免使用專業術語。 解釋者要儘量以通俗的語言來解說,讓對方能夠充分理解並覺得有用處,還要隨時回答問題,以免造成誤解。解釋者也要儘量利用測驗剖面圖、常態分配圖來幫助對方理解各個分數的意義
3. 要顧及對方的情感反應。 解釋者應當努力了解學生的相關背景,當學生的測驗表現不佳時,首先要考慮語言背景、先前教育經驗、低落的動機,或其他可能干擾作答的因素等造成的影響,而不要只就分數輕易下結論。解釋者遇到那些確實不能盡如人意的分數時,還要使用諮商技巧來消除對方的淡化、否認心理防衛,以幫助他接納事實。
4. 應該提供正式的測驗報告。 一份正式的測驗報告可以顯示解釋者的專業素養以及他慎重其事的態度,也可以增進溝通上的清晰性及說服力。正式的測驗分析報告內容要包括:受測者身份資料、轉介來源、轉介原因、背景資料、觀察或面談經過、測驗內容及程序、測驗結果與解釋、結論與建議,最後要加上報告撰寫者的身份與簽名。

二、解釋測驗的步驟

測驗種類很多,測驗對象與目的也各有不同,但解釋的步驟卻是大同小異。在此我們是以學術性向測驗為例子,說明教師向家長或學生解釋標準化測驗的理想步驟。

A. 描述測驗性質及內容

教師在解釋測驗分數之前都要先說明這測驗的性質,以及整個測驗及分測驗所測量的能力。這部份的內容通常在測驗指導手冊上會有詳細說明。在學校裡,教師最常需要向家長解釋的就是與學術性向相關的測驗,因此,應該特別提醒家長下列幾點,以免家長誤解。
1. 學術性向測驗不是智力測驗。「智力」一詞容易造成誤解及引發情緒反應,測驗界已經幾乎很少使用,現在大多改用「學校能力」、「認知能力」等名詞。
2. 學術性向測驗並不是測量先天、固定的能力,而是測量已經學得的能力。
3. 不能單獨用學術性向測驗來預測學生未來的學業成就,還要考慮其他因素。因此教師不應該說:「依據這個測驗分數,您的孩子將來會.......」,而應該說:「得到這個分數的學生,將來通常會......」。

B. 說明測驗分數的意義

如果是常模參照測驗,就要以簡單易懂的方式向對方說明測驗分數(衍生分數)的意義,以及參照常模群體的性質。為了方便,測驗分數通常以百分等級或標準九的型式向家長說明,因為它們最容易解釋,也較不容易產生誤會。

1. 解釋百分等級

「在閱讀理解測驗上,大明的分數若與全國五年級學生相比,他超過百分之八十的人」(教師或許要補充說明他不是答對百分之八十的題目,而是有百分之八十的學生分數比他低)。

2. 解釋標準九

「若把全部學生的能力簡化成九個分數,最高分是九分,最低分是一分,平均是五分。那麼大明在閱讀理解測驗上的能力,若與全國五年級學生相比,他可以得到七分。」(教師可以補充說明7,8,9是中等以上,4,5,6,是中等,1,2,3是中等以下)。
教師若是需要同時解釋好幾種測驗的結果(如性向與成就測驗),最好採用同一種分數系統分數,免得家長困惑,此外也便於相互比較。
雖然家長很想知道自己子女在團體中的表現,但他也同樣想知道自己子女已經學會什麼還有哪些未學會。這種標準參照式的解釋通常是以「精熟的百分比」來說明,較容易為家長所理解。如果你用了「答對百分比分數」,要記得將他與「百分等級」分清楚;若你用了精熟與未精熟的判斷,要說明精熟的標準,以及這標準是如何決定的。

C. 澄清測驗分數的正確性

教師要先幫助家長建立建立任何測量誤差的概念,他可以先利用商品上重量的容許誤差量(如100±5公克)來說明心理測驗的分數也會因為測驗性質不同而有不同的測量誤差,接著再以測驗剖面圖上各分數的分數帶(實得分數上下一個標準誤)來說明學生真正分數的可能範圍。
當教師以教學目標或同一內容試題(例如改錯字部份)來解釋測驗分數時,要特別注意試題題數,若題數過少(例如少於10題),則不能擅自下結論,應該只把它當作應該進一步查證的線索。教師若能夠把測驗結果與平常的考試或作業合併來看,便可以作出較可靠的解釋,畢竟將測驗分數與其他的可用資料交互驗證才是解釋測驗分數的正確方法。

D. 剖面圖的解釋

測驗分數剖面圖(或稱側面圖)(profiles)是指個人在接受一套測驗組合之後,將個人在幾個分測驗上的衍生分數以圖示的方式同時並列,以便相互比較,進而判斷個人在不同能力上的優劣。
要使用剖面圖的先決條件是各個測驗的常模是建立在相同的常模樣本上,且使用相同的衍生分數系統。

1. 分測驗間分數差異的解釋

使用剖面圖的目的是要比較同一人的幾種測驗分數,所以要遵守一些事項才能建立比較的基礎。
1. 轉換成同一種衍生分數。 不同分測驗的原始分數是不能相互比較的,他們要對照常模轉換成可以比較的單位,例如標準分數、標準九、百分等級、年級當量等;而且每一種分數都要轉換成同一種衍生分數方可相互比較。
2. 使用同一個常模組。 在換算衍生分數時,要各個分測驗都使用同一個常模組,而這常模組的樣本特徵(年級、性別、地區等)要與受測學生的特徵相符合。
3. 以分數帶標示出測量標準誤。 因為各分測驗之間以及各常模組之間的測量標準誤常會不一樣,使用者要查清楚,並在剖面圖上要以分數帶標示出,各測驗衍生分數加、減一個測量標準誤之後構成的誤差帶。
4. 以分數帶比較兩個分數的差異。 在比較同一剖面圖上的兩個分數時,若該兩個分數的分數帶之間彼此沒有重疊的部份,我們才可以認定為兩個分數之間確有明顯的差異,否則就應該說它們之間沒有明顯的差異。

2. 剖面圖的三個特徵

剖面圖除了可以用來解釋個別分數落點及比較不同分數間的差異外,還可以把整個剖面圖當作一個整體,從下列三方面來說明這一組測驗分數的特徵。
1. 一般水準(Level)。 它是指各個分數的平均值是偏高或偏低。偏高表示各種性向或學習成就高,將來的成就或工作表現也會較高。
2. 變異程度(Variability)。 它是指各個分數之間是彼此差異很小,或是明顯地參差不齊。變異不大表示此人各項能力皆均衡發展;變異很大表示此人有某些能力是非常明顯的優點或弱點。
3. 分數形態(Shape)。 它是指高低不同的分數所構成的特殊形態,它可以用來做診斷或預測上的歸類。若有實證研究支持某種分數形態與某一種症狀(腦傷、文化不利、語言障礙等)有關,則可以依此做診斷性解釋,例如,魏氏智力量表(WISC)的剖面圖可以判斷某一兒童是否為文化不利或是腦傷;而區分性向測驗(DAT)的剖面圖可用來判斷受測者比較適合就讀大學哪一科系。

E. 討論測驗結果的應用

向家長說明如何應用測驗結果時應該包括:(1)這測驗結果如何用在對該學生的教學(或輔導)計畫上,(2)教師和家長應該採取哪些具體行動來幫助學生的學習和發展。通常這些提議也會寫在正式測驗報告的「結論與建議」部份。

三、與學生討論測驗分數

使用回饋性討論的要領:
1. 進行回饋性討論是為了幫助學生,而不是傷害學生。
2. 適時安排回饋性討論,最好是在評量之後。
3. 與學生分享訊息並共同探索可能的選擇,而不直接給予建議。
4. 尊重學習者的需求。
5. 要建立一種氣氛,讓學生覺得是他們在尋求回饋,而不是被強迫聽回饋。
6. 只提供學生用得著的訊息,不要企圖把你所知道的一切都塞給他。
7. 討論焦點是對事不對人。
8. 要針對你所觀察到的行為或特質,而不是你所推論的。
9. 要針對特定性問題,而不要對一般性問題。
10. 只討論學生可以控制、可以改進的行為。
11. 以逐步引導的方式問問題,以幫助學生瞭解自己。
12. 要確認你與學生雙方面都確實瞭解對方所說的,要重述對方的想法。

2016年11月1日 星期二

如何運用分數作成決策

一、預期表

預期表(expectancy tables)是具有兩個向度的表格,它左邊是由大而小的測驗分數(預測變項)而且是由上而下排放,上面是由小而大歸類成幾個等級的成就分數(效標變項)且是由左而右排列。

表1即是預期表的範例。在表中顯示,如果一個考生的大學入學考英語科分數是35分,而他選擇就讀英語系,則將來畢業成績落在70-79分的機率最高,約55%,而落在90分以上的機率最低,只有2%。

表 1 英語系學生在大學入學考英文科分數與畢業總平均成績的關係的預期表
入學考試│     英語系畢業總平均成績 
英文分數│ 60-69    70-79   80-89   90以上
90以上        0%       11%       33%     56%
70-79           2%        7%       40%     51%
60-69           7%        7%       50%     36%
50-59           9%       11%      48%     32%
40-49           21%     19%      46%     14%
30-39           32%      55%     11%       2%
30以下       45%       34%     21%       0%

預期表可以很清楚地顯示兩組分數的關係,雖然它在處理上比相關係數更累贅,但是卻很容易被缺乏統計學知識的人所瞭解,同時它可以很清楚地說明一個測驗的預測效率,除此之外,它也是用以說明一個測驗的效標關連效度(Criterion-related validity)的一種簡單又實際的方法。

二、兩階段決策法



三、同時使用多種測驗作決策

當同時以多種測驗分數來師篩選或預測未來工作表現時,這些測驗又稱為測驗組合(Test battery)。大學或高中聯考中的測驗可以算是一種成就測驗組合;但是最常用的還是多元性向測驗組合,例如,用於幫助高中學生選擇大學科系時所用的區分性向測驗(Differential Aptitude Test, DAT),或職訓中心甄選各職種學員所用的通用性向測驗(General Aptitude Test Battery, GATB)。

在使用測驗組合時最主要的兩個問題是:(1)應該選擇哪些個測驗來預測未來表現最為恰當,(2)這幾個分數在統計上要如何處理,才能做出正確判斷。為了解決這些問題測驗專家提出了兩種解決策略,一個是多元迴歸公式法,另一個是多重切截分數法。

A.多元迴歸法

簡單迴歸法是以一個測驗分數去預測個人在效標上(畢業成績、工作考績)的表現;而多元迴歸公式(Multiple regression equation)則是同時以多個測驗分數去預測未來在效標上的表現。

若大部分的測驗分數與效標有顯著的直線相關(與效標的積差相關高),且各測驗之間的內容不重疊(各測驗之間的積差相關低)時,使用多元迴歸法的與測效率最高。多元迴歸的計算公式如下:

Y’= a + X1b1 + X2b2 + X3b3 + X4b4 +……… (公式 13?14)
Y' = 個人的效標表現分數(預估值)
a = 截距
b1, b2, b3…...= 各測驗的迴歸係數(斜率)
X1, X2, X3....= 個人在各測驗上的原始分數

B.多重切截法

使用一種測驗結果做二元性判斷(及格\不及格、錄取\不錄取)時,需要設定一個切截分數(Cut-off score),才能把所有的受測者一分為二。但若同時使用多種測驗結果來篩選時,則需要設定多重切截分數(multiple cut-off scores)。

切截分數可以應用在兩種場合,一種是在篩選性測驗中判斷錄取或不錄取,故又稱為「最低錄取分數」;另一種場合是在效標參照測驗中判斷學生的學習結果是精熟或未精熟,通常又稱為「通過分數」。

至於決定篩選的切截分數高低的因素有二:第一個是篩選率,亦即參與甄選與擬錄取人數的比例,切截分數的高低與參與甄選的人數成正比,但與擬錄取的名額成反比。第二個是決策者的經驗判斷,亦即做決定者依據其過去經驗及專業判斷認為錄取者應具備的最低能力如何,並依此主觀設定一個最低標準。

多重切截分數適用於以多元性向測驗來預測受測者是否將來能勝任某一種職業,測驗研究者會會建立個別職業常模,並依據各分測驗分數與效標(工作表現的評等)的相關來找出關鍵分測驗,再依據優秀從業者(全部從業者的前三分之二)在這幾個分測驗上的平均數及標準差來設定切截分數。

測驗的調整策略

為了滿足殘障人士的需要,在很多情況下,己經對某些測驗採取了許多調整措施。有些調整措施要求對施測程序進行修改(如,指令和答題形式),有些調整策略則要求對測驗媒介、測驗時間、考場設施、或測驗內容進行適當調整。根據受測者殘障的性質和程度,一般都可以找到一至多個相應的測驗調整措施以配合特定的受測者。

下面所列的只是若干,並非所有現成的或適用的測驗調整策略。測驗是否需要調整,是取決於調整後的測驗對於受測者在所測構念方面,能否得到更有效的推論。

1. 調整指令與試題的呈現方式

根據受測者殘障的具體情況,可以修改測驗指令和試題所使用的媒介。例如;可以為患視覺障礙的受測者提供點字版(適於全盲)或大號字體(適於弱視)試卷進行測驗;在電腦施測條件下,還可以使用較大的字體或螢幕來顯示測驗內容;對於有聽力障礙的受測者,可以通過手勢或用書面來宣布測驗指導語;對於視障者則以錄音帶或口頭報讀試題等等。

2. 調整考生答題方式

根據受測者的具體情況,還可以調整測驗的答題方式,允許殘障人士使用其擅長的溝通方式來作答。例如,可以允許患有嚴重語言障礙的受測者,用手勢指出其所選擇的答案;對那些無法用手書寫或畫答案卡的受測者,可以由施測人員幫助他畫答案卡,或使用A4大小的代用答案卡或空白答案紙作答;還有其他答題方式,例如允許受測者使用錄音機、電腦鍵盤、或點字機、盲用電腦等等來作答。

3. 調整施測程序與作答時間

另一種測驗調整措施是修改測驗時間,這主要包括:延長測驗時間以完成試卷,在測驗中增加休息次數,或者將整個測驗分散在數日內進行等。很多全國性測驗計畫(如學業成績、証書測驗等)允許殘障人士有額外的時間。在測驗中,閱讀點字版試卷、使用錄音機或閱讀機等,都要比閱讀標準試卷花費更多的時間,但閱讀大號字體試卷則不一定花費更多的時間。具體情況取決於測驗材料的編排、布局以及受測者殘障的性質和嚴重程度等。

國內大學入學考試規定,獲許延長作答時間的考生,以不超過各題原作答時間之1.5倍為原則,也可於考試期間安排短暫休息時間(例如在90分鐘或以上之考試,每45分鐘獲安排5分鐘的休息時間)。於短暫休息時,考生必須翻轉試卷及停止作答,且不可取出違規物品(例如:書籍、字典、筆記、紙張及任何電子器材),否則可能會被懷疑作弊及引致嚴重處分。

4. 調整施測環境

通常,在群體施測條件下進行的測驗,可以根據不同的測驗目的對殘障人士進行個別測驗。個別測驗可以避免群體施測條件下受測者之間的相互干擾。許多殘障人士(如注意力缺乏症受測者等)在群體施測條件下很難完成測驗。

特別試場一般設於一樓,或有升降機直達的教室。特別試場的考試程序與一般試場相同,但會有較多監考人員,以便在考生有需要時提供協助。

考場會提供其他因障礙或傷病所致之特殊需求或必要協助,例如,對肢體殘障者提供輪椅及更能支撐身體的桌椅;或者根據弱視受測者的需要,適當調整考場的光線等;此外還可攜入糖尿病用胰島素幫浦、助聽器等個人醫療器材。

若能證明其需要,特殊需要考生可獲准於考試時使用考場提供的或自備的輔助儀器(例如:助聽器或電子耳搭配FM調頻系統、放大鏡、擴視機、立體算盤、點字機、盲用電腦等器具,以協助閱讀或記錄答案。

5. 只使用部分的測驗

另一種測驗調整措施,是只選用標準測驗的某些分測驗來對殘障人士進行測驗。在臨床測驗中,當標準測驗的某些部份(subParts)需要用到受測者的身體、感官、語言或其他技能,而殘障人士又不具備這些技能時,就可以只選用標準測驗中的部分測驗來進行施測。

另外,如果受測者的身體或感官殘障會影晌其測驗表現水平的發揮時,在認知和學業成績測驗中也常採用這種調整方法。例如:在一項認知能力測驗中,如果測驗是由口頭和書面部分共同組成的,那麼,在對有聽力殘障的受測者進行施測時,就可以將口頭部分從測驗中刪去,因為受測者在這些測驗上的測驗結果,大部分是反映受測者的聽力障礙程度,而不是真正反映其認知能力,它並不能對受測者的認知能力提供充分的評量訊息。

不過,儘管在施測中刪除某些測驗計畫的做法,確實是一種很有效的調整措施。但這種調整方法,也有可能使測驗無法充分測量預期的技能或能力,特別是當這些技能或能力恰好是測驗要測量的目標時,問題就更加突出。比如:只選用部分的測驗來進行施測的方式,在諸如証書測驗和甄聘測驗中就不恰當,因為這類測驗的每一部分所測量的構念,可能正好代表了一種性質不同,而且是工作或職業上所必要的能力。

我國大學入學考試規定考生若獲豁免應考某科全部或部分試題,該科全部或部分的成績將根據其已應考的其他科目或該科部分的成績予以推估。有關考生之成績單將附有適當註明,列出獲豁免的部分,惟考生獲豁免應考之原因及特別考試安排的詳情不會列於成績單上。

6. 使用替代性測驗或替代的評估方式

最後,還有一種調整方法,就是使用專門為殘障人士設計的測驗或代替評量(alternate assessment)方法來取代針對一般人設計的標準化測驗。使用為殘障人士專門設計的測驗對殘障人士進行測驗所得到的結果可能更有效。不過,儘管這種測驗調整方法可以代表一種較為理想的測驗調整手段,但在實務中要找到一個測量相同構念,並與標準測驗具有相似技術水準的替代性測驗則相當困難,而且要將兩種測驗的分數置於同一個分數量尺上也並非易事。

為不同語言背景者調整施測程序

對於所有受測者而言,只要是以語文表述的測驗就有一部分是在測量他們的語言能力。當受測者的母語不是測驗所用語言時,這就成了特別需要注意的問題,若測驗是在受測者的語言能力沒有達到一定程度的情況下施測,可能會在測驗過程中引入與構念無關的因素。因此測驗結果可能無法準確地反映出受測者的真正能力。
另外,語言差異幾乎總是和隨之相連的文化差異相關聯。當受測者的母語不是測驗所用語言時,在使用測驗的結果時就需要將文化差異也考慮進去。
對於雙語受測者進行測驗也有特殊的挑戰。一個懂得兩種語言的受測者可能使用哪種語言都考不好。舉例來說,由雙親都是華人,但在國外出生長大的孩子可能懂得華語,但表達上最好的還是英語。還有,有些雙語人士在多數社交場合裡會使用母語,但在學業上和工作上則經常使用英語。再舉一例,口語英語和書面英語常常不一樣,英語為非母語的人在口語交談中可能給人很流利的印象,但在需要使用書面英語的測驗中,表達能力可能就不行。因此,瞭解一個人的雙語類型和程度對於合理使用測驗也是很重要的。
實施測驗的人首先應了解受測者比較精熟的語言(亦即受測者喜歡用的或經常使用的語言);在決定了優勢語言後,應了解他在優勢語言的精熟程度;如果多種語言的優勢程度差不多的話,應建立兩種或所有語言的精熟程度的比較。然後,如有現成測驗的話,測驗應以受測者最熟練的語言來進行(除非測驗的目的是決定受測者對測驗語言的精熟程度)。我國的跨國婚姻、新移民逐年增加;大學追求國際化,錄取大量外籍學生;使得在測驗時遇到不同語言背景的受測者的機會也隨之增加,因此測驗工作者有需要了解這方面的議題,才能適當地調整施測措施,以維護測驗結果的有效性。

1. 改用配合受測者母語的翻譯版或修訂版

為配合受測者母語而使用該測驗的翻譯版或修訂版,是看似簡單但實務上卻很艱難的一件事。(1)我們不應簡單假設翻譯版和原版之間在內容、難度、信度和效度方面會完全等同。(2)不能假設受測者對兩種文化認同方面的經歷可以在兩個版本之間相互比較。(3)有許多字彙在不同的語言中使用頻率和難度也不同,因此,在兩種語言裡看起來意思相近的字可能在用法上截然不同,以至於影響到翻譯版測驗的原定用途。
另外,翻譯版的測驗內容可能和原版的並非等同。例如,甲語言的閱讀能力測驗翻譯成乙語言的閱讀能力測驗後,可能含有和原版意義不完全相同的內容,或是對只能讀乙語言的人有非常陌生或被冒犯的感覺。
在多數情形下,在編製翻譯版時,仍應循測驗編製和效度驗證過程的方式循序漸進,以保証兩種版本都測驗相似的構念。當測驗同時以兩種或多種語言製作時,一般最好是能用每種語言各出部分的試題。

2. 施測過程使用翻譯人員

當沒有適當的測驗翻譯版或功能相匹配的非語文測驗時,理想的作法是,應當由一個經過專業訓練的雙語施測人員來施測在測驗語言上能力有限的人。雙語施測人員對於受測者語言的熟練程度應該達到相當的水準,才能使測驗正確、流暢地進行。當沒有雙語施測人員時,一個解決辦法是在測驗過程中用翻譯人員,以受測者的母語進行測驗。
在教育和心理測驗中,翻譯者可能得在施測之前熟悉測驗內容和施測過程的全部細節。同時在必要時應給翻譯者時間去翻譯測驗指示和試題。在心理測驗中,施測人員最好能向翻譯示範,某些試題是怎麼考的並解釋在測驗中期望什麼結果。另外,在測驗前原施測人員和翻譯者應該互相熟悉對方的說話方式和速度,建立良好默契。
在評量即將開始前,應向受測者清楚解釋翻譯者的角色。翻譯者應盡最大努力,提供準確的譯文。翻譯者必須在整個測驗過程中反映其專業態度並保持客觀性(如;不加主觀意見,不給受測者提示等),一旦測驗結束,施測人員有責任在翻譯者的協助下審核測驗的答案,翻譯有困難的答題(如;詞彙),對於可能有特別意義的非測驗行為(如:身體語言),還有語言因素(如;兩種語言混合使用)以及可能對測驗結果產生影響的文化因素,也都必須詳加討論。這方面資料將會被施測人員用來仔細評鑒測驗結果並由此做出推論。

3. 選用母語與文化背景與受測者相同的施測者

在個別測驗的情境中,若施測者和受測者的語言與文化背景相差太大,可能造常很大的誤解。在一種文化裡看起來怪異或不適宜的語言行為,在另一種文化裡可能被認為很正常和恰當的。例如,在某些文化裡兒童對成人,或者成人對比他地位高的人說話時,其所處社會可能鼓勵他們對這些人只作具體問題回答或用平板的語調講話。因此,在測驗時,這類受測者可能對施測人員要求詳細回答的問題,勉強只是用一個短語或是聳聳肩來應付了事。
如果這種文化傾向沒有在解釋測驗結果時考慮進去的話,其解釋就可能被証明是不恰當的。同時,施測人員也不應該假定這些受測者所表現出來的寡言少語就是其文化的特徵,他可能還需要其他的訊息(例如,測驗前的觀察或與家庭成員的晤談)來討論語言表達方面可能的文化影響。

與語言表達程度相關聯的價值取向也可能有文化間的差異。一個文化群體可能認為能言善道或說話速度快是無禮、粗魯的,而另一個文化群體可能視之為高智商或友好的表現。因此,施測者與結果解釋者若沒有多元文化方面的專業訓練,就應該選用母語與文化背景與受測者相同或接近的施測者與解釋者,以免做出的測驗解釋和處遇措施可能是沒有效度的,而且會給受測者帶來傷害。

各種擴大試題區辨力的客觀計分方式

二元計分法是客觀計分法中使用最廣泛的。它只就學生的反應做全對或全錯的判斷,而不需要根據反應的完整程度或正確程度而給予部份的分數。傳統的是非題、選擇題、配合題、填充題都是採用這種計分法,它因為具有方法簡易、時間節省、及結果一致的特性,而廣被採用。
傳統的二元計分法雖然方便,但有時候為了讓測驗結果在有限的題目中產生更多的序階以提高區辨力,降低同分的人數,而不得不採取較複雜的計分方式,例如以下的幾種計分方式:

1. 容許表達方式差異的二元計分法

這種計分法通常用在填充題,它允許正確答案的同義詞、用英文或注音符號表示、答案的上位概念都算做正確答案。此法雖然仍是二元計分,但是卻能避免了因為語文表達方式的不同而影響分數,造成效度的降低。有些填充題要回答的是帶有單位的數值,這時若考生使用了與標準答案(例如15 kg)不同的單位來回答(例如33.07 lbs),若經過換算之後數值正確,亦可接受該答案。

2. 數值答案帶容許誤差的計分法

這種計分方法是用在答案為數值的填充題,或是計算題。例如,台灣本島的南北縱長為多少公里?若答案在394±10公里之間,可得100%的配分,答案在394±20公里之間,可得50%的配分,其餘答案為零分。

3. 依據刪除錯誤選項數的計分法

這種計分方式是要學生在作答時,不是選出正確答案,而改採刪除錯誤的誘答。學生能刪掉錯誤的選項愈多就愈能拿到高比例的配分。例如,在四選一的單選題,若能刪掉三個錯誤選項,可拿100%的配分;刪掉二個錯誤選項可拿50%的配分;只能刪掉一個錯誤選項就拿25%配分;沒有作答,或刪掉了正確的選項,就得到零分。這種計分法讓有部分知識的學生也能拿到部分的分數,而不是要硬猜一個正確的答案,而使得機遇因素影響分數。

4. 同題多次作答直到答對的計分法

當以電腦作答時,程式可以設計成允許多次嘗試做答,在四選一的單選題上,若在第一次就答對學生可以得配分的100%,若第二次才答對,則可得50%;若第三次才答對,則可得25%;若三次沒答對則該題就是零分。這種方式可讓有部分知識,可以刪掉某幾個選項的學生也能得到部分的分數,因而更精細地區分學生的能力。唯學生需要在電腦上受測,成本較高,且不利於有電腦焦慮症的學生。

5. 答案完全正確則進一步採計時加分法

個人的能力會反映在作答的速度與正確上,但傳統的團體紙筆測驗只能記錄答案是否正確,無法紀錄其反應時間。如果以個別測驗,或以電腦作答時,我們就能夠記錄呈現試題到學生完成作答所花費的時間,這時對於答對,而且反應時間比其他答對者還短者,給予計時加分,就可以增加試題的區辨力。例如,魏氏兒童智力量表(WISC)的「連環圖系測驗」、「圖形設計測驗」、「物形配置測驗」都是採用這種答對就計時加分的計分法。

6. 依選項合理程度給予部分配分的計分法

當選擇題的每一個選項都經過統計上的試題選項分析,以及認知結構上的分析,那麼不同的誘答就可以代表不同程度的部份知識。因此學生雖然沒有答對題目,我們仍然可以依據他選的是哪一個誘答,若仍算部分合理,也給予不同的部份分數(80%~20%)。這種計分法通常比二元計分法更能夠精細區分學生的能力。唯各個選項要事先做過深入的解題思考過程分析,才能決定各選項的加權量,除此之外,因為計分方法複雜,還要有電腦計分的配合,才可以避免人工計分的繁瑣與錯誤。

7. 依試題難易度加權的計分法

當施測紙筆測驗且以人工計分時,通常會採取對於相同題型的題目,不論其難易度,一律給予相同的配分。但是若題目是取自經過試題分析的題庫時,因為已有各個試題的難易度指數,我們就可以改採用較難的試題給予較高的配分,而較簡單的試題給予較低的配分。如此一來,兩個考生都答對30題,但他們的分數卻不相同,答對較多比較難的試題的考生分數會比較高。這種計分方法要有兩個先決條件,第一是試題要先經過試題分析,最好是以項目反應理論(Item Response TheoryIRT)分析過,才能取得比較穩定精確的試題難易度指數;第二是要以電腦計分,才不會因為太過繁雜而出差錯。

8. 依作答者信心加權的計分法

所謂信心加權計分(weighting by degree of confidence是指學生除了寫出答案外,還要指出對自己的答案的信心有多高,計分時就按照其信心程度給予不同的加權,此種計分法可以降低猜答的影響,並擴大分數分配的全距,提高評量的信度。例如是非題可採用表5-7 做加權計分。

 1  是非題的信心加權計分方法
  學生認為     標準答案為「是」    標準答案為「非」
該題敘述是:   應給分數               應給分數
絕對正確            2                         2
可能正確            1                         0
不確定               0.5                       0.5
可能錯誤           0                          1
絕對錯誤           2                          2
   
選擇題及填空題也可以採類似方法進行加權計分,但有些學者指出當題數超過20題以上時,學生分數的全距自然拉大;且題數越多,以信心加權方法產生的分數差距越顯的微不足道,反而增加計分上的工作量,所以實際上大多採用增加題數,而很少用信心加權法。

9. 重組題的計分

重組題的答案因為有許多種組合方式,而不同的組合也代表著不同的正確程度,所以用全對或全錯的二分法來計分對於那些非常接近正確答案的人是很不公平的。但是依照選項數目把它拆成幾題來分別計分也會產生問題,例如表 5-6 的學生甲在六題中沒有一題答案是完全吻合,所以應得零分,而學生乙恰好有兩題答案完全吻合,卻可得二分,但實際上學生乙的整個答案的排列比甲更離譜。
較理想的計分方法是採用「差異絕對值法」,此法是計算學生答案與標準答案之間差異的絕對值,並累加起來;絕對值越小表示越接近正確答案,應給較高的分數。此法的缺點是需要有電腦的配合,否則以人工計算實在太費時、費力。

 2  重組題上兩位學生答案與標準答案之差異
(試題:請依據下列各縣的地理位置由北向南排列)
            標準   學生甲   差異      學生乙   差異
            答案   答案     絕對值    答案     絕對值
  雲林      4         3          1                 2        2
  彰化      3         4          1                 3        0
  苗栗      2         1          1                 4        2
  屏東      6         5          1                 6        0
  嘉義      5         6          1                 1        4
  桃園      1         2          1                 5        4
                            合計= 6              合計 = 12

10. 比例計分法

比例計分法是依據「要求完成的數量」與「實際完成的數量」之間的比例來計分。它特別適合用在語文科目的默寫、背誦、朗讀等評量方式。例如,要求默寫一篇300字的文章,在扣除錯別字及漏寫的部份後,實際只有240字,佔80%,若再乘以該題配分15分,則實得分數應為12分。
比例計分法只適用於有絕對對錯標準,並且只重視完成數量的評量方法上,而不適用於強調品質高低的評量方法。

12. 猜答現象與矯正方法

當測驗所用的題型為「是非題」或「選擇題」時,盲目猜答也有很高的猜對機率(但依選項數增加而降低),所以難以防止學生猜答;尤其當題數很多而作答時間不夠用時,猜答情形會更嚴重。猜答現象對高能力的學生影響不大,但會使低能力學生的分數更不穩定。
當猜答的題數越多,測驗分數中由隨機誤差所形成的部份就越大,評量結果就越不可靠,所以應該設法將猜答造成的誤差加以減少或均等化。減少猜答造成的誤差的方法是採用猜答矯正(correct for guessing)公式計分。至於要把猜答造成的誤差均等化的方法是在作答說明中「鼓勵所有的學生猜答」。
猜測矯正公式是假定學生答錯的題目都是因為不懂而盲目猜答所造成的。因此,在四個選項的選擇題中,若學生答錯了三題,即可推論他同時也盲目猜對了一題。所以真正答對題數應以下列公式估計:


真正答對題目估計值 = 答對題目 - (答錯題數 / N-1)                                                                                                             
                                                                                                       
公式中N是選項的數目,在是非題中N=2,在選擇題中N通常是45

使用猜測矯正公式因為有下列缺點,致使實際使用者並不多。
1. 即使已經在作答說明中提出警告,仍然有大膽的學生盲目猜答,而謹慎小心的學生即使有部份知識也不敢猜答,這將使得人格因素影響測驗分數。
2. 增加計分上的困難,除非採用機械計分加上電腦程式的配合,否則人力和時間都會大量增加,且容易出錯。
3. 低能力者可能因為倒扣而得到負的分數,這將難以向家長或行政人員解釋。
4. 學生猜答時並不完全是盲目猜答,學生常以部份的知識進行推理,猜測最可能的答案,這是一種解決問題能力的表現,是教師所應該鼓勵的,而不是要禁止的。
由於猜測矯正公式有上述缺點,再加上測驗專家已由實證研究中發現當鼓勵學生每一題都作答,且給予充裕的作答時間時,無論是否採用矯正公式,兩者的分數排列順序幾乎完全一樣,所以現在大部份的標準化測驗都已經不再使用矯正公式了。
不過在下列狀況還是可以考慮使用矯正公式:

1. 若試題選項數少,題數很多且都偏難時,使用矯正公式可以使低分組學生的分數較可靠。
2. 在選項數少而題數多的速度測驗上(如校對測驗),使用矯正公式可以產生阻嚇盲目猜答的效果。


除了使用猜測校正公式之外,另一種防止盲目猜答的方式是當作答時間短而試題題數過多,且試題已經經過試題分析並依難易度排列,則計分時可以檢查試卷,若在答案紙後半部發現有連續錯數題之後偶然出現一題對的,即可推斷那是在盲目猜答下猜對的,可以不予計分。

2016年10月24日 星期一

計分方式:二、主觀計分

所謂「主觀計分」是指試題沒有標準答案,因此若由不同的人來評分,常因評分者個人價值觀或參考標準的不同而有不同的結果。主觀評分實際上是一種批判思考或做評鑑的認知歷程。
主觀評分常用在多種不同的場合,例如:紙筆測驗中的作文、申論題的計分;口試的計分;作曲、繪畫、雕塑、劇本等藝術作品的評分;聲樂、樂器演奏、舞蹈、體操等表演的評分(請參閱第七章第三節實作評量的計分),以及使用評定量表對學生做情意方面的評分。
主觀計分法因為有觀察時以偏蓋全、給分標準寬嚴不一、主試者個人偏好等缺點,因此常需要採取各種努力以降低這些影響,提高評分結果的客觀性。以下是測驗學者在使主觀計分更加客觀化所作的努力。

A. 加強評分人員的訓練

1. 聘請專家製作一份共用的給分量表。 應該先聘請該領域的專家或資深從業人員做為評分人員,然後抽取代表不同能力的試卷來評分,並製作出一給分量表,此量表可以顯示不同層次答案及該答案應得分數。如此有統一的參照標準,可以減少其他評分者標準過嚴或過寬的影響。在小規模的教學評量中,教師可以條列出構成好的或可接受的答案所應包含的要素,以當做計分的依據。
2. 釐清寫作技巧所佔的角色。 如果您是在評生物學試卷的申論題,那麼考生寫錯別字或者文法有錯誤,是否會影響到分數?寫作技巧一般都會影響到您對於答案的整體印象,所以事先決定寫作技巧是否以及什麼程度下會包括在計分規準中視很重要的。但是,無論您做何種決定,把這些寫作技巧分開計分(若那也是教學目標之一),而不要加入該科的總分裡會是比較好的決定。
3. 訓練一般評分人員。 若無法聘請到足夠的該領域專家,則應該辦理一般評分人員的講習,透過講解、示範、練習評分、檢討與更正等過程來幫助評分者熟悉評量工具,提昇其評分的正確性。
當有數位評分者同時進行評分時,應該提供學科專家製作的多種參考答案及該答案應得分數(評分量表)以供評分者參考,若無法製作給分量表,也應該由評分人員事先協議評分重點或標準,以取得評分上的一致性。
4. 淘汰不適當的評分人員。 在評分完後,主持人可以分析比較各評分人員的評分結果,做為下次是否繼續聘請的依據。舉例來說,若有數個評分者同時評量一組學生作品,則各評分者所評的分數可以列出來,如表 6-1

    6-1 五位評分者評分結果分析表
                             
                   A   B    C   D   E
            01   2    1    5    3    9*
  
     02   8    7    5    7    2
            03   6    7    6    9    1*
            04   5    4    5    4    7
  
     05   8    6    6    6    8
            06   7    6    7    7    2
            07   5    5    5    4    2
  
     08   5    7    6    6    1*
            09   5    3    5    6    9*
           10    8    6    6    8    2
最高分       8    7    7    9    9
最低分       2    1    5    3    1
 
          6    6    2    6    8
 平
均數   5.9  5.2  5.5  6.0  5.3

經分析比較之後,下列人員不應該續聘:
1. 該員所評的各分數的全距明顯地比別人的小(鄉愿型),如評分者C評分的目的就是要將學生的能力分出高下,但若評分者能力不足或不認真,就會把每個作品的分數打的很接近,而失去區辨學生能力的功用。
2. 該員所評的各分數與其他評分者所評的有明顯地差距(標準怪異型),如評分者E主觀計分時,就同一作品每個評分者所給的分數常會不一致,但是若其他評分者之間彼此分數差距很小,唯獨此員的分數與別人的差距特別大,則表示此員評分時所持的標準與其他評分者明顯地不同,應該加以剔除,以維持標準的一致性,減少爭論。
3. 該員全部所評分數的平均數比其他評分者的平均數明顯偏高(寬鬆型),或明顯偏低(嚴苛型)。評分者給分寬鬆或嚴苛,在所有的評分者都評閱相同作品時,並不會影響評分的公平性;但是在不同評分者評閱不同作品時(例如,大專聯考的作文評分),這種給分標準的分歧會造成評分上的不公平。

B. 改進評分程序的設計與管制

1. 多人獨立評分後加以平均。 同一份作品由多人獨立評分後,再將分數加以平均,如此可以降低評分者個人主觀的影響,提高評分的信度。但是評分者人數增加則評分的成本也會增加,所以通常只有在採用費時較短、信度較低的整體式評分法時,或是非常重要的測驗上,才會採用多人獨立評分方式。使用此法時,最重要的是「獨立」評分,如果經過共同討論再評分,雖然有可能會使個人觀察的偏差減少,但也可能使個人的偏見傳開來。
若因時間、經費或評分者專長上的限制,無法使每一評分者都評閱全部試卷的所有題目時,可以讓各個評分者分別評閱全部試卷的某一題目,如此使每一份試卷都在相同的人和相同的標準下做比較。國內的公務人員高等考試或研究所入學考試,就常採用多人命題、多人閱卷的方式,命題者即是評分者,且通常只評閱自己命題的那些試題。
2. 釐清錯別字與文法、句法所佔的角色。 由於錯別字和文法的寫作方面的能力一定會影響評分者對於答案的整體印象,所以應該事先決定是否或到什麼程度把這些也納入評分規準。案不論決定如何,謝些寫作技巧應另外給分數,而不是把這些分數加到總分裏頭。
3. 採取多人評分並剔除兩極端分數後,再求平均值。 如果是重要的競賽,而且評分時評分者可以辨識被評者身份時,如奧運會的體操、跳水、花式溜冰,或全國性個人舞蹈、演講、鋼琴演奏比賽等,常採用多位評審同時評分,然後去掉被評者所得的最高分與最低分,再加以平均。這種平均數叫做「去端平均數」,這樣做可以減少評分者故意的偏袒,並提高評分的信度。
4. 若可能,隱藏受試者的身分。 當評分者不知道被評的對象是誰時,就可以排除評分者先前印象的影響並防止評分者故意偏袒的可能。影藏受試者身份的方法包括:將試卷姓名或號碼部份加以彌封、重新編造密碼、弄亂原試卷排列次序、重新謄錄。但是若閱卷者是原來任課教師時,教師仍可由寫作風格及筆跡辨認出學生身份,所有學生都不被認出是不可能的。
5. 先評閱全部試卷的某一題,待該題全部評閱完後,再評閱下一題。 這種閱卷順序,不但使閱卷者能夠集中注意力於同一題目,加速閱卷過程;也使得評分者能夠對同一題目維持相同的標準,增加評分的正確性。相反地,若閱卷順序是每一張試卷的題目全部評完後才評閱下一張,則很容易因為對先前題目的印象而影響到下一題的評分,而造成心理學上所謂的「月暈效應」。

C. 分析式或整體式評分

1.分析式評分

分析式評分(analytical scoring)是將評審的標準分析成幾個代表不同特質的項目,並就各項目賦與不同的比重(佔分比例),計分時則先就每一個項目給分,再合計總分。此法雖然可以提高不同評分者之間的一致性,又能提供診斷性的訊息;但是若項目分得太細則會增加評分者的負擔,反而使分項計分流於形式。除此之外,越是強調獨創性、整體性的作品,越不容易採用分項計分,所以無法普遍使用。

2.整體式評分


整體式評分(global or holistic scoring)是只就每一被評審對象給一總分或排列其等級,而不另外分項給分。此法的優點是:1.簡便易行,計分速度快,2.可用於難以分析成不同特質的評分對象上。缺點是:1.個人的主觀因素的影響變大,分數的信度較低,2.無法提供充分的回饋訊息,讓學生有所改進。

計分方式:一、客觀計分

A. 手工計分方式

所謂手工計分(hand scoring)及是以閱卷者的肉眼來核對試卷上的答案是否與標準答案一致,並以手做記號來算分數。計分者可以採用下列方式提高計分效率並減少錯誤。
1. 紙條對照式。 計分者把正確答案寫在紙條上,然後放在學生作答位置旁邊,使正確答案能夠對應並緊靠著學生的答案,接著逐題核對以「V」表示答對,以「×」表示答錯,再計算答對題數;若只以「╱」標示答錯題目,錯誤率較高。這種方式比較適用於直接在試卷上作答的測驗。
2. 厚紙打洞式。 以厚紙印製答案卡,然後在正確答案處打洞,稱之為「計分卡」計分時將它疊在學生的答案紙上,數數看這些洞中出現幾個作答記號即是其原始分數。以這種方式計分時,計分者先要逐題檢查是否有一題選兩個答案的情形,如果有應該用紅筆把該題劃掉後再計分。
3. 透明膠片式。 以透明膠片放在標有正確答案的答案紙上,並在正確答案處以色筆畫圈,作成計分膠片,然後疊放將它在學生答案紙上,數數看有多少個圈內有作答記號,即其原始分數。
4. 複寫紙式。 有些標準化測驗的答案紙具有複寫紙的功能,上面一張和平常的答案紙一樣,下面一張則是標有正確答案位置的計分紙,由於兩張重疊且周沿密封,所以學生並不能看到下一張的答案。計分時才把兩張紙撕開,數算計分紙上正確答案位置內的符號即可算出其原始分數。

B. 手工計分應注意事項

使用手工計分時應該注意下列事項:
A. 由他人計分時,應抽取10% 做複查,若錯誤率偏高時,應該全部重閱。若事先要求計分者署名負責,通常可以減少錯誤比率。
B. 評閱填充題、簡答題、應用題時,若把錯別字、文法、書法、或計算過程完整性等變項也都納入計分,並無不對,但應該事先告知學生才公平。
C. 相同題型內的各個試題不要因為重要性或難度不同而給予不同的加權。研究證明,試題間的加權計分只會提高計分工作的複雜性及錯誤的可能性,並不能提高分數的信度。
D. 選擇題若採用「部份知識計分」(即以挑錯方式作答),或「信心加權計分」(即依據各題信心指數及答案對錯來加減分數),只會增加計分複雜性,是弊多於利。

C. 機械計分方式

進行大型的測驗計畫或是常用的團體能力測驗時,因為受測人數龐大,需要有更有效率的計分方法。資訊科技的發展,使得測驗學能夠利用光學掃瞄儀器加上電腦,進行正確又快速的機器計分(machine scoring),唯其共同的缺點是作答記號未塗滿或稍有偏斜或顏色太淡,光學掃瞄器就不起反應。
機械計分依據答案紙大小可分成下列兩種:
1. 單面讀卡式。 此法的優點是機器處理速度快、卡片印刷成本低;缺點在於因為卡片的面積小,所能夠容納的題數較少;作答位置太小且太密,不適於國小兒童或手眼協調不佳者使用。答案卡格式通常如圖6-1



2. 光學掃瞄式。 使用此計分方式時要考慮紙張的透光率及正兩面作答位置是否重疊等技術問題,因此其缺點是製作技術較難、印刷成本較高,但其優點是採用A4規格紙張,且正反兩面都可作答,所以可容納題數很多。試題很多的考試(如GRESATTOEFL 或分測驗很多的綜合性向測驗、成就測驗(如GATB, DAT )中常採用光學掃瞄式計分。答案紙格式通常如圖11-1






111  機械光學掃瞄式答案紙

D. 機械計分應注意事項

使用機械計分雖然有迅速、正確的優點,但也應該注意下列事項,以避免錯誤的發生:
1. 事先確定學生都已經熟悉答案紙格式及作答方法。 若可能應該做模擬練習,以減少學生的焦慮與困惑;大部份的學者都主張小學二年級以下不應該使用機械計分的答案紙。
2. 要求學生作答時要將選答的位置塗滿並塗黑。 否則光學機械可能不起反應,而當成空白處理。
3. 要求學生更改答案時一定要擦拭乾淨。 即使不小心造成的污點也要擦拭,以免機械誤判。

4. 事先測試機械性能,以免產生大規模的錯誤分數。 例如:光學閱讀機的敏感度如何?電腦程式對於單選題中讀到兩個答案時會如何處理?答案紙起皺紋到什麼程度就不能處理?等等。