2016年11月8日 星期二

解釋測驗結果

一、解釋測驗分數的一般原則

在實際面對受測者或轉介機構代表時,解釋者要注意下列原則,才可避免測驗被誤用、濫用的情形。

A. 對分數的綜合分析

1. 要事先檢查測驗分數的可靠性。 我們不可以假定受測學生都符合我們的基本假定(亦即,都有最大的作答動機、相同的教育機會等),或者施測條件都已精準地控制(如施測程序、作答時間、測驗環境、計分程序、查對常模等)。因此在解釋分數之前,先查閱施測紀錄或訪談施測者,或者直接詢問受測學生當天受測情形,都可以先確定該測驗分數是否可靠,若前兩者造成的不確定誤差太大,就不必要作進一步的解釋。
2. 要從測驗真正測量的內涵來評估學生。 測驗的名稱通常很簡短,但沒有兩個學術性向測驗或成就測驗所測量的特質是完全相同的,例如,某個數學測驗可能只局限於簡單的計算技巧,但另一個卻含有大量的推理問題。因此,測驗解釋者不只是要先閱讀測驗編制報告或測驗指導手冊,還要親自審閱試題內容,才不會對學生的分數做出錯誤的推論。
3. 應該針對轉介原因或施測目的進行分析。 受測者或轉介者心中都有等待解答的問題,例如,是否應該選讀某一科系?是否應該接受特殊教育?解釋者應該要能夠具體回答,而非只對分數作一般性的解釋。
4. 若涉及重大決定時,應該配合其他相關資料。 解釋測驗結果時應該配合學業成績、與教師或家長面談記錄、其他測驗表現等,不能以單一分數為依據,若資料之間彼此有矛盾,應該再進一步確認哪一種資料比較可靠。

B. 對人的尊重

1. 要尊重個人隱私權。 解釋者只將測驗結果傳達給受試者及其監護人、或原初轉介來源(學校人員、企業雇主)以及法令上有權調閱的相關人士,不應該隨便透漏給無關的第三者。
2. 避免使用專業術語。 解釋者要儘量以通俗的語言來解說,讓對方能夠充分理解並覺得有用處,還要隨時回答問題,以免造成誤解。解釋者也要儘量利用測驗剖面圖、常態分配圖來幫助對方理解各個分數的意義
3. 要顧及對方的情感反應。 解釋者應當努力了解學生的相關背景,當學生的測驗表現不佳時,首先要考慮語言背景、先前教育經驗、低落的動機,或其他可能干擾作答的因素等造成的影響,而不要只就分數輕易下結論。解釋者遇到那些確實不能盡如人意的分數時,還要使用諮商技巧來消除對方的淡化、否認心理防衛,以幫助他接納事實。
4. 應該提供正式的測驗報告。 一份正式的測驗報告可以顯示解釋者的專業素養以及他慎重其事的態度,也可以增進溝通上的清晰性及說服力。正式的測驗分析報告內容要包括:受測者身份資料、轉介來源、轉介原因、背景資料、觀察或面談經過、測驗內容及程序、測驗結果與解釋、結論與建議,最後要加上報告撰寫者的身份與簽名。

二、解釋測驗的步驟

測驗種類很多,測驗對象與目的也各有不同,但解釋的步驟卻是大同小異。在此我們是以學術性向測驗為例子,說明教師向家長或學生解釋標準化測驗的理想步驟。

A. 描述測驗性質及內容

教師在解釋測驗分數之前都要先說明這測驗的性質,以及整個測驗及分測驗所測量的能力。這部份的內容通常在測驗指導手冊上會有詳細說明。在學校裡,教師最常需要向家長解釋的就是與學術性向相關的測驗,因此,應該特別提醒家長下列幾點,以免家長誤解。
1. 學術性向測驗不是智力測驗。「智力」一詞容易造成誤解及引發情緒反應,測驗界已經幾乎很少使用,現在大多改用「學校能力」、「認知能力」等名詞。
2. 學術性向測驗並不是測量先天、固定的能力,而是測量已經學得的能力。
3. 不能單獨用學術性向測驗來預測學生未來的學業成就,還要考慮其他因素。因此教師不應該說:「依據這個測驗分數,您的孩子將來會.......」,而應該說:「得到這個分數的學生,將來通常會......」。

B. 說明測驗分數的意義

如果是常模參照測驗,就要以簡單易懂的方式向對方說明測驗分數(衍生分數)的意義,以及參照常模群體的性質。為了方便,測驗分數通常以百分等級或標準九的型式向家長說明,因為它們最容易解釋,也較不容易產生誤會。

1. 解釋百分等級

「在閱讀理解測驗上,大明的分數若與全國五年級學生相比,他超過百分之八十的人」(教師或許要補充說明他不是答對百分之八十的題目,而是有百分之八十的學生分數比他低)。

2. 解釋標準九

「若把全部學生的能力簡化成九個分數,最高分是九分,最低分是一分,平均是五分。那麼大明在閱讀理解測驗上的能力,若與全國五年級學生相比,他可以得到七分。」(教師可以補充說明7,8,9是中等以上,4,5,6,是中等,1,2,3是中等以下)。
教師若是需要同時解釋好幾種測驗的結果(如性向與成就測驗),最好採用同一種分數系統分數,免得家長困惑,此外也便於相互比較。
雖然家長很想知道自己子女在團體中的表現,但他也同樣想知道自己子女已經學會什麼還有哪些未學會。這種標準參照式的解釋通常是以「精熟的百分比」來說明,較容易為家長所理解。如果你用了「答對百分比分數」,要記得將他與「百分等級」分清楚;若你用了精熟與未精熟的判斷,要說明精熟的標準,以及這標準是如何決定的。

C. 澄清測驗分數的正確性

教師要先幫助家長建立建立任何測量誤差的概念,他可以先利用商品上重量的容許誤差量(如100±5公克)來說明心理測驗的分數也會因為測驗性質不同而有不同的測量誤差,接著再以測驗剖面圖上各分數的分數帶(實得分數上下一個標準誤)來說明學生真正分數的可能範圍。
當教師以教學目標或同一內容試題(例如改錯字部份)來解釋測驗分數時,要特別注意試題題數,若題數過少(例如少於10題),則不能擅自下結論,應該只把它當作應該進一步查證的線索。教師若能夠把測驗結果與平常的考試或作業合併來看,便可以作出較可靠的解釋,畢竟將測驗分數與其他的可用資料交互驗證才是解釋測驗分數的正確方法。

D. 剖面圖的解釋

測驗分數剖面圖(或稱側面圖)(profiles)是指個人在接受一套測驗組合之後,將個人在幾個分測驗上的衍生分數以圖示的方式同時並列,以便相互比較,進而判斷個人在不同能力上的優劣。
要使用剖面圖的先決條件是各個測驗的常模是建立在相同的常模樣本上,且使用相同的衍生分數系統。

1. 分測驗間分數差異的解釋

使用剖面圖的目的是要比較同一人的幾種測驗分數,所以要遵守一些事項才能建立比較的基礎。
1. 轉換成同一種衍生分數。 不同分測驗的原始分數是不能相互比較的,他們要對照常模轉換成可以比較的單位,例如標準分數、標準九、百分等級、年級當量等;而且每一種分數都要轉換成同一種衍生分數方可相互比較。
2. 使用同一個常模組。 在換算衍生分數時,要各個分測驗都使用同一個常模組,而這常模組的樣本特徵(年級、性別、地區等)要與受測學生的特徵相符合。
3. 以分數帶標示出測量標準誤。 因為各分測驗之間以及各常模組之間的測量標準誤常會不一樣,使用者要查清楚,並在剖面圖上要以分數帶標示出,各測驗衍生分數加、減一個測量標準誤之後構成的誤差帶。
4. 以分數帶比較兩個分數的差異。 在比較同一剖面圖上的兩個分數時,若該兩個分數的分數帶之間彼此沒有重疊的部份,我們才可以認定為兩個分數之間確有明顯的差異,否則就應該說它們之間沒有明顯的差異。

2. 剖面圖的三個特徵

剖面圖除了可以用來解釋個別分數落點及比較不同分數間的差異外,還可以把整個剖面圖當作一個整體,從下列三方面來說明這一組測驗分數的特徵。
1. 一般水準(Level)。 它是指各個分數的平均值是偏高或偏低。偏高表示各種性向或學習成就高,將來的成就或工作表現也會較高。
2. 變異程度(Variability)。 它是指各個分數之間是彼此差異很小,或是明顯地參差不齊。變異不大表示此人各項能力皆均衡發展;變異很大表示此人有某些能力是非常明顯的優點或弱點。
3. 分數形態(Shape)。 它是指高低不同的分數所構成的特殊形態,它可以用來做診斷或預測上的歸類。若有實證研究支持某種分數形態與某一種症狀(腦傷、文化不利、語言障礙等)有關,則可以依此做診斷性解釋,例如,魏氏智力量表(WISC)的剖面圖可以判斷某一兒童是否為文化不利或是腦傷;而區分性向測驗(DAT)的剖面圖可用來判斷受測者比較適合就讀大學哪一科系。

E. 討論測驗結果的應用

向家長說明如何應用測驗結果時應該包括:(1)這測驗結果如何用在對該學生的教學(或輔導)計畫上,(2)教師和家長應該採取哪些具體行動來幫助學生的學習和發展。通常這些提議也會寫在正式測驗報告的「結論與建議」部份。

三、與學生討論測驗分數

使用回饋性討論的要領:
1. 進行回饋性討論是為了幫助學生,而不是傷害學生。
2. 適時安排回饋性討論,最好是在評量之後。
3. 與學生分享訊息並共同探索可能的選擇,而不直接給予建議。
4. 尊重學習者的需求。
5. 要建立一種氣氛,讓學生覺得是他們在尋求回饋,而不是被強迫聽回饋。
6. 只提供學生用得著的訊息,不要企圖把你所知道的一切都塞給他。
7. 討論焦點是對事不對人。
8. 要針對你所觀察到的行為或特質,而不是你所推論的。
9. 要針對特定性問題,而不要對一般性問題。
10. 只討論學生可以控制、可以改進的行為。
11. 以逐步引導的方式問問題,以幫助學生瞭解自己。
12. 要確認你與學生雙方面都確實瞭解對方所說的,要重述對方的想法。

2016年11月1日 星期二

如何運用分數作成決策

一、預期表

預期表(expectancy tables)是具有兩個向度的表格,它左邊是由大而小的測驗分數(預測變項)而且是由上而下排放,上面是由小而大歸類成幾個等級的成就分數(效標變項)且是由左而右排列。

表1即是預期表的範例。在表中顯示,如果一個考生的大學入學考英語科分數是35分,而他選擇就讀英語系,則將來畢業成績落在70-79分的機率最高,約55%,而落在90分以上的機率最低,只有2%。

表 1 英語系學生在大學入學考英文科分數與畢業總平均成績的關係的預期表
入學考試│     英語系畢業總平均成績 
英文分數│ 60-69    70-79   80-89   90以上
90以上        0%       11%       33%     56%
70-79           2%        7%       40%     51%
60-69           7%        7%       50%     36%
50-59           9%       11%      48%     32%
40-49           21%     19%      46%     14%
30-39           32%      55%     11%       2%
30以下       45%       34%     21%       0%

預期表可以很清楚地顯示兩組分數的關係,雖然它在處理上比相關係數更累贅,但是卻很容易被缺乏統計學知識的人所瞭解,同時它可以很清楚地說明一個測驗的預測效率,除此之外,它也是用以說明一個測驗的效標關連效度(Criterion-related validity)的一種簡單又實際的方法。

二、兩階段決策法



三、同時使用多種測驗作決策

當同時以多種測驗分數來師篩選或預測未來工作表現時,這些測驗又稱為測驗組合(Test battery)。大學或高中聯考中的測驗可以算是一種成就測驗組合;但是最常用的還是多元性向測驗組合,例如,用於幫助高中學生選擇大學科系時所用的區分性向測驗(Differential Aptitude Test, DAT),或職訓中心甄選各職種學員所用的通用性向測驗(General Aptitude Test Battery, GATB)。

在使用測驗組合時最主要的兩個問題是:(1)應該選擇哪些個測驗來預測未來表現最為恰當,(2)這幾個分數在統計上要如何處理,才能做出正確判斷。為了解決這些問題測驗專家提出了兩種解決策略,一個是多元迴歸公式法,另一個是多重切截分數法。

A.多元迴歸法

簡單迴歸法是以一個測驗分數去預測個人在效標上(畢業成績、工作考績)的表現;而多元迴歸公式(Multiple regression equation)則是同時以多個測驗分數去預測未來在效標上的表現。

若大部分的測驗分數與效標有顯著的直線相關(與效標的積差相關高),且各測驗之間的內容不重疊(各測驗之間的積差相關低)時,使用多元迴歸法的與測效率最高。多元迴歸的計算公式如下:

Y’= a + X1b1 + X2b2 + X3b3 + X4b4 +……… (公式 13?14)
Y' = 個人的效標表現分數(預估值)
a = 截距
b1, b2, b3…...= 各測驗的迴歸係數(斜率)
X1, X2, X3....= 個人在各測驗上的原始分數

B.多重切截法

使用一種測驗結果做二元性判斷(及格\不及格、錄取\不錄取)時,需要設定一個切截分數(Cut-off score),才能把所有的受測者一分為二。但若同時使用多種測驗結果來篩選時,則需要設定多重切截分數(multiple cut-off scores)。

切截分數可以應用在兩種場合,一種是在篩選性測驗中判斷錄取或不錄取,故又稱為「最低錄取分數」;另一種場合是在效標參照測驗中判斷學生的學習結果是精熟或未精熟,通常又稱為「通過分數」。

至於決定篩選的切截分數高低的因素有二:第一個是篩選率,亦即參與甄選與擬錄取人數的比例,切截分數的高低與參與甄選的人數成正比,但與擬錄取的名額成反比。第二個是決策者的經驗判斷,亦即做決定者依據其過去經驗及專業判斷認為錄取者應具備的最低能力如何,並依此主觀設定一個最低標準。

多重切截分數適用於以多元性向測驗來預測受測者是否將來能勝任某一種職業,測驗研究者會會建立個別職業常模,並依據各分測驗分數與效標(工作表現的評等)的相關來找出關鍵分測驗,再依據優秀從業者(全部從業者的前三分之二)在這幾個分測驗上的平均數及標準差來設定切截分數。

測驗的調整策略

為了滿足殘障人士的需要,在很多情況下,己經對某些測驗採取了許多調整措施。有些調整措施要求對施測程序進行修改(如,指令和答題形式),有些調整策略則要求對測驗媒介、測驗時間、考場設施、或測驗內容進行適當調整。根據受測者殘障的性質和程度,一般都可以找到一至多個相應的測驗調整措施以配合特定的受測者。

下面所列的只是若干,並非所有現成的或適用的測驗調整策略。測驗是否需要調整,是取決於調整後的測驗對於受測者在所測構念方面,能否得到更有效的推論。

1. 調整指令與試題的呈現方式

根據受測者殘障的具體情況,可以修改測驗指令和試題所使用的媒介。例如;可以為患視覺障礙的受測者提供點字版(適於全盲)或大號字體(適於弱視)試卷進行測驗;在電腦施測條件下,還可以使用較大的字體或螢幕來顯示測驗內容;對於有聽力障礙的受測者,可以通過手勢或用書面來宣布測驗指導語;對於視障者則以錄音帶或口頭報讀試題等等。

2. 調整考生答題方式

根據受測者的具體情況,還可以調整測驗的答題方式,允許殘障人士使用其擅長的溝通方式來作答。例如,可以允許患有嚴重語言障礙的受測者,用手勢指出其所選擇的答案;對那些無法用手書寫或畫答案卡的受測者,可以由施測人員幫助他畫答案卡,或使用A4大小的代用答案卡或空白答案紙作答;還有其他答題方式,例如允許受測者使用錄音機、電腦鍵盤、或點字機、盲用電腦等等來作答。

3. 調整施測程序與作答時間

另一種測驗調整措施是修改測驗時間,這主要包括:延長測驗時間以完成試卷,在測驗中增加休息次數,或者將整個測驗分散在數日內進行等。很多全國性測驗計畫(如學業成績、証書測驗等)允許殘障人士有額外的時間。在測驗中,閱讀點字版試卷、使用錄音機或閱讀機等,都要比閱讀標準試卷花費更多的時間,但閱讀大號字體試卷則不一定花費更多的時間。具體情況取決於測驗材料的編排、布局以及受測者殘障的性質和嚴重程度等。

國內大學入學考試規定,獲許延長作答時間的考生,以不超過各題原作答時間之1.5倍為原則,也可於考試期間安排短暫休息時間(例如在90分鐘或以上之考試,每45分鐘獲安排5分鐘的休息時間)。於短暫休息時,考生必須翻轉試卷及停止作答,且不可取出違規物品(例如:書籍、字典、筆記、紙張及任何電子器材),否則可能會被懷疑作弊及引致嚴重處分。

4. 調整施測環境

通常,在群體施測條件下進行的測驗,可以根據不同的測驗目的對殘障人士進行個別測驗。個別測驗可以避免群體施測條件下受測者之間的相互干擾。許多殘障人士(如注意力缺乏症受測者等)在群體施測條件下很難完成測驗。

特別試場一般設於一樓,或有升降機直達的教室。特別試場的考試程序與一般試場相同,但會有較多監考人員,以便在考生有需要時提供協助。

考場會提供其他因障礙或傷病所致之特殊需求或必要協助,例如,對肢體殘障者提供輪椅及更能支撐身體的桌椅;或者根據弱視受測者的需要,適當調整考場的光線等;此外還可攜入糖尿病用胰島素幫浦、助聽器等個人醫療器材。

若能證明其需要,特殊需要考生可獲准於考試時使用考場提供的或自備的輔助儀器(例如:助聽器或電子耳搭配FM調頻系統、放大鏡、擴視機、立體算盤、點字機、盲用電腦等器具,以協助閱讀或記錄答案。

5. 只使用部分的測驗

另一種測驗調整措施,是只選用標準測驗的某些分測驗來對殘障人士進行測驗。在臨床測驗中,當標準測驗的某些部份(subParts)需要用到受測者的身體、感官、語言或其他技能,而殘障人士又不具備這些技能時,就可以只選用標準測驗中的部分測驗來進行施測。

另外,如果受測者的身體或感官殘障會影晌其測驗表現水平的發揮時,在認知和學業成績測驗中也常採用這種調整方法。例如:在一項認知能力測驗中,如果測驗是由口頭和書面部分共同組成的,那麼,在對有聽力殘障的受測者進行施測時,就可以將口頭部分從測驗中刪去,因為受測者在這些測驗上的測驗結果,大部分是反映受測者的聽力障礙程度,而不是真正反映其認知能力,它並不能對受測者的認知能力提供充分的評量訊息。

不過,儘管在施測中刪除某些測驗計畫的做法,確實是一種很有效的調整措施。但這種調整方法,也有可能使測驗無法充分測量預期的技能或能力,特別是當這些技能或能力恰好是測驗要測量的目標時,問題就更加突出。比如:只選用部分的測驗來進行施測的方式,在諸如証書測驗和甄聘測驗中就不恰當,因為這類測驗的每一部分所測量的構念,可能正好代表了一種性質不同,而且是工作或職業上所必要的能力。

我國大學入學考試規定考生若獲豁免應考某科全部或部分試題,該科全部或部分的成績將根據其已應考的其他科目或該科部分的成績予以推估。有關考生之成績單將附有適當註明,列出獲豁免的部分,惟考生獲豁免應考之原因及特別考試安排的詳情不會列於成績單上。

6. 使用替代性測驗或替代的評估方式

最後,還有一種調整方法,就是使用專門為殘障人士設計的測驗或代替評量(alternate assessment)方法來取代針對一般人設計的標準化測驗。使用為殘障人士專門設計的測驗對殘障人士進行測驗所得到的結果可能更有效。不過,儘管這種測驗調整方法可以代表一種較為理想的測驗調整手段,但在實務中要找到一個測量相同構念,並與標準測驗具有相似技術水準的替代性測驗則相當困難,而且要將兩種測驗的分數置於同一個分數量尺上也並非易事。

為不同語言背景者調整施測程序

對於所有受測者而言,只要是以語文表述的測驗就有一部分是在測量他們的語言能力。當受測者的母語不是測驗所用語言時,這就成了特別需要注意的問題,若測驗是在受測者的語言能力沒有達到一定程度的情況下施測,可能會在測驗過程中引入與構念無關的因素。因此測驗結果可能無法準確地反映出受測者的真正能力。
另外,語言差異幾乎總是和隨之相連的文化差異相關聯。當受測者的母語不是測驗所用語言時,在使用測驗的結果時就需要將文化差異也考慮進去。
對於雙語受測者進行測驗也有特殊的挑戰。一個懂得兩種語言的受測者可能使用哪種語言都考不好。舉例來說,由雙親都是華人,但在國外出生長大的孩子可能懂得華語,但表達上最好的還是英語。還有,有些雙語人士在多數社交場合裡會使用母語,但在學業上和工作上則經常使用英語。再舉一例,口語英語和書面英語常常不一樣,英語為非母語的人在口語交談中可能給人很流利的印象,但在需要使用書面英語的測驗中,表達能力可能就不行。因此,瞭解一個人的雙語類型和程度對於合理使用測驗也是很重要的。
實施測驗的人首先應了解受測者比較精熟的語言(亦即受測者喜歡用的或經常使用的語言);在決定了優勢語言後,應了解他在優勢語言的精熟程度;如果多種語言的優勢程度差不多的話,應建立兩種或所有語言的精熟程度的比較。然後,如有現成測驗的話,測驗應以受測者最熟練的語言來進行(除非測驗的目的是決定受測者對測驗語言的精熟程度)。我國的跨國婚姻、新移民逐年增加;大學追求國際化,錄取大量外籍學生;使得在測驗時遇到不同語言背景的受測者的機會也隨之增加,因此測驗工作者有需要了解這方面的議題,才能適當地調整施測措施,以維護測驗結果的有效性。

1. 改用配合受測者母語的翻譯版或修訂版

為配合受測者母語而使用該測驗的翻譯版或修訂版,是看似簡單但實務上卻很艱難的一件事。(1)我們不應簡單假設翻譯版和原版之間在內容、難度、信度和效度方面會完全等同。(2)不能假設受測者對兩種文化認同方面的經歷可以在兩個版本之間相互比較。(3)有許多字彙在不同的語言中使用頻率和難度也不同,因此,在兩種語言裡看起來意思相近的字可能在用法上截然不同,以至於影響到翻譯版測驗的原定用途。
另外,翻譯版的測驗內容可能和原版的並非等同。例如,甲語言的閱讀能力測驗翻譯成乙語言的閱讀能力測驗後,可能含有和原版意義不完全相同的內容,或是對只能讀乙語言的人有非常陌生或被冒犯的感覺。
在多數情形下,在編製翻譯版時,仍應循測驗編製和效度驗證過程的方式循序漸進,以保証兩種版本都測驗相似的構念。當測驗同時以兩種或多種語言製作時,一般最好是能用每種語言各出部分的試題。

2. 施測過程使用翻譯人員

當沒有適當的測驗翻譯版或功能相匹配的非語文測驗時,理想的作法是,應當由一個經過專業訓練的雙語施測人員來施測在測驗語言上能力有限的人。雙語施測人員對於受測者語言的熟練程度應該達到相當的水準,才能使測驗正確、流暢地進行。當沒有雙語施測人員時,一個解決辦法是在測驗過程中用翻譯人員,以受測者的母語進行測驗。
在教育和心理測驗中,翻譯者可能得在施測之前熟悉測驗內容和施測過程的全部細節。同時在必要時應給翻譯者時間去翻譯測驗指示和試題。在心理測驗中,施測人員最好能向翻譯示範,某些試題是怎麼考的並解釋在測驗中期望什麼結果。另外,在測驗前原施測人員和翻譯者應該互相熟悉對方的說話方式和速度,建立良好默契。
在評量即將開始前,應向受測者清楚解釋翻譯者的角色。翻譯者應盡最大努力,提供準確的譯文。翻譯者必須在整個測驗過程中反映其專業態度並保持客觀性(如;不加主觀意見,不給受測者提示等),一旦測驗結束,施測人員有責任在翻譯者的協助下審核測驗的答案,翻譯有困難的答題(如;詞彙),對於可能有特別意義的非測驗行為(如:身體語言),還有語言因素(如;兩種語言混合使用)以及可能對測驗結果產生影響的文化因素,也都必須詳加討論。這方面資料將會被施測人員用來仔細評鑒測驗結果並由此做出推論。

3. 選用母語與文化背景與受測者相同的施測者

在個別測驗的情境中,若施測者和受測者的語言與文化背景相差太大,可能造常很大的誤解。在一種文化裡看起來怪異或不適宜的語言行為,在另一種文化裡可能被認為很正常和恰當的。例如,在某些文化裡兒童對成人,或者成人對比他地位高的人說話時,其所處社會可能鼓勵他們對這些人只作具體問題回答或用平板的語調講話。因此,在測驗時,這類受測者可能對施測人員要求詳細回答的問題,勉強只是用一個短語或是聳聳肩來應付了事。
如果這種文化傾向沒有在解釋測驗結果時考慮進去的話,其解釋就可能被証明是不恰當的。同時,施測人員也不應該假定這些受測者所表現出來的寡言少語就是其文化的特徵,他可能還需要其他的訊息(例如,測驗前的觀察或與家庭成員的晤談)來討論語言表達方面可能的文化影響。

與語言表達程度相關聯的價值取向也可能有文化間的差異。一個文化群體可能認為能言善道或說話速度快是無禮、粗魯的,而另一個文化群體可能視之為高智商或友好的表現。因此,施測者與結果解釋者若沒有多元文化方面的專業訓練,就應該選用母語與文化背景與受測者相同或接近的施測者與解釋者,以免做出的測驗解釋和處遇措施可能是沒有效度的,而且會給受測者帶來傷害。

各種擴大試題區辨力的客觀計分方式

二元計分法是客觀計分法中使用最廣泛的。它只就學生的反應做全對或全錯的判斷,而不需要根據反應的完整程度或正確程度而給予部份的分數。傳統的是非題、選擇題、配合題、填充題都是採用這種計分法,它因為具有方法簡易、時間節省、及結果一致的特性,而廣被採用。
傳統的二元計分法雖然方便,但有時候為了讓測驗結果在有限的題目中產生更多的序階以提高區辨力,降低同分的人數,而不得不採取較複雜的計分方式,例如以下的幾種計分方式:

1. 容許表達方式差異的二元計分法

這種計分法通常用在填充題,它允許正確答案的同義詞、用英文或注音符號表示、答案的上位概念都算做正確答案。此法雖然仍是二元計分,但是卻能避免了因為語文表達方式的不同而影響分數,造成效度的降低。有些填充題要回答的是帶有單位的數值,這時若考生使用了與標準答案(例如15 kg)不同的單位來回答(例如33.07 lbs),若經過換算之後數值正確,亦可接受該答案。

2. 數值答案帶容許誤差的計分法

這種計分方法是用在答案為數值的填充題,或是計算題。例如,台灣本島的南北縱長為多少公里?若答案在394±10公里之間,可得100%的配分,答案在394±20公里之間,可得50%的配分,其餘答案為零分。

3. 依據刪除錯誤選項數的計分法

這種計分方式是要學生在作答時,不是選出正確答案,而改採刪除錯誤的誘答。學生能刪掉錯誤的選項愈多就愈能拿到高比例的配分。例如,在四選一的單選題,若能刪掉三個錯誤選項,可拿100%的配分;刪掉二個錯誤選項可拿50%的配分;只能刪掉一個錯誤選項就拿25%配分;沒有作答,或刪掉了正確的選項,就得到零分。這種計分法讓有部分知識的學生也能拿到部分的分數,而不是要硬猜一個正確的答案,而使得機遇因素影響分數。

4. 同題多次作答直到答對的計分法

當以電腦作答時,程式可以設計成允許多次嘗試做答,在四選一的單選題上,若在第一次就答對學生可以得配分的100%,若第二次才答對,則可得50%;若第三次才答對,則可得25%;若三次沒答對則該題就是零分。這種方式可讓有部分知識,可以刪掉某幾個選項的學生也能得到部分的分數,因而更精細地區分學生的能力。唯學生需要在電腦上受測,成本較高,且不利於有電腦焦慮症的學生。

5. 答案完全正確則進一步採計時加分法

個人的能力會反映在作答的速度與正確上,但傳統的團體紙筆測驗只能記錄答案是否正確,無法紀錄其反應時間。如果以個別測驗,或以電腦作答時,我們就能夠記錄呈現試題到學生完成作答所花費的時間,這時對於答對,而且反應時間比其他答對者還短者,給予計時加分,就可以增加試題的區辨力。例如,魏氏兒童智力量表(WISC)的「連環圖系測驗」、「圖形設計測驗」、「物形配置測驗」都是採用這種答對就計時加分的計分法。

6. 依選項合理程度給予部分配分的計分法

當選擇題的每一個選項都經過統計上的試題選項分析,以及認知結構上的分析,那麼不同的誘答就可以代表不同程度的部份知識。因此學生雖然沒有答對題目,我們仍然可以依據他選的是哪一個誘答,若仍算部分合理,也給予不同的部份分數(80%~20%)。這種計分法通常比二元計分法更能夠精細區分學生的能力。唯各個選項要事先做過深入的解題思考過程分析,才能決定各選項的加權量,除此之外,因為計分方法複雜,還要有電腦計分的配合,才可以避免人工計分的繁瑣與錯誤。

7. 依試題難易度加權的計分法

當施測紙筆測驗且以人工計分時,通常會採取對於相同題型的題目,不論其難易度,一律給予相同的配分。但是若題目是取自經過試題分析的題庫時,因為已有各個試題的難易度指數,我們就可以改採用較難的試題給予較高的配分,而較簡單的試題給予較低的配分。如此一來,兩個考生都答對30題,但他們的分數卻不相同,答對較多比較難的試題的考生分數會比較高。這種計分方法要有兩個先決條件,第一是試題要先經過試題分析,最好是以項目反應理論(Item Response TheoryIRT)分析過,才能取得比較穩定精確的試題難易度指數;第二是要以電腦計分,才不會因為太過繁雜而出差錯。

8. 依作答者信心加權的計分法

所謂信心加權計分(weighting by degree of confidence是指學生除了寫出答案外,還要指出對自己的答案的信心有多高,計分時就按照其信心程度給予不同的加權,此種計分法可以降低猜答的影響,並擴大分數分配的全距,提高評量的信度。例如是非題可採用表5-7 做加權計分。

 1  是非題的信心加權計分方法
  學生認為     標準答案為「是」    標準答案為「非」
該題敘述是:   應給分數               應給分數
絕對正確            2                         2
可能正確            1                         0
不確定               0.5                       0.5
可能錯誤           0                          1
絕對錯誤           2                          2
   
選擇題及填空題也可以採類似方法進行加權計分,但有些學者指出當題數超過20題以上時,學生分數的全距自然拉大;且題數越多,以信心加權方法產生的分數差距越顯的微不足道,反而增加計分上的工作量,所以實際上大多採用增加題數,而很少用信心加權法。

9. 重組題的計分

重組題的答案因為有許多種組合方式,而不同的組合也代表著不同的正確程度,所以用全對或全錯的二分法來計分對於那些非常接近正確答案的人是很不公平的。但是依照選項數目把它拆成幾題來分別計分也會產生問題,例如表 5-6 的學生甲在六題中沒有一題答案是完全吻合,所以應得零分,而學生乙恰好有兩題答案完全吻合,卻可得二分,但實際上學生乙的整個答案的排列比甲更離譜。
較理想的計分方法是採用「差異絕對值法」,此法是計算學生答案與標準答案之間差異的絕對值,並累加起來;絕對值越小表示越接近正確答案,應給較高的分數。此法的缺點是需要有電腦的配合,否則以人工計算實在太費時、費力。

 2  重組題上兩位學生答案與標準答案之差異
(試題:請依據下列各縣的地理位置由北向南排列)
            標準   學生甲   差異      學生乙   差異
            答案   答案     絕對值    答案     絕對值
  雲林      4         3          1                 2        2
  彰化      3         4          1                 3        0
  苗栗      2         1          1                 4        2
  屏東      6         5          1                 6        0
  嘉義      5         6          1                 1        4
  桃園      1         2          1                 5        4
                            合計= 6              合計 = 12

10. 比例計分法

比例計分法是依據「要求完成的數量」與「實際完成的數量」之間的比例來計分。它特別適合用在語文科目的默寫、背誦、朗讀等評量方式。例如,要求默寫一篇300字的文章,在扣除錯別字及漏寫的部份後,實際只有240字,佔80%,若再乘以該題配分15分,則實得分數應為12分。
比例計分法只適用於有絕對對錯標準,並且只重視完成數量的評量方法上,而不適用於強調品質高低的評量方法。

12. 猜答現象與矯正方法

當測驗所用的題型為「是非題」或「選擇題」時,盲目猜答也有很高的猜對機率(但依選項數增加而降低),所以難以防止學生猜答;尤其當題數很多而作答時間不夠用時,猜答情形會更嚴重。猜答現象對高能力的學生影響不大,但會使低能力學生的分數更不穩定。
當猜答的題數越多,測驗分數中由隨機誤差所形成的部份就越大,評量結果就越不可靠,所以應該設法將猜答造成的誤差加以減少或均等化。減少猜答造成的誤差的方法是採用猜答矯正(correct for guessing)公式計分。至於要把猜答造成的誤差均等化的方法是在作答說明中「鼓勵所有的學生猜答」。
猜測矯正公式是假定學生答錯的題目都是因為不懂而盲目猜答所造成的。因此,在四個選項的選擇題中,若學生答錯了三題,即可推論他同時也盲目猜對了一題。所以真正答對題數應以下列公式估計:


真正答對題目估計值 = 答對題目 - (答錯題數 / N-1)                                                                                                             
                                                                                                       
公式中N是選項的數目,在是非題中N=2,在選擇題中N通常是45

使用猜測矯正公式因為有下列缺點,致使實際使用者並不多。
1. 即使已經在作答說明中提出警告,仍然有大膽的學生盲目猜答,而謹慎小心的學生即使有部份知識也不敢猜答,這將使得人格因素影響測驗分數。
2. 增加計分上的困難,除非採用機械計分加上電腦程式的配合,否則人力和時間都會大量增加,且容易出錯。
3. 低能力者可能因為倒扣而得到負的分數,這將難以向家長或行政人員解釋。
4. 學生猜答時並不完全是盲目猜答,學生常以部份的知識進行推理,猜測最可能的答案,這是一種解決問題能力的表現,是教師所應該鼓勵的,而不是要禁止的。
由於猜測矯正公式有上述缺點,再加上測驗專家已由實證研究中發現當鼓勵學生每一題都作答,且給予充裕的作答時間時,無論是否採用矯正公式,兩者的分數排列順序幾乎完全一樣,所以現在大部份的標準化測驗都已經不再使用矯正公式了。
不過在下列狀況還是可以考慮使用矯正公式:

1. 若試題選項數少,題數很多且都偏難時,使用矯正公式可以使低分組學生的分數較可靠。
2. 在選項數少而題數多的速度測驗上(如校對測驗),使用矯正公式可以產生阻嚇盲目猜答的效果。


除了使用猜測校正公式之外,另一種防止盲目猜答的方式是當作答時間短而試題題數過多,且試題已經經過試題分析並依難易度排列,則計分時可以檢查試卷,若在答案紙後半部發現有連續錯數題之後偶然出現一題對的,即可推斷那是在盲目猜答下猜對的,可以不予計分。