2016年9月13日 星期二

測驗評量的相關概念


許多學術上的爭論是源自於基本觀點的不同,但也有不少的爭論只是因為對於所用的術語定義不清楚。因此概念分析常是學術討論中最基本的工作,透過概念分析,不但可以使個人的思想更清晰、溝通更精確,也同時避免了許多不必要的爭論。所以在進行討論之前,本文將先釐清測驗、測量、評量、評鑑等這幾個容易混淆的專業術語的含意,以使得後續的討論能夠更加清晰。

一、測量

所謂「測量」(measurement)是指「依據一套人為規則(測量工具)將數字(測量結果)分派到某一事物(測量對象)的某種屬性上(測量變項)的過程」。測量用在自然科學上是指用尺、秤、錶等去度量事物的長度、面積、重量、密度、時間、速度等,這些又稱為「直接測量」。至於教育及心理學領域上所測量的心理能力,則是以抽樣方式選出一套能引起受試者行為反應的心理作業(行為樣本),並依其反應的質與量(指測量結果)去推論其心理能量(知識、能力或人格特質),所以是屬於「間接測量」。

參照點是計算的基礎,任何測量都要有一個參照點。測量的參照點不同,則測量的結果就不能相互比較。長度、質量、時間等的測量以自然的零點作為參照點,若無自然的零點,就以一個共同約定的參照點作為零點,例如:攝氏溫度是以水結冰的溫度為零點;經緯度則分別以格林威治及赤道為零點。在教育與心理方面的測量也需要有參照點,但是心理能力與其作業沒有自然零點,也難以共同決定一個人為零點,因此只好各自建構不同的量尺(scale)採用不同的人為參照點(兩份試卷的試題難易度不同,零分的意義也就不同),測量結果也就難以互相比較。

「測量」和當作動詞用的「測驗」常被混用,雖然測驗的結果也常常以數目字表示,但並不是所有的測驗都是如此,例如臨床心理學用的投射測驗(主題統覺測驗、語句完成測驗等),就不需要將結果數量化。

測量在本質上只是一種將事物的特徵加以數量化的過程,它並不包含質的描述,而且對於獲得的結果也不做任何的價值判斷。

二、測驗

英文的 test 在統計學上被譯成「考驗」或「檢定」,它指的是某一統計量來自於機率的可能性是否大於預先設定的機率,例如:統計學上的 t 考驗、 F 考驗等。test 在工業上常被譯成「檢驗」或「測試」,它指的是檢查某一產品是否符合標準規格,或某一機器能否發揮預期功能。test在教育與心理學界上則被譯成「測驗」,這時它指的是一系列設計來測量人的知識或能力的問題或作業。

在教育與心理學上,test 若是當作名詞來使用,它的定義是「一套系統化的觀察工具,用以取得受測者的認知歷程或行為的樣本的訊息,並由此推論其具有多少某種心理特質或能力」。因此,它本質上是指一種蒐集個別差異資料的工具,大多是指輔導諮商上所用的標準化測驗,如智力測驗、性向測驗、人格測驗等;而測驗的同義詞還包括:量表(scale)、問卷(inventory)。在個別實施的測驗上,偶爾會用「量表」這名稱,例如,斯比量表(Stanford-Binet Intelligence Scale)、文蘭社會成熟量表(Vineland Social Maturity Scale)。至於「問卷」則大部分用於人格測驗上,例如,加州人格問卷(California Psychological Inventory)。

在教育情境中, 有些名詞與測驗很容易混淆。比如,quiz (譯做小考或隨堂考試)通常指授課教師在教學過程中,為了瞭解學生的學習狀況而隨時進行的簡短考試,它並不特別安排施測時間,測量結果也不一定納入學期成績;另外 examination(簡寫成exam.)譯做「考試」則是指比較正式、有特別安排時間,而且通常是行政單位規定要實施的考試,例如:期中考、期末考、畢業考、或入學考試等。

至於 testing 則被當作動詞來使用,它指的是提供刺激以便蒐集反應資料的過程,它有時被譯做「施測」,有時仍被譯做「測驗」。這時我們較關心的是在不同時空下所實施的測驗是否都符合指導手冊上的標準化程序。

三、評量

Assessment 在教育領域常被譯為「評量」或「多元化評量」,而在臨床診斷領域常被譯為「心理衡鑑」。assess 的原先意義是指稅務官員對於貨物或房地產進行估價,以便做為課稅的基礎。後來用在教育上則是指「從多種角度以多種方法去評估個人的知識或能力,以作為教學或輔導效果的證明及依據」。

「評量」和「測驗」的差別在於:測驗只是評量過程中所常用的一種工具而已,但評量還可以透過正式或非正式觀察、作業、練習、寫研究報告、實作評量、作品展示、口頭問答、學習歷程檔案(portfolio)、分析過去成績紀錄等方法來了解學生的學習結果。測驗常因為工具上的限制,只能用一種方法,從一個層面去瞭解學生,但評量卻得透過不同方法(當然包括測驗),從多個層面去對學生做整體性的評估,這也就是所謂的「多元化評量」。

「評量」和「測量」不同的是:測量只是將測量對象的某一種屬性加以數量化,並不涉及比較和判斷,但評量卻是除了數量、質量資料的蒐集外,還包括了解釋資料、綜合各種資料、最後根據教學目標來作比較和判斷。

四、評鑑

「評鑑」(evaluation)是指「將對某人或某事物的測量或觀察結果與依理想設定的標準相比較,並判斷其間的差距,然後賦予價值判斷的過程」。因此,評鑑是在測量之後,而且是合併了其他的訊息(特別是質的描述)之後,對其重要性或所欲性所下的價值判斷。

評鑑的對象可以是個人的專業表現,例如,對於教師教學的評鑑;或者是一個機構的運作效率,例如,對學校、大學科系、或行政單位的評鑑;或者是教學材料的適用性,例如,教科書評鑑、教學媒體評鑑;也可以是指一個政策或計畫方案的實施效果,例如,課程評鑑、對社會福利政策、師資自由化政策、或大型研究計畫的評鑑。

評鑑比評量複雜得多,它通常有多位專家的參與,且比較不那麼重視數量化,雖然它有時也用到測驗或測量技術,但其結果報告含有較多的價值判斷及建議改進事項。

在早年的書籍中,evaluation 和 assessment 是交互使用,不加以區分的,但近年來許多學者已經開始區隔以免造成混淆。

沒有留言: