2016年10月18日 星期二

影響分數的各種因素

一、主試者對分數的影響

雖然有些學者曾經研究過主試者的性別、種族、人格特質是否會對受試者的分數產生影響,但都發現那些都不是重要因素,真正重要的是主試者的測驗專業知能、表達能力及臨場經驗。
1. 測驗專業知能。 包括對使用標準化施測程序的重要性的瞭解,對該測驗特有施測程序的熟悉,及對於因施測情境變化可能產生的影響的瞭解。缺乏測驗專業知能的主試者常會把標準化測驗當作教學上隨堂小考,因此在測驗時會給予學生額外的協助、指出學生錯誤答案、給予額外的作答時間等,而使得測驗失效。測驗界也依據測驗實施的複雜程度對主試者的資格作了如表11-1的限制。
111 各種測驗類型及其施測者必備資格
投射測驗
個別智力測驗
神經心理測驗
在瞭解其所依據的心理計量學理論之下修過針對該測驗的訓練課程並具備實習經驗
性向測驗
診斷測驗
人格測驗
修過教育與心理測驗課程,並熟悉標準化施測程序
標準化成就測驗
大規模甄選測驗
參加施測程序講習並熟悉測驗指導手冊內容

2. 表達能力。 它包括聲音是否清晰、洪亮,遣詞用字是否能配合受試者能力水準,這一點對於年幼或無法自行閱讀作答說明的受試者以及個別測驗的情境上特別重要。
3. 施測態度。 這是指主試者是以嚴格、憤怒或溫和、指導的語氣和表情來對待受試者。一般而言,年紀小的、缺少測驗經驗的、或人格上容易焦慮與害羞內向的人比較容易受主試者態度的影響,而造成分數的差異。
4. 臨場經驗。 這是指在執行測驗程序的效率或處理意外事件的方式是否恰當。臨場經驗豐富的主試者知道在施測之前要熟讀指導手冊,先熟悉施測程序及指導語,並檢查材料和儀器是否有缺失。臨場經驗不足的主試者在發收測驗材料時常手忙腳亂,處理突發事故時常會越處理越糟。許多研究指出個別實施的測驗(如魏氏智力測驗),主試者的臨場經驗對測驗分數的影響很大,換句話說,它才是造成測驗誤差的主要來源。

二、受試者對分數的影響

A. 身心條件方面

1. 遺傳的特質。 遺傳的特質包括認知上的一般能力(智力)及特殊能力(性向)還有人格方面的專注力、情緒穩定性、忍耐力等,這部份通常個別差異的主要來源,也是我們所要測量的。
2. 一般健康狀況及特殊殘障。 它是指個人的體力或生理健康程度、以及他是否有視聽覺殘障、腦傷等,若有學生此情形應該在考試方式或設備上加以調整,以符合公平原則。
3. 受測當時的身心狀態。 身心條件暫時性的波動,也會影響測驗分數,這部分包括:受測時學生是否過於疲倦,無法集中注意力;是否發生事故影響其情緒的穩定性;女生是否恰好遇到其生理週期等。

B. 經驗背景方面

1. 文化背景與非正式學習。 這部份包括:個人生活環境中文化刺激的多寡、試題內容取樣與文化背景經驗配合度造成的測驗偏袒等。
2. 正式學習與訓練。 這部份包括:教師的教學效能、學生課外練習機會的多寡、學生遵循指示的習慣與能力、平時有效的工作習慣等等,這部份對成就測驗分數的影響相當大。
3. 對類似測驗的經驗。 它包括學生是否已掌握「應試技巧」,如時間控制、猜答技巧、答題順序的安排等,應試技巧高超的學生能夠有效率地利用時間和注意力,取得較高的分數。學生對於類似的「考試經驗」經驗越多,就越有機會熟練應試技巧,而其測驗焦慮也會降低,進而提高測驗表現。
至於「補習與模擬測驗」是否比一般正常教學更能夠提高測驗分數,端看補習與模擬測驗的內容是否和正式測驗內容類似的程度,越是類似,則試題所測的認知層次會降為記憶的層次,題目會變得比較容易作答,且作答時間也縮短了。

C. 人格因素方面

1. 個人成就動機或抱負水準。 「成就動機」(或好勝心)是指個人想積極表現自己能力的欲望,而「抱負水準」則是自己對自己的未來成就所設定的標準。個人的抱負水準常常受成就動機、重要他人的期望及自我的成敗經驗所影響。
成就動機高能促使學生積極準備測驗,並積極作答;但當個人的抱負水準高而實際能力低時,他就會產生高度的考試焦慮。
2. 自我涉入程度與測驗焦慮。 「自我涉入程度」指受試者主觀的認定該測驗對於他的前途、利益、或自尊心的影響程度。個人的抱負水準及其對測驗重要性的知覺會影響其自我涉入程度。而自我涉入程度又與測驗焦慮息息相關,自我涉入越高的測驗(如大學聯考),其測驗焦慮越高。
測驗焦慮的外顯生理反應是緊張、肌肉僵硬、心跳加快,內在的認知反應則是過度擔心自己會失常,或很在意失敗的後果。以往的研究顯示適度的焦慮能提高測驗分數,但過度焦慮則明顯降低了分數。另外的研究顯示,焦慮有助於加快簡單、重複的反應(如賽跑、跳高等),但卻妨礙了需要不斷做選擇、判斷的反應(如下棋、數學等)。
其他的研究則顯示了受試者的能力越高,對自己越有信心時,則測驗焦慮越低。或者是受試者越常接受測驗,越熟習測驗格式和內容時,測驗焦慮就越低。
當自我涉入程度高,而個人榮譽感低,若加上監考者經驗不足,試場情境有利於作弊,受試者就容易鋌而走險,以作弊來贏取分數。
3. 個人對測驗內容及題型的興趣。 個人對於不同學科常因為先天的性向及後天的學習經驗而有不同程度的興趣,進而影響其作答意願。而語言表達能力也會影響學生對於題型的偏好,一般而言,語文表達能力高且字體工整者較樂於答申論題或問答題,且常能從中得到高分。
4. 作答反應心向。 作答時的反應心向(response sets),是指作答時的習慣性反應,它與所要評量的能力或心理特質無關,但卻會影響分數。它包括:
a. 投機。 「投機」心向與學者所鼓勵的「猜答」不同,猜答是作答者具有部分知識,知道有些選項是錯的,而在少數幾個仍不太確定的選項間做猜測;而投機心向則是在完全無知的狀況下盲目猜測。這種盲目猜測心向與試題題型的盲目猜中機率、受試者人格特質、及其過去猜答經驗有關。即使告知答錯要倒扣分數,有投機心向的人還是照猜不誤,而使其分數的隨機誤差加大。
b. 虛張聲勢。 在建構反應式的題型中,作答者即使不會答也會儘量扯一些能沾到邊的文字來矇騙過去。這種以多為佳的作答傾向,若遇上評分不認真看的評分者,即使文不對題也多少能騙到一些分數。
c. 中立。 在有三個層次或五個層次的態度量表上,作答者容易傾向選擇中間的答案。這種現象在作答者不太瞭解題意,或不願意介入爭論時出現頻率更高。
d. 作假。 在能力測驗以外的測驗中,若作答者能想像測驗結果的用途,他會依據其推測來選擇對自己最有利的反應,而隱藏了真實的自己。例如:應徵百貨公司售貨員的應徵者認為公司會錄取在人格特質上耐心、親和性較高的人,所以她就在人格測驗上有關耐心、親和性的題目上做不實的反應。

三、施測環境對分數的影響

一個良好的施測環境應該是安靜、光線好、空氣足、不容易受到干擾的場所。一般而言,幼童、情緒困擾者、有嚴重不安全感者,專注力不夠者等,比較容易受到施測環境的影響。
若是大規模的測驗,有多個試場同時進行同一種測驗,更應該使各個試場的物理環境條件保持一致。若是在不同時間、不同地點實施的標準化測驗,也應該使每次的施測條件調整到符合標準施測程序的要求。以下是應該考慮的條件:
1. 光線。 光線太強或太弱都會影響作答速度。而靠窗的座位,常因陽光照在部份試卷上造成亮度反差大,更會影響作答。
2. 溫度。 以攝氏2621度最為適宜。過高則受試者容易流汗及煩躁,過低則消耗身體熱量且手指不靈活。
2. 通風。 以空氣流通、氧氣充足為宜。試場若設在高樓上要提防突然颳大風,把試卷吹落。若設在廚房或廁所旁邊,則要預防傳來的味道干擾到受試者。
3. 噪音。 出乎意料的聲音常會吸引學生的注意力,而不悅耳的持續聲音(馬達聲、汽車聲等)會使人煩躁,無法集中注意力;實證研究發現受試者年齡越小就越容易因噪音而分心。
4. 桌面。 桌面要平穩而且面積要大。靠臂式桌椅的桌面太小,不適於實施題本與答案紙分開的測驗;而凹凸不平或不穩固的桌面對於速度測驗的影響很大。
5. 意外干擾。 意外干擾可分成兩類,一類是包括對全體學生都有影響的,如地震、突來的噪音、外人闖入等,另一類是只對某個人有影響的,如腹瀉、鉛筆斷掉、桌椅故障等。這些干擾要儘量事先預防,但若發生了就要儘快妥善處理,使其影響變小。

四、測驗材料對分數的影響

1. 試題難易度。 試題的平均難易度最容易影響測驗分數;試題偏難,平均分數自然下降,反之,則自然上升。試題太簡單,對高能力學生會形成天花板效應,無法區辨他們的能力;試題太難,則能力低者會盲目猜答,其分數誤差會變大。
2. 題數與時間限制。 當測驗的題數多且作答時間長時,雖然測驗信度會提高,但專注力、耐力高的學生顯然會較佔優勢。若題數多而作答時間短,則學生盲目猜答的情形會增加,隨機誤差會變大。如何依據學生能力把題數及作答時間限制調得很適當,對測驗編製者是很大的挑戰。
3. 表面效度(face validity) 是指受測者、測驗使用者及一般大眾對於一個測驗的整體印象。它是依據試題內容、排版印刷品質、編製者及出版機構的聲譽等所做的主觀判斷,判斷此一測驗是否能夠達成它所宣稱的目的。表面效度相當於一個產品的包裝,它雖然不是真正的效度,但卻會影響受試者的合作及作答意願的高低。
4. 試題取樣的公平性。 編製成就測驗要考慮試題內容取樣的代表性,以提高其內容效度,然而代表性並不等於公平性。試題取樣的公平性是指一個試題並不會因為受試者的性別、種族、社經背景等的不同而有不同的答對率。造成試題取樣不公平通常是因為解答該試題需要一些與所測能力無關的特殊知識或能力,例如:以棒球比賽情境來測量數學計算能力,而某些學生因為不知棒球比賽的規則與術語,而無法作答。
5. 文字可讀性。 文字的可讀性(text readability)包括「字彙的熟悉度」和「句子的複雜程度」。當文章中使用的是越熟悉的字彙及結構越簡單的句子時,文字可讀性就越高。擬題時除了語文科目外,應該儘量提高文字的可讀性,以免學生在作答之前還得猜測命題者的意思。文字可讀性不高的試題通常也把學生的閱讀理解能力也一起測進去了,所以效度不會很高。
6. 試題造成的誤導。 試題本身語意含糊,可做不同的解釋;或有排版印刷上的瑕疵,造成學生困惑;像這類並非因為學生能力不夠而造成的錯誤,都會降低測驗的信度和效度。

五、計分程序對分數的影響

計分程序分成客觀計分及主觀計分,一般而言,主觀計分程序對分數的影響較大,常造成較大的誤差。下列列舉的四個因素中,除了機械性能外,全是屬於主觀計分時的因素。
1. 機械性能的限制。 機械計分通常是非常客觀的,但有時候會因為過於相信機械,反而忽略了要測試機械的性能及其穩定性。例如,忘了檢驗光學掃描器的敏感度,將會使塗得較淡的作答記號被判定為未做答,但是同一答案紙在人工複查時又被認定為有答案。
2. 評分者的身心狀況。 當以人工計分時,即使是是非、選擇等客觀計分的題型,也會因為評分者的身心狀況而有不同的錯誤率,這些錯誤會出現在核對答案、加總分、及抄錄分數的過程中。通常疲倦、厭煩時計分的錯誤率都會提高。
當試題是採主觀計分的題型時,評分者的身心狀況對分數的影響更大。越是疲倦、厭煩、無法專心的評分者,他實際花在每份試卷上的時間就越短,所評分數的差異也就越小,這一種趨向中間的分數分配是沒有鑑別力的。
3. 月暈效應。 月暈效應是指當評分者在判斷學生的某種特質時,會受到該學生的其他較突出的特質的影響,例如,若一個學生的學業成績很高,在評其操行成績時也會受影響而偏高。在閱卷時,若前面題目答的很完美,後面題目的分數也會跟著水漲船高。
4. 字體美觀與價值觀。 在申論題的評分上,若回答的內容相同,但字體工整程度不同,是否會影響到得分?在這方面的研究指出評分者對字體美觀的價值觀才是關鍵所在。若評分者重視字體的美觀,則他自己不但有一手好書法,而且在評分時對於書法美觀的試卷也會給予較高的分數;至於那些本身的書法就很潦草的評分者,試卷上的書法美觀與否並不影響他的給分。

沒有留言: