在編製測量工具時,我們可以進行試題分析以篩選出符合需要的題目。但是在將資料進行試題分析之前,我們也常發現有些受測者胡亂填答問卷或量表。
基於資料分析上「垃圾進就會垃圾出」的基本定理。我們在施測時的預防受測者亂答,以及在施測之後辨識與清理垃圾資料,是確保研究品質的必要步驟。
如何在施測前或施測時預防受測者亂答
1. 擬題及審題時,提高文字可讀性(字彙簡單、句型結構短),減少受測者閱讀上的挫折感
2. 量表要講究印刷與裝訂,以提高其表面效度
3. 由研究者親自施測,以控制氣氛及情境
4. 向受測者強調此研究的重要性,並感謝他們奉獻時間
5. 提供受測者小禮品,以提高作答動機
施測後如何辨識出亂答的問卷
要找出亂作答,致使問卷無效的樣本,最好先研究MMPI的效度量尺,瞭解各種效度量尺所依據的原理,我們也可以依樣畫葫蘆,很快找出無效的樣本。
1.以目視檢查問卷是否有明顯亂答情形(勾不到正確位置、筆跡草率、有固定循環模式)
2.檢查空白、漏答的數量(空白數量太多表示作答者有閱讀理解困難,空白集中在問卷後半段表示作答意願不高,後面亂答可能性很高)
3.以統計方法偵測出亂答的受測者(用SPSS的COUNT點數個案在所有試題上的作答反應,檢查是否有明顯反應心向,例如,90%以上的題目答5)
偵測胡亂答的受測者時所用的基本假定
1.個人在各選項上的選擇次數差距應該不大,除非嚴重受反應心向所影響。
當一個人的整份態度量表都連續十幾題都填在同一位置,例如都填3,我們可以假定他已經填得不耐煩,亂填應付了事。這種現象通常在很長的量表的後半部出現。
2.個人對於相同或極類似的兩個題目,應會有相同的反應(比如,測謊題)。
有些量表編製者會把完全相同,或幾乎相同的兩個題目,分別放在量表的前端和後端,量表回收後,就先比較該兩題的作答反應,若差距太大(在五點量表中,兩題差距等於或大於3),即可以懷疑作答者是胡亂作答。
3.眾人在某些特定題目上會有極類似的反應(比如,社會期望值特別高的題目)。
某些題目會因為其敘述方式或題目內容,而導致大多數人對該題的反應非常一致,此時若某人的反應與眾人背道而馳,你也可以懷疑他有亂答的傾向。
務要牧養你們中間的羊群,按著上帝的旨意照顧他們。不是出於勉強,而是出於甘心;不是因為貪財,而是出於熱誠;也不是要轄制託付你們的羊群,而是作他們的榜樣。 彼得前書 5:2-3 聖經新譯本(NIV)
2011年5月3日 星期二
建立信度、效度?
近年來常常在研究生論文中看到「建立信度、效度」這一用語,常覺得好笑。真不知道要說這是因為觀念錯誤而導致用詞不當,還是因為人云亦云,不加思辨,而導致觀念錯誤?
我們可以說:「編擬」、「建構」、或「發展」一個測驗,因為該測驗是無中生有,一點一滴逐步建立起來。但是「信度」是編好測驗之後,研究者想要知道它使用在某一類對象上間隔不同時間時的前後一致性(重測信度),或是它用於多人主觀評分時的評分者間一致性 (評分者間一致性),或者是所測特質的純度(內部一致性),因此信度研究是指用不同方法從不同角度檢驗它不受外來因素干擾,免於隨機誤差的程度。
簡單地說,信度是依附著特定測驗的內容及施測程序而存在,是無從憑空建立起的。
效度則是指該測驗施測於某種對象,並以其結果做某種決策時的有效程度。所以一個測驗有多少種用途,就會有多少種效度研究。
我們會請專家審查該測驗的構念分析、規格明細表、及試題內容三者的邏輯性及適切性(驗證該測驗的內容效度、邏輯效度);或者找到最有代表性的外在效標與測驗 分數求相關,以證明它真能測到所要測的特質(驗證該測驗的效標關連效度);或者是以因素分析、假設考驗等方法驗證測驗分數結構與當初編製測驗的構念相吻合 的程度(驗證該測驗的構念效度)。
所以效度也只是在測驗編製好之後,在正式大規模使用之前的性能驗證工作,它無從建立起。
至於 Cross Validation 一詞,最好翻譯成「交互驗證」,它是指測驗編好之後,編製者常以建立常模的樣本進行效度研究,因此其結果常被質疑沒有可類推性。而交互驗證則是由不同的研究者以不同的樣本驗證此一測驗的效度,若是換了研究者、換了樣本,測驗結果在使用上仍然有效,那麼這測驗才是真的有效。
我們可以說:「編擬」、「建構」、或「發展」一個測驗,因為該測驗是無中生有,一點一滴逐步建立起來。但是「信度」是編好測驗之後,研究者想要知道它使用在某一類對象上間隔不同時間時的前後一致性(重測信度),或是它用於多人主觀評分時的評分者間一致性 (評分者間一致性),或者是所測特質的純度(內部一致性),因此信度研究是指用不同方法從不同角度檢驗它不受外來因素干擾,免於隨機誤差的程度。
簡單地說,信度是依附著特定測驗的內容及施測程序而存在,是無從憑空建立起的。
效度則是指該測驗施測於某種對象,並以其結果做某種決策時的有效程度。所以一個測驗有多少種用途,就會有多少種效度研究。
我們會請專家審查該測驗的構念分析、規格明細表、及試題內容三者的邏輯性及適切性(驗證該測驗的內容效度、邏輯效度);或者找到最有代表性的外在效標與測驗 分數求相關,以證明它真能測到所要測的特質(驗證該測驗的效標關連效度);或者是以因素分析、假設考驗等方法驗證測驗分數結構與當初編製測驗的構念相吻合 的程度(驗證該測驗的構念效度)。
所以效度也只是在測驗編製好之後,在正式大規模使用之前的性能驗證工作,它無從建立起。
至於 Cross Validation 一詞,最好翻譯成「交互驗證」,它是指測驗編好之後,編製者常以建立常模的樣本進行效度研究,因此其結果常被質疑沒有可類推性。而交互驗證則是由不同的研究者以不同的樣本驗證此一測驗的效度,若是換了研究者、換了樣本,測驗結果在使用上仍然有效,那麼這測驗才是真的有效。
如何回答申論題
最近去改考卷,有一千多份的申論題試卷,熬了將近十天才全部改完。改完之後,覺得感慨良多,因為有些考卷看了第一眼之後,還沒開始讀,就知道它的分數的可能落點了。
我想當考生的人也應該學一些回答申論題的基本常識吧,至少要使得自己的試卷看起來還有些表面效度,讓閱卷者願意花時間去讀它吧。 以下是一個閱卷者給考生在回答申論題時的一些建議:
當你拿到試卷與答案紙時,先看看試卷上有多少題目,粗略地估計回答每一題所需要用的篇幅,再看看答案紙,看你有多少空間可以利用(通常每一大題平均有兩頁 的空間),立刻分配各題所需的空間,並在頁面左上角依順序標上題號。然後你就可以從最有把握的題目開始寫了。 瞭解你所面臨的問題,評估你可用的時間和資源,然後規劃時間和資源的應用方式,這是一種行政人員所必備的做計畫才能。
若你一開始就能夠展現這樣的才能,你 的試卷看起來就不會雜亂無章,閱卷者也比較願意多花精神仔細讀你的文章,當你的文章內容與他人是在伯仲之間,他也比較願意相信你是比較有能力的,因為你已 經在答案紙上展現了你解決問題時的規劃能力。 也許有人會擔心,如果某一大題留了兩頁的空間,結果只寫了一頁,閱卷者會不會以為後面全部是空白,而漏看後面的題目?不過你放心,閱卷者通常不只一人,而 且後面還有複核和登分的人會看到你的試卷,從來沒有人的試卷是明明有答案卻沒被批閱的。
閱卷者通常會把分數寫在你的題號的下面。但若在一大題之下,又分成數個小題並標示各小題所佔的分數,哪你就要依順序標上各小題的題號,並在小題與小題之間留有空行,讓閱卷者一目瞭然,千萬不要整個大題不分行也不分段,密密麻麻寫成一個實心方塊,讓閱卷者找不到頭緒,而愈找愈火大。
漂亮清晰的版面會讓閱卷者相信你是腦經清楚,做事有條理的人,即使專業知識有些不如人,也是可以諒解和補救的。
一般而言,閱卷者平均年齡都在五十歲以上,大部分人已經開始有老花眼了,他們最怕看那些又細顏色又淡的文字,若加上字體又小的話,那對他們而言,就是一種折磨。
所以請你使用比較粗一點的黑色筆來寫,字的底部要緊靠著格線,字的高度約佔格線高度的三分之二,千萬別小於二分之一。 若你現在就能體恤閱卷的大伯大嬸,他們就會相信你將來當了官也會苦民所苦,而給你較多的機會上榜。
在答案紙上,考生若不按照題號順序來寫,當然閱卷者仍然會前翻後翻地找到你的答案,然後給你分數;因為從來沒有人在試卷上明文規定,說你不按順序排列答案要扣幾分。 但是當閱卷者在翻找你的答案時,他一定心裡會想,答案紙上「依序作答,標上題號」這麼簡單的指令都無法確實遵守,這個人將來如何指揮,如何與他相處?無形中,你在閱卷者心中的評價又掉了好幾級。
依據我個人的觀察,答案不按照題號順序排列的人,通常也不會將每一大題另起一頁,而各小題之間也不會留有空行,以示區隔。他就是要隨心所欲,想到什麼就寫什麼,他的試卷雜亂無緒,常讓閱卷者氣憤頭痛。
曾經改到一篇洋洋灑灑些了三頁,簡直就是精煉過的課文摘要,不過我還是給了他零分,因為他實在是答非所問,我總不能因為他的內容跟題目中的某一名詞有所關聯就給他墨水分數。 我想這也許是補習班教的招數,補習班抓題目並準備答案讓考生背,若沒抓到題目,只要題目跟他所背的內容有一些關連,他就整個硬套上去,而不管題目實際問的是什麼。
當然,另一種可能性就是張冠李戴,例如: 測驗與統計合成一科考試時,考解釋名詞就有人把 T score 和 t-test 搞混淆了,或者把「測量標準誤」、「平均數的標準誤」、「估計標準誤」都混在一起了。
有些人寫申論題就好像寫碩士論文,要在每一章的前面加上前言,在尾端加上結語(很可能是補習班教的)。前言通常寫的是相關概念的名詞解釋,結語寫的是相關概念的重要性。 但實際在閱卷時,常看到閱卷老師瞄了答案一眼之後,立即紅筆一揮,把前段和後段各畫了一大叉叉,然後才開始點閱中間的部分。
可想而知,加了前言與後語,只是在浪費時間與墨水,並不會為你加分,說不定閱卷老師心裡頭也在咒罵,你何苦浪費自己時間,也浪費別人時間。
以上這些建議都與你要考的專業知能無關,但是你在"解決問題時的規劃能力","設身處地為他人著想的思考習慣(同理心)",也都是擔任行政官員應該具備的能力。在考申論題時,這兩種能力在就在有形無形中,加進到你的分數去了。
因此,就傳統效度的觀點來說,閱卷者的分數把其他能力也參雜到專業科目裡去了,包含非所要測能力的結果,會使內容效度降低。
但從另一角度來看,面對難題時的了解可用資源並規劃執行的能力,以及做事時設身處地為他人著想的能力,都是擔任公職者所需要,而考試科目中卻沒有考到的,因此,把這因素加到測驗分數中,更能涵蓋應該測量的多種能力,這會使得考試分數與未來實際工作表現的相關更高,也就是預測效度更高。
我想當考生的人也應該學一些回答申論題的基本常識吧,至少要使得自己的試卷看起來還有些表面效度,讓閱卷者願意花時間去讀它吧。 以下是一個閱卷者給考生在回答申論題時的一些建議:
別省紙張,每一大題另起一頁
當你拿到試卷與答案紙時,先看看試卷上有多少題目,粗略地估計回答每一題所需要用的篇幅,再看看答案紙,看你有多少空間可以利用(通常每一大題平均有兩頁 的空間),立刻分配各題所需的空間,並在頁面左上角依順序標上題號。然後你就可以從最有把握的題目開始寫了。 瞭解你所面臨的問題,評估你可用的時間和資源,然後規劃時間和資源的應用方式,這是一種行政人員所必備的做計畫才能。
若你一開始就能夠展現這樣的才能,你 的試卷看起來就不會雜亂無章,閱卷者也比較願意多花精神仔細讀你的文章,當你的文章內容與他人是在伯仲之間,他也比較願意相信你是比較有能力的,因為你已 經在答案紙上展現了你解決問題時的規劃能力。 也許有人會擔心,如果某一大題留了兩頁的空間,結果只寫了一頁,閱卷者會不會以為後面全部是空白,而漏看後面的題目?不過你放心,閱卷者通常不只一人,而 且後面還有複核和登分的人會看到你的試卷,從來沒有人的試卷是明明有答案卻沒被批閱的。
標示題號,小標題之間要空行
閱卷者通常會把分數寫在你的題號的下面。但若在一大題之下,又分成數個小題並標示各小題所佔的分數,哪你就要依順序標上各小題的題號,並在小題與小題之間留有空行,讓閱卷者一目瞭然,千萬不要整個大題不分行也不分段,密密麻麻寫成一個實心方塊,讓閱卷者找不到頭緒,而愈找愈火大。
漂亮清晰的版面會讓閱卷者相信你是腦經清楚,做事有條理的人,即使專業知識有些不如人,也是可以諒解和補救的。
體恤長者,字要寫得又黑又大
一般而言,閱卷者平均年齡都在五十歲以上,大部分人已經開始有老花眼了,他們最怕看那些又細顏色又淡的文字,若加上字體又小的話,那對他們而言,就是一種折磨。
所以請你使用比較粗一點的黑色筆來寫,字的底部要緊靠著格線,字的高度約佔格線高度的三分之二,千萬別小於二分之一。 若你現在就能體恤閱卷的大伯大嬸,他們就會相信你將來當了官也會苦民所苦,而給你較多的機會上榜。
依序寫題,遵循指令大家方便
在答案紙上,考生若不按照題號順序來寫,當然閱卷者仍然會前翻後翻地找到你的答案,然後給你分數;因為從來沒有人在試卷上明文規定,說你不按順序排列答案要扣幾分。 但是當閱卷者在翻找你的答案時,他一定心裡會想,答案紙上「依序作答,標上題號」這麼簡單的指令都無法確實遵守,這個人將來如何指揮,如何與他相處?無形中,你在閱卷者心中的評價又掉了好幾級。
依據我個人的觀察,答案不按照題號順序排列的人,通常也不會將每一大題另起一頁,而各小題之間也不會留有空行,以示區隔。他就是要隨心所欲,想到什麼就寫什麼,他的試卷雜亂無緒,常讓閱卷者氣憤頭痛。
看清題意,千萬不要自問自答
曾經改到一篇洋洋灑灑些了三頁,簡直就是精煉過的課文摘要,不過我還是給了他零分,因為他實在是答非所問,我總不能因為他的內容跟題目中的某一名詞有所關聯就給他墨水分數。 我想這也許是補習班教的招數,補習班抓題目並準備答案讓考生背,若沒抓到題目,只要題目跟他所背的內容有一些關連,他就整個硬套上去,而不管題目實際問的是什麼。
當然,另一種可能性就是張冠李戴,例如: 測驗與統計合成一科考試時,考解釋名詞就有人把 T score 和 t-test 搞混淆了,或者把「測量標準誤」、「平均數的標準誤」、「估計標準誤」都混在一起了。
有話直說,前言結語畫蛇添足
有些人寫申論題就好像寫碩士論文,要在每一章的前面加上前言,在尾端加上結語(很可能是補習班教的)。前言通常寫的是相關概念的名詞解釋,結語寫的是相關概念的重要性。 但實際在閱卷時,常看到閱卷老師瞄了答案一眼之後,立即紅筆一揮,把前段和後段各畫了一大叉叉,然後才開始點閱中間的部分。
可想而知,加了前言與後語,只是在浪費時間與墨水,並不會為你加分,說不定閱卷老師心裡頭也在咒罵,你何苦浪費自己時間,也浪費別人時間。
以上這些建議都與你要考的專業知能無關,但是你在"解決問題時的規劃能力","設身處地為他人著想的思考習慣(同理心)",也都是擔任行政官員應該具備的能力。在考申論題時,這兩種能力在就在有形無形中,加進到你的分數去了。
因此,就傳統效度的觀點來說,閱卷者的分數把其他能力也參雜到專業科目裡去了,包含非所要測能力的結果,會使內容效度降低。
但從另一角度來看,面對難題時的了解可用資源並規劃執行的能力,以及做事時設身處地為他人著想的能力,都是擔任公職者所需要,而考試科目中卻沒有考到的,因此,把這因素加到測驗分數中,更能涵蓋應該測量的多種能力,這會使得考試分數與未來實際工作表現的相關更高,也就是預測效度更高。
訂閱:
文章 (Atom)