2016年9月20日 星期二

測驗對於社會的貢獻

1. 促進社會流動, 達成社會的動態穩定

  • 古代科舉考試
  • 公務人員高普考
  • 公務員升等考試
  • 公費留學考試
  • 研究所入學考試
  • 專業證照考試(醫師、律師、建築師、心理師…..)

2. 提升人員同質性與適切性, 提升機構運作效率

  • 升學考試(大學、研究所入學考試)
  • 雇用測驗
  • 資優班甄選
  • 啟智班甄選
  • 分類(職類分配)與安置(能力分班)

3. 檢驗工作必要知能, 保障社會大眾生命財產安全

  • 各類駕駛執照考試
  • 專業證照考試(醫師、律師、建築師…)
  • 技能檢定考試
  • 語文能力檢定考試
  • 教師資格檢定考試

4. 增進個人自我瞭解, 使人盡其才,才盡其用

  • 綜合性向測驗
  • 職業興趣測驗
  • 工作價值觀量表
  • 目標:個人的充分自我實現

測驗的分類方式

依受測人數分

個別測驗、
團體測驗、
全國性大規模測驗、
國際性大規模測驗

依測量目的分

最大表現測驗、
典型表現測驗

依作答方式分

紙筆測驗
    寫在題本上
    寫在答案紙上
操作測驗、
電腦測驗、
口語測驗

依試題呈現方式分

固定順序測驗、
適性測驗

依材料形式分

語文測驗、
非語文測驗

依標準化程度分

教師自編測驗、
甄選考試、
標準化測驗

依題目排列方式分

同類群聚式(分測驗式)
混合螺旋上升式

依計分者分

人工計分、
機械計分(光學感應)、
電腦計分

依計分結果客觀性分

客觀計分測驗、
主觀計分測驗
  整體式
  分析式

依解釋結果的參照基準分

常模參照測驗、
標準參照測驗

依行政決策分

篩選(screen)
選拔(selection)
分類(classification)
安置(placement)
診斷(diagnosis)
績效考核(accountability)

依對考生利益的影響分

高注碼測驗(high-stakes test)
非高注碼測

依結果的運用領域分

教育測驗、
臨床測驗、
職業測驗、
諮商與輔導測驗、
心理研究用測驗、
軍事用測驗

依測量的心理特質分

智力測驗(學校能力測驗、學術性向測驗)
性向測驗(能力傾向測驗)、
人格測驗(性格測驗)、
成就測驗、
神經心理測驗

2016年9月19日 星期一

心理測驗發展史大事年表

紀元前

  • 2357(BC)帝堯(尚書堯典)創考試制度(文官登庸與升遷的筆試制度)
  • 165(BC)漢文帝15年昭書士子就四項(朕之不德、吏之不公、政之不行、民之不寧)發言,為我國口試濫觴

紀元後

  • 604(AD)隋大業二年正式建立科舉制度
  • 1073 宋神宗四年廢詩文,以經義取士
  • 1219 義大利波勞納大學(University of Bologna)初次使用法律的口試
  • 1384 明洪武17年恢復科舉,試以制義(八股);清代研習明制,為科目增為常科、特科及編譯科三類;直到1905年清光緒31年才廢除科舉。
  • 1575 華爾特(J. Huarte),出版「智巧的測量」(Examinen de Ingenios)一書,討論心理能力的個別差異比較。
  • 1599 耶穌會主張運用筆試,為歐洲學校採用筆試之嚆矢。
  • 1636 牛津大學舉辦授予學位的口試

十九世紀

  • 1837 法國醫生Seguin設計Seguin Formboard測量心智遲滯兒童。
  • 1838 法國醫生Jean Esquirol首先明確區分精神病患和心智遲滯者。
  • 1845 波士頓學校委員會,在教育學者賀瑞斯曼指導下第一次使用筆試。
  • 1862 德國Wilhelm Wundt用校準鐘擺測量「思維速度」
  • 1864 英國小學校長,喬治費舍(Rev. George Fisher) 發展一種包含書法、拼字、數學、聖經知識及其他學科的實例和規範的量表集(Scale Books),使教育測量更客觀,其方法影響了桑代克等人,開啟了二十世紀初的教育科學運動。
  • 1865 美國紐約州創始評議員考試計畫測量全州的教育成就。
  • 1869 英國高爾登(Galton, Francis;1822-1910)出版「遺傳天賦」(Heredity Genius),開始遺傳與個別差異的科學研究,為個體心理學的鼻祖。1883年出版「人類能力研究」。1884年在國際健康博覽會對幾千個民眾施測第一個測驗組合。
  • 1879 德國馮特(Wilhelm Wundt)在萊比錫建立第一座心理學實驗室。
  • 1890 美國卡泰爾(James Mckeen Cattell,1860-1944)初用心理測驗(Mental Test)一詞,他嘗試用測量基本心理官能(如視覺和聽覺的靈敏度、反應時間等)來測量心理能力。1901年Clark Wissler發現這些測驗和大學成績無相關。
  • 1892 美國心理學會(APA)成立。
  • 1893 美國心理學公報(Psychological Bulletin)、心理學評論(Psychological Review)創刊。
  • 1894 Kraepelin 建議在精神病學上使用測驗
  • 1894 美國萊斯(Joseph, M. Rice, 1857-1934)編用拼字測驗。(Spelling Test),萊斯是測驗編製的一位技術開拓者,也是大力提倡以科學方法研究教育問題的先驅。
  • 1896 Witmer 創立第一個心理診所
  • 1897 德國艾賓豪斯(Ebbinghaus, H.,1850~1909)發展語句完成、算術及記憶闊度等測驗,測量智力。
  • 1899 美國大學入學考試委員會(College EntranceExamination Board,簡稱CEEB)成立。CEEB是美國大中學校的共同組織。

二十世紀

  • 1902 Rice 發表算術測驗
  • 1903 桑代克(Thorndike, E. L.1874-1949)出版了《教育測量》教本。
  • 1910 出版書法量表,被譽為近代教育測量之父。其弟子史東(C.W. Stone) 於1908年編製第一個數學測驗。
  • 1904 英國斯皮爾曼(Charles Spearman,1863-1945)用因素分析法,提出智力兩因素(普遍G因素和特有S因素)理論。
  • 1905 瑞士容格(Carl G. Jung,1875-1961)提出字詞聯想測驗。
  • 1905 法國比奈(Alfred Binet,1857-1911)和Simon 發展第一個智力量表。他於1904年應法國教育部之邀,開始發展一種有效、客觀、實用的測量「可教育」兒童的測驗,以鑑定心理能力有限而不能接受正常教學的兒童。
  • 1908 比西量表修訂版引進了心理年齡(MA)的概念。
  • 1909 Goddard 將比西量表翻譯成英文
  • 1910 Thorndike 創編書法量表
  • 1911 Healy 和 Fernald 編製作業能力測驗
  • 1912 Hillegas 編製英語作文量表
  • 1912 德國史騰(Wilhelm Stern,1871-1938)建議智商IQ概念。
  • 1915 tenquist 發表機械能力測驗
  • 1916 美國斯比量表(Stanford- Binet Intelligence Scale)問世,由托孟(Terman E. L.) 編製修訂自比西量表,為第一個採用I.Q.解釋分數的測驗。1937,1960,1986多次修訂。
  • 1917 團體智力測驗誕生。美國心理學者Robert Yerkes等人編製了陸軍甲種測驗(Army Alpha Scale)和陸軍乙種測驗(Army Beta Scale),後者為非語文測驗。
  • 1917 自陳式人格測驗問世。由吳偉士(Woodworth, R. S., 1869-1962) 編成個人資料表格(Personal Data Sheet) 應用於第一次大戰期間,美軍檢定士兵的不良適應。
  • 1919 美塞氏(Thurstone L. L.1887-1955)編大學新生心理測驗問世。
  • 1921 羅夏克墨漬測驗(Rorschach Ink-blot Test)初次出版。
  • 1921 美國心理學公司由卡泰爾等人(Cattell, J. M., Thorndike, E. L. &Woodworth, R.S.) 創辦,是第一間出版測驗的公司。
  • 1922 中華教育改進社邀 McCall 來華協助編製各種測驗。
  • 1923 美國第一個成就測驗組合編製成功,由Madden, Gardner,Terman, Ruch等編成史坦福成就測驗(Stanford Achievement Test),內容包括語文、數學、文學、史地、科學和拼字等,採用K分數記分。
  • 1926 Goodenough (1886-1959)發表畫人測驗(DAP);SAT首次使用
  • 1926 古氏畫人測驗(Goodenough Drawing-A-Man Test) 出版。
  • 1926 美國Carl C. Brigham為大學入學考試委員會發展了普通語文和數量技能的客觀測驗,即所謂「學業性向測驗」簡稱SAT,以補充教材成就的申論式考試。該項測驗每年均有修訂與改進,1972年 Dubois 在 7th MMY 評論是項學業性向測驗,已達到心理計量學上的技術尖峰。
  • 1927 「史創職業興趣量表」(Strong Vocational Interest Battery,簡稱SVIB)男用本編成問世。
  • 1929 塞斯通(Louis L. Thurstone,1887-1955)編製一些態度量表。
  • 1934 莫雷諾Moreno,J. L. 出版「誰會繼續生存」,開創社會計量。
  • 1935 塞斯通(Thurstone, L. L.)提出智力多因素論,有七種基本心理能力。Murray發表主題統覺測驗(TAT)。IBM推出第一個實用的電動測驗記分機。
  • 1935 美國莫瑞(Murray, H.A.,)出版「人格探查」,書中報告理論與若干技術及主題統覺測驗(Thematic Apperception Test,簡稱TAT)。
  • 1936 美國投射法與人格衡鑑雜誌創刊。研究生入學測驗(Graduate Record Examination, GRE)問世。
  • 1936 Doll編成「文蘭社會成熟量表」(Vineland Social Maturity Scale),用以評量智能不足者的功能水準。
  • 1937 斯比量表第二次修訂成功。有L、M兩個複本。
  • 1937 民26 對日抗戰
  • 1938 班達(Lauretta Bender) 編製「班達視動完形測驗」( Bender Visual-motor Gestalt test),用以評估成熟、腦傷及人格。
  • 1938 布洛斯(Buros,O. K.1905-1978)創編第一輯「心理測量年鑑」(Mental Measurement Yearbook,MMY),二至八輯分別於1941, 1949, 1953, 1959, 1965, 1972, 1978年出版。第九輯由Nebraska大學米契爾(Mitchell, J.V. Jr.)教授主編,由Buros Institute於1985年出版。
  • 1939 Frank 首創投射技術一詞;
  • 1939 魏貝智力測驗出版。魏氏(Wechsler, D. ,1896-1981)在紐約貝爾維醫院(Bellevue Hospital)完成世界上第一個成人用個別智力測驗(Wechsler-Bellevue IntelligenceScale),1955年改稱魏氏成人智力量表(Wechsler Adult Intelligence Scale),適用於16歲至74歲,採用差數智商(DIQ)。1981年修訂簡稱WAIS-R,1999年修訂,簡稱WAIS-Ⅲ。
  • 1941 美國教育與心理測量期刊(Educational and Psychology Measurement)創刊。
  • 1942 明尼蘇達多相人格測驗出版。(Minnesota Multiphasic Personality Inventory,簡稱MMPI),編製者為明尼蘇達大學的郝世威教授(Starke R. Hathaway) 及莫鏗利教授(J.Charmley McKinley)。
  • 1947 美國心理學者期刊(American Psychologist)發行。
  • 1947 美國發展成功兩種多因素性向測驗。包括區分性向測驗(DAT)和通用性向測驗(GATB),前者由Bennett等三人編製;後者由美國勞工部編製。
  • 1947 美國測驗服務社(Educational Testing Service,ETS)成立。。美國教育會、卡內基基金會將他們的測驗計畫與服務讓渡給ETS;另外大學入學考試委員會將其計畫的運作讓渡給ETS,而保留本身作為大中學校政策決定的單位。
  • 1948 美軍戰略服務處界定「心理評鑑」一詞
  • 1948 美國人事心理學(Personnel Psychology) 創刊。
  • 1948 美國Office of Strategic Service用情境測驗甄選。
  • 1950 美國古立森(Gulliksen, H.) 出版《心理測驗理論》
  • 1951 「教育測量」問世。教育測量(Educational Measurement)是由Linquist主編,數十位專家執筆的第一本有關心理測驗編製的專著。
  • 1951 民國40年 政府遷台 中國測驗學會復會
  • 1953 美國心理學會(APA)編行而後於美國心理學者期刊(American Psychologist 18, 56-60, 1963)發表心理學者道德標準(Ethical Standards of Psychologists)
  • 1954 美國心理學會、美國教育研究學會AERA和美國教育測量學會NCME合作制定心理測驗與診斷方法的技術建議。
  • 1954 美國諮商心理學雜誌(Journal of Counseling Psychology)創刊。
  • 1954 Meehl 發表《臨床和統計預測》
  • 1955 Cronbach 和 Meehl 提倡構念效度的概念
  • 1956 美國教育家布魯姆(Benjamin Bloom)團對發展出教育目標分類法,出版認知領域部分,1964年完成情感領域;另外關於動作領域則由辛普生(Simpson)於1966年完成。
  • 1959 美國闞、費二氏提議(Campbell, D. T. & Fiske, D. W.)幅合與區別效度研究。
  • 1959 美國基爾福(Guilford J. P.)提出三向度的智能結構。
  • 1960 斯比量表第三次修訂完成(form L-M),並採用差數智商(DIQ),其標準差為16。
  • 1961 布洛斯主編「出版的測驗」(Buros's Test in Print I)出版。
  • 1963 卡泰爾(Cattell, R. B. 1905-1998)提出流體與晶體的智力理論。
  • 1963 格拉塞(Glaser, R.)在其教學技術與學習結果的測量」文中建議以標準參照測驗(criterion-referenced test)與常模參照測驗相對。
  • 1963 Glaser提出效標參照測驗的觀念
  • 1964 美國「教育測量期刊」及「美國教育研究期刊」創刊。
  • 1964 紐約市各校停止使用團體智力測驗
  • 1965 Kanfer 和 Sas10w 提倡行為技術在心理評鑑上的使用
  • 1966 AERA, APA, NCME共同出版《教育和心理測驗及手冊標準》第一版
  • 1968 民國57年 台灣地區實施九年國民教育
  • 1969 Butctier 報導電腦在明尼蘇達多重人格問捲上的使用;
  • 1969 Jensen 發表有關智力遺傳性和種族差異論文
  • 1971 Griggs vs Duke Power訴訟案判決
  • 1971 桑代克Thorndike, R. L.主編「教育測量」第二版。
  • 1972 McCarthy 發表麥卡西兒童能力量表
  • 1973 Craik 首次發表環境評鑑評論
  • 1974 AERA, APA, NCME共同出版《教育和心理測驗標準》第二版。
  • 1974 魏氏兒童智力量表修訂版(Wechsler Intelligence Scale for Children-Revised,簡稱WISC-R) 出版。
  • 1975 行為評鑑的使用漸增
  • 1977 Mercer 發表多元文化評鑑系統;
  • 1977 兒童人格問捲出版
  • 1977 美國應用心理測量 (Applied Psychological Measurement)創刊
  • 1980 項目反應理論(IRT)出現
  • 1983 考夫曼兒童評鑑組合(K-ABC)問世
  • 1984 「測驗評論」Test Critiques創刊。
  • 1985 AERA, APA, NCME共同出版《教育和心理測驗標準》第三版。
  • 1985 「心理測量年鑑」第九輯出版。
  • 1986 美國心理學會通過「心理測驗電腦使用指南」
  • 1986 Thorndike(1910-),Hagen(1915-),Sattler(1931-)出版史坦福比奈智力測驗第四版(S-B IV)改為四個因素的點量表。
  • 1987 美國精神醫學學會出版「DSM-Ⅲ-R」
  • 1988 臺灣師範大學教育心理與輔導學系修訂「考夫曼兒童智力測驗」,但未正式出版。
  • 1989 美國林因(R. L. Linn) 主編「教育測量」第三版。
  • 1989 明尼蘇達多重人格問卷第二版(MMPI-II),
  • 1989 魏氏學前智力量表第二版(WPPSI-R)修訂完成
  • 1989 成立中華民國大學入學考試中心
  • 1990 Cronbach, L. J. 心理測驗要義第五版問世。
  • 1991 民國80年 通過智慧權法案
  • 1991 魏氏兒童智力測驗(WISC-III)第三版出版
  • 1992 《心理測驗年鑑》MMY第十一版出版
  • 1992 美國心理學會APA出版修訂「心理工作人員倫理守則和行為準則」
  • 1994 美國精神醫學學會出版精神疾病診斷統計手冊第四版「DSM-Ⅳ」
  • 1997 魏氏成人智力測驗英文第三版(WAIS-III)出版
  • 1997 中國行為科學社出版 魏氏兒童智力量表第三版(WISC-III)中文版
  • 1998 網路的發展與測驗的使用
  • 1998 「心理測量年鑑」(MMY)第十三輯出版,由Barbara S. Plake and James C. Impara等人編輯。
  • 1999 AERA, APA, NCME共同出版《教育和心理測驗標準》第四版。

二十一世紀

2016年9月13日 星期二

測驗評量的相關概念


許多學術上的爭論是源自於基本觀點的不同,但也有不少的爭論只是因為對於所用的術語定義不清楚。因此概念分析常是學術討論中最基本的工作,透過概念分析,不但可以使個人的思想更清晰、溝通更精確,也同時避免了許多不必要的爭論。所以在進行討論之前,本文將先釐清測驗、測量、評量、評鑑等這幾個容易混淆的專業術語的含意,以使得後續的討論能夠更加清晰。

一、測量

所謂「測量」(measurement)是指「依據一套人為規則(測量工具)將數字(測量結果)分派到某一事物(測量對象)的某種屬性上(測量變項)的過程」。測量用在自然科學上是指用尺、秤、錶等去度量事物的長度、面積、重量、密度、時間、速度等,這些又稱為「直接測量」。至於教育及心理學領域上所測量的心理能力,則是以抽樣方式選出一套能引起受試者行為反應的心理作業(行為樣本),並依其反應的質與量(指測量結果)去推論其心理能量(知識、能力或人格特質),所以是屬於「間接測量」。

參照點是計算的基礎,任何測量都要有一個參照點。測量的參照點不同,則測量的結果就不能相互比較。長度、質量、時間等的測量以自然的零點作為參照點,若無自然的零點,就以一個共同約定的參照點作為零點,例如:攝氏溫度是以水結冰的溫度為零點;經緯度則分別以格林威治及赤道為零點。在教育與心理方面的測量也需要有參照點,但是心理能力與其作業沒有自然零點,也難以共同決定一個人為零點,因此只好各自建構不同的量尺(scale)採用不同的人為參照點(兩份試卷的試題難易度不同,零分的意義也就不同),測量結果也就難以互相比較。

「測量」和當作動詞用的「測驗」常被混用,雖然測驗的結果也常常以數目字表示,但並不是所有的測驗都是如此,例如臨床心理學用的投射測驗(主題統覺測驗、語句完成測驗等),就不需要將結果數量化。

測量在本質上只是一種將事物的特徵加以數量化的過程,它並不包含質的描述,而且對於獲得的結果也不做任何的價值判斷。

二、測驗

英文的 test 在統計學上被譯成「考驗」或「檢定」,它指的是某一統計量來自於機率的可能性是否大於預先設定的機率,例如:統計學上的 t 考驗、 F 考驗等。test 在工業上常被譯成「檢驗」或「測試」,它指的是檢查某一產品是否符合標準規格,或某一機器能否發揮預期功能。test在教育與心理學界上則被譯成「測驗」,這時它指的是一系列設計來測量人的知識或能力的問題或作業。

在教育與心理學上,test 若是當作名詞來使用,它的定義是「一套系統化的觀察工具,用以取得受測者的認知歷程或行為的樣本的訊息,並由此推論其具有多少某種心理特質或能力」。因此,它本質上是指一種蒐集個別差異資料的工具,大多是指輔導諮商上所用的標準化測驗,如智力測驗、性向測驗、人格測驗等;而測驗的同義詞還包括:量表(scale)、問卷(inventory)。在個別實施的測驗上,偶爾會用「量表」這名稱,例如,斯比量表(Stanford-Binet Intelligence Scale)、文蘭社會成熟量表(Vineland Social Maturity Scale)。至於「問卷」則大部分用於人格測驗上,例如,加州人格問卷(California Psychological Inventory)。

在教育情境中, 有些名詞與測驗很容易混淆。比如,quiz (譯做小考或隨堂考試)通常指授課教師在教學過程中,為了瞭解學生的學習狀況而隨時進行的簡短考試,它並不特別安排施測時間,測量結果也不一定納入學期成績;另外 examination(簡寫成exam.)譯做「考試」則是指比較正式、有特別安排時間,而且通常是行政單位規定要實施的考試,例如:期中考、期末考、畢業考、或入學考試等。

至於 testing 則被當作動詞來使用,它指的是提供刺激以便蒐集反應資料的過程,它有時被譯做「施測」,有時仍被譯做「測驗」。這時我們較關心的是在不同時空下所實施的測驗是否都符合指導手冊上的標準化程序。

三、評量

Assessment 在教育領域常被譯為「評量」或「多元化評量」,而在臨床診斷領域常被譯為「心理衡鑑」。assess 的原先意義是指稅務官員對於貨物或房地產進行估價,以便做為課稅的基礎。後來用在教育上則是指「從多種角度以多種方法去評估個人的知識或能力,以作為教學或輔導效果的證明及依據」。

「評量」和「測驗」的差別在於:測驗只是評量過程中所常用的一種工具而已,但評量還可以透過正式或非正式觀察、作業、練習、寫研究報告、實作評量、作品展示、口頭問答、學習歷程檔案(portfolio)、分析過去成績紀錄等方法來了解學生的學習結果。測驗常因為工具上的限制,只能用一種方法,從一個層面去瞭解學生,但評量卻得透過不同方法(當然包括測驗),從多個層面去對學生做整體性的評估,這也就是所謂的「多元化評量」。

「評量」和「測量」不同的是:測量只是將測量對象的某一種屬性加以數量化,並不涉及比較和判斷,但評量卻是除了數量、質量資料的蒐集外,還包括了解釋資料、綜合各種資料、最後根據教學目標來作比較和判斷。

四、評鑑

「評鑑」(evaluation)是指「將對某人或某事物的測量或觀察結果與依理想設定的標準相比較,並判斷其間的差距,然後賦予價值判斷的過程」。因此,評鑑是在測量之後,而且是合併了其他的訊息(特別是質的描述)之後,對其重要性或所欲性所下的價值判斷。

評鑑的對象可以是個人的專業表現,例如,對於教師教學的評鑑;或者是一個機構的運作效率,例如,對學校、大學科系、或行政單位的評鑑;或者是教學材料的適用性,例如,教科書評鑑、教學媒體評鑑;也可以是指一個政策或計畫方案的實施效果,例如,課程評鑑、對社會福利政策、師資自由化政策、或大型研究計畫的評鑑。

評鑑比評量複雜得多,它通常有多位專家的參與,且比較不那麼重視數量化,雖然它有時也用到測驗或測量技術,但其結果報告含有較多的價值判斷及建議改進事項。

在早年的書籍中,evaluation 和 assessment 是交互使用,不加以區分的,但近年來許多學者已經開始區隔以免造成混淆。