教育測(cè)量與評(píng)價(jià)教案.doc
《教育測(cè)量與評(píng)價(jià)教案.doc》由會(huì)員分享,可在線閱讀,更多相關(guān)《教育測(cè)量與評(píng)價(jià)教案.doc(145頁珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
教育測(cè)量與評(píng)價(jià)教案 第一篇 教育評(píng)價(jià)的基本原理與方法 第一章 教育測(cè)評(píng)概述 第一節(jié) 教育測(cè)量概述 一、測(cè)量的定義 一般認(rèn)為,測(cè)量系根據(jù)法則給事物分派數(shù)字。 這里包含了測(cè)量三個(gè)方面的特性: 法則,指測(cè)量的標(biāo)準(zhǔn),也就是測(cè)量的依據(jù)和準(zhǔn)則,即我們根據(jù)什么原理來進(jìn)行測(cè)量。 法則也有好壞之分,使用好的法則可以得到比較理想的測(cè)量結(jié)果,而較差的法則只能導(dǎo)致不準(zhǔn)確的測(cè)量結(jié)果。要尋找和建立較好的測(cè)量法則是一件極為困難的事情。但不管什么法則的建立都是一個(gè)漸進(jìn)的過程。 事物,指測(cè)量的對(duì)象,也就是對(duì)什么進(jìn)行測(cè)量,更明確地說,就是引起我們興趣的事物的屬性或特征。不同的事物具有不同的屬性或特征,所測(cè)量的事物是否具有一致性,這是影響測(cè)量結(jié)果是否精確的一個(gè)重要原因。 數(shù)字,這是測(cè)量結(jié)果的表現(xiàn)形式,是區(qū)別測(cè)量與定性評(píng)價(jià)的一個(gè)標(biāo)志。數(shù)字大多時(shí)候具有量的意義,這樣它是代表一定的數(shù)值。這些數(shù)值具有自然數(shù)的特點(diǎn),如區(qū)分性、序列性或等級(jí)性、等距性和可加性。這些性質(zhì)是我們進(jìn)行運(yùn)算的基礎(chǔ)。 必須指出,在測(cè)量中,我們是根據(jù)事物的屬性和屬性的大小來分派數(shù)字的,因此,必須考慮數(shù)字是否具有如上性質(zhì),同時(shí)還要考慮事物的性質(zhì)和指派數(shù)字的原則。 二、測(cè)量的三要素 1、單位。是我們用于計(jì)算的標(biāo)準(zhǔn)。 理想的單位必須具備兩個(gè)條件:一是要有確切的意義,即對(duì)同一單位,所有人的理解意義要相同,不能出現(xiàn)不同的解釋;二是要有相等的價(jià)值,即等值性,也就是相鄰兩個(gè)單位點(diǎn)之間的差別是相等的。 2、參照點(diǎn)。是計(jì)算的起點(diǎn)。 一般分為絕對(duì)零點(diǎn)和相對(duì)零點(diǎn)。 絕對(duì)零點(diǎn)指客觀地存在著“0”這個(gè)數(shù)字,即完全沒有;相對(duì)零點(diǎn)則是人們?yōu)榱藚^(qū)分或分出等級(jí)人為地指定出一個(gè)零點(diǎn),即即使在“0”這個(gè)位置,也不說明事物的屬性是不存在的。 3、量表。這是測(cè)量的工具,是具有一定單位和參照點(diǎn)的連續(xù)體。 由于制訂量表的單位和參照點(diǎn)不同,量表的種類也不同,一般從低到高,分為四種水平:類別量表水平(稱名量表)、順序量表水平(等級(jí)量表)、等距量表水平(等距量表)、比率量表水平(比率量表)。 類別量表是最低水平的一種測(cè)量量表,它只是用數(shù)字代表事物和事物的歸類,沒有任何數(shù)量的意義,如對(duì)性別、民族等可分類事物進(jìn)行分類。其產(chǎn)生的數(shù)值不能用于數(shù)量化分析,不能進(jìn)行數(shù)學(xué)運(yùn)算,最多只能進(jìn)行百分比分類。 順序量表比類別量表要精確一些,其中數(shù)字不僅指明了事物類別,同時(shí)指明不同類別的大小等級(jí)或具有某種屬性的程度。 等距量表不僅有大小關(guān)系,而且有相等的單位和相對(duì)的零點(diǎn)。這時(shí)數(shù)值可以進(jìn)行加減運(yùn)算,但由于只是相對(duì)零點(diǎn),所以不能進(jìn)行乘除運(yùn)算。 比率量表是最高級(jí)和體現(xiàn)最精確的測(cè)量水平的一種測(cè)量量表。它既有等距的單位,又有絕對(duì)零點(diǎn),因此可以加減乘除。大多數(shù)物理測(cè)量量表是比率量表,而教育測(cè)量中的量表很難達(dá)到這一水平。 三、什么是教育測(cè)量 教育測(cè)量是根據(jù)測(cè)量學(xué)的原理和方法對(duì)教育現(xiàn)象及其屬性進(jìn)行數(shù)量化研究的過程。主要包括對(duì)學(xué)生內(nèi)在的精神屬性的測(cè)量,如測(cè)量學(xué)生的學(xué)習(xí)成績、智力水平、品德狀況、人格特征等。 這里,要注意的是 第一,教育測(cè)量是一個(gè)數(shù)量化研究過程。所以,在進(jìn)行教育測(cè)量時(shí),要解決的第一個(gè)問題是如何將我們所要測(cè)量到的人的各種屬性量化表示的問題。 在教育問題中,有許多往往很難加以量化,有時(shí)即使加以量化,但量化水平只能停留在類別變量或順序變量的層次,難以實(shí)現(xiàn)數(shù)量化分析,意義。這也是我們現(xiàn)在教育測(cè)量和教育評(píng)價(jià)在社會(huì)上討論非常激烈,人們十分關(guān)注,但又成效不大的原因所在。 第二,教育測(cè)量主要測(cè)學(xué)生內(nèi)在的精神屬性,因而具有間接性。這就導(dǎo)致了誤差甚至錯(cuò)誤的存在。 (一)、教育測(cè)量的特點(diǎn) 1、測(cè)量結(jié)果的間接性。我們無法直接測(cè)量學(xué)生的內(nèi)在心理特征,而只能通過其外顯行為,來間接測(cè)量其心理活動(dòng)的特點(diǎn)與水平。也就是說,我們只能通過學(xué)生對(duì)測(cè)驗(yàn)韙的反應(yīng)和一些行為表現(xiàn),運(yùn)用推理、判斷的方法,來間接地測(cè)量出他們的知識(shí)水平、智力高低和品德好壞。 2、度量單位的相對(duì)性。教育測(cè)量的另一個(gè)特點(diǎn)是它的度量單位一般是相對(duì)的,即是相對(duì)零點(diǎn),必須經(jīng)過轉(zhuǎn)換后才能進(jìn)行相應(yīng)的數(shù)學(xué)分析。 3、測(cè)量對(duì)象的復(fù)雜性。首先,學(xué)生的精神屬性是內(nèi)在的,不能直接測(cè)量;其次,它是多變的,因?yàn)閷W(xué)生是發(fā)展的;第三,有些主、客觀因素也會(huì)影響測(cè)量的結(jié)果,如精神狀態(tài)、注意力、天氣因素、緊張等。 4、測(cè)量目的的針對(duì)性。 四、教育測(cè)量的誤差問題 測(cè)量中,誤差是不可避免的。產(chǎn)生誤差的原因主要有: (一)測(cè)量的儀器和設(shè)備。測(cè)量工具的精度會(huì)影響測(cè)量的精確程度。 (二)所測(cè)量的事物的一致性程度。 (三)測(cè)量者的因素。 五、教育測(cè)量學(xué)的作用 (一)有利于提高教育教學(xué)水平 (二)有利于提高教育管理水平 (三)有利于發(fā)展教育研究方法 第二節(jié) 教育評(píng)價(jià)概述 一、什么是評(píng)價(jià) “評(píng)價(jià)”一詞早在900多年前我國北宋時(shí)期就已出現(xiàn)。 評(píng)價(jià)就是根據(jù)某種價(jià)值觀對(duì)事物及其屬性進(jìn)行判斷、衡量,也就是對(duì)人或物做出好與壞、真與假、善與惡、美與丑、優(yōu)與劣等判斷。 這里,價(jià)值觀在評(píng)價(jià)中起著十分重要的作用。價(jià)值觀不同,對(duì)同一事物會(huì)有不同的評(píng)價(jià)。價(jià)值是客觀的,但評(píng)價(jià)帶有主觀性。在哲學(xué)史上有幾種不同的價(jià)值觀:一種是客觀主義的價(jià)值觀,認(rèn)為價(jià)值是客觀對(duì)象所固有的本性,是純客觀的東西;一種是主觀主義的價(jià)值觀,認(rèn)為價(jià)值是用來表達(dá)個(gè)人對(duì)事物的好惡情感的,是純主觀的東西;另一種是辯證唯物主義的價(jià)值觀,認(rèn)為價(jià)值是一種表明客體對(duì)主體的特殊效用性,是主觀性與客觀性的統(tǒng)一??陀^事物的效用性與主觀的需要和愿望相結(jié)合,就具有了一定的價(jià)值,符合的程度大,價(jià)值就越大。 二、教育評(píng)價(jià)的定義 (一)早期的界說 泰勒在20世紀(jì)40年代初將教育評(píng)價(jià)解釋為:“確定教育目標(biāo)在實(shí)際上被理解到何種程序的過程?!? 后來日本學(xué)者進(jìn)一步把它界定為:“教育評(píng)價(jià)就是系統(tǒng)地、有步驟地從數(shù)量上測(cè)量或從性質(zhì)上描述兒童的學(xué)習(xí)過程和結(jié)果,據(jù)此判定是否達(dá)到了所期望的教育目標(biāo)的一種手段?!? 這種解釋和界說,認(rèn)為以教育目標(biāo)為依據(jù),評(píng)量學(xué)習(xí)結(jié)果達(dá)到目標(biāo)的程度,就是教育評(píng)價(jià)。 (二)60年代的界說 克龍巴赫對(duì)教育評(píng)價(jià)的闡釋是基于突破行為目標(biāo)模式的觀點(diǎn),提出“評(píng)價(jià)是為決策提供信息的過程”,后來有人對(duì)這一界說做了具體的描述:“教育評(píng)價(jià)是一種有系統(tǒng)地去尋找并搜集信息資料,以便協(xié)助決策者在諸種可行的途徑(方案)中擇一而行的歷程?!? 這種觀點(diǎn)強(qiáng)調(diào)了評(píng)價(jià)的信息作用,擴(kuò)大和拓寬了評(píng)價(jià)的功能、范圍,從廣義上、宏觀上對(duì)評(píng)價(jià)進(jìn)行了創(chuàng)造性的解釋。 (三)較深層的定義 斯克里文和豪斯的定義:“評(píng)價(jià)是一種對(duì)優(yōu)缺點(diǎn)和價(jià)值的評(píng)估,是一種既有描述又有判斷的活動(dòng)。” 日本心理學(xué)家大橋正夫認(rèn)為:“教育評(píng)價(jià)就是對(duì)照教育目標(biāo),對(duì)教育行為產(chǎn)生的變化進(jìn)行價(jià)值上的判斷?!? 這種評(píng)價(jià)觀點(diǎn)認(rèn)為教育評(píng)價(jià)的著眼點(diǎn)在于教育現(xiàn)象的價(jià)值,也就是評(píng)價(jià)應(yīng)當(dāng)著重判斷教育的效果,看其是否具有價(jià)值。這里的關(guān)鍵主要是價(jià)值判斷。盡管各國評(píng)價(jià)學(xué)者對(duì)教育評(píng)價(jià)有不同的界說,但在這一點(diǎn)已相當(dāng)一致。 (四)對(duì)教育評(píng)價(jià)的初步界定和理解 20世紀(jì)80年代以來,我國教育界也對(duì)教育評(píng)價(jià)理論進(jìn)行了初步探討,對(duì)教育評(píng)價(jià)的概念也進(jìn)行了專門研究,在系統(tǒng)地學(xué)習(xí)、借鑒國外評(píng)價(jià)理論的同時(shí),力圖從我國實(shí)際出發(fā),對(duì)教育評(píng)價(jià)的含義作了一些描繪和闡釋。在這些觀點(diǎn)中,有些共同的認(rèn)識(shí):(1)承認(rèn)評(píng)價(jià)是一個(gè)過程;(2)價(jià)值判斷是評(píng)價(jià)的本質(zhì)特征;(3)以一定的教育價(jià)值觀為依據(jù);(4)采用一切可行的科學(xué)手段。 根據(jù)上述觀點(diǎn),我們把教育評(píng)價(jià)界定為“教育評(píng)價(jià)是根據(jù)一定的價(jià)值觀或教育目標(biāo),運(yùn)用可行的科學(xué)手段,通過系統(tǒng)地搜集信息、分析解釋,對(duì)教育現(xiàn)象進(jìn)行價(jià)值判斷,從而為不斷優(yōu)化教育和教育決策提供依據(jù)的過程。” 這一概念,包含以下幾個(gè)方面: 1、教育評(píng)價(jià)的對(duì)象、范圍和地位 其對(duì)象不僅包括學(xué)生學(xué)習(xí)結(jié)果,而指以教育的全部領(lǐng)域?yàn)閷?duì)象(不僅包括現(xiàn)象,還包括結(jié)果、計(jì)劃、活動(dòng)、過程等)。 2、教育評(píng)價(jià)的目的和作用 它涉及評(píng)價(jià)的指導(dǎo)思想和教育觀等基本理論問題。教育評(píng)價(jià)是為鑒定、考核,還是為了推動(dòng)、改進(jìn);是為了選拔、淘汰,還是為了教育、發(fā)展,這是兩種不同的教育觀和評(píng)價(jià)觀。 過去的教育評(píng)價(jià)偏重于鑒定、篩選的功能,其目的是為了“選拔適合教育的兒童”,是為“應(yīng)試教育”服務(wù)的。而現(xiàn)代教育評(píng)價(jià)則強(qiáng)調(diào)評(píng)價(jià)的反饋、矯正功能即調(diào)控功能,其目的是為了“創(chuàng)造適合兒童的教育”,即評(píng)價(jià)是為了診斷評(píng)價(jià)對(duì)象的現(xiàn)狀,以便發(fā)現(xiàn)問題,使教育教學(xué)工作不斷改進(jìn)、不斷完善,不斷適合教育對(duì)象的需要,為促進(jìn)兒童個(gè)性全面發(fā)展和提高教育質(zhì)量服務(wù)。 教育評(píng)價(jià)的目的是為教育決策提供信息和依據(jù),為改進(jìn)教育服務(wù),也是為不斷完善和改進(jìn)教育過程、為提高教育質(zhì)量服務(wù)。 3、教育評(píng)價(jià)的依據(jù) 價(jià)值判斷是教育評(píng)價(jià)的本質(zhì)特征,是教育評(píng)價(jià)的核心。根據(jù)什么進(jìn)行價(jià)值判斷?如何進(jìn)行判斷?這就是價(jià)值判斷的實(shí)質(zhì)和關(guān)鍵。也就是必須一個(gè)衡量和判斷的客觀依據(jù)和標(biāo)準(zhǔn),是教育價(jià)值目標(biāo)和標(biāo)準(zhǔn)問題。它涉及什么是價(jià)值、教育價(jià)值、教育價(jià)值觀的問題。 我們應(yīng)當(dāng)根據(jù)馬克思主義價(jià)值觀和社會(huì)主義現(xiàn)代化建設(shè)的需要,根據(jù)人才成長發(fā)展規(guī)律,確立我們的教育價(jià)值觀和價(jià)值取向,確定教育評(píng)價(jià)的價(jià)值目標(biāo)和標(biāo)準(zhǔn)。從這個(gè)意義上說,教育方針、政策和教育目標(biāo)就是我們的教育價(jià)值觀的集中體現(xiàn),我們應(yīng)當(dāng)以教育方針和教育目標(biāo)為依據(jù)確定評(píng)價(jià)的目標(biāo)和標(biāo)準(zhǔn)。 4、教育評(píng)價(jià)的手段 (五)教育評(píng)價(jià)與教育測(cè)量的關(guān)系 測(cè)量是工具,評(píng)價(jià)是目標(biāo)。 三、教育評(píng)價(jià)的功能和意義 (一)教育評(píng)價(jià)的系統(tǒng)結(jié)構(gòu) 1、價(jià)值目標(biāo)和標(biāo)準(zhǔn) 2、組織機(jī)構(gòu)和人員 3、評(píng)價(jià)方法和技術(shù) 4、評(píng)價(jià)對(duì)象與評(píng)價(jià)人員的心理調(diào)控 (二)教育評(píng)價(jià)的功能 根據(jù)系統(tǒng)論的觀點(diǎn),評(píng)價(jià)功能是教育評(píng)價(jià)系統(tǒng)結(jié)構(gòu)的內(nèi)在機(jī)制,是構(gòu)成評(píng)價(jià)系統(tǒng)的各個(gè)要素的組成形式在運(yùn)動(dòng)狀態(tài)下所發(fā)揮的功效,是評(píng)價(jià)系統(tǒng)內(nèi)部所固有的一種潛在能量。這種潛能只有在評(píng)價(jià)實(shí)踐中才能表現(xiàn)或釋放出來,這種功能的外在表現(xiàn)即是作用。 1、教育評(píng)價(jià)的意義 (1)教育評(píng)價(jià)是教育管理的重要組成部分。教育管理的各個(gè)環(huán)節(jié)都需要評(píng)價(jià)。沒有評(píng)價(jià)的管理是一個(gè)開放式的管理系統(tǒng),無反饋機(jī)制,這是一種不科學(xué)、不健全的管理。 (2)教育評(píng)價(jià)是深化教育改革的重要措施。要進(jìn)行一項(xiàng)教育改革,首先要進(jìn)行改革方案的可行性評(píng)估;在改革進(jìn)程中,必須加強(qiáng)形成性評(píng)價(jià);在某一改革告一段落時(shí)必須進(jìn)行終結(jié)性評(píng)價(jià)。只有這樣才能避免盲目性,確保教育改革沿著健康的軌道發(fā)展。 (3)教育評(píng)價(jià)是全面提高教育質(zhì)量的重要手段。 (4)教育評(píng)價(jià)是教育科學(xué)研究的重要內(nèi)容。 2、教育評(píng)價(jià)的功能 (1)導(dǎo)向功能。(2)監(jiān)督檢查功能。(3)激勵(lì)功能。(4)篩選擇優(yōu)功能。(5)診斷改進(jìn)功能。 四、教育評(píng)價(jià)的種類 (一)根據(jù)評(píng)價(jià)對(duì)象和范圍不同,可分為宏觀教育評(píng)價(jià)、中觀教育評(píng)價(jià)和微觀教育評(píng)價(jià)。 宏觀教育評(píng)價(jià)是以教育的全領(lǐng)域及宏觀決策方面的教育現(xiàn)象、措施為對(duì)象的教育評(píng)價(jià),或?qū)σ粋€(gè)具有相當(dāng)規(guī)模的地區(qū)的教育進(jìn)行的評(píng)價(jià),屬于總體的、全局性的、高層次的評(píng)價(jià)。 中觀教育評(píng)價(jià)是以學(xué)校為對(duì)象,對(duì)學(xué)校內(nèi)部各方面的工作進(jìn)行的評(píng)價(jià)。 微觀教育評(píng)價(jià)是以學(xué)生為對(duì)象的教育評(píng)價(jià)。 (二)根據(jù)評(píng)價(jià)的時(shí)間和作用不同,可分為診斷性評(píng)價(jià)、形成性評(píng)價(jià)和總結(jié)性評(píng)價(jià) (三)根據(jù)評(píng)價(jià)的基準(zhǔn)不同,可分為相對(duì)評(píng)價(jià)和絕對(duì)評(píng)價(jià) 相對(duì)評(píng)價(jià)指在評(píng)價(jià)對(duì)象團(tuán)體中確定一個(gè)基準(zhǔn),或以某一團(tuán)體的評(píng)價(jià)狀況為基準(zhǔn),對(duì)團(tuán)體中的個(gè)體成員在這個(gè)團(tuán)體中所處的相對(duì)位置進(jìn)行評(píng)價(jià)。其特點(diǎn)是:評(píng)價(jià)基準(zhǔn)是在評(píng)價(jià)對(duì)象團(tuán)體內(nèi)部確定的;參照的標(biāo)準(zhǔn)是對(duì)團(tuán)體進(jìn)行測(cè)量以后確定的;它關(guān)心的是團(tuán)體成員在該團(tuán)體中所處的相對(duì)位置。 絕對(duì)評(píng)價(jià)指以預(yù)先制訂的目標(biāo)為評(píng)價(jià)基準(zhǔn),評(píng)價(jià)每個(gè)對(duì)象達(dá)到目標(biāo)或基準(zhǔn)的程度,也稱目標(biāo)參照評(píng)價(jià)。其特點(diǎn)是:評(píng)價(jià)基準(zhǔn)是在評(píng)價(jià)對(duì)象團(tuán)體以外確定的;參照標(biāo)準(zhǔn)是在對(duì)團(tuán)體進(jìn)行測(cè)量以前確定的;它關(guān)心的是評(píng)價(jià)對(duì)象達(dá)標(biāo)的程度。 (四)根據(jù)評(píng)價(jià)的性質(zhì)不同,可分為需要性評(píng)價(jià)、可行性評(píng)價(jià)和配置性評(píng)價(jià) 需要性評(píng)價(jià)是指根據(jù)某種需要,對(duì)新提出的教育目標(biāo)、計(jì)劃方案的必要性作出價(jià)值判斷。其目的是要判斷新提出的教育目標(biāo)、計(jì)劃方案或活動(dòng)是否有必須進(jìn)行或開展。一般是在某種教育改革項(xiàng)目開始前或?qū)逃顒?dòng)整個(gè)過程進(jìn)行總體反思時(shí)進(jìn)行。 可行性評(píng)價(jià)是指對(duì)教育目標(biāo)、計(jì)劃、方案實(shí)現(xiàn)的條件、可行性程度的評(píng)價(jià)。目標(biāo)是了解實(shí)施教育目標(biāo)、計(jì)劃、方案的物質(zhì)條件、技術(shù)條件和經(jīng)濟(jì)效益。 配置性評(píng)價(jià)是指對(duì)教育目標(biāo)、計(jì)劃、方案所需要的資源條件、人員與技術(shù)條件的配置進(jìn)行價(jià)值判斷。目的是合理安排和利用人力、物力和財(cái)力。 (五)根據(jù)評(píng)價(jià)的主客體不同,可分為自我評(píng)價(jià)和他人評(píng)價(jià) 自我評(píng)價(jià)指被評(píng)者按照一定的評(píng)價(jià)目的與要求,對(duì)自身的工作、學(xué)習(xí)和品德等方面的表現(xiàn)進(jìn)行價(jià)值判斷。他人評(píng)價(jià)指被評(píng)者以外的人進(jìn)行的評(píng)價(jià),也叫外部評(píng)價(jià)。 第三節(jié) 教育測(cè)評(píng)的發(fā)展階段 一、 教育測(cè)量的發(fā)展階段 (一)教育測(cè)量的萌芽階段(1864年以前) 根據(jù)《學(xué)記》記載,我國早在西周時(shí)期,就實(shí)行了教育考評(píng)。 自隋煬帝大業(yè)三年(公元606年)始置進(jìn)士科開始的科舉制度,到清末光緒三十一年(1905年)廢止,正好1300年,對(duì)我國進(jìn)一步完善高等學(xué)校招生制度乃至整個(gè)干部選拔制度,都有重要的借鑒意義。 科舉制度的特點(diǎn):第一,要經(jīng)過嚴(yán)格的政治條件方面審查;第二,要進(jìn)行嚴(yán)格的文化考查;第三,歷代對(duì)考生都有健康方面的標(biāo)準(zhǔn)。 科舉制度可取之處:第一,政治理論考試是最主要的考試項(xiàng)目;第二,文化素養(yǎng)特別是寫作能力是必考項(xiàng)目;第三,注意考查分析問題和解決問題的能力。 錄取原則:第一,對(duì)已被錄取者一律要進(jìn)行復(fù)試;第二,對(duì)落選者要給予其他出路;第三,錄取時(shí)要參考平時(shí)成績。 注意的問題:第一,考生入場(chǎng)挾帶文書,是歷代都極為注意的;第二,考場(chǎng)秩序也是歷代都極為重視的問題;第三,試卷是評(píng)定成績高低,錄取與否的唯一依據(jù),它屢經(jīng)考生和各類考試工作人員之手,如不嚴(yán)格管理,很容易使舞弊者有機(jī)可乘。 科舉制度實(shí)際上就是一個(gè)關(guān)于學(xué)生學(xué)力檢測(cè)、評(píng)價(jià)制度,但是它缺乏對(duì)人全面的、科學(xué)的考察,并且存在著許多弊端。 在18世紀(jì)以前的西方各國,由于學(xué)校尚未普及,學(xué)校考試主要是口試。1702年,英國劍橋大學(xué)首先以筆試代替口試,開西方學(xué)??荚囅群印? 1845年,美國初等學(xué)校普及,學(xué)生數(shù)激增,對(duì)畢業(yè)生一一口試已不可能,于是,波士頓市教育委員會(huì)率先在美國相繼以筆試代替口試。 由于筆試客觀性、可靠性比口試高,并且節(jié)約時(shí)間,測(cè)試結(jié)果大大優(yōu)于口試,但因?yàn)樵u(píng)分易受主觀偏見影響,況且題目太少,不足以反映學(xué)生所獲知識(shí)與能力的全貌,因此,為矯正弊端,力求考試客觀化,于是測(cè)驗(yàn)方法隨之出現(xiàn)。 (二)教育測(cè)量的蓬勃興起階段(1864——1940年) 1864年英國格林威治醫(yī)院附屬學(xué)校一位名叫費(fèi)舍的教師收集了許多學(xué)生成績樣本,匯集了一本《量表集》,作為度量學(xué)生各科成績的標(biāo)準(zhǔn)??梢哉f是客觀標(biāo)準(zhǔn)化測(cè)量的萌芽。 1897年萊斯發(fā)表了他對(duì)20所學(xué)校3000余名學(xué)生所作的拼字測(cè)驗(yàn)研究結(jié)果,測(cè)驗(yàn)表明:8年中每天花45分鐘時(shí)間進(jìn)行拼字練習(xí)同每天花15分鐘進(jìn)行練習(xí)的成績并沒有多大差別。這一結(jié)論盡管遭到了不少人反對(duì),但它引起了人們對(duì)測(cè)驗(yàn)問題的普遍關(guān)心,推動(dòng)了教育測(cè)驗(yàn)問題的研究。 中世紀(jì)以后,西方自然科學(xué)由于在方法論上引入了測(cè)定、觀察和實(shí)驗(yàn),一些傳統(tǒng)科學(xué)取得了長足發(fā)展。1879年馮特在德國萊比錫建立了第一個(gè)心理學(xué)實(shí)驗(yàn)室,為進(jìn)一步揭示人的心理本質(zhì)而設(shè)計(jì)了種種周密的實(shí)驗(yàn)方案與實(shí)現(xiàn)方案的各種嚴(yán)密的測(cè)量方法。所有這些方法論的變革促進(jìn)了教育測(cè)量運(yùn)動(dòng)的興起。 1882年英國高爾頓受達(dá)爾文影響,在倫敦建立了人類學(xué)測(cè)驗(yàn)實(shí)驗(yàn)室,與德國馮特的心理學(xué)實(shí)驗(yàn)室相對(duì)峙。德國實(shí)驗(yàn)心理學(xué)派通過專門研究人類的一般行為規(guī)律來進(jìn)一步揭示人的心理本質(zhì),而英國人類學(xué)派則對(duì)人類個(gè)別差異寄予了關(guān)心。高爾頓在統(tǒng)計(jì)學(xué)家皮爾遜的幫助下,設(shè)計(jì)了許多統(tǒng)計(jì)方法。這些統(tǒng)計(jì)方法不僅對(duì)美國的人事工程思想甚有幫助,而且一些教育家借鑒這些方法,在教育上把不同學(xué)生的學(xué)習(xí)能力與學(xué)習(xí)效果量化,并加以客觀比較,促進(jìn)了教育測(cè)量運(yùn)動(dòng)的發(fā)展。 19世紀(jì)末,法國在“自由”“平等”“博愛”等進(jìn)步思想的影響下,提出社會(huì)不僅要對(duì)身體有缺陷的兒童加以關(guān)懷,還要結(jié)心理、精神智能有缺陷的兒童給予關(guān)懷。恰好當(dāng)時(shí)巴黎一帶的學(xué)校有許多學(xué)習(xí)效果低劣的孩子很成問題,比納想鑒別這些孩子是因?yàn)閼卸?,還是因?yàn)橹悄艿拖露荒苓m應(yīng),并且想在教育上嘗試如何加以輔救。因此,1895年,比納等設(shè)計(jì)了一套智力測(cè)驗(yàn)的方法,1905年在西蒙的協(xié)助下,制成了著名的比納—西蒙智力量表。 20世紀(jì)20年代,美國的教育測(cè)驗(yàn)運(yùn)動(dòng)蓬勃發(fā)展起來??煞譃槿齻€(gè)時(shí)期: 開拓期(1904-1915),這一段時(shí)間是方法的探索與初步的發(fā)展時(shí)期。在美國心理學(xué)家卡特爾研究的基礎(chǔ)上,1904年桑代克發(fā)表了《精神與社會(huì)測(cè)驗(yàn)學(xué)導(dǎo)論》,這是一本在測(cè)驗(yàn)學(xué)史上劃時(shí)代巨著,標(biāo)志教育測(cè)驗(yàn)運(yùn)動(dòng)的開始。桑代克在書中宣稱:“凡是存在的東西都有數(shù)量;凡是有數(shù)量的東西都可測(cè)量?!? 興盛期(1915-1930),這一時(shí)期對(duì)桑代克提出的信條不但在技術(shù)方面努力求得正確應(yīng)用,而且不斷提高到理論上加以證實(shí)。這一時(shí)期已發(fā)展了三種不同性質(zhì)的測(cè)驗(yàn),即學(xué)力測(cè)驗(yàn)、智力測(cè)驗(yàn)和人格測(cè)驗(yàn)。 批判期(1930-1940),隨著教育測(cè)驗(yàn)運(yùn)動(dòng)的不斷發(fā)展,人們逐漸認(rèn)識(shí)到,教育測(cè)驗(yàn)盡管能使考試客觀化、標(biāo)準(zhǔn)化,并能把人的能力換算成數(shù)字,甚至個(gè)別差異的程度也可以量化,但它畢竟不能測(cè)出人的全部,即使是研究最多最富成果的學(xué)力測(cè)驗(yàn)也不能測(cè)得學(xué)力的全部領(lǐng)域。在人格測(cè)驗(yàn)方面,單純的測(cè)驗(yàn)是無法把握的,如社會(huì)態(tài)度、興趣、情緒、鑒賞力等。1931年,塞蒙茲發(fā)表了《人格與行動(dòng)的診斷》一書,主張人格測(cè)量應(yīng)用評(píng)定法、問卷法、軼事記錄法等,從而從思想上否定了單純的人格測(cè)量法。從此,教育測(cè)量運(yùn)動(dòng)逐步過渡到教育評(píng)價(jià)時(shí)期。 (三)教育測(cè)量的深入發(fā)展階段(1940至今) 在經(jīng)過以上批判期以后,現(xiàn)代教育測(cè)量在以下方面有了新的發(fā)展: 第一,開始重視學(xué)生智力和思想品德的測(cè)量。 第二,現(xiàn)代教育測(cè)量量表的編制突破了過去單一答案的求同式思維題,發(fā)展為包括多種答案的求異式思維題和論文式試題。 第三,教育測(cè)量的范圍由過去偏重于學(xué)生學(xué)習(xí)成績的測(cè)量,發(fā)展到涉及到課程設(shè)置、教材、教育改革方案等效益方面的測(cè)量。 第四,現(xiàn)代的教育測(cè)量由過去單一的常模參照性測(cè)驗(yàn)?zāi)J桨l(fā)展到常模參照性測(cè)驗(yàn)與目標(biāo)參照性測(cè)驗(yàn)相結(jié)合的模式。 第五,教育測(cè)量本身的理論研究與技術(shù)開發(fā)更加深入與完善。如關(guān)于測(cè)驗(yàn)等值、項(xiàng)目反應(yīng)理論(IRT)、測(cè)驗(yàn)信度、評(píng)分誤差控制的研究等都有了較大的發(fā)展。 二、教育評(píng)價(jià)的發(fā)展階段 教育評(píng)價(jià)作為科學(xué)概念,是20世紀(jì)30年代在美國進(jìn)步主義教育聰明的新教育課程的改革實(shí)驗(yàn)“八年研究”中正式誕生的。 (一)教育評(píng)價(jià)產(chǎn)生的歷史淵源與社會(huì)背景 1、我國古代教育考試制度 自人類社會(huì)形成,人類祖先為了生存、延續(xù),自發(fā)地產(chǎn)生了原始生產(chǎn)經(jīng)驗(yàn)和生活規(guī)范的傳遞,這種傳遞就是教育的萌芽。隨著社會(huì)經(jīng)濟(jì)、政治和文化的發(fā)展,特別是由于古文字的出現(xiàn),產(chǎn)生了學(xué)校。各種教育機(jī)構(gòu)都有了相應(yīng)的教育內(nèi)容,從而產(chǎn)生了衡量教育結(jié)果的手段和規(guī)定。 從我國教育史上看,早在西周時(shí)代,已經(jīng)形成了較為完備的考試制度,如《學(xué)記》中記載的“比年入學(xué),中年考校”就是典型例子。更多的科舉制度更是歷時(shí)1300年。 2、西方教育測(cè)量運(yùn)動(dòng)的興起 古代西方教育盛行以口頭提問和實(shí)際操作來評(píng)定學(xué)生的學(xué)業(yè)。 從中世紀(jì)到19世紀(jì)的學(xué)?;疽钥谠囎鳛榭疾閷W(xué)生成績的方法。 進(jìn)入資本主義發(fā)展時(shí)期以后,由于社會(huì)需要大量掌握讀寫算的人力,學(xué)校和學(xué)生激增,口試被筆試取代。但筆試也有很多弊端。為追求測(cè)驗(yàn)、考試的客觀性,受實(shí)驗(yàn)心理學(xué)、個(gè)別差異研究和智力測(cè)驗(yàn)的影響,20世紀(jì)初,在美國,教育測(cè)量取代了傳統(tǒng)的考試,并形成了一種趨勢(shì)和運(yùn)動(dòng);20年代末,由于新教育思潮的出現(xiàn),教育測(cè)量已不能完全適應(yīng)教育發(fā)展的需要,因而出現(xiàn)了對(duì)教育測(cè)量的批判。 3、社會(huì)背景 20世紀(jì)20年代末30年代初,美國爆發(fā)了空前的經(jīng)濟(jì)危機(jī),許多工廠倒閉,工人失業(yè),大批青年為了加強(qiáng)勞動(dòng)力市場(chǎng)的競(jìng)爭能力,重新涌入中學(xué)學(xué)習(xí),謀求新職業(yè)。但當(dāng)時(shí)美國的中學(xué)所開設(shè)的課程是為了升大學(xué)服務(wù)的,不適應(yīng)整個(gè)社會(huì)與失業(yè)青年的需要,這就使學(xué)生與學(xué)校課程之間發(fā)生了尖銳矛盾。在這種情況下,美國一些受杜威教育思想影響的教育家,組織了進(jìn)步主義教育同盟(PEA),他們提出教育的目的在于生活,在于兒童,反對(duì)舊的傳統(tǒng)的死記硬背的考試測(cè)驗(yàn)。 他們以新教育理論為依據(jù),以全面發(fā)展人的才能為主要目標(biāo),設(shè)計(jì)了一套新的課程,并在7所大學(xué)30所中學(xué)進(jìn)行教育實(shí)驗(yàn)。為達(dá)到實(shí)驗(yàn)?zāi)繕?biāo),需要研究一套新的考查教育成就的方法,經(jīng)推薦,組成了以泰勒為首的評(píng)價(jià)委員會(huì),時(shí)間從1933年到1940年,歷時(shí)8年,史稱“八年研究”。 1940年,泰勒教授提出了第一個(gè)報(bào)告,第一次提出了“教育評(píng)價(jià)”這個(gè)概念,認(rèn)為實(shí)施教育評(píng)價(jià)首先必須分析教育應(yīng)達(dá)到的目標(biāo),再用這個(gè)目標(biāo)來評(píng)價(jià)教育的效果,運(yùn)用評(píng)價(jià)來促進(jìn)教育活動(dòng)向理想的目標(biāo)逼近。被人們稱為“劃時(shí)代的教育評(píng)價(jià)宣言”。 (二)現(xiàn)代教育評(píng)價(jià)的發(fā)展階段 1、教育評(píng)價(jià)的開創(chuàng)時(shí)期(1930-1958) “八年研究”后,現(xiàn)代教育評(píng)價(jià)正式誕生,終于取代了教育測(cè)量成為考查教育效果,促進(jìn)教育改革的重要理論和手段。 在這一階段中,教育評(píng)價(jià)方法論的實(shí)證化特點(diǎn)非常明顯。主要表現(xiàn)在目標(biāo)導(dǎo)向評(píng)價(jià)模式之中。首先,泰勒認(rèn)為開展評(píng)價(jià)的論據(jù)是把所要評(píng)價(jià)的內(nèi)容分成具體可見的、可操作的學(xué)生行為目標(biāo),以便在評(píng)價(jià)中能夠圍繞這些行為目標(biāo)進(jìn)行觀察和測(cè)定。其次,泰勒在他的評(píng)價(jià)模式中非常強(qiáng)調(diào)對(duì)學(xué)習(xí)和教育結(jié)果進(jìn)行客觀的測(cè)量、統(tǒng)計(jì)。他提出三種評(píng)價(jià)手段:專家測(cè)驗(yàn)、情境考察、提問作答。并提出運(yùn)用時(shí)三個(gè)重要準(zhǔn)則:客觀性、信度和效度。 2、大發(fā)展時(shí)期(1958-1972) 1957年前蘇聯(lián)的人造衛(wèi)生上天后,美國朝野一片震驚,并對(duì)教育進(jìn)行了深刻的反思。在加大教育投資力度的同時(shí),教育評(píng)價(jià)很快從過去僅是學(xué)術(shù)機(jī)構(gòu)和民間的研究轉(zhuǎn)而被納入各級(jí)政府和各地方教育當(dāng)局的議事日程。1963年美國政府正式提出要對(duì)教育的效能和質(zhì)量進(jìn)行評(píng)價(jià),并撥出大量??钣糜诮逃u(píng)價(jià)理論與技術(shù)、方法的研究和培養(yǎng)專門的教育評(píng)價(jià)工作人員。 1963年,克龍巴赫發(fā)表《通過評(píng)價(jià)改革課程》,提出評(píng)價(jià)的內(nèi)容不應(yīng)僅僅是課程或教學(xué)目標(biāo)及其被達(dá)到的程度,而應(yīng)更關(guān)心對(duì)教育決策及其所依據(jù)的準(zhǔn)則的評(píng)價(jià)。為決策提供信息更應(yīng)是評(píng)價(jià)的中心。 1963年格拉澤發(fā)表文章,在指出相對(duì)評(píng)價(jià)的不足時(shí),提出在學(xué)校教育中應(yīng)著重絕對(duì)評(píng)價(jià)。 1967年斯克里芬發(fā)表評(píng)價(jià)史上具有深遠(yuǎn)影響的《評(píng)價(jià)方法論》,指出過去的評(píng)價(jià)不僅在理論上而且在實(shí)踐中都很不全面。他第一次對(duì)形成性評(píng)價(jià)與終結(jié)性評(píng)價(jià)、專業(yè)性評(píng)價(jià)與業(yè)余性評(píng)價(jià)、對(duì)目標(biāo)到達(dá)程度的評(píng)價(jià)與對(duì)目標(biāo)本身價(jià)值及比較性評(píng)價(jià)與非比較性評(píng)價(jià)等作了明確的闡述和區(qū)分。 1969年,艾斯納對(duì)泰勒的目標(biāo)評(píng)價(jià)理論進(jìn)行了抨擊,認(rèn)為對(duì)教育本質(zhì)的不同理解,可以造成對(duì)目標(biāo)的不同表述,泰勒的評(píng)價(jià)方法不一定適用于教育實(shí)際,因?yàn)樗葲]有提供評(píng)價(jià)目標(biāo)本身的方法,也沒有提出判斷評(píng)價(jià)目標(biāo)與結(jié)果之間差異的標(biāo)準(zhǔn)。從此,以目標(biāo)為中心的評(píng)價(jià)模式不再是唯一的了。其它評(píng)價(jià)模式相繼出現(xiàn),目標(biāo)的價(jià)值結(jié)構(gòu)受到了挑戰(zhàn)。在這一段時(shí)間里,出現(xiàn)了40多種評(píng)價(jià)模式,各適用于不同的范圍,采取不同的方式方法。 3、專業(yè)時(shí)期(1973至今) 在這一階段中,教育評(píng)價(jià)方法論的人文化特點(diǎn)得到迅速發(fā)展并有超過實(shí)證化傾向的勢(shì)頭。這些評(píng)價(jià)模式的共同特點(diǎn)就是在評(píng)價(jià)中不只是單純從評(píng)價(jià)者的需要出發(fā),而是考慮到所有參與人的需要,強(qiáng)調(diào)個(gè)體的經(jīng)驗(yàn)、活動(dòng)和主觀認(rèn)識(shí)的作用,不過分追求客觀化,并試圖摒棄數(shù)量特征,而是從人的角度出發(fā),重視人文社會(huì)科學(xué)方法在評(píng)價(jià)中的運(yùn)用。如應(yīng)答評(píng)價(jià)模式的應(yīng)答,就是讓評(píng)價(jià)對(duì)象和其他與評(píng)價(jià)有關(guān)人員提出他們關(guān)心的問題,并表達(dá)他們各自的意見,在評(píng)價(jià)過程中,評(píng)價(jià)者的職責(zé)就是把收集到這些資料與眾人討論,并以磋商的形式,逐漸消除分歧,最近達(dá)成共同的、公認(rèn)的、統(tǒng)一的觀點(diǎn)。 第二章 教育測(cè)量的基本問題(添加內(nèi)容) 一、測(cè)驗(yàn)必須注意的問題 我們前面已經(jīng)說過,教育測(cè)量實(shí)際上是基于心理結(jié)構(gòu)的分析而進(jìn)行的間接測(cè)查,這一特點(diǎn)給相應(yīng)的測(cè)量工具的設(shè)計(jì)帶來了幾個(gè)難題,如人事部門的一位心理學(xué)家想編制用于測(cè)試某工廠求職人員機(jī)械能力的測(cè)驗(yàn),一位學(xué)校心理學(xué)家想編制教師對(duì)身體殘疾學(xué)生的態(tài)度量表,一位教師想編制一套五年級(jí)學(xué)生解答多位數(shù)除法技能的單元測(cè)驗(yàn)……這里,每個(gè)人要測(cè)的東西結(jié)構(gòu)上完全不同,那么應(yīng)該怎么來設(shè)計(jì)呢? 其實(shí),對(duì)于所有的心理測(cè)評(píng),測(cè)驗(yàn)編制者至少要考慮五個(gè)問題: 首先,對(duì)任何結(jié)構(gòu)的測(cè)量不存在普遍認(rèn)同的一種方法,因?yàn)閷?duì)某種心理結(jié)構(gòu)的測(cè)量總是建立在被認(rèn)為與該結(jié)構(gòu)相關(guān)的行為研究的基礎(chǔ)上間接進(jìn)行的,當(dāng)人們談到同一結(jié)構(gòu)時(shí)卻往往選擇不同類型的行為給該結(jié)構(gòu)下操作性定義,也可能要求學(xué)生解答一系列問題,也可能要求學(xué)生寫出每一步的結(jié)果,也可能要求他們找出答錯(cuò)的題目中的錯(cuò)誤,也可能要求學(xué)生用多種方法解答,因而不同的操作性定義會(huì)得出不同的測(cè)量程序,這又很可能導(dǎo)致對(duì)學(xué)生知識(shí)水平的不同評(píng)價(jià)。 其次,心理測(cè)量通常是基于有限的行為樣組的。我們不可能考核所有我們要考查的行為,只能從其中抽樣,這就涉及測(cè)量題目的數(shù)量和內(nèi)容廣度,這是產(chǎn)生一個(gè)良好測(cè)量的最主要的步驟。 第三,測(cè)量的結(jié)果總?cè)耸艿秸`差的影響。 第四,測(cè)量量表缺乏定義清晰的單位。受測(cè)者未能回答出多位數(shù)除法測(cè)驗(yàn)的任一測(cè)題是否意味著他們沒有這種技能?如果一位同學(xué)答對(duì)了5個(gè)題,另一同學(xué)答對(duì)了10個(gè)題,第三位同學(xué)答對(duì)了15道題,是否能認(rèn)為前兩位同學(xué)之間的差異與第二、三位同學(xué)之間的差異一樣呢?三個(gè)學(xué)生在測(cè)驗(yàn)所測(cè)驗(yàn)的能力連續(xù)體上的差距是否相等? 第五,心理結(jié)構(gòu)不能僅以操作定義來界定,還必須說明它與其他結(jié)構(gòu)或可觀察現(xiàn)象間的關(guān)系。雖然心理測(cè)量建立在可觀察到的反應(yīng)基礎(chǔ)之上,但只有它能夠按照所依賴的理論結(jié)構(gòu)進(jìn)行合理解釋時(shí),它才具有意義。因此(1)必須根據(jù)可觀察行為來界定結(jié)構(gòu),這類定義具體說明了如何進(jìn)行測(cè)量;(2)必須在理論系統(tǒng)內(nèi)根據(jù)它與別的結(jié)構(gòu)間的邏輯或數(shù)學(xué)關(guān)系來界定結(jié)構(gòu),這類定義為的獲得的測(cè)量結(jié)果的解釋提供了基礎(chǔ)。 測(cè)驗(yàn)理論在研究和評(píng)估中的作用為了闡明測(cè)驗(yàn)理論在廣義的研究和評(píng)估方法學(xué)中的作用,把教育和社會(huì)科學(xué)研究看作是由幾個(gè)明確界定的步驟所組成的調(diào)查過程,將有助于問題的說明。這個(gè)過程可以分為以下幾個(gè)步驟: 1.簡潔明白地陳述研究的問題或假設(shè); 2.通過決定在研究中如何控制和測(cè)量變量,對(duì)假設(shè)中的每個(gè)變量下操作定義;(即選擇模型) 3.編制或選擇獲取和量化每一變量觀察值的工具及程序;(確定測(cè)驗(yàn)分?jǐn)?shù)的使用目的-確定代表該結(jié)構(gòu)的行為(包括內(nèi)容分析、研究回顧、關(guān)鍵事件、直接觀察、專家判斷、教學(xué)目標(biāo)等方法)-領(lǐng)域取樣(包括隨機(jī)抽樣、系統(tǒng)抽樣、多階段抽樣、分層抽樣、整群抽樣、分層整群抽樣、重復(fù)抽樣、配額抽樣、判斷抽樣等多種方法)-準(zhǔn)備測(cè)驗(yàn)說明書-項(xiàng)目編制(包括最佳行為測(cè)驗(yàn)法(包括是非、多選、配對(duì))、調(diào)查問卷項(xiàng)目形式(包括二分法、五級(jí)連續(xù)法、兩極形容詞列表法))) 4.檢查所使用的工具和程序的準(zhǔn)確性及敏感性;(注意精確性、與測(cè)驗(yàn)說明相符或相關(guān)程度、項(xiàng)目編制的技術(shù)性缺點(diǎn)、語法、攻擊性語言或“偏見”的出現(xiàn)、可讀性水平等問題,然后進(jìn)行試測(cè)檢查,進(jìn)行項(xiàng)目分析,得出項(xiàng)目的相關(guān)指標(biāo),即信度、效度、難度、區(qū)分度等) 5.收集實(shí)驗(yàn)設(shè)計(jì)框架內(nèi)的實(shí)驗(yàn)資料,以回答最初提出的問題; 6.用數(shù)學(xué)方法處理數(shù)據(jù)資料,適當(dāng)?shù)乩媒y(tǒng)計(jì)檢驗(yàn)去判斷觀察結(jié)果歸因于機(jī)遇的可能性。 在這個(gè)過程中,測(cè)驗(yàn)理論的內(nèi)容與步驟2、步驟3和步驟4有很大關(guān)系。有必要指出,在進(jìn)行大范圍的實(shí)驗(yàn)研究(步驟5和6)之前,步驟4通常要求收集預(yù)試樣組試測(cè)結(jié)果的數(shù)據(jù)并進(jìn)行統(tǒng)計(jì)分析,以確保工具的有效性。編制和預(yù)試研究工具失敗的部分原因是與教育和社會(huì)科學(xué)研究經(jīng)常具有矛盾和模糊的結(jié)果的特點(diǎn)有關(guān)。在物理和生物科學(xué)中,測(cè)量程序在實(shí)驗(yàn)使用之前全都要經(jīng)過檢驗(yàn)。一位生物化學(xué)家在沒花大量時(shí)間校準(zhǔn)分光儀,以保證它能夠提供精確的波長讀數(shù)時(shí),是絕不會(huì)試圖去分析實(shí)驗(yàn)室中未知的化合物的。然而,相比之下社會(huì)科學(xué)家們更經(jīng)常地嘗試通過實(shí)際上從未試用過的測(cè)驗(yàn)去評(píng)估實(shí)驗(yàn)程序如何影響了一個(gè)復(fù)雜的變量,如心理病人的焦慮水平或?qū)W前兒童的語言發(fā)展。從提出研究問題和定義變量直接跳到收集實(shí)驗(yàn)資料的研究者很可能會(huì)一無所獲。假如研究者沒有觀察到各種處理之間的差異,那么他們也就不可能知道是各種處理無效,還是測(cè)量不那么精確以致處理的真實(shí)效果未被覺察到。在實(shí)施最后的正式實(shí)驗(yàn)前,嚴(yán)格地遵照優(yōu)秀測(cè)驗(yàn)編制程序和在實(shí)踐中試測(cè)的原則將對(duì)提高教育學(xué)和心理學(xué)研究的總體質(zhì)量大有裨益。 三、測(cè)驗(yàn)理論中的統(tǒng)計(jì)概念(主要是復(fù)習(xí)) (一)頻數(shù)表和分布圖 (二)集中量數(shù)(眾數(shù)、中位數(shù)、平均數(shù)) (三)差異量數(shù)(全距、離差、方差、標(biāo)準(zhǔn)差) (四)Z分?jǐn)?shù)(后面還會(huì)再講) (五)正態(tài)分布 (六)用于描述兩個(gè)變量間關(guān)系的量(散點(diǎn)圖、相關(guān)系數(shù),包括皮爾遜積差相關(guān)、斯皮爾曼等級(jí)相關(guān)、點(diǎn)二列相關(guān)、列聯(lián)相關(guān)等) (七)用于預(yù)測(cè)個(gè)體表現(xiàn)的量(回歸分析、估計(jì)的標(biāo)準(zhǔn)誤等) 第二章 教育測(cè)量的質(zhì)量指標(biāo) 第一節(jié) 信度 一、 信度的概念 信度指測(cè)量結(jié)果的穩(wěn)定性或可靠性程度,亦即測(cè)量的結(jié)果是否真實(shí)、客觀反映了老先生的實(shí)際水平??蓮娜齻€(gè)方面來考慮: 第一,信度指實(shí)測(cè)值和真值相差的程度 測(cè)量的目的之一,就是希望通過測(cè)量得到的實(shí)測(cè)值能夠接近事物的真值。但由于各種原因,實(shí)測(cè)值與真值之間必然存在誤差。但誤差越小,說明信度越高。 x(實(shí)測(cè)值) = T(真值) + E(誤差) 由于真值是未知的,因此誤差值是大是小也是未可知的。一般為求得最接近的實(shí)測(cè)值都是通過多次實(shí)測(cè)取其平均值來作為真值的近似值。但這一方法缺乏實(shí)際可操作性,也無法求得信度的大小。 第二,信度是指統(tǒng)計(jì)量與參數(shù)之間的接近程度 統(tǒng)計(jì)量和參數(shù)是統(tǒng)計(jì)學(xué)中的兩個(gè)基本概念。統(tǒng)計(jì)量是指樣本上的各種數(shù)字特征(如樣本的平均數(shù)、標(biāo)準(zhǔn)差等),參數(shù)是總體上的各種數(shù)字特征(如總體的平均數(shù)、標(biāo)準(zhǔn)差等)。統(tǒng)計(jì)量越接近參數(shù),這個(gè)統(tǒng)計(jì)量的可靠性程度就越高,因此信度越高。 而要知道統(tǒng)計(jì)量與參數(shù)的接近程度高,可以對(duì)參數(shù)進(jìn)行區(qū)間估計(jì),這種方法對(duì)估計(jì)真分?jǐn)?shù)有用,但仍然無法計(jì)算出信度。 第三,信度指兩次重復(fù)測(cè)量或等值測(cè)量之間的關(guān)聯(lián)程度。 如果對(duì)同一對(duì)象進(jìn)行兩次重復(fù)測(cè)量或者等值測(cè)量后,計(jì)算兩次測(cè)量的相關(guān)系數(shù),相關(guān)系數(shù)越高,說明測(cè)量的信度越高;反之,信度越低。 但應(yīng)注意的是,重復(fù)測(cè)量會(huì)受到被試的經(jīng)驗(yàn)、知識(shí)的增長等因素的影響,等值測(cè)量又較難編制,因此,采用這種方法計(jì)算信度時(shí),也是有誤差的。 信度是任何一個(gè)測(cè)量的必要條件,對(duì)于教育測(cè)量來說,它具有更為重要的意義。因?yàn)榻逃郎y(cè)量的對(duì)象主要是精神現(xiàn)象,所測(cè)量的特性不易把握,為了能真實(shí)地反映測(cè)量對(duì)象的某種特點(diǎn),更加需要注意測(cè)量的信度。 二、信度的理論公式 見P32。 這里需要注意的是,對(duì)實(shí)得分?jǐn)?shù)進(jìn)行分解后,可以分解成真分?jǐn)?shù)的方差、隨機(jī)誤差的方差兩部分。很明顯,隨機(jī)誤差的方差越小,測(cè)量的信度就越高。 信度取值范圍為[0,1]。 三、信度的類型 用上面的理論公式計(jì)算不了信度,因?yàn)檎娣謹(jǐn)?shù)根本不知道,如果知道就不用算了。 實(shí)際中常用以下幾種方法(也就是幾種不同的信度): (一)穩(wěn)定性系數(shù)(重測(cè)信度) 指用同一測(cè)驗(yàn)試卷,在先后兩個(gè)不同時(shí)間內(nèi)對(duì)同一組被試進(jìn)行測(cè)驗(yàn),兩次測(cè)驗(yàn)實(shí)得分?jǐn)?shù)的相關(guān)系數(shù)。這是最簡單的估量信度的方法。 要注意的是:(1)重測(cè)法只適用于速度測(cè)驗(yàn)而不適用于難度測(cè)驗(yàn);(2)所測(cè)的信度大小,常常受到兩次測(cè)驗(yàn)時(shí)間間隔長短影響;(3)第二次測(cè)驗(yàn)沒有吸引力,不易引起被試的興趣;(4)要實(shí)施兩次測(cè)驗(yàn),耗費(fèi)人力、物力和時(shí)間較多。 (二)等值性系數(shù) 當(dāng)同一測(cè)驗(yàn)的一種型式不能或不適合實(shí)施兩次時(shí),就需要采用該測(cè)驗(yàn)的另一個(gè)平等測(cè)驗(yàn)或者復(fù)份(復(fù)本)。復(fù)份要求在測(cè)驗(yàn)的內(nèi)容、題數(shù)、格式、難度、平均數(shù)、標(biāo)準(zhǔn)差等方面應(yīng)與原測(cè)驗(yàn)一樣,否則,估計(jì)的等值系數(shù)就會(huì)出現(xiàn)較大誤差。 決定等值系數(shù)的方法是,先實(shí)施第一次測(cè)驗(yàn),然后在最短時(shí)間內(nèi)實(shí)施第二份等值的測(cè)驗(yàn),再求它們的相關(guān)系數(shù),這個(gè)相關(guān)系數(shù)就是信度的等值性系數(shù)。 采用復(fù)份法估計(jì)信度系數(shù)要注意:(1)兩次測(cè)驗(yàn)試卷要等值,即在內(nèi)容范圍、題型、題數(shù)、難度、區(qū)分度等方面要基本相同;(2)兩次測(cè)驗(yàn)要盡可能在較短的時(shí)距內(nèi)進(jìn)行;(3)確定兩次測(cè)驗(yàn)是否等值,還要考察兩次測(cè)驗(yàn)結(jié)果的平均數(shù)與標(biāo)準(zhǔn)差。但在實(shí)際操作中,要編制兩份等值的測(cè)驗(yàn)是非常困難的。 (三)內(nèi)部一致性系數(shù) 前面兩種估計(jì)信度系數(shù)的方法都是要測(cè)驗(yàn)兩次的,但在實(shí)際的測(cè)驗(yàn)之中,一方面教師很難編制兩份等值的試卷,學(xué)生也沒有那么多時(shí)間和精力重復(fù)參加測(cè)驗(yàn)。因此需要根據(jù)一次測(cè)驗(yàn)來估計(jì)測(cè)驗(yàn)的信度系數(shù)。這就是內(nèi)部一致性系數(shù),即把一次測(cè)驗(yàn)人為地分成兩個(gè)部分,比較兩個(gè)部分的一致程度,從而估計(jì)信度系數(shù)。 按照分成兩個(gè)部分的不同,內(nèi)部一致性系數(shù)的估計(jì)方法有兩種: 1、分半信度 這種方法是將一次測(cè)驗(yàn)分成兩個(gè)假定相等而獨(dú)立的部分來記分,通常是以題目的奇數(shù)為一組,偶數(shù)為一組,計(jì)算兩組的相關(guān)系數(shù),最后用斯皮爾曼—布朗公式校正,求得整個(gè)測(cè)驗(yàn)的信度系數(shù)。(公式見教材) 2、庫德爾—理查森公式法 用這種方法只需要測(cè)驗(yàn)一次,然后以各個(gè)問題的正確反應(yīng)數(shù)為基礎(chǔ)(此可視為各題難度的信息),或根據(jù)各人部分的平均數(shù)和標(biāo)準(zhǔn)差,計(jì)算信度系數(shù)。庫德爾—理查森公式有好幾個(gè),最常用的是rKR20和rKR21。 rKR20的用法:以每題能正確回答的人數(shù)占總?cè)藬?shù)的百分?jǐn)?shù)為基礎(chǔ)計(jì)算(每題只有通過或未通過兩種分?jǐn)?shù))。具體公式見教材。 rKR21的用法:這個(gè)公式以各反應(yīng)者總分的平均數(shù)和方差為基礎(chǔ)計(jì)算,無需各題難度的信息。公式見教材。 計(jì)算內(nèi)部一致性系數(shù),需要注意下列問題: A、若用分半法時(shí),以按奇數(shù)題和偶數(shù)題分為兩半為宜。若把整個(gè)測(cè)驗(yàn)分為前后兩半,一方面前半部試題與后半部試題未必等值,另一方面被試者在完成后半部試題時(shí),可能因疲勞、厭倦等原因而影響回答質(zhì)量,以致前后反應(yīng)不一致,影響信度。 B、若速率是測(cè)驗(yàn)的重要因素,則不宜用分半法,因?yàn)樗俣葴y(cè)驗(yàn)中試題的難度低,被試者得分多少,在很大程度上是因?yàn)榇痤}的多少,分半法易使得分相同,從而夸大分半法的信度估計(jì)。 C、如果答案多種多樣,得分也多種多樣時(shí)(如論文式考試),則不能用上列公式計(jì)算一致性系數(shù)。 (四)論文式測(cè)驗(yàn)的信度系數(shù) 論文式測(cè)驗(yàn)的評(píng)分,沒有嚴(yán)格的評(píng)分標(biāo)準(zhǔn),以致同樣一個(gè)題目,不同的應(yīng)試者的回答和得分都不一樣,所以無法用前面的公式,而要用克龍巴赫所創(chuàng)的α系數(shù)公式(見教材)。 (五)評(píng)分者信度 一般論文式考試,只能提供列出答案要點(diǎn)的參考答案而無固定的標(biāo)準(zhǔn)答案,因而不同的評(píng)分者對(duì)同一份試卷往往給分不同,甚至有很大懸殊。在作文測(cè)驗(yàn)、投射測(cè)驗(yàn)、品德測(cè)驗(yàn)、創(chuàng)造力測(cè)驗(yàn)等的評(píng)分中,都存在這個(gè)問題。 計(jì)算這種信度需要區(qū)分評(píng)分者的人次數(shù)。 若為2人評(píng)N份試卷,可用斯皮爾曼等級(jí)相關(guān)計(jì)算; 若為三人以上評(píng)N份試卷,則用肯德爾和諧系數(shù)計(jì)算。 四、提高信度的方法 (一)信度以多大為宜:對(duì)于學(xué)科測(cè)驗(yàn),要求達(dá)到0.9以上;智力測(cè)驗(yàn)要求達(dá)到0.8以上;品德測(cè)驗(yàn)?zāi)苓_(dá)到0.6以上就不錯(cuò)了。 (二)測(cè)量誤差的來源 1、測(cè)驗(yàn)本身所引起的誤差: 測(cè)驗(yàn)本身的有些因素會(huì)直接產(chǎn)生誤差:如題目格式中的判斷題猜測(cè)的可能性會(huì)很大;規(guī)定的時(shí)限;用詞不準(zhǔn)確引起的誤解;題目的多少等。 測(cè)驗(yàn)所包括的測(cè)題樣本也會(huì)引起測(cè)量誤差。 2、測(cè)驗(yàn)的實(shí)施所引起的誤差: 如指導(dǎo)語錯(cuò)誤,對(duì)答案紙的錯(cuò)劃、時(shí)間記錄的錯(cuò)誤、主試本身的主觀影響、記分誤差等。 3、被試引起的誤差: 這是最難控制的誤差,具體表現(xiàn)為動(dòng)機(jī)的作用;學(xué)習(xí)、發(fā)展和教育的影響;對(duì)于測(cè)驗(yàn)的經(jīng)驗(yàn);測(cè)驗(yàn)的焦慮;生理因素等。 (三)提高測(cè)驗(yàn)信度的方法 1、適當(dāng)增加測(cè)驗(yàn)題目的數(shù)量,即可提高信度也可提高效度; 2、測(cè)驗(yàn)的難度要適中,這樣信度能達(dá)到最大,也能使測(cè)驗(yàn)區(qū)分度達(dá)到最大; 3、測(cè)驗(yàn)的內(nèi)容應(yīng)盡量同質(zhì); 4、測(cè)驗(yàn)的程序應(yīng)統(tǒng)一,包括試卷統(tǒng)一、測(cè)驗(yàn)開始時(shí)的指導(dǎo)語、回答問題的方式、分發(fā)及收回試卷的辦法、測(cè)驗(yàn)時(shí)間的掌握等,特別應(yīng)該提到的是,考試的組織問題、監(jiān)考問題等,這是關(guān)系到測(cè)驗(yàn)信度的重要因素; 5、測(cè)驗(yàn)的時(shí)間要充分; 6、評(píng)分要盡量做到客觀化、減少評(píng)分誤差。 第二節(jié) 效度 一、 概念 指測(cè)量結(jié)果的準(zhǔn)確性和有效性的程度,亦即測(cè)量是否達(dá)到了預(yù)期目的。 首先,測(cè)量的效度始終是對(duì)一定的測(cè)量目的而言的。一般而言,任何測(cè)量都有某種特定的目的和功能,判斷效度高低,就是判斷測(cè)驗(yàn)達(dá)到目的的程度。 其次,測(cè)量的效度也是對(duì)測(cè)量的結(jié)果而言的。一種測(cè)量工具只能經(jīng)過實(shí)際測(cè)量,才能根據(jù)出來的結(jié)果判斷它的效度。所以也可以把效度理解為測(cè)量的結(jié)果正確反映所欲測(cè)量的特性或功能的程度。對(duì)于任何一種測(cè)量來說,只有當(dāng)它的測(cè)量結(jié)果真實(shí)、正確地反映所欲測(cè)量的功能和特性時(shí),才能認(rèn)為這種測(cè)量是較為有效地或效度較高的。 第三,一種測(cè)量的效度只是高或低的問題。因?yàn)椋环N測(cè)量在編制時(shí),總是針對(duì)一定目的而編制的。不存在無效度的測(cè)量,只是高或低的問題而已。 第四,在教育測(cè)量中,效度問題比在其他領(lǐng)域的測(cè)量更為重要。因?yàn)?,首先,教育測(cè)量的對(duì)象大多是精神現(xiàn)象,只能通過對(duì)其具有可測(cè)性的外部表現(xiàn)(如言語或動(dòng)作等)的測(cè)量,以間接認(rèn)識(shí)其心理活動(dòng)、心理特征或知識(shí)水平等。其次,學(xué)生的心理活動(dòng)、心理特征與其外部表現(xiàn)之間,一般僅具有相關(guān)關(guān)系而無函數(shù)關(guān)系,外部行為并不能準(zhǔn)確無誤地反映某種心理狀態(tài)。此外,教育測(cè)量的對(duì)象不是物而是具有主觀能動(dòng)性的人,人能有意識(shí)地調(diào)節(jié)自己的外部行為,掩蓋自己的內(nèi)心活動(dòng),這就增加了認(rèn)識(shí)其精神現(xiàn)象的難度。 二、效度的理論公式 實(shí)得分?jǐn)?shù)可分解為潛在真分?jǐn)?shù),系統(tǒng)誤差,隨機(jī)誤差三部分。 具體關(guān)系見教材P43。 三、效度的分類及估計(jì) (一)、內(nèi)容效度 指測(cè)驗(yàn)?zāi)康拇硭麥y(cè)量的內(nèi)容和引起預(yù)期反應(yīng)所達(dá)到的程度,也就是測(cè)量內(nèi)容的代表性程度。 在編制測(cè)驗(yàn)時(shí),內(nèi)容效度是一個(gè)相當(dāng)復(fù)雜和不易解決的問題。以成績測(cè)驗(yàn)來說,固然要求測(cè)驗(yàn)題目能代表所學(xué)習(xí)過的全部內(nèi)容,但僅僅在形式上做到這一點(diǎn)還不能保證足夠的內(nèi)容效度,因?yàn)閷W(xué)習(xí)成績的高低要從學(xué)習(xí)內(nèi)容的鞏固程度、理解程度和應(yīng)用能力幾種行為反應(yīng)去考察。如果測(cè)驗(yàn)題目大多是只需要牢記教材就可以回答的問題,那么,對(duì)全面測(cè)驗(yàn)學(xué)生的成績這一目的來說,內(nèi)容效度仍然不高。 估計(jì)內(nèi)容效度的方法: 1、邏輯分析的方法。這是根據(jù)教育學(xué)和心理學(xué)的理論,根據(jù)教學(xué)大綱要求,勾畫出學(xué)生掌握知識(shí)內(nèi)容的范圍和深度,提出應(yīng)形成的技能名稱,然后以邏輯分析的方法估計(jì)測(cè)驗(yàn)在多大程度上代表了這些內(nèi)容,在多大程度上能夠測(cè)量出所要測(cè)量的特性和功能。 2、用測(cè)驗(yàn)題目與教材內(nèi)容比較的方法。這需要先制兩個(gè)表:一個(gè)是測(cè)驗(yàn)的雙向細(xì)目表(見第三章),分別列出所要測(cè)驗(yàn)的各單元教材內(nèi)容在考題中應(yīng)占的百分比和所要求的各種行為的反應(yīng)在全部反應(yīng)中的百分比。另一個(gè)表是測(cè)驗(yàn)試題分類表,根據(jù)各單元教材內(nèi)容列出試題,并注明該題所要求的行為反應(yīng)及其應(yīng)占的百分比。然后對(duì)照這兩個(gè)表,根據(jù)各個(gè)部分相符合的程度判斷內(nèi)容效度的高低。 (二)效標(biāo)關(guān)聯(lián)效度 又稱經(jīng)驗(yàn)效度或統(tǒng)計(jì)效度,是以測(cè)驗(yàn)分?jǐn)?shù)和效標(biāo)之間的相關(guān)系數(shù)來表示測(cè)驗(yàn)的效度高低的。 效標(biāo)就是足以顯示測(cè)驗(yàn)所欲測(cè)量的特性的變量或足以顯示測(cè)驗(yàn)所欲測(cè)量的特性的變量,作為檢定效度的參照尺度。 效標(biāo)關(guān)聯(lián)效度又可分為同時(shí)效度和預(yù)測(cè)效度。 同時(shí)效度指測(cè)驗(yàn)與當(dāng)前效標(biāo)之間的關(guān)系程度;預(yù)測(cè)效度指測(cè)驗(yàn)與將來的效標(biāo)之間的關(guān)聯(lián)程度。如用全國高考的成績作為效標(biāo)來檢驗(yàn)高中畢業(yè)會(huì)考的成績,計(jì)算兩者的相關(guān)系數(shù)就是會(huì)考的同時(shí)效度;而用大學(xué)一年級(jí)的成績作為效標(biāo)來檢驗(yàn)高考的成績,兩者的相關(guān)系數(shù)就是高考的預(yù)測(cè)效度。 效標(biāo)是用來衡量測(cè)驗(yàn)效度的尺度。具體而言,效標(biāo)是辨別真?zhèn)蔚某叨龋?dāng)事物滿足該原則要求時(shí),才能存在。效標(biāo)是不能違反的。當(dāng)然,標(biāo)準(zhǔn)可以提高,也可以降低。效標(biāo)不僅隨著測(cè)驗(yàn)的種類不同而不同,也可能隨時(shí)間而改變。 選擇效標(biāo)是件困難而重要的事情。通常教育測(cè)驗(yàn)所依循的效標(biāo),可采用各學(xué)科成績和教師的評(píng)定結(jié)果;智力測(cè)驗(yàn)的效標(biāo),可采用學(xué)科成績、教師評(píng)判的結(jié)果、學(xué)生總成績、受教育年限、年齡以及其他相關(guān)事物;能力傾向性測(cè)驗(yàn)的效標(biāo),可采用特殊課程或特殊訓(xùn)練的成績等;職業(yè)興趣測(cè)驗(yàn)的效標(biāo),可采用從業(yè)人員實(shí)際服務(wù)成績或記錄;人格測(cè)驗(yàn)的效標(biāo),很難找到,只能按編制者的主觀標(biāo)準(zhǔn)判斷,或以被試以后的行為或臨床資料作為效標(biāo)。 效標(biāo)關(guān)聯(lián)效度的計(jì)算主要通過計(jì)算相關(guān)系數(shù)求得,可用積差相關(guān)、二列相關(guān)或點(diǎn)二列相關(guān)、四格相關(guān)和多元相關(guān)系數(shù)等。(參見有關(guān)教育統(tǒng)計(jì)學(xué)教材)。 (三)結(jié)構(gòu)效度 指一個(gè)測(cè)量能實(shí)際測(cè)量出理論上的概念或心理特性的程度。它的目的在于用心理學(xué)的概念來說明分析測(cè)驗(yàn)分?jǐn)?shù)的意義,也就是說從心理學(xué)的理論觀點(diǎn)就測(cè)驗(yàn)的結(jié)果加以解釋和探討。 結(jié)構(gòu)效度的研究是較困難和有爭議的,至今從概念上和數(shù)學(xué)上作了部分解釋。確定一個(gè)測(cè)量的結(jié)構(gòu)效度之所以困難,是因?yàn)樾?biāo)、構(gòu)想不是直接可測(cè)的,因而不能計(jì)算測(cè)量與效標(biāo)的相關(guān)。 結(jié)構(gòu)效度確定的方法如下: 首先從某一結(jié)構(gòu)理論出發(fā),導(dǎo)出各項(xiàng)關(guān)于心理功能或行為的基本假設(shè); 據(jù)此編制測(cè)驗(yàn); 然后由果溯因,以相關(guān)、實(shí)驗(yàn)和因素分析的方法,檢驗(yàn)測(cè)驗(yàn)結(jié)果是否符合心理學(xué)上的理論見解。 例如,從現(xiàn)代智力理論,可以推斷四項(xiàng)主要功能上的假設(shè):(1)智力隨年齡增長;(2)智商是相對(duì)穩(wěn)定的;(3)智力受遺傳影響;(4)智力與學(xué)業(yè)成就有密切關(guān)系。因此,在根據(jù)上述的假設(shè)編制智力測(cè)驗(yàn)后,就要從上述四個(gè)方面進(jìn)行檢驗(yàn)。由此可見,結(jié)構(gòu)效度是由累積的證據(jù)來評(píng)價(jià),不可能有單一的結(jié)構(gòu)效度指標(biāo)。 確定一個(gè)測(cè)量的結(jié)構(gòu)效度需要兩個(gè)重要步驟。首先,必須指出,這個(gè)測(cè)量和所用理論上認(rèn)為應(yīng)與之有關(guān)的其它測(cè)量,有顯著的相關(guān)。其次,必須指出,必須指出這個(gè)測(cè)量與所有理論上認(rèn)為不應(yīng)與之有關(guān)的其它測(cè)量,沒有明顯相關(guān)。 四、提高效度的辦法 (一)各種效度的要求 不同測(cè)驗(yàn)對(duì)效度系數(shù)有不同要求。例如,智力測(cè)驗(yàn)分?jǐn)?shù)與教師對(duì)學(xué)生的等級(jí)評(píng)定之間的效度系數(shù)一般在0.3—0.5的范圍內(nèi);相同科目的標(biāo)準(zhǔn)測(cè)驗(yàn)成績與教師對(duì)學(xué)生名次排列之間的相關(guān)系數(shù)一般應(yīng)達(dá)到0.60—0.70之間;兩種不同的智力測(cè)驗(yàn)或標(biāo)準(zhǔn)測(cè)驗(yàn)之間的相關(guān)系數(shù)應(yīng)達(dá)到0.60-0.80,才能符合要求。 對(duì)效度系數(shù)大小的要求,也受原始與獲得效標(biāo)的測(cè)驗(yàn)之間的相似性制約。若二者不相似,則效度系數(shù)偏低;若相似,則效度系數(shù)會(huì)高些。 (二)影響效度的因素 1、測(cè)驗(yàn)組成方面:測(cè)題的性能是影響測(cè)驗(yàn)效度的因素之一,如測(cè)驗(yàn)的取材、長度、辨別力、難度及其編排方式等都和效度有關(guān)。 2、測(cè)驗(yàn)實(shí)施方面:一個(gè)測(cè)驗(yàn)的效度要保證,主試應(yīng)適當(dāng)控制測(cè)驗(yàn)情境,遵照測(cè)驗(yàn)守則的各項(xiàng)規(guī)定實(shí)施。 3、被試主觀狀態(tài)方面:被試的動(dòng)機(jī)、興趣、情緒、態(tài)度和身體健康及是否充分合作與盡力而為等都能影響結(jié)果的可靠性和正確性。 4、估計(jì)效度所依循的效標(biāo):選擇適當(dāng)?shù)男?biāo)是統(tǒng)計(jì)效度的先決條件。如因所選效標(biāo)不當(dāng),以致測(cè)驗(yàn)的效度不能顯出,則測(cè)驗(yàn)的價(jià)值可能被淹沒。一個(gè)測(cè)驗(yàn)因其所采用的效標(biāo)不同,其效度可能大相徑庭。從統(tǒng)計(jì)觀點(diǎn)來看,一個(gè)效標(biāo)關(guān)聯(lián)效度受下列三個(gè)因素影響:(1)測(cè)驗(yàn)信度;(2)效標(biāo)變量測(cè)量的信度;(3)測(cè)驗(yàn)變量和效標(biāo)變量之間真正的相關(guān)程度。 5、樣本方面:效度確認(rèn)所依據(jù)的樣本,必須能代表某一測(cè)驗(yàn)所擬應(yīng)用的全體對(duì)象。一個(gè)測(cè)驗(yàn)應(yīng)用于不同的對(duì)象,由于他們?cè)谛詣e上、年齡上、教育程度上以及經(jīng)驗(yàn)背景上的差別,其測(cè)驗(yàn)功能不一致,效度也隨之而異。樣本規(guī)模大小對(duì)效度也有影響。樣本的異質(zhì)性也會(huì)影響測(cè)驗(yàn)的效度系數(shù)。 總之,為了增進(jìn)測(cè)驗(yàn)的效度,必須要求測(cè)驗(yàn)編制和實(shí)施程度的標(biāo)準(zhǔn)化,注意被試在測(cè)驗(yàn)情境中的行為反應(yīng),并顧及適當(dāng)樣本和效標(biāo)的選擇,以建立符合測(cè)驗(yàn)?zāi)康暮凸δ艿男Ф取? (三)提高效度的辦法 1、控制系統(tǒng)誤差。 2、精心編制量表。首先,測(cè)驗(yàn)內(nèi)容要確實(shí)能反映測(cè)驗(yàn)?zāi)康?;其次,題目表述必須清楚、簡明,所用字、詞、句能為學(xué)生理解,內(nèi)容應(yīng)能引起被試者的興趣,排列則易到難,但前面的題目不應(yīng)暗示后面的答案;再次,題目難度合適,有足夠區(qū)分度;最后試卷印刷清楚,無錯(cuò)誤和遺漏,并力求精美。 3、妥善組織測(cè)驗(yàn)。 4、擴(kuò)充樣本的容量和代表性。 5、合理處理效度和信度的關(guān)系。信度是效度的必要條件。雖然信度高的測(cè)驗(yàn)效度不一定高,但效度高的測(cè)驗(yàn),信度卻一定比較高。效度和信度的關(guān)系是:效度的最大值等信度的平方根。但是,既要有高效度同時(shí)又要有高信度是不大可能的。例如,同質(zhì)性測(cè)驗(yàn)(量表的所有題目測(cè)驗(yàn)相同的因素)信度較高,但對(duì)預(yù)測(cè)來說,效度卻很低。非同質(zhì)性測(cè)驗(yàn)(其測(cè)驗(yàn)內(nèi)容測(cè)量不同因素)預(yù)測(cè)效度高,但是信度卻比較低。所以,要提高預(yù)測(cè)效度的一個(gè)重要辦法,是增加非同質(zhì)性,即增加新因素。在處理信度和效度的關(guān)系上,首先要保證高的效度。 6、適當(dāng)增加測(cè)驗(yàn)的長度 增加測(cè)驗(yàn)長度可以提高信度,而效度的最大值又與信度有關(guān),所以可以提高效度。增加測(cè)驗(yàn)長度對(duì)信度的影響大于對(duì)效度的影響。具體關(guān)系見教材P49表。 第三節(jié) 難度 一、 概念 難度指測(cè)驗(yàn)試題的難易程度。 在教育測(cè)量中,客觀題的難度一般用正確回答試題的人數(shù)與參加測(cè)驗(yàn)的總?cè)藬?shù)的比值來表示。 即P=R/N。R為答對(duì)的人數(shù),N為參加測(cè)驗(yàn)的人數(shù)。 因此,這里難度實(shí)際代表的是易度。 難度是試題對(duì)學(xué)生知識(shí)和能力水平的適合程度的指標(biāo)。試題難度不但對(duì)題目的區(qū)分度有影響,而且對(duì)試卷的信度和效度也有較大影響。 很明顯,難度是一個(gè)相對(duì)概念,難度的高低與被試的水平直接相關(guān)。一種測(cè)量對(duì)這一組被試是高難度的,可能對(duì)另一組被試是低難度的。也就是說,難度是由參與測(cè)量的被試群體的整體水平?jīng)Q定的。 二、難度的計(jì)算 (一)基本公式 1、客觀題:P=R/N 2、主觀題:P=平均得分/此題的滿分 (二)用極端分組法計(jì)算試題難度 當(dāng)考生人數(shù)較多時(shí),用基本公式計(jì)算需要對(duì)所有考生得分進(jìn)行統(tǒng)計(jì),工作量大,而且常常出錯(cuò),且需要所有學(xué)生的得分。如果條件不具備,則無法計(jì)算了。這時(shí)可以用極端分組法,無論是客觀題還是主觀題都可以使用。 1、用極端分組法計(jì)算客觀題的難度 具體步驟如下:(1)先按測(cè)驗(yàn)總分的高低,按由高到低依次排列試卷;(2)從得分最高的一分試卷開始向下依次選出全部試卷的27%作為高分組;(3)從得分最低的一份試卷向上依次選出全部試卷的27%作為低分組;(4)按下列公式計(jì)算難度。 P=(PH+PL)/2 其中PH為高分組難度,PL為低分組難度。高低分組的難度按基本公式計(jì)算。 2、用極端分組法計(jì)算主觀題的難度 論文式試題一般不能簡單地判定對(duì)與錯(cuò)或通過與不通過,難度計(jì)算比較復(fù)雜。具體步驟如下:(1)按測(cè)驗(yàn)得分排列試卷,確定高分組與低分組,各占總?cè)藬?shù)25%(具體辦法同前);(2)分別為高分組與低分組編制每道試題的分析表;(3)按下列公式計(jì)算難度。 P=(XH+XL-2nl)/ 2n(H- L) 這里公式的意義應(yīng)搞清楚! 其中XH代表高分組得分總和,XL代表低分組得分總和,n代表總?cè)藬?shù)的25%,H為這道題的最高得分,L為這道題的最低得分。 三、難度對(duì)測(cè)驗(yàn)的影響 1、測(cè)驗(yàn)難度影響測(cè)驗(yàn)分?jǐn)?shù)的分布形態(tài) 難度過大或過小,都會(huì)造成測(cè)驗(yàn)分?jǐn)?shù)的偏態(tài)分布。難度值越接近0,測(cè)驗(yàn)的難度就越大,正確回答試題的人數(shù)就越少,測(cè)驗(yàn)分?jǐn)?shù)就越是集中在低分段,其分?jǐn)?shù)分布呈正偏態(tài);相反,難度值越接近1,其難度越小,正確回答試題的人就越多,測(cè)驗(yàn)分?jǐn)?shù)集中在高分段,分?jǐn)?shù)分布呈現(xiàn)負(fù)偏態(tài)。 2、測(cè)驗(yàn)難度影響測(cè)驗(yàn)分?jǐn)?shù)的離散程度 測(cè)驗(yàn)難度直接影響測(cè)驗(yàn)分?jǐn)?shù)的離散程度,因?yàn)殡y度過大或過小,測(cè)驗(yàn)分?jǐn)?shù)的分布都呈偏態(tài)分布,亦即測(cè)驗(yàn)分?jǐn)?shù)都分布在高分段或低分段,這樣,測(cè)驗(yàn)分?jǐn)?shù)的離散程度就變小。而這一定符合考生的實(shí)際情況,因?yàn)榭忌牟町愂强陀^存在的。只有難度適中,其分?jǐn)?shù)的分布范圍才有可能達(dá)到最大。 3、測(cè)驗(yàn)難度影響測(cè)驗(yàn)的鑒別能力 指難度與區(qū)分度的關(guān)系,在區(qū)分度里再說。 四、測(cè)驗(yàn)的適宜程度 從難度公式,我們得出P的取值一般在0與1之間。當(dāng)P=1時(shí)困難程度最?。此锌忌蓟卮鹫_);當(dāng)P=0時(shí)困難程度最大(即所有考生都回答錯(cuò)誤)。 在常模參照性測(cè)驗(yàn)中要求試題難度適中,即大多數(shù)題目的難度在0.3—0.7之間,少數(shù)題目可在這一范圍之兩邊且題數(shù)(或題分)大體相當(dāng),使整個(gè)試卷的平均難度為0.5左右(0.45—0.55)之間。只有適中的題目難度,才能使試題產(chǎn)生區(qū)- 1.請(qǐng)仔細(xì)閱讀文檔,確保文檔完整性,對(duì)于不預(yù)覽、不比對(duì)內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會(huì)出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請(qǐng)點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
14.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對(duì)作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 教育 測(cè)量 評(píng)價(jià) 教案
鏈接地址:http://m.appdesigncorp.com/p-8844620.html