心理測量學筆記——備考北師大.doc
《心理測量學筆記——備考北師大.doc》由會員分享,可在線閱讀,更多相關(guān)《心理測量學筆記——備考北師大.doc(36頁珍藏版)》請在裝配圖網(wǎng)上搜索。
心理測量學 第一章 心理測量的理論基礎(chǔ) 第一節(jié) 心理測量的理論基礎(chǔ) 1. 心理測量的基本概念 (1) 心理測量的定義 依據(jù)一定的法則,用數(shù)字對人的行為加以確定。 測量就是依據(jù)一定的法則,使用工具對事物的特征進行定量描述的過程。 (2) 測量的基本要素 參照點:在測量工作中,必須有一個量的起點,這個起點就叫做測量的參照點。兩種:絕對參照點,即以絕對的零點作為測量的參照點。劃分“有無”的界限。 相對參照點,即以認為確定的零點為測量的起點。人為主觀規(guī)定的標準。 注:心理測量一般為相對零點;物理測量一般為絕對零點。物理測量也有相對零點的情況,如溫度、時間、海拔等。 單位:應具備兩個條件:有確定的意義;有相等的價值。(一般以標準差為單位) (3) 測量的量表 命名量表:最低水平的測量量表,只是用數(shù)字代表事物或用數(shù)字對事物進行分類。名稱量表:用數(shù)字指代個別事物。 類別量表:用數(shù)字指代事物的種類。 統(tǒng)計方法:百分比、次數(shù)、眾數(shù)、X2檢驗。 順序量表:次低水平的測量量表,不僅能夠指代事物類別,而且能夠表明不同事物類別的大小、等級或事物具有某種特征的程度。既沒有相等的單位,也沒有絕對的零點。不能進行代數(shù)運算。心理測量量表一般是在順序量表上進行的。 統(tǒng)計方法:中位數(shù)、百分位數(shù)、等級相關(guān)系數(shù)、肯德爾和諧系數(shù)。 等距量表:較高水平的測量量表,不僅能夠指代事物的類別、等級,而且具有相等的單位,可以進行加減運算。沒有絕對的零點,是假定的相對零點。 統(tǒng)計方法:平均數(shù)、標準差、積差相關(guān)系數(shù)、t檢驗、f檢驗。 比率量表:最高水平的測量量表,不僅可以知道測量對象之間的相差程度,而且可以知道它們之間的比例。除了具有類別、等級、等距的特征外,還具有絕對的零點,可以進行加減乘除運算。 統(tǒng)計方法:平均數(shù)、標準差、積差相關(guān)系數(shù)、t檢驗、f檢驗、幾何平均數(shù)、變異系數(shù)。 2. 心理測量的特征與分類 (1)心理測量的特征 間接性:只能通過一個人對測驗項目的反應來推論出他的心理特質(zhì)。 相對性:測量就是看每個人處在這個序列的什么位置上,由此測得一個人智力的高低、興趣的大小等,都是與所在團體的大多數(shù)人的行為或某種人為確定的標準相比較而言的。 客觀性:是對一切測量的基本要求,實際上就是測量的標準化問題。 (2)心理測驗的分類 按功能(測量對象)分:能力測驗、成就測驗(學績測驗)、人格測驗 按對象分:個別測驗、團體測驗 按形式分:紙筆測驗、操作測驗、口頭測驗、電腦測驗 按目的分:描述性測驗(調(diào)查性測驗)、診斷性測驗、預示性測驗 按要求分:最高作為測驗、典型作為測驗 按速度和難度分:速度測驗、難度測驗 按性質(zhì)分:構(gòu)造性測驗、投射性測驗 按解釋分:常模參照測驗、標準參照測驗 按應用分:教育測驗、職業(yè)測驗、臨床測驗 補充: 1)能力測驗:能力可分為實際能力和潛在能力。實際能力指個人當前“所能為者”,代表個人已有的知識經(jīng)驗與技能。潛在能力指個人將來“可能為者”,是可能達到的水平。測量潛在能力的測驗稱為能力傾向測驗。能力測驗又可以分為普通能力測驗(通常說的智力)和特殊能力測驗(音樂、美術(shù)、體育等特殊方面)。 2)紙筆測驗(文字、圖形材料);操作測驗(不宜團體實施) 3)速度測驗——測反應速度;難度測驗——測最高能力。 4) 最高作為測驗:有正確答案,分數(shù)越高越好;(能力測驗、成就測驗) 典型作為測驗:沒有正確答案,通常的習慣方式;(人格測驗) 5) 構(gòu)造性測驗:刺激和被試的任務(wù)是明確的 投射性測驗:刺激、問題模糊,被試任務(wù)不明確;能投射出更真實的結(jié)果 3. 經(jīng)典測量理論及其模型 (1) 心理特質(zhì):表現(xiàn)在一個人身上所特有的相對穩(wěn)定的行為方式。 ①特質(zhì)是一組具有內(nèi)部相關(guān)的行為的概括,具有一定的抽象性。 ②特質(zhì)是“一種一般的神經(jīng)心理系統(tǒng),可以綜合不同刺激,使人對這些刺激做出相同反應”。 ③特質(zhì)是一個人身上比較穩(wěn)定的特點。 ④一個人的精神面貌是由多種特質(zhì)分多個層次有機組合而成的。 ⑤特質(zhì)可以決定一個人對特定刺激的反應傾向,可以對人的行為進行預測。 (2) 經(jīng)典測量理論(CTT)的模型 ①觀察分數(shù):實測分數(shù),記作X。 ②真分數(shù):反映被試某種心理特質(zhì)真正水平的數(shù)值。操作定義:多次測量結(jié)果得到的平均數(shù),記作T。(理論上構(gòu)想出來的抽象概念) ③誤差分數(shù):這里只是指測量產(chǎn)生的隨機誤差,記作E。(E是個服從均值為0的正態(tài)分布的隨機變量) ④X=T+E 這就是CTT的數(shù)學模型。(引申3個假設(shè)公理) ⑤觀察分數(shù)的變異等于真分數(shù)的變異與誤差分數(shù)的變異之和。 (3) 基本假設(shè) ①觀察分數(shù)的平均值接近于真分數(shù)。即ε(X)=T或者ε(E)=0 ②真分數(shù)與誤差分數(shù)的相關(guān)為零。即ρ(T,E)=0 ③各平行測驗的誤差分數(shù)的相關(guān)為零。即ρ(E1,E2)=0 平行測驗:如果兩個題目不同的測驗測的是同一特質(zhì),并且題目形式、數(shù)量、難度、區(qū)分度以及測查等值團體后所得分數(shù)的分布(均值和標準差)都是一致的,則這兩個測驗被稱作是彼此平行的測驗。 第二節(jié) 測量的信度與效度 1. 測驗的信度——受隨機誤差的影響 (1) 信度……一致性、穩(wěn)定性 信度是測量結(jié)果的可靠性,等于一組測量分數(shù)中真分數(shù)的變異與總變異之比。 信度指的是測量結(jié)果的穩(wěn)定性程度;若能用同一測量工具反復測量某人的同一種心理特質(zhì),則其多次測量結(jié)果間的一致性程度就叫信度。 定義1:信度乃是一個被測團體的真分數(shù)的變異數(shù)與實得分數(shù)的變異數(shù)之比。 定義2:信度乃是一個被試團體的真分數(shù)與實得分數(shù)的相關(guān)系數(shù)的平方。 定義3:信度乃是一個測驗X(A卷)與它的任意一個平行測驗X’(B卷)的相關(guān)系數(shù)。 信度的作用: ①信度是測量過程中所存在的隨機誤差大小的反映。 ②信度可以用來解釋個人測驗分數(shù)的意義。測量的標準誤計算公式 ③信度可以幫助進行不同測驗分數(shù)的比較。 (2) 信度的估計方法 ① 重測信度:用同一個測驗,對同一組被試前后兩次施測,兩次測驗分數(shù)所得的相關(guān)系數(shù)為再測信度?!锲栠d積差相關(guān)系數(shù) 注:重測信度具有跨時間上的穩(wěn)定性。 使用的前提條件: 1) 所測量的心理特性必須是穩(wěn)定的。 2) 遺忘和練習的效果基本上相互抵消。(適度的時間間隔,幾分鐘、幾小時甚至幾年) 3) 在兩次施測間隔期內(nèi),被試沒有獲得更多的學習和訓練。 ② 復本信度:根據(jù)一組被試在兩個平行(等值)測驗上的得分計算的相關(guān)系數(shù)即為復本信度?!锲栠d積差相關(guān)系數(shù) 注:1) 同時連續(xù)施測——等值性系數(shù) 相距一段時間分兩次施測——穩(wěn)定性與等值性系數(shù) (此種復本信度最?。? 2)穩(wěn)定性與等值性系數(shù)是對信度最嚴格的檢驗,其值最低。 3)為抵消順序效應,可以一半被試A卷 B卷,另一半被試B卷 A卷 使用的前提條件: 1) 要構(gòu)造出兩份或兩份以上真正平行的測驗(即A、B卷)。 真正平行:復本測驗之間必須在題目內(nèi)容、數(shù)量、形式、難度、區(qū)分度、指導語、時限以及所用的例題、公式和測驗等其他方面都相同或相似。 2) 被試要有條件接受兩個測驗。 ③ 分半信度:按正常的程序?qū)嵤y驗,然后將全部項目分為相等的兩半,根據(jù)個人在這兩半測驗的分數(shù)計算其相關(guān)系數(shù)。有時也被稱作內(nèi)部一致性系數(shù)。 ★斯皮爾曼—布朗公式 等價:弗朗那根公式、盧侖公式 注:一般使用奇偶分半法;相關(guān)系數(shù)需要校正。 使用的前提條件: 1)分半信度通常是在只能施測一次或沒有復本的情況下使用。 2)分半方法很多(如按題號的奇偶性分半、按題目的難度分半、按題目的內(nèi)容分半等),同一個測驗通常會有多個分半信度值。 ④同質(zhì)性信度:也稱內(nèi)部一致性系數(shù),指的是測驗內(nèi)部所有題目間的一致性程度。 *一致性:測的是同一種心理特質(zhì);所有題目得分之間都具有較高的正相關(guān)。 *當一個測驗具有較高的同質(zhì)性信度時,說明測驗主要測的是某一單個心理特質(zhì),實測結(jié)果就是該特質(zhì)水平的反映;若同質(zhì)性信度不高,說明測驗結(jié)果可能是幾種心理特質(zhì)的綜合反映。*測量單一特性是同質(zhì)性高的必要而非充分條件,同質(zhì)性高是測得單一特質(zhì)的充分條件。 ★庫德—理查遜信度系數(shù) 克龍巴赫a系數(shù) 1)KR20公式——適用于(0、1)記分的測驗【客觀試題】 2)KR21公式——適用于(0、1)記分的測驗【客觀試題】 3)克龍巴赫a系數(shù)——適用于(0、1)記分的測驗【客觀試題】和【主觀試題】 *KR20、KR21只是a的特例 4)荷伊特信度——用方差分析的方法來計算信度 ⑤評分者信度:隨機抽取部分試卷,由兩個或多個評分者獨立按評分標準打分,然后求其間的相關(guān)。 當評分者人數(shù)為2時——★積差相關(guān)系數(shù)、等級相關(guān)系數(shù) 當評分者人數(shù)多于2時——★肯德爾和諧系數(shù) (3) 信度的影響因素 1、 被試方面 就單個被試而言,被試的身心健康狀況、應試動機、注意力、耐心、求勝心、作答態(tài)度(猜測)等會影響測量誤差。 就被試團體而言,整個團體內(nèi)部水平的離散程度以及團體的平均水平都會影響測量信度。 2、 主試者方面 就施測者而言,若不按指導手冊中的規(guī)定施測,或故意制造緊張氣氛,或給以暗示、協(xié)助等,則測量信度會大大降低。 就評分者而言,若評分標準掌握不一,或前緊后松,甚至隨心所欲,則也會降低測量信度。 3、 施測情境方面 考場是否安靜、光線和通風情況是否良好、所需設(shè)備是否齊全、桌面是否合乎要求、空間闊窄是否恰當?shù)榷伎赡苡绊憸y量信度。 4、 測量工具方面 測量工具是否性能穩(wěn)定是測量工作成敗的關(guān)鍵。一般的,試題的取樣、試題之間的同質(zhì)性程度、試題的難度等都是影響測驗穩(wěn)定性的主要因素。 5、 兩次施測的間隔時間 計算重測信度和穩(wěn)定性與等值性系數(shù)時,兩次測驗相隔時間越短,其信度值越大;間隔時間越長,信度值就可能越小。 ★ 斯皮爾曼—布朗公式(計算測驗項目數(shù)量變化對信度的影響) (4) 信度的改進方法 1)適當增加測驗的長度。(測驗越長信度越高) 【新增項目必須與試卷中原有項目同質(zhì);新增項目的數(shù)量必須適度】 2)使測驗中所有試題的難度接近正態(tài)分布,并控制在中等水平。 3)努力提高測驗試題的區(qū)分度。 4)選取恰當?shù)谋辉噲F體,提高測驗在各同質(zhì)性較強的亞團體上的信度。 5)主試者嚴格執(zhí)行施測規(guī)程,評分者嚴格按標準給分,實測場地按測驗手冊的要求進行布置,減少無關(guān)因素的干擾。 6)間隔時間要適當。 2. 測驗的效度——受隨機誤差、系統(tǒng)誤差的影響 (1) 效度的含義……有效性、準確性 效度是指一個測驗或量表實際能測出其所要測的心理特質(zhì)的程度,等于一組測量分數(shù)中與測量目的有關(guān)的變異與實得變異之比。 注:1)效度是一個相對的概念(相對于測量目的而言;只能通過行為進行推測)。 2)效度是測量的隨機誤差和系統(tǒng)誤差的綜合反映。 3)判斷測量是否有效要從多方面搜集證據(jù)。 (2) 效度的估計方法 ① 內(nèi)容效度:指項目對欲測的內(nèi)容或行為范圍取樣的適當程度。指一個測驗實際測到的內(nèi)容與所要測量的內(nèi)容之間的吻合程度,它通常包括欲測的知識范圍,以及該范圍內(nèi)各知識點所要求掌握的程度。【內(nèi)容范圍;題目代表性】 注:內(nèi)容效度應用于成就測驗和職業(yè)測驗;不適合用于能力傾向測驗和人格測驗。 ★ 表面效度不能算是一種效度。 內(nèi)容效度的確定方法 a.專家判斷法(邏輯分析法)——題量適當、題目的代表性、題目覆蓋范圍廣 b.復本法(統(tǒng)計分析方法)——平行測驗的復本信度 <若相關(guān)低則兩個測驗中至少有一個缺乏內(nèi)容效度;若相關(guān)高則測驗可能有較高的內(nèi)容效度> c.再測法——前測、后測 d.經(jīng)驗法 ② 效標效度:考察測驗分數(shù)與效標的關(guān)系,看測驗對我們感興趣的行為預測的如何。效標效度(效標關(guān)聯(lián)效度)也叫實證效度,是指一個測驗對處于特定情境中的個體的行為進行估計的有效性。也就是說,一個測驗是否有效,應該以實踐的效果來作為檢驗標準。 *效標效度可以分為同時效度(用于診斷現(xiàn)狀) 預測效度(用于預測某個個體將來的行為) 效標——存在于測量之外;可以獨立進行測量;能夠量化。 1) 被估計的行為是檢驗測驗效度的標準,簡稱為效標。效標就是衡量一個測驗是否有效的外在標準,它是獨立于測驗并可以從實踐中直接獲得我們所感興趣的行為(觀念效標)。觀念效標具有多樣性、復雜性、特殊性和時間性。 2) 常用效標有學業(yè)成就、等級評定、臨床診斷、專門的訓練成績、實際工作表現(xiàn)等。例如:考察“高考”的效度,用“大學學習成績”作為效標。 效標效度的確定方法 a.相關(guān)法——計算測驗分數(shù)與效標測量的相關(guān)系數(shù) 【積差相關(guān)法、等級相關(guān)法、二列相關(guān)法、四分相關(guān)法】 b.區(qū)分法(分組法)——能夠把好壞兩組人有效地區(qū)分開來 ——差異越大,說明測驗越有效 思路:被試接受測驗后,讓他們工作一段時間,再根據(jù)工作成績(效標測量)的好壞分為兩組,回過來分析這兩組被試原先接受測驗的分數(shù)差異。 c.命中率——用于選拔性測驗,影響因素:錄取率、基礎(chǔ)率 ——正命中率的比率越高,測驗越有效 總命中率:根據(jù)測驗選出的人當中工作合格的人數(shù),以及根據(jù)測驗淘汰的人當中工作不合格的人數(shù)之和與總?cè)藬?shù)之比。 正命中率:用測驗選出的人中合格者所占的比例。 d.預期表法 e.功利率法 ③ 構(gòu)想效度:指測驗對理論上的構(gòu)想或特質(zhì)的測量程度。又稱結(jié)構(gòu)效度,是指一個測驗實際測到所要測量的理論結(jié)構(gòu)和特質(zhì)的程度,或者說它是指測驗分數(shù)能夠說明心理學理論的某種結(jié)構(gòu)或特質(zhì)的程度。 構(gòu)想或結(jié)構(gòu)指心理學理論所涉及到的抽象而屬假設(shè)性的概念或特質(zhì),如智力、焦慮、動機等。 注:構(gòu)想效度主要用于智力測驗和人格測驗。 構(gòu)想效度的確定方法 a.測驗內(nèi)法(測驗內(nèi)部尋找證據(jù)法) 確定測驗的內(nèi)容效度——內(nèi)容效度高實質(zhì)上也就說明結(jié)構(gòu)效度高 分析被試對項目做反應的答題過程 考察測驗的同質(zhì)性信度——測驗同質(zhì)只是必要條件 b.測驗間法(測驗之間尋找證據(jù)法) 相容效度—考察新編測驗與某個已知的能有效測量相同特質(zhì)的舊測驗間的相關(guān) 區(qū)分效度—考察新編測驗與某個已知的能有效測量不同特質(zhì)的舊測驗間的相關(guān) 因素效度(因素分析)—對一組測驗進行因素分析,找出影響測驗的共同因素 補充: 1)相容效度與區(qū)分效度 必要非充分條件 相容效度:和測量相同特質(zhì)的舊測驗有高相關(guān) 區(qū)分效度:和測量不同特質(zhì)的舊測驗有低相關(guān) 2)因素分析:每個測驗在共同因素上的負荷量(即測驗與各因素的相關(guān))就是測驗的因素效度。 c.效標關(guān)聯(lián)法(實證效度法) 兩種:①根據(jù)效標把人分成兩類,考察其得分的差異 ②根據(jù)測驗得分把人分成高分組、低分組,考察兩組人在所測特質(zhì)方面是否確有差異。 d.多種特質(zhì)—多種方法矩陣法——相容效度和區(qū)分效度的綜合運用 原理:用多種極不相同的方法測量同一種特質(zhì)相關(guān)很高(用極為相似的方法測量不同特質(zhì)相關(guān)很低),說明測量效度較高。 e.實驗操作法 (3) 效度的影響因素【只要影響信度就一定影響效度】 測驗本身:項目質(zhì)量;項目數(shù)量 測驗的實施 被試:身心狀態(tài);樣本特點 主試因素 所用效標 *凡是與測量目的無關(guān)的、穩(wěn)定的和不穩(wěn)定的變異來源都會影響測量的效度。 ①測驗的構(gòu)成 當試題樣本沒有較好的代表欲測內(nèi)容或結(jié)構(gòu)時,或題目語意不清、指導語不明、題目太難或太易、題目太少或安排不當時,都會降低測量效度。 &測驗長度與效度的公式 ②測驗的實施過程 在測驗實施過程中,如不遵從指導語的要求,或出現(xiàn)意外干擾,或評分、計分出現(xiàn)差錯等,都會降低測量效度。 ③接受測驗的被試 就單個被試而言,被試的應試動機、情緒、態(tài)度、身體狀態(tài)等,都會造成較大的隨機誤差,進而影響測量效度。 就被試團體而言,如果缺乏必要的同質(zhì)性(年齡、性別、文化程度、職業(yè)等),則很可能會得到不恰當?shù)男Ф荣Y料。 ④ 所選效標的性質(zhì) 由于同一個測驗可以有不同的效標,同一個觀念效標也可以有不同的效標測量,因此在評價測量效度時,所選效標的性質(zhì)是很重要的考慮因素。 【在考慮效標與分數(shù)的相關(guān)時,必須注意:測驗分數(shù)與效標之間是否符合線性關(guān)系】 ⑤測量的信度 (4) 效度的改進方法 ①通過標準化全面減少各種測量誤差。 ②精心編制測驗量表,避免出現(xiàn)較大的系統(tǒng)誤差。 ③妥善組織測驗,控制隨機誤差。 ④創(chuàng)設(shè)標準的應試情境,讓每個被試都能發(fā)揮正常的水平。 ⑤選好正確的效標,定好恰當?shù)男藴y量,正確地使用有關(guān)公式。 (5) 信度與效度的關(guān)系 ①信度高是效度高的必要非充分條件。一個測驗效度高,其信度也必然高;但一個測驗信度高,其效度不一定高。 ②測驗的效度受它的信度制約。 <信度系數(shù)的平方根是效度系數(shù)的最高限度,效度永遠小于信度> ③效度等于測驗信度系數(shù)與效標信度系數(shù)乘積的開方。 統(tǒng)計推導公式 第三節(jié) 心理測量的誤差 1. 誤差的種類與控制 (1) 隨機誤差的來源及控制:測驗本身、施測情境、主試因素、被試因素 (2) 系統(tǒng)誤差的來源及控制:測驗本身、主試因素、被試因素 控制:標準化施測、嚴格控制測驗條件、取樣要有代表性 2. 測量誤差的估計 測量的標準誤 差異的標準誤 *誤差分數(shù)分布的標準差稱為標準誤。 1) 測量誤差的定義 測量誤差是指在測量過程中由那些與測量目的無關(guān)的變化因素所產(chǎn)生的一種不準確或不一致的測量效應。它的含義包括:①測量誤差是由那些與測量目的無關(guān)的變因所致;②測量誤差表現(xiàn)為不準確或不一致兩種方式。 心理測量的誤差可分為兩類:隨機誤差和系統(tǒng)誤差。 隨機誤差是由與測量目的無關(guān)的、偶然因素引起的,而又不易控制的誤差。它使多次測量產(chǎn)生不一致的結(jié)果,其方向和大小的變化完全是隨機的,只符合某種統(tǒng)計學規(guī)律。 系統(tǒng)誤差是由與測量目的無關(guān)的變因引起的一種恒定而有規(guī)律的效應。這種誤差穩(wěn)定的存在于每一次測量中,盡管多次測量結(jié)果非常一致,但實測結(jié)果仍與真實數(shù)字有所差異。 系統(tǒng)誤差:按規(guī)律變動,成比例 恒定誤差:固定數(shù)值不變 *系統(tǒng)誤差只影響準確性,不影響穩(wěn)定性;隨機誤差既影響穩(wěn)定性又影響準確性。 2) 測量誤差的來源及控制 心理測量的誤差主要來自三個方面,即測量工具、測量對象和施測過程。 在測量工具方面,心理測量與物理測量有所不同。心理測量工具通常是以一套測驗(問卷)為核心的刺激反應系統(tǒng)(通常稱作量表)。當量表在測查人的某種心理特質(zhì)時,若項目所測的東西與我們欲測的目的之間出現(xiàn)偏差,則測量會出現(xiàn)誤差。測量工具信度不好、效度不高是造成誤差的兩種主要原因。 在測量對象方面,造成測量誤差的主要原因是受測者真正水平是否得到正常發(fā)揮。一般的,受測者的某種心理特質(zhì)水平是相對穩(wěn)定的,但是他在接受測量時的生理和心理狀態(tài)會影響其水平的正常發(fā)揮。此外,受測者應試動機的強弱、受訓時間的長短、受訓內(nèi)容的多少、答題反應的快慢等都會產(chǎn)生測量誤差。 在施測過程方面,產(chǎn)生測量誤差的原因主要是一些偶然因素,包括施測物理環(huán)境,主試的某些屬性,評分記分環(huán)節(jié)出現(xiàn)的疏漏,以及意外干擾等。 知道了誤差的來源,就可以根據(jù)來源的不同,采取針對性的措施減少誤差。 3) 測量誤差的估計 經(jīng)典測量理論假定:X=T+E,X為實得分數(shù)或觀測分數(shù),T為假設(shè)的真分數(shù)(一種測量工具在測量沒有誤差時得到的純正值,其操作定義是:無數(shù)次測量所得結(jié)果的平均值),E為測量誤差。 其他關(guān)于誤差的假設(shè): ①如果對一個人測量無數(shù)次,其誤差之和為0,平均誤差為0,即E=0。 ②誤差與真分數(shù)相互獨立;其中的誤差是指隨機誤差,只與偶然因素有關(guān),而與真分數(shù)大小無關(guān),即真分數(shù)與誤差分數(shù)的相關(guān)系數(shù)為0。 ③一個團體的平均真分數(shù)T等于該團體中所有被試實得分數(shù)的平均值X。在一個團體中,由于每個人的誤差都是隨機的且方向不同,只要團體足夠大,其誤差就會相互抵消。因此,其誤差和為0。 ④真分數(shù)的變異可以分為兩部分:與測驗目的有關(guān)的變異(有效的變異數(shù))和與測驗目的無關(guān)的變異(無效的變異數(shù)),公式為 。 則總體的關(guān)系式為 。 第四節(jié) 測驗的項目分析 要求:心理測驗的項目分析——難度;區(qū)分度;項目的綜合分析和篩選(講義p249)。 項目分析包括定性分析及定量分析。定性分析包括考慮內(nèi)容效度、題目編寫的恰當性和有效性等,重點在于分析測題的內(nèi)容和形式;定量分析主要是采用統(tǒng)計方法來分析試題的品質(zhì)。 1.難度 (1)難度的含義 難度是指測驗項目的難易程度。 (2)難度的計算 ①二分法記分項目的難度(客觀題) 通過率法:主要利用項目的通過率作為衡量難度的指標,即以答對或通過該項目的人數(shù)的百分比P來表示 。P值越大,題目越容易。 極端分組法:當被試的人數(shù)較多時,可以先將被試分為三組,取最高的27%被試和最低的27%被試作為高分組和低分組,并分別計算通過率,最后求兩個通過率的平均值作為該項目的難度。 ②非二分法記分項目的難度(主觀題) 計算公式 *在對兩個非二分法記分的項目進行難度比較時,要對它們分別進行校正,排除由于猜測而答對某些題目致使通過率增大的可能性。 校正公式為 (3)難度水平的確定 項目難度水平的確定取決于測驗的目的和性質(zhì)。對于效標參照測驗和掌握測驗,可不考慮難度。對于選拔測驗,應將測驗的項目難度控制在錄取率左右。對于選擇題,難度應該大于猜測概率。無論何種測驗,一般都應防止被試得滿分,因為滿分的意義是不明確的。 (4)難度的等距變換(教材p75) 以項目的通過率來表示項目的難度,這類難度指標屬于順序變量,不具有相等的單位,所指出的僅僅是項目的相對難度。于是需要把順序量表轉(zhuǎn)換成等距量表(僅有名次不能計算,必須要有具體測驗分數(shù)才可以)。 當樣本容量很大時,測驗分數(shù)將接近正態(tài)分布。根據(jù)正態(tài)分布曲線表,將試題的難度P作為正態(tài)曲線下的面積,轉(zhuǎn)換成具有相等單位的等距量數(shù),即Z分數(shù)。 標準分數(shù)(Z分數(shù))具有相等的單位,屬于等距量表。 較難的項目難度為正值,較易的項目難度為負值,P為0.5時難度為0。 (5)難度對測驗的影響 ①項目難度普遍較大的測驗,分數(shù)分布將呈現(xiàn)為正偏態(tài);項目難度普遍較小的測驗,分數(shù)分布將呈現(xiàn)為負偏態(tài)。一般能力測驗和成就測驗的平均難度在0.5左右為宜,正偏態(tài)分布適合于篩選性測驗。 ②過難或過易的測驗會使測驗分數(shù)相對的集中在低分端或高分端,從而使分數(shù)的全距縮小。項目的難度以集中在0.5左右為最佳,以集中在兩端最差。 2.區(qū)分度 (1)區(qū)分度的含義 區(qū)分度是指測驗項目對被試心理品質(zhì)水平差異的區(qū)分能力或鑒別能力。區(qū)分度被用作評價項目質(zhì)量,篩選項目的主要指標和依據(jù)。 具有良好區(qū)分度的項目,能將不同水平的被試區(qū)分開來。即在該項目上水平高的被試得高分,水平低的被試得低分。 把試題的區(qū)分度稱為測驗是否具有效度的“指示器”。 區(qū)分度(D)的取值范圍介于-1.00至+1.00之間。通常D為正值,稱作積極區(qū)分;D為負值,稱作消極區(qū)分;D為0稱作無區(qū)分作用。具有積極區(qū)分作用的項目,其D值越大,區(qū)分的效果越好。 *評價測驗項目區(qū)分度高低依賴于對被試水平的準確測量,通常稱作為效標分數(shù)。測驗項目區(qū)分度的效標分數(shù)多用測驗總分,稱為內(nèi)部效標。 (2)區(qū)分度的計算 ①項目鑒別指數(shù)法——二分法記分 當效標成績是連續(xù)變量時,可以從分數(shù)的兩端各選擇27%的被試,分別計算出每道題目上各自的通過率,二者之差便是鑒別指數(shù)(D)。D值越高項目越有效。 計算公式為 。 當D=1.00時,高分組被試全部通過,低分組被試全部失??;如果低分組被試全部通過,高分組被試全部失敗,則D=-1.00;如果兩組的通過率相等,則D=0。 項目鑒別指數(shù)法只利用了一部分信息,浪費了很多信息,統(tǒng)計結(jié)果準確性差一些。而且當項目與效標之間并非為直線關(guān)系時,甚至會得出錯誤的結(jié)論。 ②相關(guān)法——大規(guī)?;驑藴驶瘻y驗 以項目分數(shù)與效標分數(shù)或測驗總分的相關(guān)作為項目區(qū)分度的指標。 相關(guān)越高,項目區(qū)分度越高。 a.點二列相關(guān)——項目是(0,1)記分或二分變量,效標或測驗總分是連續(xù)變量 b.二列相關(guān)——連續(xù)的測量變量,其中一個變量被人為分成兩類 c.φ相關(guān)——兩個變量是二點分配,即兩個變量都是二分名義變量 d.積差相關(guān)——論文式測驗題目,得分具有連續(xù)性 (被試團體較大時,可以認為項目分數(shù)服從正態(tài)分布) ③方差法 被試在某一項目上的得分越分散,則該試題鑒別力越大。 (3)區(qū)分度的相對性 ①不同計算方法,所得區(qū)分值不同。一個測驗的各項目要采用同一種區(qū)分度指標。 ②樣本容量大小影響相關(guān)法區(qū)分度值的大小。樣本容量越小,其統(tǒng)計值越不可靠。 ③分組標準影響鑒別指數(shù)。分組越極端,其D值越大。 ④被試樣本的同質(zhì)性程度影響區(qū)分度值的大小。被試團體越同質(zhì),即個體之間水平越接近,其測題的區(qū)分度值越小。 (4)區(qū)分度與難度的關(guān)系 測驗項目的難度對測驗項目的鑒別力有一定的影響,難度與區(qū)分度有著密切的聯(lián)系。 難度越接近0.5時,項目潛在的區(qū)分度越大,而難度越接近1.00或0時,項目潛在的區(qū)分度越小。為了使項目具有較高區(qū)分能力,應使所有項目都保持在0.5的難度最為理想。在利用項目分析選擇試題時,應使項目的難度分布廣一些,梯度大一些,使整個測驗的難度分布呈正態(tài)分布,且平均水平保持在0.5左右。這樣才能把各種水平的人都區(qū)分開來,并且分的比較細。 *難度既影響信度又影響效度;難度影響區(qū)分度。 3.選項分析 選項分析就是對選擇題后面提供的幾個答案的分析。主要的異常情況有: ①正確答案無人選擇,或少于其他選項的人數(shù); ②錯誤答案選的人太多; ③正確選項上的高分組選擇人數(shù)少于低分組; ④錯誤選項上的高分組選擇人數(shù)多于低分組; ⑤某個選項無人選擇; ⑥未答的人數(shù)較多。 *標準:正確選項準確唯一;錯誤選項具有干擾性、迷惑性。 第五節(jié) 心理測驗的編制 1. 測驗編制的基本程序 (1) 確定測驗目的 (2) 制定編題計劃 (3) 編寫測驗題目 (4) 題目試測與分析 (5) 合成測驗及復本 (6) 測驗使用標準化 (7) 信度與效度分析 (8) 編寫測驗說明書 一、確定測驗目的 1.明確測量對象——測量哪些個人或團體 2.明確測量目標——測量什么心理功能 *目標具體化 3.明確測量用途——描述?診斷?選拔?驗證? 二、制定編題計劃 要明確的信息: 一是全面而具代表性的測驗內(nèi)容,不致使測題偏離了應測的范圍; 二是對各個內(nèi)容點的相對重視程度,通常用百分比來標明。 用途:指明編題方向;確定記分標準。 三、編寫測驗題目 1.收集測驗資料 原則:1)資料要豐富;【臨床觀察的資料、已有的測題】 2)資料要有普遍性; 3)資料要有趣味性。 2.選擇項目形式 原則:1)使受測者容易明了測驗方法 2)使受測者在完成測驗時不會因測驗項目的形式不當而做錯。 3)測驗過程省時 4)計分省時省力 5)經(jīng)濟 3.編寫測驗項目 注意:1)測驗項目的取樣對欲測心理品質(zhì)具有代表性; 2)測驗項目的取材范圍要同編題計劃所列項目范圍相一致; 3)測驗項目的難度應有一定的分布范圍; 4)用語要力求精煉簡短,淺顯明了 5)初編題目的數(shù)量要多于最終所需要的數(shù)量,以便篩選或編制復本; 6)測驗項目的說明必須簡明。 四、題目試測與分析 1.預測 目的:獲得被試對測驗項目做何反應的資料,包括質(zhì)的信息與量的指標。 質(zhì):題目思想性、邏輯錯誤、印刷、裝訂 量:難度、區(qū)分度、項目分析 注意:1)預測對象應取自將來正式測驗時準備施用的群體,人數(shù)不必太多,但要具有代表性; 2)預測的情境應力求同正式測驗的情境一致; 3)預測的時限可以適當延長,以便每一個受測者都能將題目做完; 4)施測者應對受測者的反應加以記錄。 2. 項目分析——對預測結(jié)果進行統(tǒng)計分析,確定項目的難度和區(qū)分度。 五、合成測驗及復本 合成測驗就是把經(jīng)過預測以后證明有價值的項目排成有組織的測驗。 1. 測驗項目的選擇 指標(3個):測驗的性質(zhì);項目的難度;項目的區(qū)分度 2. 測驗項目的編排 總的編排原則:由易到難 兩種常見編排方式: 1) 并列直進式:依其難度由易到難排列。 2) 混合螺旋式:依難度分成若干不同的層次,再將不同性質(zhì)的測驗項目予以組合,作交叉式的排列,其難度則漸次升進。 3.編制復本(A、B卷 等值性) 等值需要符合的條件: 1) 各份測驗測量的是同一種心理特質(zhì); 2) 各份測驗具有相同的內(nèi)容和形式; 3) 各份測驗不應有重復的項目; 4) 各份測驗項目數(shù)量相等,并且有大體相同的難度和區(qū)分度。 **ABBA的順序 平衡難度 六、測驗使用標準化 標準化是指測驗的編制、施測、評分以及解釋測驗分數(shù)的程度的一致性。 1. 測驗內(nèi)容:相同的或等值的題目 2. 施測過程:相同的測驗情境;相同的指導語;相同的測驗時限 3. 測驗評分:1)對反應要及時清楚的記錄; 2)要有標準答案或正確反應的表格,即記分鍵; 3)將受測者的反應與記分鍵比較,確定受測者反應應得的分數(shù)。 4. 測驗分數(shù)的解釋 七、鑒定測驗(信度與效度分析) 1.信度——測驗的可靠性;即用同一測驗多次測量同一團體,所得測驗結(jié)果之間具有一致性。 2.效度——測驗的有效性;即一個測驗在多大程度上能夠測得所要測得的東西。 3.測驗量表與常模 ①按照統(tǒng)計學的原理,把某一標準化樣本的測驗分數(shù)轉(zhuǎn)化為具有一定參照點、等值單位的導出分數(shù),這就是所謂的測量量表。常見:百分等級量表、標準分數(shù)量表、T量表、發(fā)展量表、智力商數(shù)量表等。 ②如果將標準化樣本的測驗分數(shù)與相應的某一個或某幾個測驗量表分數(shù)一起用表格的形式呈現(xiàn)出來,就是該測驗的常模表。 八、編寫測驗說明書 1)本測驗的目的與功用; 2)本測驗的理論依據(jù); 3)測驗內(nèi)容及實施測驗的方法; 4)測驗的標準答案和評分方法; 5)關(guān)于測驗的信度、效度資料的說明; 6)常模表,即如何依據(jù)常模解釋測驗結(jié)果。 2.測驗目標與雙向細目表(講義p250) 3.題目編制技術(shù)(講義p250-p251) 第六節(jié) 心理測驗的實施 測驗的使用主要涉及兩個問題: 1) 如何實施測驗才能保證測驗分數(shù)盡可能少受施測過程的影響; 2) 如何解釋測驗分數(shù)才能保證受測者的心理不受負面影響。 一、 測驗的實施過程 通過觀測受測者在測驗情境中的行為樣本,可以推斷他平日一般的行為特征。 1. 施測前的準備工作 (1) 準備好測驗材料 (2) 熟練掌握施測手續(xù) 訓練的內(nèi)容包括:①熟悉測驗內(nèi)容; ②掌握施測步驟; ③掌握記分方法; ④掌握解釋分數(shù)的技術(shù)。 (3) 熟記測驗指導語并能用口語清楚而流利地說出來。 2. 指導語 指導語通常包括對測驗目的的說明和對題目反應方式的解釋。 注意:一般要求測驗的主持者和指導語都應保持和表述中立的態(tài)度,不傾向于答案中的任何一種方向。 *一般的能力測驗和成就測驗都要求有標準嚴格的時間限制; 而人格測驗和態(tài)度測驗一般不要求有時間限制。 3. 測驗情境 包括測驗場地(通風、光線、噪聲)、座位、答案紙型等。 4. 測驗焦慮 測驗焦慮是指被試因接受測驗而產(chǎn)生的一種憂慮和緊張情緒,它會影響測驗結(jié)果的真實性。 主試有時可以利用保證測驗結(jié)果絕對保密或鼓勵被試等方法來消除測驗焦慮。 5. 與受測者建立良好的協(xié)調(diào)關(guān)系 良好的協(xié)調(diào)關(guān)系指的是施測者設(shè)法努力引起受測者對測驗的興趣,取得他的合作,以保證他能按照標準測驗指導語行事。 6. 評分技術(shù) 二、 測驗分數(shù)的解釋 主要涉及兩個問題:一是如何看待測驗分數(shù)的意義;二是如何將測驗分數(shù)的意義告訴受測者。 1. 如何看待測驗分數(shù)的意義 高德曼的三個維度的解釋模型 三個維度分別是解釋測驗分數(shù)的類型、資料處理的方法、資料的來源 解釋測驗分數(shù)的4種類型:敘述的解釋、溯因的解釋、預測的解釋、評價的解釋 資料處理的2種方法:機械的處理、非機械的處理 資料的2種來源:測驗資料、非測驗資料 三個維度加以組合:4*2*2=16種不同的解釋方式。 基本原則: 1) 主試應充分了解測驗的性質(zhì)與功能。 2) 對導致測驗結(jié)果的原因的解釋應慎重,謹防片面極端。 3) 必須充分估計測驗的常模和效度的局限性。 4) 解釋分數(shù)應參考其他有關(guān)資料。 5) 對測驗分數(shù)應以“一段分數(shù)”來解釋,而不應以“特定的數(shù)值”來解釋。 6) 對來自不同測驗的分數(shù)不能直接加以比較。 2. 如何將測驗分數(shù)的意義告訴受測者(教材p131-p132) 補充:講義p252 第七節(jié) 測驗常模 1、 常模與常模團體 1) 常模:用于比較和解釋測驗結(jié)果的標準化樣本的分數(shù)分布。 常模是根據(jù)標準化樣本的測驗分數(shù)經(jīng)過統(tǒng)計處理而建立起來的具有參照點和單位的測驗量表。 編制常模需要三步:①確定有關(guān)的比較團體; ②獲得該團體成員的測驗分數(shù); ③把原始分數(shù)轉(zhuǎn)化成量表分數(shù)。 2) 常模團體 常模團體是作為比較標準的具有某些共同特征的人組成的群體或該群體的樣本。 3) 確定常模團體的注意事項 ①群體構(gòu)成的界限必須明確; ②常模團體必須是所測群體的一個代表性樣本;(遵循隨機化原則)e.g.分層抽樣 ③取樣的過程必須明確且有詳盡的描述; ④樣本大小要適當;(取樣誤差與樣本大小成反比;其他條件相同時樣本越大越好) ⑤常模團體必須是近時的; 即減低抽樣誤差,就必須加大樣本容量 ⑥注意一般常模與特殊常模的結(jié)合。 2、 分數(shù)轉(zhuǎn)換與合成 分數(shù)的轉(zhuǎn)換:按某種規(guī)則將原始分數(shù)轉(zhuǎn)化為導出分數(shù)的過程。 1) 原始分數(shù):從測驗中直接獲得的分數(shù);被試在接受測驗后,根據(jù)測驗的記分標準,對照被試的反應所計算出的測驗分數(shù)。 原始分數(shù)反映了被試答對題目的個數(shù)或作答正確的程度;不能直接反映出被試之間的差異狀況、被試相互比較后所處的地位、被試在其他等值測驗上應獲得什么樣的分值。 2) 導出分數(shù):在原始分數(shù)轉(zhuǎn)換的基礎(chǔ)上,按照一定的規(guī)則,經(jīng)過統(tǒng)計處理后獲得的具有一定參考點和單位,且可以相互比較的分數(shù)。常用的導出分數(shù)有百分等級、標準分數(shù)、T分數(shù)。 分數(shù)的合成:將幾個分數(shù)或幾個預測源組合起來,以獲得一個合成分數(shù)或做總的預測。有3種類型:1)項目的組合; 2)分測驗或量表的組合; 3)測驗或預測源的組合。 分數(shù)合成中的問題: 1) 采用什么方法來合成分數(shù)?取決于組成測驗分數(shù)的目的與要做何種決定。 2) 什么形式是最適當?shù)姆謹?shù)組合?可用效標效度來評價合成分數(shù)。 3)需要多少及何種測驗分數(shù)作最適當?shù)慕M合分數(shù)?可用合成體效度來評價。 分數(shù)合成的方法: 1) 臨床判斷 2) 推理方法:單位加權(quán),等量加權(quán),差異加權(quán) 3) 多重分段:連續(xù)柵欄,綜合分段 4) 多重回歸:基本方程,預測誤差,漸進效度,合成體效度 5) 特殊方法:完形記分,輪廓分析 1> 臨床診斷——直覺合成 根據(jù)經(jīng)驗做出診斷;這種根據(jù)直覺的經(jīng)驗,主觀地將各種因素加權(quán),而獲得結(jié)論或預測的方法叫做臨床診斷。 優(yōu)點:①具有高度的綜合性;②具有靈活的針對性。 缺點:①主觀加權(quán)易受決策者的偏見影響,不夠客觀; ②缺乏精確的數(shù)量分析,沒有精確的數(shù)量指標。 2> 加權(quán)求和合成——推理方法:單位加權(quán),等量加權(quán),差異加權(quán) ① 單位加權(quán):將各個測驗分數(shù)直接相加而獲得合成分數(shù)。 公式為: ② 等量加權(quán):將所有測驗分數(shù)轉(zhuǎn)換為標準分數(shù),然后采用下式加權(quán)組合。 (適用于各測驗對預測效標具有同等重要性的場合) 公式為: ③ 差異加權(quán):通常情況下,各個變數(shù)對預測效標的作用是不同的。因此需要根據(jù)各個變數(shù)與效標之間的經(jīng)驗關(guān)系作差異加權(quán)。 公式為: e.g.分數(shù)離散程度大的課程,具有較強區(qū)分度,在錄取時起的作用大。 3> 多重劃分——多重分段:連續(xù)柵欄,綜合分段 ①多重劃分就是在各個特質(zhì)上都確定一個標準,從而把成績劃分為合格與不合格兩類。只有每個測驗都合格時,總要求才算合格。(同時考察) ②連續(xù)柵欄就是在整個測驗實施時,是把所有組成這一測驗的分測驗按一定順序排列起來逐一實施,只有通過了前一次測驗,才能繼續(xù)實施后一個測驗。 4> 多重回歸:基本方程,預測誤差,漸進效度,合成體效度 多重回歸就是研究一種事物或現(xiàn)象與其他多種事物或現(xiàn)象在數(shù)量上相互聯(lián)系和相互制約的統(tǒng)計方法。 基本方程式為: 通過對預測源作適當加權(quán),使這些加權(quán)的測驗分數(shù)的合成能以最小的誤差來預測效標分數(shù)。 注意: 最佳預測源:選出與效標相關(guān)最高的變量,然后加入另一預測源組合起來以使R的數(shù)值增至最大,下一個要加入的預測源應該是與前兩個預測源組合起來能使R值增加最多的,依次類推,當加入額外的預測源不再顯著的使相關(guān)系數(shù)R值增加時,則終止分析。 和Y相關(guān)盡可能高,和X1相關(guān)盡可能低 5> 特殊方法:完形記分,輪廓分析 呈現(xiàn)常模的方法:轉(zhuǎn)化表,剖析圖 轉(zhuǎn)化表的構(gòu)成要素有:原始分數(shù)、相應的導出分數(shù)、對常模團體的具體描述。 剖析圖是把一套測驗中幾個分測驗分數(shù)同圖表(圖形)表示出來。 3、 幾種常模分數(shù) 發(fā)展量表 1) 年齡量表——所測量的特質(zhì)隨年齡作有系統(tǒng)的改變 2) 年級當量 商數(shù) 1) 智力商數(shù) 2) 教育商數(shù) 3) 成就商數(shù) 百分等級 一個原始分數(shù)的百分等級,是指在一個群體的測驗分數(shù)中,得分低于這個分數(shù)的人數(shù)的百分比。百分等級取值越大,說明成績越優(yōu)秀。 百分等級分數(shù)的計算 (1)未分組分數(shù)資料 e.g.成績?yōu)?0分的百分等級為83,就是說比80分低的原始分數(shù)占全體得分的83%,比其高的只占17%。 (2)分組分數(shù)資料 四舍五入 對百分等級的評價 百分等級是一種相對位置量數(shù),具有可比性,且易于計算,解釋方便;但它是一種順序量數(shù),不具有可加性。 兩個缺點:①單位不等,尤其在分配的兩個極端; ②只具有順序性,無法說明不同被試之間分數(shù)差異的數(shù)量。 *百分等級是相對于特定的被試團體而言的,解釋時不能離開特定的參照團體。 標準分數(shù) 標準分數(shù)是一種具有相等單位的量數(shù),又稱作Z分數(shù),以Z表示。 標準分數(shù)的計算 公式為: (線性轉(zhuǎn)化) 對Z分數(shù)的評估 Z分數(shù)是以平均數(shù)為參照點,以標準差為單位的等距量表。具有可比性、可加性;由符號與絕對值兩部分構(gòu)成: 正負符號表示原始分數(shù)在平均數(shù)之上或之下,絕對值表示原始分數(shù)與平均數(shù)的距離。 1) 線性轉(zhuǎn)化(如上) 2) 常態(tài)化(T分數(shù)、標準九、標準十、離差智商) 常態(tài)化就是正態(tài)化,是指使用非線性變換,將非正態(tài)分布的分數(shù)強制性的扭轉(zhuǎn)成正態(tài)分布。 ①T分數(shù):麥柯爾提出,公式為: T在[0,100]之間。 平均數(shù)為50,標準差為10;T分數(shù)避免了小數(shù)與負號。 ②標準九:以0.5個標準差為單位,將正態(tài)曲線下的橫軸分為九段,最高一端為9分,最低一端為1分,中間一段為5分,除兩端外,每段均有半個標準差寬。 ③標準十:卡特爾16PF ④離差智商:韋氏智力測驗采用 平均數(shù)為100,標準差為15。 第八節(jié) 標準參照測驗 1. 標準參照測驗的含義與作用 標準參照測驗是根據(jù)某一明確界定的內(nèi)容范圍而縝密編制的測驗。當一個測驗是以某一明確界定的內(nèi)容范圍為基礎(chǔ)編制而成,并且其分數(shù)是參考該內(nèi)容范圍所要求的絕對標準進行解釋時,稱這一測驗為標準參照測驗。通過標準參照測驗,可以了解個體在所規(guī)定測量內(nèi)容上的行為水平,其出發(fā)點是個體本身的絕對水平。 2. 標準參照測驗的題目分析 *測驗項目的難度分析:與常模參照測驗相同,一般以通過率表示。 *測驗項目的區(qū)分度分析: ①當采用掌握組-未掌握組的預測方法時,可以使用鑒別系數(shù)(D) ②當采用前測-后測方法,可獲得在前測中錯誤回答某項目而在后測中能夠正確回答的被試人數(shù)比例,此即該項目的個人獲得指數(shù)。 3. 標準參照測驗的信度與效度 1) 標準參照測驗的信度及其估計 ①分類一致性信度——計算兩次都被分到一類中的被試占總被試人數(shù)的比例。 ②方差分析方法——荷伊特信度 2) 標準參照測驗的效度及其估計 ①內(nèi)容效度 ②效標關(guān)聯(lián)效度 4. 標準參照測驗的分數(shù)解釋 (1) 專家判定法 ①Nedelsky法 ②Angoff法 (2) 效標組預測法 ①臨界組法 ②對照組法 詳見講義p256-p258 第九節(jié) 心理測驗理論的新發(fā)展 一、 經(jīng)典測量理論的局限 1. 統(tǒng)計指標依賴于被試樣本;(難度、區(qū)分度、信度、效度) 2. 分數(shù)解釋依賴于測驗難度;(難度不同,解釋不同) 3. 同一測驗相同分數(shù)其含義不同;(做對的題目其難度不同) 4. 信度估計不精確;(沒有更精確的總體估計) 5. 測驗結(jié)果不能概化到非標準化情境;(標準化測驗不能推廣) 6. 被試做同樣題目無法照顧個別差異。(被試水平不同,相對難易程度不同) 二、 項目反應理論 1. 基本假設(shè) ①潛在特質(zhì)空間的單維性假設(shè); ②局部獨立性假設(shè);(各項目之間不相關(guān),不影響) ③正確反應概率與特質(zhì)水平間函數(shù)關(guān)系假設(shè); ④非速度測驗假設(shè)。(對時間沒有限制) 2. 項目反應的參數(shù)及模型:單參數(shù)、二參數(shù)、三參數(shù) 單參數(shù):區(qū)分度 二參數(shù):難度、區(qū)分度 三參數(shù):難度、區(qū)分度、猜測率 3. 項目特征曲線及信息函數(shù) 項目特征曲線(教材p292) 信息函數(shù):作為信度的指標 4. 項目反應理論的應用(題目分析、題庫、自適應測驗) 題目分析:可根據(jù)圖形直接判斷——曲線越陡峭,區(qū)分度越高; 曲線越往右側(cè)靠,難度越大。 自適應測驗:根據(jù)不同被試的水平給予不同難度的測驗;避免天花板、地板效應。 5. 項目反應理論的優(yōu)點及局限 局限:對于現(xiàn)今的測驗,單維假設(shè)不成立,二分法記分不適用。 三、 概化理論 概化理論是經(jīng)典測量理論與方差分析結(jié)合的產(chǎn)物,其核心是從特定條件下的測量結(jié)果來推斷更廣泛的條件下可能得到的測量結(jié)果。 1. 基本概念 題目、被試、主試等各種影響因素 測量目標:所要測量的心理特質(zhì); 測量側(cè)面:影響測量過程和結(jié)果的各種內(nèi)在外在因素(每個影響因素都是一個側(cè)面); 測量情境:由測量目標和測量側(cè)面構(gòu)成,即測什么和怎么測的結(jié)合。 2. 基本假設(shè) 替代信度 可靠性與隨機平行測驗假設(shè) ——用觀察全域中隨機抽取的一個樣例來推斷全域的可靠性作為信度指標。 3. 概化理論的優(yōu)點與局限 ①用隨機平行測驗取代嚴格平行測驗,操作方便; ②用方差分析技術(shù)能全面估計各種誤差成分的相對大??;(能整合起來) ③在方法和應用上都有待完善。 四、 測驗等值 1. 含義:將不同測驗版本分數(shù)統(tǒng)一在一個量表上的過程;使其具有可比性。 2. 特性:等價性、可逆性、組間一致性 3. 種類:測驗分數(shù)等值、項目參數(shù)等值、橫向等值、縱向等值 (難度、區(qū)分度) (測驗間) (時間) 4. 方法: ①平均數(shù)等值:A測驗平均分80與B測驗平均分70等值 ②百分位等值:A測驗80分為75百分等級,B測驗70分為75百分等級,80與70等值 ③線性等值:用標準差計算—代數(shù)公式<用平均數(shù)、標準差計算> ④項目反應理論等值:參數(shù)等值 5. 設(shè)計: ①單組設(shè)計—兩個測驗對同一組人測試 ②等組設(shè)計—隨機抽取兩個組,假設(shè)為等組 ③等組交叉設(shè)計—前兩種方法結(jié)合,一組先A卷后B卷,另一組先B卷后A卷 ④共同被試設(shè)計—有一部分共同的人做中介,既參加A卷又參加B卷 ⑤鉚測驗設(shè)計—用共同的題目作為鉚來進行測驗 ⑥混合設(shè)計—以上設(shè)計混合- 1.請仔細閱讀文檔,確保文檔完整性,對于不預覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請點此認領(lǐng)!既往收益都歸您。
下載文檔到電腦,查找使用更方便
32 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標,表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計者僅對作品中獨創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 心理測量學 筆記 備考 北師大
鏈接地址:http://m.appdesigncorp.com/p-1573759.html