《數據的收集》PPT課件.ppt
《《數據的收集》PPT課件.ppt》由會員分享,可在線閱讀,更多相關《《數據的收集》PPT課件.ppt(107頁珍藏版)》請在裝配圖網上搜索。
《文學文摘》預測羅斯福競選落敗,在美國1936年的總統(tǒng)選舉中,兩位競爭者分別是民主黨的羅斯福和共和黨的蘭登。競選前美國著名雜志《文學文摘》發(fā)放了1000萬份的調查問卷,通過對收回的240萬張問卷及電話調查的結果進行分析,預測蘭登將獲得57%的選票而最后的投票結果是:羅斯福以62%對38%一邊倒優(yōu)勢勝出?!段膶W文摘》也最終因此而破產倒閉。問題:為什么《文學文摘》調查的樣本量如此之大,結果卻那樣離譜?,1、樣本抽選有偏差蘭登的支持者主要是富裕階層,大資產階級,而羅斯福的支持者主要是一般工薪階層、中下層平民。在1936年,美國約有1100萬戶家庭擁有電話,有900多萬失業(yè)人口。2、沒有考慮缺失數據的影響在芝加哥對三分之一的選民進行調查,只有20%的比較富裕的階層給予回答。,蓋洛普預測,民意調查(二),1948年的美國總統(tǒng)選舉中,兩位競爭者分別是共和黨的杜威和民主黨杜魯門。Thebuckstopshere———杜魯門,1、配額抽樣例如,蓋洛普的民意測驗在圣.路易斯訪問13對象,要求(1)6人住近郊,7人住在市中心(2)男的7人,女的6人(3)7個男的中3個40以下,4人40歲以上2、訪問人員自由選擇配與定額的方法,調查偏差的原因,共和黨偏性,蓋洛普民意測驗記錄,2010年9月,第2章數據的搜集,2.1數據的來源2.2調查數據2.3實驗數據2.4數據的誤差,2010年9月,2.1數據的來源,原始數據和二手數據的比較,2010年9月,系統(tǒng)外部的數據,統(tǒng)計部門和政府部門公布的有關資料專業(yè)調查機構提供的數據各種會議,學術性研討會上交流的資料從互聯(lián)網或圖書館查閱到的相關資料,2010年9月,系統(tǒng)內部的數據,業(yè)務資料:發(fā)票統(tǒng)計資料:統(tǒng)計報表財務資料:成本其他資料:顧客建議,2010年9月,二手數據的評估,數據的可靠性數據收集的目的性數據收集的方法數據的及時性,《金錢》雜志公布了一項研究,揭示了消費者認為的航空公司最重要的特點。按照重要性順序,依次是安全、價格、行李處理、按時起飛、乘客服務、以及食品?!督疱X》根據這些特點評出了美國10家最大的航空公司。,二手數據評估,數據的直接來源,實驗數據通過實驗方法得到的數據通常是對自然現象而言也被廣泛運用到社會科學中如心理學、教育學、社會學等,2010年9月,數據的直接來源,1.調查數據通過調查方法獲得的數據通常取自有限總體,2.按調查包括的范圍:(1)全面調查:普查(2)非全面調查:重點調查、典型調查、抽樣調查,普查:對總體中的所有個體進行調查如:人口普查、工業(yè)普查等特點:(1)通常是周期性的,一般需間隔較長時間;逢“0”年份:人口普查逢“3”年份:第三產業(yè)普查逢“5”年份:工業(yè)普查逢“7”年份:農業(yè)普查,普查,(2)一般需要規(guī)定統(tǒng)一的標準調查時間,以避免調查數據的重復或遺漏;,(3)準確性一般較高,較規(guī)范;(4)只能調查一些最基本、最一般的現象。,如:第五次人口普查登記的標準時間是2000年11月1日凌晨零時,2010年9月,2.2調查數據,概率抽樣與非概率抽樣搜集數據的基本方法,2010年9月,概率抽樣和非概率抽樣,2010年9月,概率抽樣,也稱隨機抽樣2.特點:按隨機原則抽取樣本個體都有一定的機會被抽中個體被抽中的概率是已知的樣本可以對總體目標量進行估計,3.抽樣框:所有總體單位信息,2010年9月,簡單隨機抽樣,定義:從總體中隨機地抽取n個單位作為樣本,每個單位入抽樣本的概率是相等的最基本的抽樣方法,是其它抽樣方法的基礎,在某城市某街道所管轄的10000戶居民中,抽取200戶居民,就居民對某種商品的需求量進行調查,就可以做10000張紙片,寫上1-10000號,從中隨機(或按隨機數)抽取200張,被抽中的居民即為樣本。,簡單隨機抽樣例子,特點簡單、直觀對參數進行估計比較方便局限性當總體量很大時,不易構造抽樣框抽出的單位很分散沒有利用其它輔助信息,2010年9月,分層抽樣,將抽樣單位按某種規(guī)則劃分為不同的層,然后從不同的層中獨立、隨機地抽取樣本。,分層抽樣的步驟,(1)確認目標總體。(2)決定樣本數。(3)決定分層標志。(4)將總體按照分層標志分成若干類,其中每一類稱為一層。(5)在每一層中隨機抽取出足夠的樣本。,消費傾向調查,在進行消費傾向調查時,按年齡將調查人口分為老年人、中年人、青年人三類??傉{查人口6000人,其中:老年人1000人,中年人2000人,青年人3000人?,F從中抽取200人。問題:如采用等比例分層抽樣,如何確定樣本數量?,老年類抽取樣本數,中年類抽取樣本數,青年類抽取樣本數,調研某地家用電器產品的潛在用戶,分層抽樣的優(yōu)點,優(yōu)點樣本的結構與總體的結構比較相近既可以對總體參數進行估計,也可以對各層的目標量進行估計,2010年9月,整群抽樣,定義:將總體中若干個單位合并為群,抽樣時直接抽取群,然后群中的所有個體全部實施調查特點:只需群的抽樣框,可簡化工作量調查的地點相對集中缺點是估計的精度較差,抽取2000個樣本。假定該市共有1000個居委會,每一個居委會平均有100戶居民。這樣,就可以居委會為單位,采用純隨機抽樣抽出20個居委會,共2000戶,然后把這20個居委會的2000戶視為樣本進行普查。,調查某城市居民戶的經濟情況,整群抽樣與分層抽樣的區(qū)別,1、分層抽樣分成的各類彼此之間差異明顯,而每類內部差異不大;2、整群抽樣的群間彼此差異不大,而每群之內差異明顯。3、分層抽樣每類都按一定比例抽取樣本,而整群抽樣是從總群中抽出若干群,2010年9月,系統(tǒng)抽樣,定義:將個體按一定順序排列,在規(guī)定的范圍內隨機地抽取一個單位作為初始單位,然后按事先規(guī)定好的規(guī)則確定其它樣本單位優(yōu)點:操作簡便缺點:對總體參數的估計比較復雜,(1)將總體單位排列。(2)決定抽樣間距(總體單位數/樣本數)。(3)采用簡單隨機抽樣法抽出一個單位作為起點。(4)取得一個樣本單位后,每隔一個抽樣間距抽取一個單位,直到樣本數足夠為止。,系統(tǒng)抽樣的步驟,系統(tǒng)抽樣例子,對1000個企業(yè)進行抽樣調查,樣本數為100,則抽樣時間距為1000/100=10。我們可在1-10中隨機抽取一個單位,作為起點。譬如,單位3為起點,則樣本單位號碼依次為3,13,23,33,…直至樣本數量達到100個為止。,2010年9月,多階段抽樣,要經歷兩個或以上階段才能抽到樣本具有整群抽樣的優(yōu)點具有更廣泛的范圍常用于大規(guī)模的抽樣調查中,普查表長表抽樣方法,長表抽樣方法,●《第六次全國人口普查方案》普查表長表抽取10%的戶填報普查表短表由其余的戶填報●10%的長表登記戶如何抽?2000年的每隔10戶抽一戶2010年擬抽取長表住戶組長表住戶組為相鄰4戶一組,抽樣框審核,注意:在《戶主姓名底冊》中參與長表抽樣戶▲居住在本地的家庭戶和集體戶▲離開本地不滿半年的家庭戶,,,,不參與長表抽樣的戶▲全戶為港澳臺或外籍人員的戶▲全戶寄掛戶口的戶▲全戶外出半年以上的戶▲全戶因房屋拆遷已離開本地戶▲全戶死亡的戶▲無人居住且無戶口寄掛空房戶,,,,抽樣框審核,1、普查區(qū)第一個普查小區(qū)隨機起點的確定▲隨機起點在1-10內確定隨機起點為負責長表抽樣人員,取本人生日的最后1位數1-9對應隨機起點1-90對應隨機起點10,長表調查戶抽取,▲其后普查小區(qū)的隨機起點=前一個小區(qū)的隨機起點+1(如11減10為1),例1本人生日的最后1位數是5。,例2本人生日的最后1位數是0。,●住戶組的抽取方法幾種情況1、普查小區(qū)對于《戶主姓名底冊》最大“戶編號”在40以上。2、對于《戶主姓名底冊》最大“戶編號”不足40(20-39戶),要保證抽取一個住戶組(相鄰4戶組成)。3、對于《戶主姓名底冊》最大“戶編號”不足20(1-19戶)要保證抽取相鄰的2戶。,1、《戶主姓名底冊》最大“戶編號”在40以上●將普查小區(qū)隨機起點乘4得到數值為第一個抽中住戶組的尾數隨機起點為334=12抽中住戶組的尾數,會同尾數相鄰的前3戶,組成了第一個抽中的住戶組抽中第一個住戶組在《戶主姓名底冊》“戶編號”9,10,11,12,●第二個抽中的住戶組=第一個抽中住戶組所對應的戶編號加40抽中第二個住戶組“戶編號”49,50,51,52,●第三個抽中的住戶組=第二個抽中住戶組所對應的戶編號加40抽中第三個住戶組“戶編號”89,90,91,92●以此類推,直到住戶組數超出了《戶主姓名底冊》的最大“戶編號“為此。如普查小區(qū)最大“戶編號“80,抽中第三個住戶組,“戶編號”89,90,91,92,超出了普查小區(qū)最大“戶編號“80,該小區(qū)最后一組長表住戶組,“戶編號”為49,50,51,52,普查小區(qū)隨機起點為3,⑴如果類推抽取的住戶組所對應的“戶編號”,超出普查小區(qū)《戶主姓名底冊》最大“戶編號”三戶或三戶以上,則該小區(qū)長表調查住戶組抽取工作完成。該小區(qū)抽取的最后一個長表調查住戶組為《戶主姓名底冊》臨近最大“戶編號”的一組。,⑵如果類推抽取的住戶組所對應的“戶編號”超出最大“戶編號”二戶或一戶,則該小區(qū)抽取的最后一個長表調查住戶組為《戶主姓名底冊》最大“戶編號”的最后4戶。,1.為了調查某校學生的購書費用支出,從男生中抽取60名學生,從女生中抽取40名學生調查,這種調查方法是()A.簡單隨機抽樣B.整群抽樣C.系統(tǒng)抽樣D.分層抽樣,2.為了調查某校學生的購書費用支出,從全校的抽取4個班級的學生進行調查,這種調查方法是()A.簡單隨機抽樣B.整群抽樣C.系統(tǒng)抽樣D.分層抽樣,3.為了調查某校學生的購書費用支出,將全校的學生的名單按拼音順序排列,每隔50名學生抽取一名進行調查,這種調查方法是()A.簡單隨機抽樣B.整群抽樣C.系統(tǒng)抽樣D.分層抽樣,非概率抽樣,1、相對于概率抽樣而言2、抽取樣本時不是依據隨機原則,概率抽樣與非概率抽樣的比較,概率抽樣依據隨機原則抽選樣可根據調查的結果推斷總體非概率抽樣不是依據隨機原則抽選樣本無法使用樣本的結果推斷總體,方便抽樣,依據方便的原則抽取樣本攔截式調查優(yōu)點:容易實施,調查的成本低缺點:樣本信息無法代表總體,判斷抽樣,研究人員根據經驗有目的選擇樣本重點抽樣,典型抽樣樣本選擇的好壞取決于調研者的判斷抽樣成本比較低,容易操作,自愿樣本,被調查者自愿參加,成為樣本中的一分子。自愿樣本與抽樣的隨機性無關樣本是有偏的不能依據樣本的信息推斷總體,自愿樣本例子,1984年的《ABC之夜》節(jié)目,請觀眾給電視臺打電話,回答聯(lián)合國是否應該繼續(xù)留在美國,在超過186000個打電話者中,67%的人回答“不”。事實上,一份更科學的民意調查發(fā)現72%想讓聯(lián)合國留在美國。,滾雪球抽樣,先選擇一組調查單位,再請他們提供另外一些屬于研究總體的調查對象,進行此后的調查。適合于對稀少群體和特定群體研究優(yōu)點:容易找到那些屬于特定群體,調查的成本也比較低,配額抽樣,總體按一定的標志分為若干類,然后在每個類任意選取樣本操作簡單,樣本的結構和總體的結構類似不是依據隨機原則,屬于非概率抽樣,假定某單位有5000名職工,其中男性占40%,女性占60%;專業(yè)技術人員和行政管理人員各占50%;生產部門占40%,營銷部門、技術部門、財務部門分別占30%、20%和10%?,F要用配額抽樣方法依上述3個變量抽取一個規(guī)模為100人的樣本。依據總體的結構抽取樣本。,配額抽樣實例,配額抽樣實例,搜集數據的基本方法,自填式問卷調查,1、由被調查者自己完成調查問卷方法有:調查員分發(fā)、郵寄、網絡2、要求調查問卷結構嚴謹,有清楚的說明3、缺點問卷的返回率比較低不適合結構復雜的問卷調查周期比較長出現問題難于及時采取調改措施,面訪式問卷調查,1、調查員與被調查者面對面提問、回答方式2、優(yōu)點回答率高數據質量高可調節(jié)數據搜集所花費的時間3、缺點調查的成本較高,電話式問卷調查,您好!我是調查公司的調查員…,1、通過電話向被調查者實施調查2、特點速度快適合于樣本單位十分分散的情況3、局限訪問的時間不能太長使用的問卷需要簡單,調查方法的比較,數據收集方法的選擇,1.抽樣框中的有關信息2.目標總體的特征3.調查問題的內容4.有形輔助物的使用5.實施調查的資源6.管理與控制7.質量要求,調查方案與問卷設計,一.確定調查目標二.確定調查方法三.確定調查對象四.確定調查時間五.經費預算六.制定調查的組織計劃,調查方案內容,關于福建農林大學快遞服務的滿意度調查方案,調查目的:大學生是快遞服務的新生客戶群體,對快遞服務的需求日漸增長,通過調查本校校園快遞用戶的滿意度,總結校園快遞客戶的總體特征和快遞服務業(yè)的普遍問題,向快遞公司提出可行的改進方案。讓同學們享受更好的快遞服務。,調查方法:對大學生采取隨機抽樣調查的方式調查對象及樣本分析(1)調查對象:福建農林大學全體大學生(2)樣本分析:擬調查200份紙質樣本,電子樣本,調查時間及工作期限安排:(1)討論課題2013.11.23(2)問卷設計2013.11.23—2013.11.29(3)問卷發(fā)放及回收2013.11.30—2013.12.03(4)數據錄入2013.12.04—2013.12.06(5)數據處理2013.12.07—2013.12.09調查經費:(1)打印問卷210份(其中10份為備份)2100.12=25.2元(2)此次調查所產生的經費平攤處理。,調查的組織計劃:,問卷設計:林雅光、陳珊珊財務負責:徐份如實施問卷調查:(1)網上實行問卷調查(針對本校):陳錦超(2)校園內發(fā)放問卷:梁宇、徐份如、劉嶼璠陳洪泉、陳小瓊方案設計:黃婷婷報告撰寫:李小敏數據處理分析:嚴梅數據錄入與編碼設計:黃美琴,問卷設計,問卷設計,1、問卷開頭問候語指導語2、問卷的正文被調查者的信息問題和答案3、問卷的結尾開放性的題目,(1)問卷的開頭①標題中學生“追星”現狀調查②指導語同學,你好:為了解你對“追星”這一普遍的社會現象的態(tài)度和看法,加深我們對你的了解,創(chuàng)建一個良好的校園文化氛圍,請你協(xié)助進行這次調查。本次調查不記名,所以你不必顧忌,只需按照自己的真實情況,如實回答。謝謝!填表說明:1、請在每一個問題后適合自己情況的答案號碼上畫圈或者在畫線處填上適當的內容。2、若無特殊說明,一個問題只能選擇一個答案。3、問題沒有對錯之分,填寫問卷時,請不要與他人商量。,問卷編制,③問卷的正文個人背景資料:例:性別:男女。具體調查內容:例:你對自己喜歡的明星的熟悉程度如何?a.只是認識,知道名字,看過他們的表演或節(jié)目b.知道他們的基本情況,如身高、體重、愛好、家庭等c.努力地搜集有關他們的一切消息和新聞④問卷的結尾例:題目已完,謝謝你真實、有效的回答,萬分感謝!題目已完,如果您對本次調查有什么意見或建議,請寫在下面,謝謝!,①填空式a.您的年齡是歲?b.您家有幾口人?人c.您有幾個孩子?個d.您每天上班需要(分鐘)時間?,問題答案的設計,②是否式,a.您是共產黨員嗎?是□不是□b.您住在本市嗎?是□不是□c.您家有私家車嗎?有□沒有□d.您贊成學分制嗎?贊成□不贊成□,③單選式,您的文化程度是()a.小學及以下b.初中c.高中或中專d.大專以上,④多項限選制,您喜歡看哪一類電視節(jié)目?(請最多選擇三項打√)a.新聞節(jié)目b.電視劇c.體育節(jié)目d.廣告節(jié)目e.教育節(jié)目f.歌舞節(jié)目g.少兒節(jié)目h.其他(請注明),⑤矩陣式,您對河北電信提供的下列服務看法如何?(請在所選方框內打√)很滿意滿意基本滿意不滿意很不滿意a.裝機移機服務□□□□□b.話費查詢服務□□□□□c.電話障礙修復□□□□□d.公用電話服務□□□□□,⑥條件式(追問式),你有喜歡和崇拜的明星嗎?a.有b.沒有如果有,請寫下他們的名字。,關于福建農林大學快遞滿意度的問卷,同學,您好!我們是計算機與信息學院2011級的學生,能否耽誤您5—10分鐘,幫我們填寫下問卷,謝謝合作!1、您平均一個學期寄收的快遞數量是多少?A.0B.1-2C.3-6D.6-10E.10次以上9、對于現在學校內的快遞,你有什么樣的要求?A.降低價格B.改善服務態(tài)度C.提高速度D.增加快遞點E.送貨上門F.財產安全保險G.寄存服務H.沒有,2.3實驗數據,1、研究對象分為兩組:實驗組和對照組2、實驗組和隨機組的產生應遵循隨機原則,2.4數據的誤差,抽樣誤差非抽樣誤差誤差的控制,2010年9月,數據的誤差,抽樣誤差,1、由抽樣的隨機性引起的樣本的結果與總體真值之間的差異2、影響抽樣誤差的大小的因素樣本量的大小總體的方差抽樣的方式,非抽樣誤差,1、由其他原因造成的樣本結果與總體真值之間的差異2、存在于所有的調查之中概率抽樣,非概率抽樣3、有抽樣框誤差、回答誤差、無回答誤差、調查員誤差、測量誤差,誤差的控制,1、抽樣誤差可計算2、非抽樣誤差的控制一份好的調查問卷調查員的挑選,培訓調查過程控制,4.一家公司的人力資源部主管需要研究公司雇員的飲食習慣,改善公司餐廳的現狀。他將問卷發(fā)給就餐者,填寫后再收上來。他的收集數據的方法屬于()A.自填式問卷調查B.面訪式問卷調查C.實驗調查D.觀察式調查,5.某居民小區(qū)為了解住戶對物業(yè)的看法,準備采取抽樣調查的方式收集數據。物業(yè)管理部門利用最初的居民登記名單進行抽樣。但現在的小區(qū)中,原來的一些居民已經搬走,同時有些是新人住的居民戶。這種調查產生的誤差屬于()A.隨機誤差B.抽樣框誤差C.回答誤差D.無回答誤差,1988年9月11號,《舊金山檢查者》刊登:10名生物教師中有3人支持《圣經》創(chuàng)世紀Arlington,Texas根據星期六公布的一項全國性調查,接受民意測驗的30%的中學生物教師相信《圣經》創(chuàng)世紀說。德州大學的社會學家德昂說:“我們在生物學教學中做了某些非常、非常、非常錯誤的事”。這個結論由德昂和伊夫將問卷寄給20000名高中生物教師,收到的200份問卷得到。問:這個結論可信嗎?為什么?,- 配套講稿:
如PPT文件的首頁顯示word圖標,表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設計者僅對作品中獨創(chuàng)性部分享有著作權。
- 關 鍵 詞:
- 數據的收集 數據 收集 PPT 課件
裝配圖網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
鏈接地址:http://m.appdesigncorp.com/p-3169460.html