統計數據會說謊:帶有偏差的樣本


作者:???時間:2018年03月07日??瀏覽:??字號選擇〖????〗


【編者按】

達萊爾·哈夫,美國統計專家。在《統計數據會說謊》一書中他大膽地揭露了至今仍然被銷售員、廣告撰稿人、記者、專家頻頻使用的統計數據背后的操縱技巧。本文摘編自該書第一章《帶有偏差的樣本》,由澎湃新聞經中信出版集團授權發布。
平均年薪精確到個位數?
在評論《紐約太陽報》(Sun)有關報道時,《時代》(Time)雜志曾特別指出:“耶魯大學1924屆畢業生平均年收入高達25111美元。”
哇哦,他們實在太厲害了!
但稍等一下。這一令人驚嘆的數據究竟意味著什么?它是否像表面看起來的那樣,足以證明如果你將自己的孩子送進耶魯大學,你就可以安享晚年,你的孩子也可衣食無憂了?
在充滿懷疑地乍一看之后,我們發現這個數據有兩個可疑之處:首先,它精確得讓人吃驚;其次,它給人帶來難以置信的好處。
把那些四處分散的人的平均年薪搞清楚并精確到個位數,這個可能性實在很小。就算你對自己去年的收入要做到一清二楚都不太可能,除非這些收入全部源自薪水。而25111美元的年收入通常并非全部來自薪水,這部分耶魯畢業生很可能還有零零散散的各種投資。
毫無疑問,這一令人羨慕的平均數是根據耶魯畢業生自己報出的數據計算而來的。即便1924 屆畢業生在位于紐黑文市的耶魯大學念書時謹遵其信用制度,我們也不能因此肯定多年之后,他們依然恪守該信用制度,他們口中的這些數據依然真實可靠。當被問及收入時,他們中的有些人難免會因虛榮或自負而有所虛報;有些人恐怕會盡量瞞報收入,特別在涉及所得稅的問題上,他們也許會因擔心與其他表單上的數據互相矛盾而猶豫不決,那些稅務官們會不會看出什么端倪來呢?這兩種傾向——虛報和瞞報——也許會互相抵消,但事實上這不可能。其中一種傾向也許會占上風,但究竟哪種占上風我們不得而知。
根據常識,這一數據絕對不真實,那么就讓我們來分析一下。我們先來看看導致最大誤差的原因,就是這個原因炮制出了某些人“平均年收入高達25111美元”的神話,然而事實上,他們的真正年收入也許僅僅接近這個數字的一半而已。
要么帶有偏差,要么過于微小的樣本
這就是抽樣過程。在處理各類問題時,抽樣過程是你所接觸到的統計學主要內容的核心。其基礎原理非常簡單,盡管在實踐中其精細到已衍生出了各種分支原理,而其中一些并不可信。如果你有一桶豆子,有些是紅色,有些是白色,現在只有一個辦法能讓你準確得知每種顏色的豆子各有多少:一顆一顆地數。不過,還有個方法更加簡便可行:隨便抓一把豆子,然后數出紅色豆子有多少顆,設想紅色豆子在這一把豆子中所占的比例和桶里紅色豆子在所有豆子中所占比例相同,由此便可大致知道桶里紅色豆子究竟有多少顆。如果樣本規模夠大,且選擇得當,那么它在大多數情況下完全可以代表整體。否則,這種方法還不如高明的猜測來得精確,除了營造出一種所謂的科學精確性的虛假氛圍,這種方法毫無可取之處。可悲的是,各種各樣的結論就是從這些要么帶有偏差,要么過于微小或二者兼而有之的樣本中獲得的,而我們卻并不知道自己所讀到的這些結論或自以為清楚的這些結論來自這樣的樣本。
有關耶魯畢業生的收入報告就來自這樣一個樣本。我們之所以如此肯定是因為理智告訴我們,要聯絡到所有尚在人世的1924 屆畢業生根本不可能。多年之后,許多人的地址已經無從得知。
而且,就算知道了這些人的詳細地址,他們也未必會答復調查問卷,尤其是這種關系到個人隱私的問題。就一些郵寄問卷而言,有5%或10%的回復率就已然很高了。耶魯大學畢業生的收入調查問卷的回復率也許更高一些,但絕不可能高到百分之百。
因此,我們得出結論——該收入數據來自這樣一個樣本,即樣本對象由既有明確地址又回復了問卷的畢業生成員組成。該樣本具有代表性嗎?也就是說,我們能否假定該樣本群體成員的收入與那些聯系不到或沒有回復問卷的成員的收入處于相同水平?
哪些人將問卷丟進了廢紙簍?
在耶魯畢業生名單中,誰是那些“地址不詳”的迷途羔羊呢?是華爾街富商、公司董事、制造公司和公共事業部門的高管等這些高收入者嗎?不,要想獲知這些富人的地址并不難。即使有些巨商富賈早已忘了和校友辦公室保持聯系,我們仍可以在《美國名人錄》(Who’s Who in America)以及其他通信錄中找到他們的地址。不妨這樣猜測一下,那些失去聯系的人在獲得耶魯大學學士學位之后的多年間,沒有實現當初的抱負、功成名就。他們淪落成了普通的小職員、機械工、流浪漢、失業的酒鬼、勉強糊口的落魄作家和藝術家……在25111美元的收入單上,這些人占據了一半甚至更多。他們不常參加同學聚會,因為他們連路費都沒有。
哪些人將問卷丟進了廢紙簍?我們對此不能確定,但至少能猜到這些人的工資還沒有高到能拿出來炫耀的份兒上。他們有點像這樣的人:第一次領薪水時,發現工資單上附了張小紙條,要求對自己的薪水保密,不要打探同事之間的薪水。“放心好了,”他們會對老板說,“我和您一樣對這點兒薪水感到丟人。”
顯然,這樣的樣本遺漏了最有可能拉低年收入平均值的兩類群體。25111美元這一數據本身就能說明問題。即使這是一個真實的數據,它也只代表1924屆畢業生中有明確地址并愿意站出來公開自己收入的人的情況。即便如此,前提還得假設這些紳士們說的都是實話。
也許是我們問錯了人?
不要輕率地做出這樣的假設。一類被叫作市場調查的抽樣研究表明,我們幾乎不能做這樣的假設。以前有人曾做過一個旨在研究雜志讀者群的挨家挨戶的調查,其中有這樣一個關鍵問題:你們家一般都看什么雜志?調查人員將調查結果制成表格并加以分析后發現:大多數人喜愛《哈珀斯》(Harper’s)雜志,喜歡《真人真事》(True Story)雜志的人卻不多。但當時出版商的數據卻清楚地表明:《真人真事》的發行量高達數百萬份之多,而《哈珀斯》的發行量只有幾十萬份。本次調查的設計者們自嘲道:“也許是我們問錯了人?”
可事實并非如此,這些問卷覆蓋了全美國范圍內的各類社區。因此,唯一合理的解釋就是許多調查對象在回答問題時并未說實話,這導致該調查所發布的數據有偏差。
最后,人們發現,如果想知道某些人喜歡看哪種雜志,直接問他們是沒有用的。登門佯裝收購廢舊雜志反而會讓你收獲很多。接下來你要做的無非就是數清楚分別有多少本《耶魯評論》(Yale Reviews)和《愛情故事》(Love Romances)。就算是這種頗令人感到懷疑的方法也無法令你得知人們究竟在讀什么雜志,而只能告訴你他們曾經有什么雜志。
同樣道理,下次若是你讀到美國人(最近大家總是聽到美國人怎么了,不過大部分內容并不可信)平均每天刷牙1.02次時(該數據是我剛編出來的,不過也許編得和其他數據一樣逼真)問自己一個問題:人們怎么可能算得這么精確?如果某位女士通過無數廣告宣傳得知不刷牙有違社交禮儀,那她還會向陌生人坦陳自己有時并不按時刷牙嗎?對那些只想知道人們對刷牙有何看法的人而言,這個統計數據也許才有意義,但在反映人們刷牙的頻率問題上,該數據并沒多大作用。
一條河流永遠不會高過其源頭
我們知道,一條河流永遠不會高過其源頭。但如果在某個地方藏有一個水電站,這似乎可以做到。同理,抽樣調查的結果不會比它所基于的樣本本身更好。當經過層層統計操作,數據被過濾成一個小數點后幾位的平均數時,該結果就會令人們堅信。但是,如果對其抽樣過程做進一步分析,也許會打破常理。
在早期,癌癥能否被治愈?也許可以。但通常使用的據說最能證明這一點的數據其實并不能證明這一點。康涅狄格州腫瘤研究所掛號處那些數據記錄可一直追溯到1935年,這些數據似乎顯示,從1935年到1941年間,癌癥術后5年的存活率大幅提高。其實,這些數據記錄從1941年才開始采集,在此之前的所有數據都是追查所得。許多病人早已離開了康涅狄格州,他們是否尚在人世不得而知。按照醫學記者萊昂納德·恩格爾(Leonard Engel)的說法,由此而導致的偏差足以解釋術后存活率為何會出現大幅提高的背后原因。
為了更具價值,一份基于樣本的報告必須使用一個具備代表性的樣本,該樣本必須排除產生偏差的任何可能性。這正是耶魯大學畢業生調查數據不具價值的原因,也是許多報紙和雜志內容缺乏實質意義的原因。
一位心理醫生曾寫報告說,其實每個人都是神經質的。拋開使用“神經質”一詞會破壞該詞所具有的意義不談,先看看這位醫生的樣本吧。也就是說,這位心理醫生的觀察對象都是哪些人?原來,這一富有“啟發性”的結論是他觀察自己的病人得來,這些病人與普通人樣本有著天壤之別。如果一個人精神正常,我們的這位醫生根本就見不到他。
以這種方式再仔細看看你所讀到的東西,你就可以避免相信許多似是而非的東西。
偏差總會有原因
還要記住:導致偏差的顯性原因和隱性原因都有可能輕易摧毀一個樣本的可靠性。也就是說,即使找不到明顯的偏差來源,但只要在某處可能存在偏差,你就要對結果保持一定的懷疑。事實上偏差總會有原因。如果你對此還心存疑慮,那么1948年和1952年的總統大選便足以證明這一點。
證據可追溯至1936年《文學摘要》(Literary Digest)對當年總統大選預測失敗的事例。曾經精確預測出1932年大選結果的一千萬電話用戶和《文學摘要》的訂閱者們令倒霉的雜志編輯相信蘭登(Landon)將獲得370票,羅斯福(Roosevelt)只有161票。經過了如此檢驗的調查群體怎么會有偏差呢?然而偏差確實存在。一些大學論文和其他事后調查發現:在1936年有錢用電話和訂雜志的人并不具有代表性。從經濟角度來看,他們是一類特殊人群。該樣本之所以帶有偏差是因為事實最后證明,該樣本對象都是共和黨選民。樣本顯示蘭登會勝出,但其他選民卻選擇了羅斯福。
基本樣本就是所謂的“隨機”樣本,是從“整體”中隨機抽取出來的,統計學家們所說的“整體”是指以樣本作為其組成部分的整體:從一沓索引卡中抽取每張卡上的第10項;從一堆紙中隨意抽取50張;對市場上碰見的第20個人進行采訪調查。
檢驗隨機樣本的方式是:在一個總體中,每個人或每件事被抽樣的概率是相等的。
純隨機抽樣是唯一可以充分自信地用統計學理論進行檢驗的方法,但這里也有一個問題:該方法獲取樣本的難度大、費用高、使用范圍小,僅成本一項都難以負擔。一個更為經濟劃算的替代方法是分層隨機抽樣法,該方法在民意測驗和市場調研等領域被普遍采用。
要獲取這種分層樣本,需要將總體分為若干部分,每一部分與其普遍性程度要成比例。這時麻煩就出現了:你得到的分組比例信息未必正確。你會指示調查員們務必要調查采訪足夠多的黑人,在多個收入選項中,要保證接受每一項調查的人員的比例符合要求,還要采訪調查一定數量的農民等。同時,還要確保每一組中40 歲以上和40 歲以下的人數相等。
這聽起來不錯,但結果如何?在黑人或白人的問題上,調查員倒通常不會輕易出錯。但在按收入分組時,可能問題較多。就拿農民來說,對于一個平時在城里上班,閑暇時去農場干活的人,他算不算農民?即使在年齡問題上也有一大堆麻煩——簡單的做法是選擇明顯小于40歲或大于40歲的人作為調查對象。但這種樣本也有偏差,因為其中缺少將滿40歲和剛過40歲的群體。這樣一來,你就很難達到既定目標。
最重要的是,你如何在分層內部獲取隨機樣本呢?最簡單的做法是列出所有人的姓名,然后從中隨機抽取若干,但這樣做成本太大。如果你改為上街做隨機調查,就會因遺漏了宅男宅女而產生偏差;如果你挨家挨戶做上門調查,就會遺漏大多數白天上班的人;如果你轉而改為晚上做調查,還是會遺漏晚上在電影院和夜總會的人。
民意調查最終都會演變成一場反對偏差來源的持久戰。所有信譽良好的民意測驗機構都在進行著這場戰爭。但閱讀調查報告的讀者應謹記:這種戰爭沒有絕對的贏家。如果你看到類似于“67%的美國人都反對……”的報道時,不要急著下結論,而是應當仔細想想,哪些美國人中的67%?
一般而言,民意調查都會帶有特定方向的偏差。如果你對這些民意調查的結果有所質疑,你可以收集有力證據來證明,比如《文學摘要》的方向錯誤。《文學摘要》的錯誤在于它選擇了與普通人相比生活更為寬裕、受過良好教育、消息靈通、警惕性高、著裝雅致、行為保守且愛好較為固定的群體作為調查對象。
我不妨舉個例子,這樣你就能看出這樣的偏差會產生怎樣的結果。假設你是一位被分派到街道某個角落的調查員,你發現了兩個符合調查對象條件的人:年逾40歲且居于城市,其中一人衣著整潔、文質彬彬,另一位卻邋遢粗暴。為了完成你的任務,你自然而然會走向那個外表博人好感的家伙,而你遍布全美國的同事也會做出同樣的選擇。
在自由人士和左翼團體中有不少人強烈反對民意調查,他們普遍認為這種調查都是人為操縱的。之所以會產生這種看法,是因為民意調查的結果往往不符合保守之人的觀點和意愿。以1936年總統選舉的民意調查為例,他們指出調查結果顯示的是共和黨人會當選,然而不久之后選民們卻做出了完全相反的選擇。
事實正如我們所見,完全沒有必要操縱一場民意調查,也不用為了制造一種假象而刻意扭曲調查結果。如果樣本的偏差與期望的結果一致,就能達到自動操縱的效果。
《統計數據會說謊》,[美]達萊爾·哈夫著,靳琰、武鈺璟譯,中信出版集團2018年1月。


· 相關信息 ·
 
 

Produced By 大漢網絡 大漢版通發布系統 新凤凰彩票_新凤凰彩票平台_新凤凰彩票官网