統(tǒng)計陷阱

出版時間:2002-6  出版社:上海財經(jīng)大學(xué)出版社  作者:[美] 達(dá)萊爾·哈夫  頁數(shù):137  字?jǐn)?shù):88000  譯者:廖穎林  
Tag標(biāo)簽:無  

內(nèi)容概要

《統(tǒng)計陷阱》本書是美國著名的統(tǒng)計學(xué)家達(dá)菜爾·哈夫的名著。該書自1954年出版至今,多次重印并被譯成多國文字,是一本影響深遠(yuǎn)的經(jīng)典性著作?!督y(tǒng)計陷阱》一書之所以能夠歷久彌新,是因為其實用性。隨著我國經(jīng)濟(jì)持續(xù)發(fā)展,我們將接觸到越來越我我的統(tǒng)計數(shù)據(jù)等等,去粗取精、去集思廣益存真、進(jìn)行鑒現(xiàn)了一些統(tǒng)計語和方法,但作者重說明、輕證明,重文字描述、輕理論推導(dǎo),并結(jié)合活生生的案例,語方輕松詼諧,深入淺出,故即使從培養(yǎng)接觸過的統(tǒng)計專業(yè)知識的讀者也能掌握書中介紹的統(tǒng)計國想和方法。

書籍目錄

總序譯者的話緒言  第一章    內(nèi)在有偏的樣本  第二章    精心挑選的平均數(shù)  第三章    沒有披露的數(shù)據(jù)  第四章    毫無意義的工作  第五章    驚人的統(tǒng)計圖形  第六章    平面圖形  第七章    不相匹配的資料  第八章    相關(guān)關(guān)系與因果關(guān)系  第九章    如何進(jìn)行統(tǒng)計操縱  第十章    對統(tǒng)計資料提出的五個問題

圖書封面

圖書標(biāo)簽Tags

評論、評分、閱讀與下載


    統(tǒng)計陷阱 PDF格式下載


用戶評論 (總計34條)

 
 

  •   啟發(fā)思維、課堂上很難得能學(xué)到的知識;但是很有趣,而且終身受用
  •   讀書最大的好處是掌握常識,而我們從小學(xué)到大學(xué)的學(xué)習(xí)過程中,仍然欠缺很多常識,包括哲學(xué)、心理學(xué)、經(jīng)濟(jì)學(xué)等等。這是教育體系的問題,與整個社會的引導(dǎo)也大有關(guān)系。因為大眾欠缺常識導(dǎo)致的下一代欠缺常識讓人心痛!
  •   薄薄的書,不起眼,但是蠻有意思的。
  •     讀完這本統(tǒng)計數(shù)據(jù)會撒謊,給我印象最深的應(yīng)該是那種批判性的思維,在現(xiàn)代中國人們正缺乏這種思維,批判的思維,勇于質(zhì)疑的思維,某某權(quán)威專家說的話往往會對人們起著巨大的影響,比如悟本堂事件引起了對綠豆的瘋搶,等等類似的事件有很多。而這本書中用淺顯易懂的話,生動的語言揭示了許多統(tǒng)計方面的謊言,又給他人以啟示統(tǒng)計數(shù)字會撒謊,我們需要帶著腦子去思考去批判懷疑。
      我們所在的世界是由媒體所構(gòu)建的世界,因為我們正是通過媒體來感受了解這個社會。這本書著眼于統(tǒng)計,用淺顯易懂的話,生動的語言揭示了許多統(tǒng)計方面的謊言,給他人以啟示統(tǒng)計數(shù)字會撒謊,我們需要帶著腦子去思考去批判懷疑。本書分為10章。前9章是“教你如何利用統(tǒng)計數(shù)據(jù)達(dá)到瞞天過海的手段”即揭示了一些偽裝統(tǒng)計資料來達(dá)到應(yīng)有目的的手段。包括“內(nèi)在有偏的樣本 ,精心挑選的平均數(shù), 沒有披露的數(shù)據(jù), 毫無意義的工作 ,驚人的統(tǒng)計圖形平面圖形, 不相匹配的資料相關(guān)關(guān)系與因果關(guān)系.,如何進(jìn)行統(tǒng)計操縱“。第10章是告訴我們?nèi)绾螀^(qū)分辨別,”怎樣憑雙眼就能識破虛假的統(tǒng)計資料并揭穿它; 同樣重要的是, 如何在具有前述欺騙性的數(shù)據(jù)海洋中找出可靠有用的資料“。方法是對統(tǒng)計資料提出的五個問題,在尋找這些問題答案的同時,你將避免接受一些不真實的資料。第一誰說的?首先要尋找的是偏差,包括有意識的偏差和無意識的偏差:然后對資料多看一眼究竟是誰做出了結(jié)論還是僅僅與權(quán)威人士沾邊。
      第二 他是如何知道的?注意樣本的有偏.是由于選擇不當(dāng)還是由刻意挑選有利的樣本造成的。
      第三遺漏了什么? 樣本包含了多少案例。這個數(shù)據(jù)的缺失,特別當(dāng)信息的來源存在著利害關(guān)系時,已足以使你對整件事情提出質(zhì)疑
      第四是否有人偷換了概念? 分析統(tǒng)計資料時 ,留心從搜集原始資料到形成結(jié)論的整個過程中,是否存在著概念的偷換。
      第五這個資料有意義嗎?
      總的來說,通過對統(tǒng)計數(shù)據(jù)的包裝美化使數(shù)據(jù)表現(xiàn)在有利于包裝者的方面,這就可能導(dǎo)致對數(shù)據(jù)的利用來達(dá)到滿足自己的私欲,我們所看見的世界也許不是真實的世界。那我們應(yīng)該何去何從,我們需要的是批判質(zhì)疑的精神多去思考而不是盲從,多去懷疑而不是直接相信,我們看到太多太多無知而盲從的人,希望大家能看看這本書會有用的。還有不喜勿噴。。。。
      
  •     作者對“行騙”方式的歸納是:
      1.誰說的?
      2.他們是如何知道的?
      3.遺漏了什么?
      4.是否有人偷換了概念?
      5.這個資料有意義嗎?
      
      我向從另一個角度來重新歸納一下這個問題:
      1. 樣本本身
      2. 選擇的數(shù)據(jù)
      3. 表達(dá)形式
      
      首先,從樣本來看
      
      第一,樣本總量必須足夠大時,得出的數(shù)據(jù)才會有代表性。因為統(tǒng)計規(guī)律只有在樣本容量足夠大時才能表現(xiàn)出概率,如在牙膏作用的案例中,商家會選擇12個用戶這樣的小樣本來進(jìn)行測試;這樣經(jīng)過多次測試,即使本來牙膏沒有任何作用也可能因為偶然因素而有一兩個成功案例,并且得到的百分比數(shù)會因為樣本總量太少而顯得很大。
      
      第二,即使樣本足夠大(事實上也很難做到真正的“足夠大”,實驗所能得到的結(jié)果只能無限逼近概率),數(shù)據(jù)本身也會存在一定的上下波動,存在偶然性,如在智商測試的案例中可能會有正負(fù)三的波動;
      
      第三,在得到樣本的時候可能存在一定的偏移,而不能代表所有的案例,如:在調(diào)查薪水的案例中,愿意填寫問卷或者回答問題的大多是薪金水平相對較高的人群;
      
      第四,得到的樣本數(shù)據(jù)很有可能是假的,即被調(diào)查者會因為調(diào)查時的各種環(huán)境因素或者面子問題提供假的數(shù)據(jù)而影響了樣本的真實性。如在測試就業(yè)機(jī)會的案例中,黑人和白人調(diào)查者會得到很不一樣的結(jié)果。
      
      其次,從選用的數(shù)據(jù)來看
      
      第一,選擇需要的平均數(shù),在不完全的正態(tài)分布樣本中,平均數(shù),中值和眾數(shù)的值會相差很多。個人認(rèn)為主要是平均數(shù)和中值的區(qū)別,在不完全的正太分布樣本中,平均數(shù)很有可能因為某個相對很高的值被拉高,如某個億萬富翁在拉高當(dāng)?shù)厥杖胨降陌咐校兄翟谶@里相對能更真實的表達(dá)當(dāng)?shù)氐氖杖胨健?br />   
      第二,故意避開一些有峰值的數(shù)據(jù),如在計算年營業(yè)額時今年和去年的數(shù)據(jù)選擇三四月作為分界點,而去年的復(fù)活節(jié)在三月,今年的復(fù)活節(jié)在四月這樣避開某一峰值。
      
      最后,從表達(dá)形式來看
      
      第一,最明顯的是對圖表的伸縮。因為圖表可以給人對趨勢和對比的數(shù)據(jù)很直觀的印象,但是相同的數(shù)據(jù)通過改變比例,以及面積和體積的不同表達(dá)方式,會讓原本2倍的差距讓人感覺變成4倍甚至8倍。而這些對于隨意的讀者是不會發(fā)現(xiàn)的。
      
      第二,用文字游戲,最明顯的是百分比的不同“單位1”,來達(dá)到視覺沖擊。如先降價50%,再降價50%,不是降價100%,而是75%的案例,貸款息率6%,說成借100元,還6元的文字游戲,和從康奈爾大學(xué)的女性單身率的統(tǒng)計數(shù)據(jù)并不代表有權(quán)威的康奈爾大學(xué)做的統(tǒng)計。
      
      第三,將看似有聯(lián)系,但實際沒有因果關(guān)系的兩個數(shù)據(jù)放在一起,強(qiáng)硬的將兩者聯(lián)系在一起或者顛倒因果。比如屋頂上的鴿子數(shù)和家里的孩子數(shù)的案例和健康的人和身上虱子數(shù)的案例。
      
      作者的觀點是,對于每一個一眼看上去很華麗的數(shù)據(jù)我們都要保持懷疑的態(tài)度,但也不能因此就不相信每一個統(tǒng)計數(shù)據(jù)。就像不會因為看過一本不好的書就討厭閱讀一樣。
  •      前段時間看到一份數(shù)據(jù),說中國人均存款是7萬多。新浪微博做了一個熱點話題,問“你拖后腿了嗎”?如果新浪多點節(jié)操,這個話題的相關(guān)問題應(yīng)該是:“你又被平均數(shù)據(jù)忽悠了嗎?”
       互聯(lián)網(wǎng)帶來的信息劇增給我們處理信息的能力提出了新的要求。尤其在中國,太多中國人缺乏批判性思維。獲取信息不問信息源,讀到媒體公布的數(shù)據(jù)不問黑白照單全收。
       三尺之冰非一日之寒。我想這和家庭教育與學(xué)校教育的耳濡目染有千絲萬縷的關(guān)系。依中國盛行的教育文化,對于晚輩的期待是對長輩的絕對服從。在學(xué)校方面,主要是標(biāo)準(zhǔn)化、制度化的應(yīng)試教育機(jī)制扼殺了兒童的批判思維。
       然而,擁有質(zhì)疑精神卻是一項非常必要的素質(zhì),甚至是防被忽悠的重要生活技能。
       就從《統(tǒng)計數(shù)字會撒謊》開始吧。一本薄薄的小書,講的也是“顯而易見”的道理。正如常識并非人盡皆知,顯而易見的知識也并非那么明顯。這些明顯而又常常被忽略的統(tǒng)計學(xué)的騙術(shù)包括:
       一、20世紀(jì)四五十年代用電話民調(diào)預(yù)測美國總統(tǒng)大選結(jié)果,結(jié)果預(yù)測和實際結(jié)果大相徑庭。因為當(dāng)時能用上電話的家庭都比較富有,是偏保守的家庭。在一人一票的民主制里,富有階層可是占少數(shù)的。
       二、某女校的女學(xué)生有1/3嫁給了學(xué)校的老師。不動腦筋的話,你會理所當(dāng)然認(rèn)為“哇塞,那豈不是好多?”??墒悄悴略趺椿厥??這個學(xué)校只有3個女學(xué)生——沒錯,就一個女學(xué)生嫁給了老師而已。
       三、當(dāng)媒體試圖利用二維圖表來蠱惑你,你也很可能落入陷阱。只需調(diào)整縱坐標(biāo)的寬度,同樣的數(shù)據(jù)給人帶來的直觀感受會千差萬別。作者甚至還舉了一個很弱智的例子,當(dāng)我們討論A是B的兩倍時,如果以圖表作比較,把A的長度變成B的長度的2倍,那么讀者會以為其實A是B的8倍!因為人有能力將二維圖像轉(zhuǎn)換為三維實物,長度是2倍,寬度是2倍,高度也是2倍呢!
       四、最坑人的就是平均數(shù)。就像網(wǎng)友嘲笑的,一個貪官存款100萬,一個平民存款1萬,平均存款就是50.5萬。算術(shù)平均數(shù)最具欺騙性,明智起見我們還是多參考一下中位數(shù)和眾數(shù)吧。
       五、信息源很重要。利益相關(guān)方的調(diào)查結(jié)果可信度會大打折扣。讀到一組數(shù)據(jù)請詢問出處。而且不要被“光環(huán)效應(yīng)”搞得暈頭轉(zhuǎn)向。書中提到有一個調(diào)查者在康奈爾大學(xué)選取了一組樣本進(jìn)行試驗,并且在試驗結(jié)果開頭寫道:“來自康奈爾大學(xué)的研究報告顯示……”。除了那些參與者是康奈爾的學(xué)生,這個份報告和康奈爾半毛錢關(guān)系沒有。但是調(diào)查人員很狡猾地利用了康奈爾的聲望為其報告背書。
       此處省略一萬字。
      
       有些翻譯還是有問題。比如141頁最后,“如果你以每月等額分期還款的形式從銀行以6%的利率借了100美元,應(yīng)支付的利息的3美元。但如果是另一種的6%貸款,有時也稱為借100美元還6美元,你就需要償還前者的兩倍即6美元?!?美元的利息是怎么算出來的???這種借貸法沒聽說過啊。
      
       總的說來還是很有價值的一本書,尤其是在中國這種容易輕信、聽風(fēng)就是雨、大眾以及媒體從業(yè)人員的媒介素養(yǎng)均較為低下的環(huán)境里,這書顯得太必要了。
      
       我相信質(zhì)疑精神和智商無關(guān),只是看你愿不愿意克服惰性,少偷一點懶。
  •     花了不到一天的時間看完了這本書,感覺收獲還行,知道了一些利用統(tǒng)計學(xué)來欺騙的把戲,最大的收獲是以后再看到數(shù)據(jù)或者是圖表,就會多問自己幾句“有沒有搞混概念啊”,“這個圖是不是有欺騙因素啊”“是不是以偏概全了啊”“是不是濫用正相關(guān)關(guān)系了啊”等等,我覺得讀完一本書,不一定是要牢牢記下許多你本不知道的知識點,重點在于它或多或少的改變了你的思維模式,或者說以后你再接觸到這本書所側(cè)重的內(nèi)容時,你會有一種內(nèi)行人看門道的感覺。
  •     對于一個學(xué)統(tǒng)計學(xué)了差不多三年的前社會科學(xué)研究生來說,這本書的內(nèi)容顯然挺淺顯的;) 不過正是由于淺顯易讀,而且引用的例證常見于報端,才使這本書的實用性更強(qiáng)。
      推薦給所有想要培養(yǎng)自己“批判性思考能力”的人們!
  •     直接上最后一頁:
       學(xué)術(shù)結(jié)論、實驗結(jié)果以及報道引用都可能產(chǎn)生偏差,這些偏差可能是測量標(biāo)準(zhǔn)的改動造成的,也可能是不正確的測量方法造成的。
      
       對于相關(guān)系數(shù)也課題同樣的問題:數(shù)值是否足夠大,從而能解釋問題?觀察值是否足夠多,從而能保證結(jié)論的可靠性?
      
       當(dāng)均值與中位值相差甚遠(yuǎn),需要注意那些沒有標(biāo)明類型的平均數(shù)。
      
       在分析統(tǒng)計資料時,請留心從搜集原始資料到形成結(jié)論的整個過程中,是否存在這概念偷換。
      
       讓人印象深刻的精確數(shù)據(jù)也會與實際情況向左。
      
      
      
     ?。ㄆ鋵嵖梢钥纯从⑽脑妫烙嫴粫y的樣子……)
  •     老實說,草草通讀了全文后并未有醍醐灌頂?shù)恼鸷?,作者無非精巧地將統(tǒng)計中騙人的小伎倆,平實幽默而又系統(tǒng)化得展現(xiàn)在讀者眼前,至少就筆者而言,恐怕是雖無騙人經(jīng)驗,但這些拙劣而淺薄的伎倆怕是見得多了。受騙上當(dāng)多了即使成不了騙術(shù)大師,也算是個合格的倒霉蛋了。
      
      回憶起當(dāng)時某某養(yǎng)生專家號稱一個蘋果等于兩碗白米飯,嚇得我正在節(jié)食減肥的阿姨連蘋果都不敢吃了。其理由無非如下,蘋果中的果糖和兩碗白米飯中的果糖相同,而眾所周知糖分會讓人長胖,所以減肥者吃一個蘋果還不如吃兩碗米飯。呵呵。此時米飯中的碳水化合物想必已掩面流淚不止。類似的還有近日又一養(yǎng)生磚家所說,牛奶比可樂不健康得多,這次他比的是脂肪,別忘了可樂中脂肪的含量是0呀,談脂色變的人們趕快扔掉手中的牛奶投入可樂的懷抱吧!!反正我就是拿我的長和你的寬比了怎么樣吧,單位一樣就可以了,想要什么結(jié)論達(dá)不到?
      
      同理還有據(jù)某正派主流XX日報,中國去年收繳的違法槍支才16萬,人家老美至少有2億槍支散落民間呢,數(shù)字差了6000多倍呢,可想而知天朝治安比人家好得多呢。先不論我們這是一年收繳數(shù)量人家是總量,而且人家是明正光大合法登記的,我們這只不過是收繳來的一部分,怕是連中國真正冰山一角都不到。更何況我國除了狂熱的槍械愛好者外,哪個守法公民會有配槍的習(xí)慣?那這些槍支到底在哪些人手里呢??而美國持槍已是傳統(tǒng),深入民心,相反該問有多少家庭沒有持槍。一頭老虎口中的虎牙和一頭大象口中數(shù)十倍大于前者的象牙,你覺得哪個對你的生命安全威脅更大呢???是故,16萬和2億沒有可比性,但是!震懾力與感染力的效果已經(jīng)達(dá)到。
      
      因為這些數(shù)據(jù)說針對的聽眾并不是我們!對于一個具有基本高中生物知識的人而言,那些營養(yǎng)專家的話根本就是放屁,因為我們能輕易分析出其中數(shù)據(jù)比較的荒誕之處,可是恰巧這些所謂的專家也根本沒有把我們當(dāng)作預(yù)期的受眾。對于那些阿姨媽媽而言,那些所謂的糖份脂肪比較已經(jīng)非常得科學(xué)嚴(yán)謹(jǐn)了,而一個蘋果等于兩碗米飯這個結(jié)論又是如此震嚇,于是他們不免感嘆這個專家好牛逼呀!!所以綠豆湯變得可以治百病,生吞泥鰍可以延年益壽。
      
      你能說那些阿姨媽媽完完全全不懂得數(shù)據(jù)背后的貓膩?別忘了在菜市場,他們知道過秤時攤販故意將4.5的單價打成0.45之后計算總價時再相應(yīng)乘以十倍其中的貓膩。學(xué)了九招騙人秘籍的聰明人,你可知道其中的玄妙?
      
      所以當(dāng)你對數(shù)據(jù)開始質(zhì)疑之后,并不代表著你會發(fā)現(xiàn)其背后的秘密。正如作者全文最后所舉的“176年間密西西比河縮短了242 英里,平均一年1 1/3 英里。任何人也將看到再經(jīng)過742 年,下密西西比河將變得只有1 3/4 英里長”若非作者指出其中錯誤,至少對于地理白癡的我而言,實在說不出這份數(shù)據(jù)荒唐在哪,或者說為什么這個平均值不能推算。
      
      所以,在那些你所不了解的專業(yè)領(lǐng)域,若真有一個專家利用高明的統(tǒng)計數(shù)據(jù)展示給你看一個精美包裝的錯誤結(jié)果,恐怕我們所有人也很難比阿姨媽媽們顯得更聰明些??闯銎淙绾涡序_的前提是你知道他數(shù)據(jù)中哪里打了馬虎眼,可是往往這個前提比歸類他的行騙手段更難。真是這樣,恐怕也只能博覽各家學(xué)說,尋求其它與之矛盾的專家著述解疑釋惑了。
      
      
      附:上文所說電子秤的秘密其實不難,首先電子秤往往保留兩位小數(shù),這里假設(shè)有單價3.75元的草莓,你買5斤。正常應(yīng)是5*3.75=18.75元,而現(xiàn)在通過上述手段,以0.5與0.375過秤,因為只保留兩位小數(shù),就變成了0.19也就是19元了。
  •     一本寫得非常通俗易懂的書,即使是對數(shù)學(xué)對統(tǒng)計非常小白的人都能夠輕松的讀懂并且明白。在每一章中都穿插非常多的實例,生活化的語言使這本書更加的風(fēng)趣。
      雖然對于專門做統(tǒng)計的人來說可能是一本非常淺薄的書,但是對于普通人,能夠教會我們用理性的眼光來看待充斥在各個消息平臺上的統(tǒng)計數(shù)據(jù),不要讓統(tǒng)計專家利用數(shù)據(jù)欺騙了我們。
  •     關(guān)于本書,思維導(dǎo)圖:
      http://www.douban.com/note/227034902/
      
      在遇到統(tǒng)計數(shù)字時,不應(yīng)不加思考地全盤接受,也不能以最壞的惡意揣測給出統(tǒng)計數(shù)字的人,但至少應(yīng)該理智地分析,問問自己一下幾個問題:
      
      1、樣本是怎么組成的?
      2、對于結(jié)果,有哪些有形的誤差,更重要的是有哪些無形的誤差?
      3、隨機(jī)樣本是否具有代表性?
      
      4、看到平均數(shù)時,首先問問:是什么的評價?包括了哪些人?
      5、分清楚到底是均值、中位數(shù)、眾數(shù)?了解正態(tài)分布曲線。
      
      6、是否有遺漏哪些重要的數(shù)據(jù)
      7、樣本的精度:可能誤差和標(biāo)準(zhǔn)誤差
      
      8、圖表的畫法是否有故意夸大或縮小之嫌?
      9、圖形是否有視覺誤差?
      
      10、調(diào)查報告搜集的資料是否相關(guān),或者完全不同,只是部分近似?
      11、數(shù)據(jù)之間的相關(guān)性是怎樣的?
      
  •     Chapter 1 內(nèi)在有偏的樣本
      1.一般情況下,郵寄問卷的回收率到5%~10%就已經(jīng)相當(dāng)可觀了。
      2.根據(jù)樣本得到的結(jié)論不會比樣本更精確。
      3.無形的誤差與有形誤差一樣容易破壞樣本的可信度。也就是說,即使你找不到任何破壞性的誤差來源,但只要有產(chǎn)生誤差的可能性,你就有必要對結(jié)果保留一定的懷疑。
      4.最基本的樣本是隨機(jī)樣本,它是指完全遵循隨機(jī)原則從總體中選出的樣本。總體即形成樣本的母體。
      5.隨機(jī)樣本的檢驗方法是:總體中的每個名字或每個事情是否具有相同的幾率被選進(jìn)樣本?
      6.純隨機(jī)樣本是唯一有足夠把握經(jīng)受統(tǒng)計理論審查的樣本。但很多情況下,獲得這種樣本難度很大并且非常昂貴。所以現(xiàn)在多數(shù)使用分層隨機(jī)抽樣。
      7.一般而言,民意調(diào)查都帶有一定程度的誤差。
      
      Chapter 2 精心挑選的平均值
      1.當(dāng)你被告知某個數(shù)是平均數(shù)時,除非能說出它的具體種類——均值,中位數(shù),還是眾數(shù),否則你對它的具體涵義仍知之甚少。
      2.在處理諸如人類特征的數(shù)據(jù)時,各種平均數(shù)的數(shù)值十分接近。
      3.當(dāng)你看到某個平均收入時,首先問問:是什么的平均?包括了哪些人?
      
      Chapter 3 沒有披露的數(shù)據(jù)
      1.采用嚴(yán)重有偏樣本幾乎能夠產(chǎn)生任何人需要的任何結(jié)果。
      2.通常情況下,單憑一個平均數(shù)來描述事物過于簡單,起不到作用,不管這個平均數(shù)是均值還是中位數(shù),也不管平均數(shù)的具體類型是否已知。
      
      Chapter 4 毫無意義的作品
      1.在所有抽樣研究中都有誤差,忽略這些誤差將導(dǎo)致一些愚蠢的舉動。
      2.只有當(dāng)差別有意義時才能稱之為差別。
      
      Chapter 5 令人驚奇的圖形
      1.加深人們對圖形印象的方法:
     ?。?)把圖形的底部抹去
      (2)改變橫坐標(biāo)與縱坐標(biāo)的比例關(guān)系。將縱坐標(biāo)的每一個刻度縮短為原來的1/10即可。
      2.圖形比文字更有效,因為圖形中不存在任何形容詞和副詞來破壞它所具有的客觀性幻想,而且誰也無法指責(zé)你。
      
      Chapter 6 一維圖形的濫用
      1.柱狀圖也具有欺騙性:在描述單一物體時,柱體改變寬度改變的同時,長度也發(fā)生變化;在描述三維物體時,物體的體積又不容易進(jìn)行比較,以上任何一種情況都提醒我們應(yīng)該對柱狀圖保留一些懷疑。
      
      Chapter 7 不完全匹配的資料
      1.不完全匹配的資料是一種保證你處在有利位置上的武器,而且屢試不爽。
      
      Chapter 8 相關(guān)關(guān)系的誤解
      1.兩個事物之間的關(guān)聯(lián)關(guān)系并不能用于說明其中一個將引起另一個的變化
      2.聯(lián)合變動的一個普遍形式是存在著真實的關(guān)系,但卻無法確定何為因何為果。有時因果可以不時地交換位置,或者實際上互為因果。
      3.相關(guān)顯示了一種趨勢,而這種趨勢通常并不是那種一對一的理想關(guān)系。
      
      Chapter 9 如何進(jìn)行統(tǒng)計操縱
      1.扭曲統(tǒng)計數(shù)據(jù)的最巧妙方法是利用地圖。充斥在地圖上的變化,往往隱藏了事實、扭曲了關(guān)系。
      2.變換基數(shù)還能產(chǎn)生增加折扣的幻覺
      3.將一些看似直接相加卻不能這樣操作的事情加在一起,會產(chǎn)生大量的欺騙和隱藏
      4.百分位數(shù)也同樣具有欺騙性
      
      Chapter10 如何反駁統(tǒng)計資料
      1.首先要尋找偏差。這種偏差的表達(dá)形式可能是錯誤的陳述,可能是不易被揭穿的含糊之詞,還可能是可以挑選適合的數(shù)據(jù),而將不合適的數(shù)據(jù)放在一邊。
      2.使用不正確的測量方式也是產(chǎn)生偏差的原因之一。
      3.當(dāng)某個權(quán)威人士被引用時,請弄清楚到底資料的內(nèi)容是權(quán)威的,還是僅僅車上了權(quán)威人士的大名
      4.看樣本是否有偏。觀察值是否足夠多,從而保證結(jié)論的可靠性
      5.當(dāng)均值與中位數(shù)相差甚遠(yuǎn)時,需要注意那些沒有標(biāo)明類型的平均數(shù)
      6.有時僅給出百分?jǐn)?shù)卻缺少原始數(shù)據(jù)也能造成欺騙
      7.在分析統(tǒng)計資料時,請留心從搜集原始資料,到形成結(jié)論的整個過程中,是否存在著概念的偷換。
      8.請記?。旱侥壳盀橹沟内厔荻际鞘聦?,而未來的趨勢只不過是受教育者的猜測。該方法暗含“其他所有條件都相同”以及“現(xiàn)有趨勢保持下去”的前提。但事實上,條件總是在變化。
      
  •      現(xiàn)在社會,人對數(shù)據(jù)相對比較高的敏感性,而且偏向于認(rèn)為既然統(tǒng)計出來的,數(shù)據(jù)的可信度應(yīng)該是比較高的,小數(shù)點什么的給人一種嚴(yán)謹(jǐn)和無懈可擊的感覺。
       出現(xiàn)一個統(tǒng)計數(shù)字,我們要思考:
       1.我們要考慮信息來源,這些數(shù)據(jù)是怎么獲得的?是權(quán)威機(jī)構(gòu)提供的還是假借權(quán)威機(jī)構(gòu)之名自己得出結(jié)論?具體的操作過程中會不會對被調(diào)查者或樣本有一定的偏向性?會不會有其他因素影響?統(tǒng)計要有整體概念,不能局限某一平均數(shù)值,要了解整體數(shù)據(jù)的分布。
       2.信息發(fā)布者的動機(jī)與信息是否有相關(guān)性?數(shù)據(jù)是否跟發(fā)布者利益相關(guān)?有相關(guān)的話動過手腳也是正常的,統(tǒng)計數(shù)值無非是為了我們已有的認(rèn)知服務(wù)好去引導(dǎo)大眾,而且數(shù)字容易讓讀者上癮,讓讀者有一種了解事實的錯覺。
       3.信息的語義問題,即統(tǒng)計上的概念偷換,語義不一樣的,統(tǒng)計也會給人一種很大的錯覺
       4.信息的完整性。比如小樣本的統(tǒng)計根本沒有代表性,因為信息不夠完整。
       猛然間覺得自己每天看那么多新聞中的數(shù)據(jù),尤其是國家政府發(fā)布的或者不正規(guī)機(jī)構(gòu)發(fā)布的,或者雜志媒體自己杜撰調(diào)查的,原來自己被騙了很多
  •     第一章 內(nèi)部有偏的樣本
      
      人們往往對問卷不會說真話。
      
      很多統(tǒng)計數(shù)字建立在統(tǒng)計者永遠(yuǎn)無法發(fā)現(xiàn)的事實上。
      
      要仔細(xì)審查整個抽樣的過程,一定要特別注意樣本所代表的范圍,不要想當(dāng)然地將范圍擴(kuò)大或縮小
      
      最基本的樣本是隨機(jī)樣本,指完全遵循隨機(jī)的原則從總體中選出樣本。
      
      隨機(jī)樣本的檢驗標(biāo)準(zhǔn)是:總體中的每個事物是否具有相同的幾率被選進(jìn)樣本?
      
      一般而言,民意調(diào)查都帶有一定的偏差。民意調(diào)查最終將演變?yōu)橐粓龊驼`差的遭遇戰(zhàn),而這場戰(zhàn)斗永遠(yuǎn)不會取得勝利。
      
      在看到“67%的美國人反對”時,應(yīng)保留這樣一個問題:67%的哪些美國人?
      
      由誰組成調(diào)查人員也會對調(diào)查結(jié)果產(chǎn)生微妙的影響。人們在接受調(diào)查時有迎合對方說好話的傾向。同時,不同的調(diào)查人員也會選擇不同的調(diào)查對象。
      
      第二章 精心挑選的平均數(shù)
      
      當(dāng)讀到“平均數(shù)”時,一定要弄清楚是算術(shù)平均數(shù)、中位數(shù)還是眾數(shù)(數(shù)字序列中出現(xiàn)次數(shù)最多的數(shù))
      
      在處理諸如人類特征的數(shù)據(jù)時,不同的平均數(shù)將大致相等,因為這些數(shù)據(jù)的分布十分接近正態(tài)分布。而在描述他們的經(jīng)濟(jì)收入時就不是如此了,它的算術(shù)平均值和中位數(shù)離得很遠(yuǎn)。
      
      當(dāng)你看到一個平均數(shù)時,首先問問:是什么的平均?包括了什么?
      
      對于那些未加解釋的平均數(shù)我們根本不用太在意。
      
      第三章 沒有披露的數(shù)據(jù)
      
      不充分樣本
      
      顯著性方法:反應(yīng)測驗數(shù)據(jù)以多大的可能性代表實際結(jié)論而不代表那些由于機(jī)遇產(chǎn)生的其他結(jié)論的方法。
      顯著程度通常用概率表示,通常5%的顯著程度是最低要求,有時需要更精確的1%的顯著程度,即意味著以99%的概率保證該結(jié)果是真實的。
      
      另一類被遺漏的數(shù)據(jù)是表明事物整體范圍的全距和與平均數(shù)偏離水平的數(shù)據(jù)。
      通常情況下,平均數(shù)----不管是否指明均值或中位數(shù),都由于過于簡單而導(dǎo)致無用。
      不要只看平均數(shù),而應(yīng)了解數(shù)值的變化范圍。
      
      將“正常的”與“期望的”混為一談使事情變得更糟?!罢5摹辈⒉坏扔凇昂玫摹?、“對的”、“應(yīng)該如此的”。
      
      第四章 毫無意義的工作
      
      對待抽樣結(jié)果應(yīng)注意它的范圍,其值不應(yīng)該是一個數(shù)值,而是一個帶有誤差的范圍,如100+-3
      
      只有當(dāng)差別有意義時才能稱之為差別。
      
      第五章 驚人的統(tǒng)計圖形
      
      陷阱1:在折線圖中,將圖形的底部抹去,而夸大變化趨勢。
      陷阱2:在折線圖中,改變橫軸與縱軸刻度的比例關(guān)系,將縱軸的每一個刻度縮減為原來的十分之一,而夸大變化趨勢。
      
      第六章 平面圖形
      
      不要使用形象化圖形。形象化圖形的面積或體積之比往往與其所代表的數(shù)值之比并不相同。
      第七章 不相匹配的資料
      如果你想證明某事,卻發(fā)現(xiàn)沒有能力辦到,那么試著解釋其它事情并假裝它們是一回事。
      
      當(dāng)遇到比率數(shù)字時,一定要弄清楚對比的對象是什么,而且要了解兩個對象的可比性。
      
      要弄清絕對值和相對值,許多情況下不能直接用絕對值進(jìn)行比較。
      
      銷售利潤率和投資回收率不是一碼事。投資利潤率,即用稅前利潤除以總投資,主要是看單位投資能產(chǎn)出多少利潤;銷售利潤率,即有稅前利潤除以銷售收入,看單位銷售能得到多少利潤。
      
      第八章 相關(guān)關(guān)系和因果關(guān)系
      
      陷阱:如果B總是緊跟著A出現(xiàn),那么A一定導(dǎo)致B。
      
      所謂“相關(guān)”,往往是通過“相關(guān)系數(shù)”這個精確的數(shù)據(jù)來證明兩件事物間具有關(guān)聯(lián)關(guān)系。它可以有多種不同的類型:
      1. 一種相關(guān)是通過機(jī)緣巧合而產(chǎn)生的。
      2. 利用小樣本,任何兩個你能想到的事件或兩組特性之間都能建立顯著的相關(guān)。
      3. 聯(lián)合變動的一種普遍形式是存在著真實的關(guān)系,但無法確定何為因,何為果。有時,因果可以不斷地交換地位,或者可以同為因果。
      4. 最具有戲劇性的相關(guān)是所有變量之間沒有任何影響,卻存在著顯著的相關(guān)。此時只能證明變量之間存在著相關(guān)關(guān)系,但是否存在因果關(guān)系仍是未知數(shù)。
      
      另一個需要留意的是,超過了推斷相關(guān)關(guān)系的數(shù)據(jù)范圍而得出的結(jié)論。正相關(guān)到了一定的程度之后會急劇地轉(zhuǎn)化為負(fù)相關(guān)。
      
      相關(guān)顯示了一種趨勢,而這種趨勢并不是那種理想的一對一關(guān)系。
      請時刻記住,即使某種相關(guān)關(guān)系是真實的,并有真實的因果關(guān)系,仍舊不能因此做出行為決策。
      
      第九章 如何進(jìn)行統(tǒng)計操縱
      
      扭曲統(tǒng)計數(shù)據(jù)最巧妙的方法是利用地圖。
      
      百分?jǐn)?shù)也給誤解提供了肥沃的土壤。和小數(shù)一樣,它也能為不確切的事物蒙上精確的面紗。
      任何建立在小樣本容量上的百分?jǐn)?shù)都可能產(chǎn)生誤導(dǎo),直接給出具體數(shù)值的大小將更有價值。如果再將百分?jǐn)?shù)表示成小數(shù)點后幾位的小數(shù)形式,你可能正從愚蠢邁向故意欺詐。
      
      變換基數(shù)能增加折扣的幻覺,當(dāng)商人向你提供一份“50%折上再20%折”的報價單時,那并不意味著70%的折扣,而只是60%,因為后20%折扣是用五折后的價格計算的。
      
      將一些看似能直接相加但卻不能如此操作的事情加在一起會產(chǎn)生大量的欺騙和隱瞞。允許所有百分?jǐn)?shù)直接相加的邏輯將得到各種奇談怪論。
      
      第十章 對統(tǒng)計資料提出的五個問題
      
      一、誰說的?
      首先要尋找偏差。
      有意識的偏差:錯誤的陳述、不易被揭穿的含糊之詞、刻意挑選合適的數(shù)據(jù)而將不合適的數(shù)據(jù)放在一邊、測量標(biāo)準(zhǔn)的改動、不正確的測量方法(如不加說明的“平均數(shù)”)
      無意識的偏差:通常更危險。
      所謂“權(quán)威人士”掩蓋了真實的資料來源。當(dāng)某個權(quán)威人士被引用時,請弄清楚到底資料的內(nèi)容是權(quán)威的,還是僅僅與權(quán)威人士沾邊。
      
      二、他是如何知道的?
      注意樣本的有偏,是由于選擇不當(dāng),還是由刻意挑選有利的樣本造成的?
      樣本是否足夠大到能夠保證結(jié)論值得信賴?
      對于相關(guān)系數(shù):數(shù)值是否足夠大從而能說明問題?案例是否足夠多?是否具有一定的顯著性?
      
      三、遺漏了什么?
      如果無法了解樣本中包含了多少案例,已足以使你對整件事情提出質(zhì)疑。
      對一個沒有經(jīng)過可信度(可能誤差、標(biāo)準(zhǔn)誤差)檢驗的相關(guān)也不用太當(dāng)真。
      當(dāng)均值與中位數(shù)相差甚遠(yuǎn)時,注意那些沒有標(biāo)明類型的平均數(shù)。
      很多數(shù)據(jù)由于缺乏比較而變得沒有意義。
      有時僅給出百分?jǐn)?shù)而缺少原始數(shù)據(jù)也能造成欺騙。
      當(dāng)看到一個指數(shù)時,你或許會覺得遺漏了什么。巧妙之處在于基期,一個經(jīng)過挑選的基期將會扭曲事實。
      有時文章中遺漏了引起變化的原因,這容易讓讀者認(rèn)為其它的因素才應(yīng)對變化負(fù)責(zé)。
      
      四、是否有人偷換了概念?
      前后的統(tǒng)計口徑是否一致
      如果數(shù)據(jù)是建立在人們的口頭回答(即使有一些聽上去十分客觀)基礎(chǔ)之上,將發(fā)生許多怪事。
      將“相關(guān)關(guān)系”偷換成“因果關(guān)系”
      
      五、這個資料有意義嗎?
      當(dāng)所接觸到的資料是建立在未經(jīng)證實的假設(shè)基礎(chǔ)之上時,你可以發(fā)問“這個資料有意義嗎?”
      許多統(tǒng)計資料一眼就可以看出是錯的,這是因為奇妙的數(shù)據(jù)與感覺不符。
      讓人印象深刻的精確數(shù)據(jù)也會與現(xiàn)實相左。
      當(dāng)看到用外推法計算出來的數(shù)據(jù)和圖表時,請記住這點:到目前為止所有的趨勢都是事實,而未來的趨勢只不過是受教育者的猜測。該方法暗含“其它所有條件都相同”以及“現(xiàn)有趨勢將繼續(xù)下去”的前提,但實際上條件總是在變化的。
  •     
      在信息爆炸的時代,各種信息良莠不齊,真?zhèn)瓮?,媒體和宣傳機(jī)構(gòu)越來越重視使用統(tǒng)計來傳遞信息。但是大量的統(tǒng)計數(shù)據(jù),統(tǒng)計資料由于主,客觀的原因被濫用,很難起到描述事實,傳遞有效信息的作用,反而會對讀者形成誤導(dǎo)。
      
      一 內(nèi)在有偏的樣本
      1 一個以抽樣為基礎(chǔ)的報告如果要有價值,就必須使用具有代表性的樣本,并且排除各種偏差。
      2 無形的誤差和有形的誤差一樣容易破壞樣本的可信度。即使你找不到任何破壞性的誤差來源,但只要有產(chǎn)生誤差的可能性,你就有必要對結(jié)果保留一定的懷疑。
      3 以《時代》雜志報道的耶魯畢業(yè)生年薪25111美元為例,問卷的回收率,答題人的誠實度,樣本是否具有代表性決定了數(shù)據(jù)本身的科學(xué)性,可信性!
      4 一條河流永遠(yuǎn)不可能高于它的源頭,但是在河的某處藏有水電站,卻可以做到。對于樣本研究后得到的結(jié)論不會好于樣本本身。當(dāng)數(shù)據(jù)經(jīng)過層層統(tǒng)計處理,最后簡化成一個小數(shù)形式的平均數(shù)時,結(jié)論似乎被確定的光環(huán)所籠罩,但是只要再仔細(xì)留心整個抽樣過程。光環(huán)就會破滅。
      5 隨機(jī)樣本 是指完全遵循隨機(jī)的原則從總體(調(diào)查時在場的所有的人)中選出的樣本,其標(biāo)準(zhǔn)為:總體中的每個名字或事物是否具有相同的幾率被選進(jìn)樣本?
      6 相對于隨機(jī)抽樣的難度大,經(jīng)濟(jì)成本高而言,選擇使用分層抽樣:把總體按照事先已知的優(yōu)勢比例劃分成不同的組。
      7 統(tǒng)計是與誤差的遭遇戰(zhàn)。樣本有偏的趨勢可以自動地操縱結(jié)果,使其變的扭曲。
      二 精心挑選的平均數(shù)
      平均數(shù):
      均值:個體總數(shù)的值(比如收入)的總和除以個體總數(shù)
      中位數(shù):一半家庭的收入超過3500 美元,而另一半家庭的收入低于3500美元。
      眾數(shù):在所有家庭收入序列中出現(xiàn)次數(shù)最多的數(shù)值,就是眾數(shù)!年收入5000 的家庭總數(shù)遠(yuǎn)大于其他收入的家庭,則眾數(shù)為500 美元
      2 公司財報中的員工平均收入多半是 均值,比如一個80w 兩個 10 w 年薪的人 平均 年薪 33w 顯然這樣的均值是無意義的。
      
      三 沒有披漏的數(shù)據(jù)
      1使用小樣本的重要性在于:在大樣本使用中,任何由于機(jī)遇產(chǎn)生的差異都是微不足道的,不足以作為廣告標(biāo)題。 采用不充分樣本得出的結(jié)論顯然具有誤導(dǎo)性。
      
      四 毫無意義的工作
      五 驚人的統(tǒng)計圖形
      1 統(tǒng)計圖形代替表格中的文字表現(xiàn)直觀的趨勢發(fā)展。
      2 統(tǒng)計圖形中的表格的基本單位的差異可以使圖形趨勢表現(xiàn)出驚人的效果。
      六 平面圖形
      七 不相匹配的資料
      使用統(tǒng)計數(shù)據(jù)報道一個事件本身比如 1952年“小兒麻痹癥之年”,忽略了當(dāng)時的客觀因素(1有更多易感染的孩子2對麻痹癥有更深的認(rèn)識,積極到醫(yī)院就醫(yī)3經(jīng)濟(jì)刺激,從國家嬰兒麻痹基金獲取經(jīng)濟(jì)幫助)就會導(dǎo)致基于統(tǒng)計數(shù)據(jù)的報道是真。
      八 相關(guān)關(guān)系與因果關(guān)系
      1 相關(guān)謬誤:如果B緊跟著A出現(xiàn),那邊A一定導(dǎo)致B。然而 更大的可能性是兩個因素并不互為因果關(guān)系,而同為第三個因素的產(chǎn)物。
      2 相關(guān)是所有變量相互間沒有任何影響,卻存在著顯著的相關(guān)。比如抽煙和成績不好這樣的例子。
      3 學(xué)歷的高低和賺錢的多少的相關(guān)性!
      九 如何進(jìn)行統(tǒng)計操作
      
      十 對統(tǒng)計資料的五個提問
       1 誰說的? 尋找偏差:有意識的偏差和無意識的偏差
       2 如何知道?
       3 遺漏了什么?
       4 是否偷換了概念?
       5 資料是否具有意義?
  •     看了“學(xué)會批評性思維”這本書,再看”統(tǒng)計數(shù)字會撒謊“,覺得與其中部分章節(jié)有異曲同工之處
      
      這兩本書都用實例說明了統(tǒng)計數(shù)字再商業(yè)調(diào)查中的各種不完全信息的用法帶給用戶的錯覺
      
      從這些事例中,可以收獲很多,比如很多網(wǎng)上的調(diào)查結(jié)果, 僅看結(jié)果是非常誘人的,但是結(jié)果獲得的過程、展示方式更值得我們用批判的思維去對待
      
      心得1:隨機(jī)樣本獲取的檢驗標(biāo)準(zhǔn)是:總體中的每個名字或事物是否具有相同的幾率被選進(jìn)樣本
      心得2:顯著性檢驗方法是一種反映測驗數(shù)據(jù)以多大可能性代表實際結(jié)論而不代表那些由于機(jī)遇產(chǎn)生的其他結(jié)論的方法
      心得3:正常的智商不應(yīng)該只是100這樣一個數(shù)值,而應(yīng)是一個范圍。如果兩組數(shù)據(jù)相差接近,就沒有比較的意義
      心得4:利用小樣本,任意兩個你能想到的事件或兩組特性之間都能建立顯著相關(guān)
      心得5:幾乎所有人都可以標(biāo)榜之間在某個領(lǐng)域獲得了第一,如果沒有特別住處某個領(lǐng)域。從這條讓我想到了今天在微博上看到的一天新聞:互聯(lián)網(wǎng)中的各種第一,例如第一視頻網(wǎng)站搜狐,第一門戶網(wǎng)站新浪等等
  •     前段時間,我負(fù)責(zé)完成一份新人的素質(zhì)情況分析。這是三年來我第二次干這事了,做得更從容,更輕松,也更“漂亮”,但卻更沒有價值。何出此言?因為這份報告是杜撰出來的,說是杜撰也不確切,因為它的數(shù)據(jù)基本是真的,問題在于它分析的著眼點和它的說法。
      首先,我要如實的匯報一下為什么我要杜撰。原因很簡單,上面想要盡快拿到一份“好看”的報告。因為催得緊,我只好提前設(shè)想一些新人的特征,然后在設(shè)計問卷時就有意識地加到問卷當(dāng)中。報告也是在新人到之前就大致完成了的,除了差異很大的幾點(比如,原來以為高學(xué)歷會像往年一樣占很高比例。其實,由于前幾年吸引高學(xué)歷人才的政策沒有落實,致使今年招收的新人學(xué)歷層次普遍回落)幾乎沒有變化。其實也不是我偷懶,找出以前的報告改改。問卷是重新設(shè)計的,報告也幾乎是全新的。我閉門造車的原因只是來源于第一次的經(jīng)驗:上頭很有“統(tǒng)籌規(guī)劃”能力,說“你可以分批搞(調(diào)查)嘛,后面的又不影響前面的,工作不就可以并行了!”他們總是在新人剛到齊就開始催報告,好像報告就只是統(tǒng)計幾個數(shù)字,不需要花時間分析似的。另外,工作量很大,容不得我等到數(shù)據(jù)出來再分析。新人總數(shù)過千,而為了報告“漂亮”需要兼顧各個方面,問卷題量是歷年來最大的(我設(shè)計了近50個客觀題(雖然問卷還是比較全面的,但后來完善報告時還是有點小遺憾:沒有設(shè)計主觀題,致使報告缺乏個案,最后只得問了幾個名字杜撰上去)。當(dāng)然也是有點小私心的,現(xiàn)在手下有人,統(tǒng)計不用我弄,而如果問卷哪個方面沒有涉及,我可是要挨收拾的。我干過那活,心里有點過意不去)。做好模板的另一個好處就是可以減少統(tǒng)計量。我會有針對性的去統(tǒng)計一些問題,只有拿到“證據(jù)”就行了。
      為什么說這份報告沒什么價值呢?最重要的一點,它早已由上面定好調(diào)了。按理說,調(diào)查不能不預(yù)先設(shè)想,毫無側(cè)重,但上面給我定的調(diào)是:總體情況“只能”不斷提高,存在的問題“只能”不痛不癢。比如前面提到的政策不落實的分析,我就不能寫進(jìn)報告吧。我所要做的不過是挑選一些數(shù)據(jù)和實例充實、完善上頭的判斷。其實,我也知道不完全是上頭的意思,因為上頭總還有上頭。其次,統(tǒng)計也不準(zhǔn)。在填寫問卷的環(huán)節(jié),總會有這樣那樣的情況致使新人不敢如實填寫。我跟同事開玩笑說過“你信不信,就算是不記名,我還是能把那些‘刺頭’的身份找出來”。不是我虛夸,問卷中的基本信息和問題設(shè)置會暴露很多信息,更何況它是“刺頭”。除了原始資料不準(zhǔn)確,在統(tǒng)計環(huán)節(jié),我們也只統(tǒng)計了一半。只有少數(shù)客觀情況(比如:籍貫、性別、學(xué)歷、戶籍情況、學(xué)歷層次等),才去認(rèn)真查了準(zhǔn)確數(shù)。雖然統(tǒng)計的樣本量也算夠了,但樣本是有偏的。因為新人是一個省一批到的,我們只統(tǒng)計了前面幾批,而不是每個地方抽出一部分來。最后在審核環(huán)節(jié),有些數(shù)據(jù)領(lǐng)導(dǎo)覺得高了(比如性經(jīng)歷),隨意調(diào)低,或者換個說法(比如,2%換成“個別”,61%說是“絕大部分”)??傊@份報告就像那句廣為流傳的“團(tuán)結(jié)的、勝利的大會”一樣,是一份“高質(zhì)量的、論點新穎、論據(jù)充分、個案詳實”的報告。
      最后,回到這本書上來。我一直認(rèn)為,比較只能在兩個單一變量間進(jìn)行,就像你可以說3 > 2,但你不可以說(3, 2) > (2, 3)。一旦涉及到現(xiàn)實世界,就沒這么好區(qū)分比較的是不是單一變量了。但你還是有一件不那么準(zhǔn)確的武器——常識。就像不管某人羅列怎樣的數(shù)據(jù)證明房市降溫,可依舊買不起房的你半個字也不會相信一樣,警惕那些虛偽的統(tǒng)計量,不要盡信“科學(xué)”的幌子。
  •      每天翻開報紙,總是看到很多充滿著數(shù)據(jù)的報道,看似用數(shù)據(jù)說話,非常可靠,然而達(dá)萊爾.哈夫告訴你,小心別被忽悠了,里面的門道多著呢!沒錯,這就是用數(shù)據(jù)說謊之道。《統(tǒng)計陷阱》英文原版叫做《How to Lie with Statistics》,其實作者不是教你怎么用統(tǒng)計來撒謊,而是教你怎么識別這些謊言。是面向大眾的一本入門書籍,里面沒有復(fù)雜的統(tǒng)計學(xué)知識,也沒有頭痛的各種圖表等,簡單易懂,例子非常有趣。
       應(yīng)用書中的知識,也來看看近期看到的一些報道吧。
       香港新聞:港大民意調(diào)查機(jī)構(gòu)做的一個調(diào)查發(fā)現(xiàn),行政長官候選人梁振英的支持率遠(yuǎn)高于唐英年,一個52.x%,一個26.x%,高了20多個百分點??催@個頭條還真的覺得唐英年民望不行了。鑒于之前一般的風(fēng)聲都比較多人支持唐英年。好奇的tvb記者試著隨便找了些行人支持誰,結(jié)果基本上說的都是唐英年。于是就很有意思了。一個調(diào)查的結(jié)果是否可靠會受到很多情況的影響。嗯,第一章名字叫做:內(nèi)在有偏的樣本。沒錯,做民意調(diào)查首先要抽樣,抽樣很重要,非常重要。如果抽樣的樣本數(shù)量不夠多就不具有代表性(記者路邊的采訪樣本更少,所以更加不具有代表性)。而且抽樣一般要講究隨機(jī)抽樣,如果無法隨機(jī)抽樣,那么按照分層抽樣,分幾層,每層比例占多少,每層抽樣多少人這些都要很謹(jǐn)慎。港大的民意調(diào)查說,我的是隨機(jī)抽樣!別以為純隨機(jī)抽樣就會很嚴(yán)謹(jǐn)了,隨機(jī)抽樣也是有缺陷的。更詳細(xì)地了解新聞,說是”對530多名人士進(jìn)行電話訪問“得出的結(jié)果。重點有兩個:530多名,電話訪問。530多名樣本多不多?這個不能說多,也不能所很少。再來看看電話訪問,是固話還是固話和移動電話都有?是什么時間段訪問的?如果白天打固話訪問,訪問的會不會大部分都是家庭主婦呢?這會不會有一定的偏向呢?有很多的影響結(jié)果的疑問在沒有完整的了解之前,這個民調(diào)結(jié)果真的是僅供娛樂了。
      
       再來看看可靠的官方數(shù)據(jù)。近日各大報紙和網(wǎng)站頭條都寫著“深圳人均住房面積40平方米”字樣標(biāo)題的新聞。全國其他省市的人民看了肯定淚流滿面?。。∫患胰诰陀?20平米,哇塞,特區(qū)就是特區(qū),連房子都特別大,雖然房價特別貴,但是里面的人都特別有錢。標(biāo)題總是容易讓人記住,詳細(xì)內(nèi)容總是很少人看的。仔細(xì)看這一長篇報道發(fā)現(xiàn)里頭有這么一句話:”李榮強(qiáng)(住建局局長)說,如果按照戶籍人口計算,包括低收入家庭在內(nèi)的住房完全不成問題,住房保障率達(dá)到100%。但是根據(jù)統(tǒng)計,目前深圳共有4億多平方米的住房面積,約600萬套住房,人均40平方米?!霸瓉砣司?0平米是這么來的!共有住房面積/戶籍人口=人均住房面積。這就是偷換概念了。把人均住房面積計算的除數(shù)和被除數(shù)都變換了,得出來的還是人均住房面積嗎?這個4億多平米的住房面積是賣出去的還是建成的所有住房呢?沒有說。為什么用戶籍人口不用常住人口呢?不知道!仔細(xì)挖掘一下,就發(fā)現(xiàn)這是一個面目全非的”人均40平方米“。
      
       另外一條更讓人歡樂的新聞?wù)f:“深圳人平均月薪6644元 金融保險月薪最高”。一看到題目,很多深圳網(wǎng)友都開玩笑表示自己給國家拖后腿了。然而這個新聞可信嗎?常識告訴我們,不可信!常識都覺得不可能的事情,怎么嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)、統(tǒng)計會出現(xiàn)呢?根據(jù)書中所學(xué),禁不住要問這里寫的“人均”,這個平均數(shù)究竟是算數(shù)平均數(shù)、中位數(shù)還是眾數(shù)呢?如果樣本的薪酬分布和正態(tài)分布差別很大,那這三者是接近的,然而實踐表明,很多調(diào)查的結(jié)果分布往往不是這樣的。這個調(diào)查的抽樣是隨機(jī)抽樣還是分層抽樣,分層抽樣分幾層,每層比例占多少?抽樣總數(shù)是多少?好吧,問題太多了,簡單點,問兩個問題:這個調(diào)查是誰做的?TA是怎么得出來的?仔細(xì)查了一下這個新聞,才發(fā)現(xiàn)原來這個數(shù)據(jù)是南方人才市場得出來的,從一段時間內(nèi)的簡歷庫,獵頭等地方獲得相關(guān)參考數(shù)據(jù)。很顯然,一般普工和行政、事業(yè)單位的工作人員是不會去人才市場投簡歷的,所以這個抽樣是不全面的。即使這個是一個抽樣合理的調(diào)查,也還會有問題存在。一般報紙雜志上報道只給出了結(jié)果,并不會給出可能誤差和標(biāo)準(zhǔn)誤差的一些相關(guān)參考數(shù)值,這就無法判斷這些平均數(shù)等數(shù)據(jù)的可信度了。媒體只會抓住這種新聞亮點大肆報道,不會認(rèn)真去核實這些問題,觀眾看了容易受到誤導(dǎo)。
      
       又是近期的一則報道”研究發(fā)現(xiàn)鎮(zhèn)痛藥增加老年人肺炎危險“,報道根據(jù)是:”阿片類鎮(zhèn)痛藥(opioids典型的中樞神經(jīng)鎮(zhèn)痛藥)與65—94歲人群肺炎危險增加關(guān)聯(lián)密切?!薄岸囗梽游镅芯堪l(fā)現(xiàn),嗎啡、可待因和芬太尼(fentanyl)等阿片類鎮(zhèn)痛藥會損害免疫系統(tǒng),可能會增加肺炎危險。”“經(jīng)過2000—2003年病例對照研究發(fā)現(xiàn),在肺炎病例中,服用阿片類鎮(zhèn)痛藥和苯二氮草類鎮(zhèn)痛藥的患者分別占13.9%和8.4%。而在沒有得肺炎的參試者中,服用阿片類鎮(zhèn)痛藥和苯二氮草類鎮(zhèn)痛藥的患者分別占8%和4.6%。“發(fā)現(xiàn)阿片類鎮(zhèn)痛藥與老年人群的肺炎病發(fā)有相關(guān)性,然后通過動物實驗再次驗證了這個相關(guān)性,就得出了鎮(zhèn)痛藥會增加老年人的肺炎的發(fā)生。后面的數(shù)據(jù)也就是不斷重復(fù)做了一件事:證明阿片類鎮(zhèn)痛藥的使用與老年人的肺炎發(fā)生有相關(guān)性。但是媒體報道的標(biāo)題就成了鎮(zhèn)痛藥導(dǎo)致了肺炎的增加,相關(guān)關(guān)系成了因果關(guān)系。兩個事物a和b存在相關(guān)關(guān)系,可能的情況有很多種,可能的確是因為鎮(zhèn)痛藥的使用降低了免疫力導(dǎo)致肺炎的發(fā)生,又或者是易患肺炎的人群在發(fā)病前都有其他的并發(fā)癥狀導(dǎo)致他們需要服用鎮(zhèn)痛藥,又或者因為這類人免疫力低下的原因,容易患肺炎和其他需要鎮(zhèn)痛藥的疾病。在沒有各種對照實驗和病例研究之前,單純根據(jù)觀察到的相關(guān)關(guān)系是沒法確定他們的因果連接的。這類相關(guān)性實驗的作用只是為后續(xù)的實驗提供一個研究的參考方向。一般科學(xué)研究實驗總是比較嚴(yán)謹(jǐn)?shù)?,很少出現(xiàn)這種情況。但是問題出在幾個方面:1)媒體斷章取義,故意忽視了一些研究結(jié)論所限定的條件,擴(kuò)大到了日常生活中;2)媒體不夠?qū)I(yè),不能理解真實意思。但是不管哪個原因媒體只要把標(biāo)題起好了,就可以吸引人的注意力,新聞點有了,目的就打到了。至于解釋這種事情,沒人關(guān)心。個人發(fā)現(xiàn)此類報道多見于生活健康一類科學(xué)前沿的報道。
      
       現(xiàn)在太多這種報道了,各種官方數(shù)據(jù)、各種行業(yè)企業(yè)數(shù)據(jù)、各種媒體報道、讓人防不勝防。網(wǎng)上的玩笑說,一個窮人一個富人,窮人住50平方米的房子,富人住120平方米的房子,平均住房面積為80多平方米。后來富人換成了240平方米的房子,窮人依舊,但是平均住房面積變成了差不多150平方米,增加了差不多一倍。面對各種的數(shù)據(jù)”謊言“,達(dá)萊爾.哈夫教我們,要問五個問題”誰說的?“”他是怎么知道的?“”遺漏了什么?“”是否有人偷換了概念?“”這個資料有意義嗎?“
       距離達(dá)萊爾.哈夫這本書的出版也已經(jīng)有幾十年的時間了。各種利用統(tǒng)計數(shù)據(jù)撒謊的報道仍然在繼續(xù),只不過手段沒有那么笨拙了,書中所說的很多”愚蠢“方法已經(jīng)不再出現(xiàn),現(xiàn)在的手段越來越難辨識了。然而《統(tǒng)計陷阱》只是一個向?qū)?,引?dǎo)出我們的找碴能力,對于媒體上報道的,不能輕易相信,應(yīng)該時刻帶著批判思維去思考和檢視。正所謂,世界上本來沒有防騙術(shù),給騙的人多了,自然就會開發(fā)出了防騙術(shù)了??赐赀@本書之后頗有幾分凡是報道的數(shù)據(jù)都可疑的味道,嗯,很好,帶著這樣的目光去發(fā)掘更多的防騙術(shù)吧,這次就不單是數(shù)據(jù)了!
  •     1. 內(nèi)在有偏的樣本
      2. 精心挑選的平均數(shù):均值(偏大),中位數(shù)(偏下),眾數(shù)(居中),只有滿足高斯分布,這三個值才差不多。
      3. 沒有披露的數(shù)據(jù)
      4. 毫無意義的工作
      5. 令人驚奇的圖形:改變坐標(biāo)軸的比例,可以產(chǎn)生不同的視覺效果。
      6. 一維圖形的濫用:數(shù)字是2:1,如果畫成二維圖形,視覺效果就是4:1
      7. 不完全匹配的資料:數(shù)據(jù)是真實的,但得到結(jié)論是從某一側(cè)面
      8. 相關(guān)關(guān)系的誤解:兩個事物之間的關(guān)聯(lián)關(guān)系并不能用于說明其中一個將引起另一個的變化。
      9. 如何進(jìn)行統(tǒng)計操縱:變化基數(shù)能產(chǎn)生增加折扣的幻覺。
      10. 如何反駁統(tǒng)計資料:對統(tǒng)計資料應(yīng)該提出五個問題:(1)誰說的;(2)如何知道的;(3)是否遺漏了什么;(4)是否偷換了概念;(5)資料是否有意義。
      
      
  •     其實統(tǒng)計學(xué)只是工具而已,出于特別用意的人用就會有特定的結(jié)果,尤其是在商業(yè)中,選擇、加工、發(fā)布利于自己的數(shù)據(jù)是人性使然。
      
      一般來說,理工科畢業(yè),有著良好的邏輯思維和統(tǒng)計學(xué)基礎(chǔ)的人都不容易上當(dāng),只不過這個世界這樣的人較少罷了。這么說來,說出一些“常識”幫助大部分人,也算是善舉了。
      
      btw,其實這本書中文版的標(biāo)題也有這個“陷阱”,呵呵,人性啊人性。。。
  •      很愧疚地講,作為一個工科畢業(yè)生,我對數(shù)字是非常不敏感的。小學(xué)時期,老師讓我數(shù)跳繩的數(shù),基本上就沒有數(shù)對過,總會差幾個,老師在黑板上出的“11111”我能抄成“1111”然后被罰站不讓回家吃飯。上了高中、大學(xué)以后,看見那種一連串的1,或者一連串的0,我都會腦袋發(fā)懵,要閉了一只眼睛,用手指頭按著一個一個數(shù)清楚。直到現(xiàn)在,看見excel里面“¥100,000,000.00”,我還是會緊張,用老辦法“個十百千萬”地數(shù)。
       但是現(xiàn)在,數(shù)字充斥了所有的媒體,權(quán)威機(jī)構(gòu),政府部門也樂于向大家發(fā)布一些帶著小數(shù)點的數(shù)字。作為學(xué)過《數(shù)理統(tǒng)計》的工科學(xué)生,我毫無猶豫地看重這些數(shù)字并且視其為科學(xué)的象征。
       但是《統(tǒng)計數(shù)字會撒謊》這本書告訴我,帶著小數(shù)點的統(tǒng)計數(shù)字,很可能是在扯淡。
       得到統(tǒng)計數(shù)字以前,需要采集數(shù)字,然后利用工具處理、分析數(shù)字,最后使用方法展示數(shù)字,這些環(huán)節(jié)都是不靠譜的。
       街頭采集的數(shù)據(jù),會受到采集人本身偏向性的影響。以我為例,如果我讓我上街去做問卷調(diào)查,憑我這種身材、長相和氣質(zhì),大約能夠吸引更多的中老年婦女的青睞;而如果是林志玲上街做問卷調(diào)查,大約是16-60的老中青三代男孩會搶著回答吧。掛在雜志或網(wǎng)站上的表格,永遠(yuǎn)只會是經(jīng)常購買、訪問這些媒體的人才會做。
       數(shù)據(jù)還要進(jìn)行有效性檢查,不合格的數(shù)據(jù)要排除,排除的準(zhǔn)則也有偏向性。
       統(tǒng)計方法有很多種,統(tǒng)計人員會根據(jù)自己內(nèi)心想要得出的結(jié)論有針對性地選擇。比如說,如果要證明工資很低,那么選擇中位數(shù)來做計算,如果要證明工作相對較高,那么算術(shù)平均數(shù)是不錯的選擇。說句題外話,前段時間房價瘋長,離單位很近的房子租不起了。我很郁悶地google了一下2010年北京市月平均工資,4073元,以2010年平均房價2萬元一平方米計算,買一套90平方米的房子,需要180萬,這個收入用哪個網(wǎng)站上哪個房貸計算器,都只能得出傾家蕩產(chǎn)還房貸的結(jié)論。都是誰在買房?用什么錢在買房呢?不是統(tǒng)計數(shù)字錯就是房地產(chǎn)商在說瞎話,對嗎?
       展示數(shù)字同樣講究。用圖表,橫軸、縱軸用什么比例?用語言,選擇什么樣的分母來計算百分?jǐn)?shù)和比例,怎么處理比例?
       書上沒有多少憤世嫉俗的語言,從口氣上看,作者其實還是很同情收集、計算、公布數(shù)字的這些人和他們的工作的,因為很多偏見在所難免,看數(shù)字的我們要打起精神來好好看看書數(shù)字背面的說法。
       不能盲目迷信數(shù)字,我想這才是作者想說的吧?
       但是搞明白這些好累喲。。。
  •      看這本書不累,作者把書寫的很輕松,用講故事的方法去講述他的思考,內(nèi)容雖然是上個世紀(jì)50年代寫就,但那些分析方法和思路到現(xiàn)在仍然管用,這也是這本書不斷再版的根本原因。
      
       看完這本書之后比較累。我在看完后一段時間,形成了一個思維習(xí)慣,再看到有統(tǒng)計數(shù)字的報道,第一個念頭就是“不能相信這些數(shù)字”,潛意識里已經(jīng)認(rèn)為這些數(shù)字經(jīng)過了“修飾、加工或存在不合理的推導(dǎo)邏輯”,之后就開始用書里的內(nèi)容試著去把他們背后的“錯誤”挑出來。我再面對統(tǒng)計數(shù)字時,不再像原來那樣默認(rèn)通過,會增加獨(dú)立的思考和分析,我覺得這是一種思維習(xí)慣的改變,這是這本書帶給我的變化,也是我推薦他的最重要理由。
      
       那統(tǒng)計數(shù)據(jù)是如何偽裝而取得信任的呢?一般來講,分析可分為定性分析和定量分析兩類,定量分析因為有數(shù)據(jù)支撐,普遍被認(rèn)為分析過程更嚴(yán)密可信?!敖y(tǒng)計這種神秘的語言,在一個靠事實說話的社會里是如此地吸引眼球,但有時他卻被人利用,并成為惡意夸大或簡化事實,迷惑他人的工具”,統(tǒng)計數(shù)據(jù)最迷人的地方,他會羅列很多數(shù)字、過程說明和分析過程,這讓這些數(shù)字賦予了邏輯的力量,很容易給人以信任感。但其實,很多數(shù)字的本后其實只是一個有目的性的謊言。
      
       我根據(jù)書中所寫原理,反向編譯了一個小case,有戲謔味道,說明一下典型的“How to lie with statistics”。
         “據(jù)路邊社報道,某著名研究結(jié)構(gòu)經(jīng)研究表明,進(jìn)行產(chǎn)品研發(fā)工作的員工生男孩的機(jī)率遠(yuǎn)高于進(jìn)行解決方案工作的員工。該機(jī)構(gòu)統(tǒng)計發(fā)現(xiàn),某大公司產(chǎn)品部已有孩子員工當(dāng)中,男孩所占比例為89%,解決方案部為56%,高出30多個百分點。數(shù)據(jù)表明,產(chǎn)品研發(fā)因為更需要理性思考,會刺激身體產(chǎn)生更多的Y基因,因此更有助于生男孩。因此如果你還沒有孩子,又想生男孩,最好選擇產(chǎn)品經(jīng)理作為下一個職位?!?
         這個報道因為有具體的數(shù)字(而且那些數(shù)字是真實的),有分析過程,看上去好像很合理。 這些數(shù)字都是真實的,但再讓我告訴你一些背景信息:
      1、公司是個大公司,但例子中所說的產(chǎn)品部其實只有9個人有孩子,解決方案部有孩子的也只有9個人。屬于典型的小樣本統(tǒng)計
      2、這18個人中,有部分人在來產(chǎn)品部或解決方案部工作之前,已經(jīng)有了孩子。
      3、即使樣本數(shù)足夠大,也只能說明不同工作與孩子性別比例之間存在一定的相關(guān)關(guān)系,但不見得有因果關(guān)系。
       
       某些利益代言體可以很容易為了一個既定的目標(biāo),去運(yùn)用統(tǒng)計數(shù)據(jù)去迎合他想表達(dá)的那個結(jié)論。所以再看到統(tǒng)計數(shù)字時,先不要直接相信,多打幾個問號,仔細(xì)思考這些數(shù)字本后的背景信息和分析思路,怎么能有效分析,不想繼續(xù)被各種統(tǒng)計數(shù)據(jù)迷惑,本書序言有一句話“騙子對于行騙的技巧早已胸有成竹,而誠實的人出于自衛(wèi)也應(yīng)該掌握它?!边@本書很薄,早點收了閱讀他吧。
      
  •     我們?nèi)粘I钪谐3吹礁鞣N各樣的調(diào)查,以及基于調(diào)查結(jié)果得出的種種結(jié)論。調(diào)查往往做得一本正經(jīng),但是似乎我們又經(jīng)常能看到各種讓人感覺不那么對勁的調(diào)查結(jié)果,總覺得哪里出了問題。這本書就力圖解釋這樣的現(xiàn)象:為什么看似認(rèn)真的統(tǒng)計卻得到虛假的數(shù)字?
      
      調(diào)查者選取了合適的樣本嗎?被調(diào)查者有沒有主動或被動地說出并非真實的答案?統(tǒng)計數(shù)字是否真的可以推導(dǎo)出那樣的答案?統(tǒng)計圖表是不是也在誤導(dǎo)著讀者?其實我們每次看到統(tǒng)計局發(fā)表什么新數(shù)字的時候都會想這樣的問題,對吧?
      
      其實調(diào)查者也不一定是故意為之,我印象里有些學(xué)校還開設(shè)了社會調(diào)查學(xué)這樣的課程,調(diào)查本身就是一門頗有可研究之處的學(xué)問。即使我們想得到真實客觀的數(shù)字,其實也常常會被一些疏忽打攪了這美好的愿望。調(diào)查結(jié)果說用戶喜歡這樣的頁面,但頁面真的上線之后的反響未必就像想象中那樣熱烈。這時,產(chǎn)品經(jīng)理會撓撓頭說:“這到底是為什么呢?”這本書就在用一個個的反例告訴我們這到底是為什么。
      
      話說回來,統(tǒng)計局還是很威武的……
      
  •     辦公室鐵皮柜里發(fā)現(xiàn)的,覺得挺薄的就偷回家了??戳碎_頭還覺得有點意思,后來就越看越覺得沒意思。不過要是入門還是可以,輔導(dǎo)讀讀也不是什么壞事。最近看書越來越少了,時間不多,擠了很久也沒有擠出來能靜靜看書。錢沒有多拿,反而事情不少做。而且還沒有人說你好,到處還被擠兌,越想越覺得什么世道啊,挺累的。真的挺累的。
  •     拿到統(tǒng)計數(shù)據(jù)之后,問幾個問題:
      1. 誰說的;
      2. 統(tǒng)計數(shù)字是否足夠大而說明問題;
      3. 采用的那種平均值算法;
      4. 僅僅有百分比說明不了什么;
      5. 相關(guān)關(guān)系,是否有概念的偷換;
      6. 存在被調(diào)查者說謊的可能;
      7. 這個材料有意義嗎?
      8. 準(zhǔn)確的數(shù)字更讓人懷疑;
      
  •     雖然不能把這本性價比實在不高的書完全歸罪于作者本身,可是我還是不滿這本薄薄的二小時能看完的書居然價格為28元。
      寫書的年代和我們真的差距太大,以至于我很難能理解一個個案例,眾多古怪的聞所未聞的統(tǒng)計數(shù)字極大地降低了閱書的流暢性。
      至于書中所闡明的觀點,我覺得太過淺顯(可能是由于我的工作原本就是和統(tǒng)計數(shù)字有關(guān)),稍微有點工作常識的人都應(yīng)該能識破書中的數(shù)字詭計吧。
  •     感謝網(wǎng)友的博文推薦,讓我找到了一位久違的朋友。不過,令人費(fèi)解的是,這位朋友頻繁更名,都不知道該怎么稱呼了。它的本名叫《How to lie with statistics》,直譯為《如何利用統(tǒng)計撒謊》。80年代出版時,翻譯為《怎能利用統(tǒng)計撒謊》。2002年上海財經(jīng)大學(xué)出版時,改名為《統(tǒng)計謊言》。2009年中國城市出版社出版時,改名為《統(tǒng)計數(shù)字會撒謊》。這本書在大學(xué)時讀過,印象很深刻。畢業(yè)后多次在網(wǎng)上搜索,都沒找到蹤影,原來換了馬甲。
      
      這本書出版于1954年,作者是美國的達(dá)萊爾?哈夫,一位對統(tǒng)計頗有研究的新聞記者。記者的職業(yè)特點是博而不通,對什么都了解,又了解不深,以似懂非懂的筆觸,讓本來全然不懂的讀者閱后覺得很懂。哈夫?qū)y(tǒng)計的研究不限于表面,顯然是下了功夫,并且收集了很多素材。深入淺出的介紹,加上新聞的筆法,使這本書非常生動。無論你對統(tǒng)計學(xué)、經(jīng)濟(jì)學(xué)有沒有興趣,無論你是什么職業(yè),讀讀這本書都會受益匪淺。這本書在網(wǎng)上能找到電子版,出于對知識產(chǎn)權(quán)的尊重,就不上傳了。
      
      《如何利用統(tǒng)計撒謊》,本質(zhì)上是一本關(guān)于統(tǒng)計學(xué)的科普作品,抽絲剝繭地告訴讀者,統(tǒng)計數(shù)字是運(yùn)用什么方法得來的,會有哪些偏差,在表現(xiàn)形式上會給人以什么樣的錯覺,什么樣的統(tǒng)計數(shù)字是有意義的,什么樣的是在有意誤導(dǎo)。例如怎么看待抽樣調(diào)查,怎么認(rèn)識平均數(shù),怎樣察覺沒有披露的數(shù)據(jù),怎樣識別夸張的統(tǒng)計圖形,怎樣判別相關(guān)關(guān)系和因果關(guān)系。這與飽受詬病的統(tǒng)計數(shù)據(jù)失真、統(tǒng)計造假并不是一回事,出版社把中譯本改名為《統(tǒng)計謊言》、《統(tǒng)計數(shù)字會撒謊》有著明確的指向性,難免有炒作的嫌疑。
      
      中國的統(tǒng)計數(shù)據(jù),向來飽受非議。外國人質(zhì)疑,國人也懷疑。這些質(zhì)疑和懷疑,很多時候并沒有什么理由,只是出于一種不信任。其實大多數(shù)人對統(tǒng)計數(shù)據(jù)的認(rèn)知,存在著很多誤區(qū)。前些日子,媒體炒作平均工資時,本來打算寫一帖子,后來一想很多人質(zhì)疑統(tǒng)計數(shù)據(jù)其實是在借題發(fā)揮,表達(dá)對收入的不滿,咱又不是高收入階層,何必站在大眾的對立面?不過,就事論事,公眾確實對統(tǒng)計有誤解。
      
      第一個誤解,把統(tǒng)計當(dāng)會計。有道是“七分統(tǒng),三分估”,還有倒過來說的,“三分統(tǒng),七分估”。統(tǒng)計不是會計,統(tǒng)計數(shù)字不可能丁是丁、卯是卯,完全準(zhǔn)確地普查匯總。西方國家的統(tǒng)計制度,估計的成分十分高。以嚴(yán)謹(jǐn)著稱的德國,GDP核算采取分邦推算,這個邦今年核算工業(yè),另一個邦統(tǒng)計農(nóng)業(yè)、服務(wù)業(yè),第二年再輪換。通過幾個邦的工業(yè)資料,推算全國的工業(yè)數(shù)據(jù),進(jìn)而核算全國的GDP。英國核算完GDP,直接再加10%,作為可能漏統(tǒng)的地下經(jīng)濟(jì)。頭號經(jīng)濟(jì)強(qiáng)國美國的GDP也是推算出來的。這些方法擱在中國,公眾肯定不能接受。假設(shè)中國的實際GDP是28萬億,統(tǒng)計為30萬億或者25萬億,就不準(zhǔn)確了嗎?自己口袋里面的錢都未必能說具體,一個大國的經(jīng)濟(jì)總量有個大概齊也就不錯了。順便說一下,在90年代,世界銀行每年都會在中國公布的GDP的基礎(chǔ)上,再加上23%,他們認(rèn)為中國的服務(wù)業(yè)統(tǒng)計有遺漏。
      
      第二個誤解,把統(tǒng)計數(shù)字絕對化。哈夫的書中舉了一個例子,一個孩子的智商測試成績是98分,一個是101分,那么101分的就一定比98分的聰明嗎?智商測試也是有誤差的,假設(shè)誤差是上下3分,那么第一個孩子實際得分是在95-101分這個區(qū)間,而第二個孩子的得分是在98-104分這個區(qū)間,如果一個取上限,一個取下限,結(jié)果正好顛倒過來。很多地區(qū)之間為了多幾億、少幾億比來比去的,把數(shù)字絕對化、機(jī)械化,毫無意義。
      
      第三個誤解,把總體數(shù)據(jù)與個體比。國家統(tǒng)計局公布全國的平均工資,很多人認(rèn)為與自己的實際收入水平不相符,弄虛作假,粉飾太平。個體達(dá)不到平均水平,是再正常不過的事情。這里就不普及平均數(shù)、中位數(shù)、眾數(shù)的知識了,只想說指責(zé)國家統(tǒng)計局以平均數(shù)掩蓋事實,實在是沒道理。在國家統(tǒng)計局的網(wǎng)站上,公布了各行業(yè)的工資水平,收入高的行業(yè)高的驚人,收入低的行業(yè)低的可憐,這是現(xiàn)實,對號入座就是了。同樣,也按收入等級公布了分組收入水平,最高收入戶是最低收入戶的9倍,60%以上的居民收入低于平均數(shù),如果你在此之列,就統(tǒng)計數(shù)據(jù)而言也極為正常。
      
      第四個誤解,統(tǒng)計數(shù)據(jù)拿起來就可以用。太晚了,想睡覺了,不一一列舉了。
      
      哈夫提出,對統(tǒng)計資料應(yīng)提五個問題:誰說的?如何知道的?是否遺漏了什么?是否偷換了概念?資料是否有意義?能多問幾個為什么,是一種能力。蒙蔽住眼睛的,不一定是他人的欺騙,也可能是自己的無知。希望大家都有一雙慧眼,再次推薦我的老相識——《How to lie with statistics》。
      
  •   你最后的總結(jié)一語中的非常到位,反映出中國大眾更應(yīng)該從小養(yǎng)成質(zhì)疑的思維習(xí)慣,而非一概照單全收和相信權(quán)威,更不能輕易相信媒體。
    另外,對你最后提出的疑問,“如果你以每月等額分期還款的形式從銀行以6%的利率借了100美元,應(yīng)支付的利息的3美元?!?“3美元的利息是怎么算出來的???這種借貸法沒聽說過啊?!?br /> 做個簡單解釋,等額分期還款,分為等額本息還款和等額本金還款,如果是等額本息還款則累計支付利息是約3.28美元,如果是等額本金還款則累計支付利息是3.25美元。
    等額本息貸款每月還款額計算法:
    =[貸款本金×月利率×(1+月利率)^還款月數(shù)]÷[(1+月利率)^還款月數(shù)-1]
  •   老實說吧....看完這書,第一反應(yīng)是我靠,我生活在一個無時無刻不被耍的社會里啊,怎么沒有早點看到這本書。但過了許久再想想,即使我了解完了騙人九招,自救N招,在面對那么多統(tǒng)計數(shù)字時,我還是沒有專業(yè)知識加以辨別,而且似乎自己也活得略累啊...
  •   反其道行之,作者知道后一定會會心一笑,公務(wù)人員必備手冊~
  •   最后在審核環(huán)節(jié),有些數(shù)據(jù)領(lǐng)導(dǎo)覺得高了(比如性經(jīng)歷)。。。。什么樣的單位,還需要知道這個么 ̄□ ̄||
  •   同感,而且翻譯得極差
  •   是啊,翻譯太差,有些話要讀好幾遍才能明白作者的意思。
 

250萬本中文圖書簡介、評論、評分,PDF格式免費(fèi)下載。 第一圖書網(wǎng) 手機(jī)版

京ICP備13047387號-7