統(tǒng)計陷阱

出版時間：2002-6 出版社：上海財經大學出版社作者：[美] 達萊爾·哈夫頁數(shù)：137 字數(shù)：88000 譯者：廖穎林
Tag標簽：無

內容概要

《統(tǒng)計陷阱》本書是美國著名的統(tǒng)計學家達菜爾·哈夫的名著。該書自1954年出版至今，多次重印并被譯成多國文字，是一本影響深遠的經典性著作?！督y(tǒng)計陷阱》一書之所以能夠歷久彌新，是因為其實用性。隨著我國經濟持續(xù)發(fā)展，我們將接觸到越來越我我的統(tǒng)計數(shù)據等等，去粗取精、去集思廣益存真、進行鑒現(xiàn)了一些統(tǒng)計語和方法，但作者重說明、輕證明，重文字描述、輕理論推導，并結合活生生的案例，語方輕松詼諧，深入淺出，故即使從培養(yǎng)接觸過的統(tǒng)計專業(yè)知識的讀者也能掌握書中介紹的統(tǒng)計國想和方法。

書籍目錄

總序譯者的話緒言  第一章    內在有偏的樣本  第二章    精心挑選的平均數(shù)  第三章    沒有披露的數(shù)據  第四章    毫無意義的工作  第五章    驚人的統(tǒng)計圖形  第六章    平面圖形  第七章    不相匹配的資料  第八章    相關關系與因果關系  第九章    如何進行統(tǒng)計操縱  第十章    對統(tǒng)計資料提出的五個問題

圖書封面

圖書標簽Tags

無

評論、評分、閱讀與下載

還沒讀過(47)
勉強可看(346)
一般般(591)
內容豐富(2451)
強力推薦(201)

統(tǒng)計陷阱 PDF格式下載

用戶評論 (總計34條)

啟發(fā)思維、課堂上很難得能學到的知識；但是很有趣，而且終身受用
讀書最大的好處是掌握常識，而我們從小學到大學的學習過程中，仍然欠缺很多常識，包括哲學、心理學、經濟學等等。這是教育體系的問題，與整個社會的引導也大有關系。因為大眾欠缺常識導致的下一代欠缺常識讓人心痛！
薄薄的書，不起眼，但是蠻有意思的。
　　讀完這本統(tǒng)計數(shù)據會撒謊，給我印象最深的應該是那種批判性的思維，在現(xiàn)代中國人們正缺乏這種思維，批判的思維，勇于質疑的思維，某某權威專家說的話往往會對人們起著巨大的影響，比如悟本堂事件引起了對綠豆的瘋搶，等等類似的事件有很多。而這本書中用淺顯易懂的話，生動的語言揭示了許多統(tǒng)計方面的謊言，又給他人以啟示統(tǒng)計數(shù)字會撒謊，我們需要帶著腦子去思考去批判懷疑。
　　我們所在的世界是由媒體所構建的世界，因為我們正是通過媒體來感受了解這個社會。這本書著眼于統(tǒng)計，用淺顯易懂的話，生動的語言揭示了許多統(tǒng)計方面的謊言，給他人以啟示統(tǒng)計數(shù)字會撒謊，我們需要帶著腦子去思考去批判懷疑。本書分為10章。前9章是“教你如何利用統(tǒng)計數(shù)據達到瞞天過海的手段”即揭示了一些偽裝統(tǒng)計資料來達到應有目的的手段。包括“內在有偏的樣本，精心挑選的平均數(shù)，沒有披露的數(shù)據，毫無意義的工作，驚人的統(tǒng)計圖形平面圖形，不相匹配的資料相關關系與因果關系.，如何進行統(tǒng)計操縱“。第10章是告訴我們如何區(qū)分辨別，”怎樣憑雙眼就能識破虛假的統(tǒng)計資料并揭穿它；同樣重要的是，如何在具有前述欺騙性的數(shù)據海洋中找出可靠有用的資料“。方法是對統(tǒng)計資料提出的五個問題，在尋找這些問題答案的同時，你將避免接受一些不真實的資料。第一誰說的？首先要尋找的是偏差，包括有意識的偏差和無意識的偏差：然后對資料多看一眼究竟是誰做出了結論還是僅僅與權威人士沾邊。
　　第二他是如何知道的？注意樣本的有偏．是由于選擇不當還是由刻意挑選有利的樣本造成的。
　　第三遺漏了什么? 樣本包含了多少案例。這個數(shù)據的缺失，特別當信息的來源存在著利害關系時，已足以使你對整件事情提出質疑
　　第四是否有人偷換了概念? 分析統(tǒng)計資料時，留心從搜集原始資料到形成結論的整個過程中，是否存在著概念的偷換。
　　第五這個資料有意義嗎?
　　總的來說，通過對統(tǒng)計數(shù)據的包裝美化使數(shù)據表現(xiàn)在有利于包裝者的方面，這就可能導致對數(shù)據的利用來達到滿足自己的私欲，我們所看見的世界也許不是真實的世界。那我們應該何去何從，我們需要的是批判質疑的精神多去思考而不是盲從，多去懷疑而不是直接相信，我們看到太多太多無知而盲從的人，希望大家能看看這本書會有用的。還有不喜勿噴。。。。
　　
　　作者對“行騙”方式的歸納是：
　　1.誰說的？
　　2.他們是如何知道的？
　　3.遺漏了什么？
　　4.是否有人偷換了概念？
　　5.這個資料有意義嗎？
　　
　　我向從另一個角度來重新歸納一下這個問題：
　　1. 樣本本身
　　2. 選擇的數(shù)據
　　3. 表達形式
　　
　　首先，從樣本來看
　　
　　第一，樣本總量必須足夠大時，得出的數(shù)據才會有代表性。因為統(tǒng)計規(guī)律只有在樣本容量足夠大時才能表現(xiàn)出概率，如在牙膏作用的案例中，商家會選擇12個用戶這樣的小樣本來進行測試；這樣經過多次測試，即使本來牙膏沒有任何作用也可能因為偶然因素而有一兩個成功案例，并且得到的百分比數(shù)會因為樣本總量太少而顯得很大。
　　
　　第二，即使樣本足夠大（事實上也很難做到真正的“足夠大”，實驗所能得到的結果只能無限逼近概率），數(shù)據本身也會存在一定的上下波動，存在偶然性，如在智商測試的案例中可能會有正負三的波動；
　　
　　第三，在得到樣本的時候可能存在一定的偏移，而不能代表所有的案例，如：在調查薪水的案例中，愿意填寫問卷或者回答問題的大多是薪金水平相對較高的人群；
　　
　　第四，得到的樣本數(shù)據很有可能是假的，即被調查者會因為調查時的各種環(huán)境因素或者面子問題提供假的數(shù)據而影響了樣本的真實性。如在測試就業(yè)機會的案例中，黑人和白人調查者會得到很不一樣的結果。
　　
　　其次，從選用的數(shù)據來看
　　
　　第一，選擇需要的平均數(shù)，在不完全的正態(tài)分布樣本中，平均數(shù)，中值和眾數(shù)的值會相差很多。個人認為主要是平均數(shù)和中值的區(qū)別，在不完全的正太分布樣本中，平均數(shù)很有可能因為某個相對很高的值被拉高，如某個億萬富翁在拉高當?shù)厥杖胨降陌咐?，而中值在這里相對能更真實的表達當?shù)氐氖杖胨健?br /> 　　
　　第二，故意避開一些有峰值的數(shù)據，如在計算年營業(yè)額時今年和去年的數(shù)據選擇三四月作為分界點，而去年的復活節(jié)在三月，今年的復活節(jié)在四月這樣避開某一峰值。
　　
　　最后，從表達形式來看
　　
　　第一，最明顯的是對圖表的伸縮。因為圖表可以給人對趨勢和對比的數(shù)據很直觀的印象，但是相同的數(shù)據通過改變比例，以及面積和體積的不同表達方式，會讓原本2倍的差距讓人感覺變成4倍甚至8倍。而這些對于隨意的讀者是不會發(fā)現(xiàn)的。
　　
　　第二，用文字游戲，最明顯的是百分比的不同“單位1”，來達到視覺沖擊。如先降價50%，再降價50%，不是降價100%，而是75%的案例，貸款息率6%，說成借100元，還6元的文字游戲，和從康奈爾大學的女性單身率的統(tǒng)計數(shù)據并不代表有權威的康奈爾大學做的統(tǒng)計。
　　
　　第三，將看似有聯(lián)系，但實際沒有因果關系的兩個數(shù)據放在一起，強硬的將兩者聯(lián)系在一起或者顛倒因果。比如屋頂上的鴿子數(shù)和家里的孩子數(shù)的案例和健康的人和身上虱子數(shù)的案例。
　　
　　作者的觀點是，對于每一個一眼看上去很華麗的數(shù)據我們都要保持懷疑的態(tài)度，但也不能因此就不相信每一個統(tǒng)計數(shù)據。就像不會因為看過一本不好的書就討厭閱讀一樣。
　　前段時間看到一份數(shù)據，說中國人均存款是7萬多。新浪微博做了一個熱點話題，問“你拖后腿了嗎”？如果新浪多點節(jié)操，這個話題的相關問題應該是：“你又被平均數(shù)據忽悠了嗎？”
　　互聯(lián)網帶來的信息劇增給我們處理信息的能力提出了新的要求。尤其在中國，太多中國人缺乏批判性思維。獲取信息不問信息源，讀到媒體公布的數(shù)據不問黑白照單全收。
　　三尺之冰非一日之寒。我想這和家庭教育與學校教育的耳濡目染有千絲萬縷的關系。依中國盛行的教育文化，對于晚輩的期待是對長輩的絕對服從。在學校方面，主要是標準化、制度化的應試教育機制扼殺了兒童的批判思維。
　　然而，擁有質疑精神卻是一項非常必要的素質，甚至是防被忽悠的重要生活技能。
　　就從《統(tǒng)計數(shù)字會撒謊》開始吧。一本薄薄的小書，講的也是“顯而易見”的道理。正如常識并非人盡皆知，顯而易見的知識也并非那么明顯。這些明顯而又常常被忽略的統(tǒng)計學的騙術包括：
　　一、20世紀四五十年代用電話民調預測美國總統(tǒng)大選結果，結果預測和實際結果大相徑庭。因為當時能用上電話的家庭都比較富有，是偏保守的家庭。在一人一票的民主制里，富有階層可是占少數(shù)的。
　　二、某女校的女學生有1/3嫁給了學校的老師。不動腦筋的話，你會理所當然認為“哇塞，那豈不是好多？”。可是你猜怎么回事？這個學校只有3個女學生——沒錯，就一個女學生嫁給了老師而已。
　　三、當媒體試圖利用二維圖表來蠱惑你，你也很可能落入陷阱。只需調整縱坐標的寬度，同樣的數(shù)據給人帶來的直觀感受會千差萬別。作者甚至還舉了一個很弱智的例子，當我們討論A是B的兩倍時，如果以圖表作比較，把A的長度變成B的長度的2倍，那么讀者會以為其實A是B的8倍！因為人有能力將二維圖像轉換為三維實物，長度是2倍，寬度是2倍，高度也是2倍呢！
　　四、最坑人的就是平均數(shù)。就像網友嘲笑的，一個貪官存款100萬，一個平民存款1萬，平均存款就是50.5萬。算術平均數(shù)最具欺騙性，明智起見我們還是多參考一下中位數(shù)和眾數(shù)吧。
　　五、信息源很重要。利益相關方的調查結果可信度會大打折扣。讀到一組數(shù)據請詢問出處。而且不要被“光環(huán)效應”搞得暈頭轉向。書中提到有一個調查者在康奈爾大學選取了一組樣本進行試驗，并且在試驗結果開頭寫道：“來自康奈爾大學的研究報告顯示……”。除了那些參與者是康奈爾的學生，這個份報告和康奈爾半毛錢關系沒有。但是調查人員很狡猾地利用了康奈爾的聲望為其報告背書。
　　此處省略一萬字。
　　
　　有些翻譯還是有問題。比如141頁最后，“如果你以每月等額分期還款的形式從銀行以6%的利率借了100美元，應支付的利息的3美元。但如果是另一種的6%貸款，有時也稱為借100美元還6美元，你就需要償還前者的兩倍即6美元?！?美元的利息是怎么算出來的啊？這種借貸法沒聽說過啊。
　　
　　總的說來還是很有價值的一本書，尤其是在中國這種容易輕信、聽風就是雨、大眾以及媒體從業(yè)人員的媒介素養(yǎng)均較為低下的環(huán)境里，這書顯得太必要了。
　　
　　我相信質疑精神和智商無關，只是看你愿不愿意克服惰性，少偷一點懶。
　　花了不到一天的時間看完了這本書，感覺收獲還行，知道了一些利用統(tǒng)計學來欺騙的把戲，最大的收獲是以后再看到數(shù)據或者是圖表，就會多問自己幾句“有沒有搞混概念啊”，“這個圖是不是有欺騙因素啊”“是不是以偏概全了啊”“是不是濫用正相關關系了啊”等等，我覺得讀完一本書，不一定是要牢牢記下許多你本不知道的知識點，重點在于它或多或少的改變了你的思維模式，或者說以后你再接觸到這本書所側重的內容時，你會有一種內行人看門道的感覺。
　　對于一個學統(tǒng)計學了差不多三年的前社會科學研究生來說，這本書的內容顯然挺淺顯的;) 不過正是由于淺顯易讀，而且引用的例證常見于報端，才使這本書的實用性更強。
　　推薦給所有想要培養(yǎng)自己“批判性思考能力”的人們！
　　直接上最后一頁：
　　學術結論、實驗結果以及報道引用都可能產生偏差，這些偏差可能是測量標準的改動造成的，也可能是不正確的測量方法造成的。
　　
　　對于相關系數(shù)也課題同樣的問題：數(shù)值是否足夠大，從而能解釋問題？觀察值是否足夠多，從而能保證結論的可靠性？
　　
　　當均值與中位值相差甚遠，需要注意那些沒有標明類型的平均數(shù)。
　　
　　在分析統(tǒng)計資料時，請留心從搜集原始資料到形成結論的整個過程中，是否存在這概念偷換。
　　
　　讓人印象深刻的精確數(shù)據也會與實際情況向左。
　　
　　
　　
　?。ㄆ鋵嵖梢钥纯从⑽脑妫烙嫴粫y的樣子……）
　　老實說，草草通讀了全文后并未有醍醐灌頂?shù)恼鸷?，作者無非精巧地將統(tǒng)計中騙人的小伎倆，平實幽默而又系統(tǒng)化得展現(xiàn)在讀者眼前，至少就筆者而言，恐怕是雖無騙人經驗，但這些拙劣而淺薄的伎倆怕是見得多了。受騙上當多了即使成不了騙術大師，也算是個合格的倒霉蛋了。
　　
　　回憶起當時某某養(yǎng)生專家號稱一個蘋果等于兩碗白米飯，嚇得我正在節(jié)食減肥的阿姨連蘋果都不敢吃了。其理由無非如下，蘋果中的果糖和兩碗白米飯中的果糖相同，而眾所周知糖分會讓人長胖，所以減肥者吃一個蘋果還不如吃兩碗米飯。呵呵。此時米飯中的碳水化合物想必已掩面流淚不止。類似的還有近日又一養(yǎng)生磚家所說，牛奶比可樂不健康得多，這次他比的是脂肪，別忘了可樂中脂肪的含量是0呀，談脂色變的人們趕快扔掉手中的牛奶投入可樂的懷抱吧?。》凑揖褪悄梦业拈L和你的寬比了怎么樣吧，單位一樣就可以了，想要什么結論達不到？
　　
　　同理還有據某正派主流XX日報，中國去年收繳的違法槍支才16萬，人家老美至少有2億槍支散落民間呢，數(shù)字差了6000多倍呢，可想而知天朝治安比人家好得多呢。先不論我們這是一年收繳數(shù)量人家是總量，而且人家是明正光大合法登記的，我們這只不過是收繳來的一部分，怕是連中國真正冰山一角都不到。更何況我國除了狂熱的槍械愛好者外，哪個守法公民會有配槍的習慣？那這些槍支到底在哪些人手里呢？？而美國持槍已是傳統(tǒng)，深入民心，相反該問有多少家庭沒有持槍。一頭老虎口中的虎牙和一頭大象口中數(shù)十倍大于前者的象牙，你覺得哪個對你的生命安全威脅更大呢？？？是故，16萬和2億沒有可比性，但是！震懾力與感染力的效果已經達到。
　　
　　因為這些數(shù)據說針對的聽眾并不是我們！對于一個具有基本高中生物知識的人而言，那些營養(yǎng)專家的話根本就是放屁，因為我們能輕易分析出其中數(shù)據比較的荒誕之處，可是恰巧這些所謂的專家也根本沒有把我們當作預期的受眾。對于那些阿姨媽媽而言，那些所謂的糖份脂肪比較已經非常得科學嚴謹了，而一個蘋果等于兩碗米飯這個結論又是如此震嚇，于是他們不免感嘆這個專家好牛逼呀??！所以綠豆湯變得可以治百病，生吞泥鰍可以延年益壽。
　　
　　你能說那些阿姨媽媽完完全全不懂得數(shù)據背后的貓膩？別忘了在菜市場，他們知道過秤時攤販故意將4.5的單價打成0.45之后計算總價時再相應乘以十倍其中的貓膩。學了九招騙人秘籍的聰明人，你可知道其中的玄妙？
　　
　　所以當你對數(shù)據開始質疑之后，并不代表著你會發(fā)現(xiàn)其背后的秘密。正如作者全文最后所舉的“176年間密西西比河縮短了242 英里，平均一年1 1/3 英里。任何人也將看到再經過742 年，下密西西比河將變得只有1 3/4 英里長”若非作者指出其中錯誤，至少對于地理白癡的我而言，實在說不出這份數(shù)據荒唐在哪，或者說為什么這個平均值不能推算。
　　
　　所以，在那些你所不了解的專業(yè)領域，若真有一個專家利用高明的統(tǒng)計數(shù)據展示給你看一個精美包裝的錯誤結果，恐怕我們所有人也很難比阿姨媽媽們顯得更聰明些?？闯銎淙绾涡序_的前提是你知道他數(shù)據中哪里打了馬虎眼，可是往往這個前提比歸類他的行騙手段更難。真是這樣，恐怕也只能博覽各家學說，尋求其它與之矛盾的專家著述解疑釋惑了。
　　
　　
　　附：上文所說電子秤的秘密其實不難，首先電子秤往往保留兩位小數(shù)，這里假設有單價3.75元的草莓，你買5斤。正常應是5*3.75=18.75元，而現(xiàn)在通過上述手段，以0.5與0.375過秤，因為只保留兩位小數(shù)，就變成了0.19也就是19元了。
　　一本寫得非常通俗易懂的書，即使是對數(shù)學對統(tǒng)計非常小白的人都能夠輕松的讀懂并且明白。在每一章中都穿插非常多的實例，生活化的語言使這本書更加的風趣。
　　雖然對于專門做統(tǒng)計的人來說可能是一本非常淺薄的書，但是對于普通人，能夠教會我們用理性的眼光來看待充斥在各個消息平臺上的統(tǒng)計數(shù)據，不要讓統(tǒng)計專家利用數(shù)據欺騙了我們。
　　關于本書，思維導圖：
　　http://www.douban.com/note/227034902/
　　
　　在遇到統(tǒng)計數(shù)字時，不應不加思考地全盤接受，也不能以最壞的惡意揣測給出統(tǒng)計數(shù)字的人，但至少應該理智地分析，問問自己一下幾個問題：
　　
　　1、樣本是怎么組成的？
　　2、對于結果，有哪些有形的誤差，更重要的是有哪些無形的誤差？
　　3、隨機樣本是否具有代表性？
　　
　　4、看到平均數(shù)時，首先問問：是什么的評價？包括了哪些人？
　　5、分清楚到底是均值、中位數(shù)、眾數(shù)？了解正態(tài)分布曲線。
　　
　　6、是否有遺漏哪些重要的數(shù)據
　　7、樣本的精度：可能誤差和標準誤差
　　
　　8、圖表的畫法是否有故意夸大或縮小之嫌？
　　9、圖形是否有視覺誤差？
　　
　　10、調查報告搜集的資料是否相關，或者完全不同，只是部分近似？
　　11、數(shù)據之間的相關性是怎樣的？
　　
　　Chapter 1 內在有偏的樣本
　　1.一般情況下，郵寄問卷的回收率到5%~10%就已經相當可觀了。
　　2.根據樣本得到的結論不會比樣本更精確。
　　3.無形的誤差與有形誤差一樣容易破壞樣本的可信度。也就是說，即使你找不到任何破壞性的誤差來源，但只要有產生誤差的可能性，你就有必要對結果保留一定的懷疑。
　　4.最基本的樣本是隨機樣本，它是指完全遵循隨機原則從總體中選出的樣本。總體即形成樣本的母體。
　　5.隨機樣本的檢驗方法是：總體中的每個名字或每個事情是否具有相同的幾率被選進樣本？
　　6.純隨機樣本是唯一有足夠把握經受統(tǒng)計理論審查的樣本。但很多情況下，獲得這種樣本難度很大并且非常昂貴。所以現(xiàn)在多數(shù)使用分層隨機抽樣。
　　7.一般而言，民意調查都帶有一定程度的誤差。
　　
　　Chapter 2 精心挑選的平均值
　　1.當你被告知某個數(shù)是平均數(shù)時，除非能說出它的具體種類——均值，中位數(shù)，還是眾數(shù)，否則你對它的具體涵義仍知之甚少。
　　2.在處理諸如人類特征的數(shù)據時，各種平均數(shù)的數(shù)值十分接近。
　　3.當你看到某個平均收入時，首先問問：是什么的平均？包括了哪些人？
　　
　　Chapter 3 沒有披露的數(shù)據
　　1.采用嚴重有偏樣本幾乎能夠產生任何人需要的任何結果。
　　2.通常情況下，單憑一個平均數(shù)來描述事物過于簡單，起不到作用，不管這個平均數(shù)是均值還是中位數(shù)，也不管平均數(shù)的具體類型是否已知。
　　
　　Chapter 4 毫無意義的作品
　　1.在所有抽樣研究中都有誤差，忽略這些誤差將導致一些愚蠢的舉動。
　　2.只有當差別有意義時才能稱之為差別。
　　
　　Chapter 5 令人驚奇的圖形
　　1.加深人們對圖形印象的方法：
　?。?）把圖形的底部抹去
　　（2）改變橫坐標與縱坐標的比例關系。將縱坐標的每一個刻度縮短為原來的1/10即可。
　　2.圖形比文字更有效，因為圖形中不存在任何形容詞和副詞來破壞它所具有的客觀性幻想，而且誰也無法指責你。
　　
　　Chapter 6 一維圖形的濫用
　　1.柱狀圖也具有欺騙性：在描述單一物體時，柱體改變寬度改變的同時，長度也發(fā)生變化；在描述三維物體時，物體的體積又不容易進行比較，以上任何一種情況都提醒我們應該對柱狀圖保留一些懷疑。
　　
　　Chapter 7 不完全匹配的資料
　　1.不完全匹配的資料是一種保證你處在有利位置上的武器，而且屢試不爽。
　　
　　Chapter 8 相關關系的誤解
　　1.兩個事物之間的關聯(lián)關系并不能用于說明其中一個將引起另一個的變化
　　2.聯(lián)合變動的一個普遍形式是存在著真實的關系，但卻無法確定何為因何為果。有時因果可以不時地交換位置，或者實際上互為因果。
　　3.相關顯示了一種趨勢，而這種趨勢通常并不是那種一對一的理想關系。
　　
　　Chapter 9 如何進行統(tǒng)計操縱
　　1.扭曲統(tǒng)計數(shù)據的最巧妙方法是利用地圖。充斥在地圖上的變化，往往隱藏了事實、扭曲了關系。
　　2.變換基數(shù)還能產生增加折扣的幻覺
　　3.將一些看似直接相加卻不能這樣操作的事情加在一起，會產生大量的欺騙和隱藏
　　4.百分位數(shù)也同樣具有欺騙性
　　
　　Chapter10 如何反駁統(tǒng)計資料
　　1.首先要尋找偏差。這種偏差的表達形式可能是錯誤的陳述，可能是不易被揭穿的含糊之詞，還可能是可以挑選適合的數(shù)據，而將不合適的數(shù)據放在一邊。
　　2.使用不正確的測量方式也是產生偏差的原因之一。
　　3.當某個權威人士被引用時，請弄清楚到底資料的內容是權威的，還是僅僅車上了權威人士的大名
　　4.看樣本是否有偏。觀察值是否足夠多，從而保證結論的可靠性
　　5.當均值與中位數(shù)相差甚遠時，需要注意那些沒有標明類型的平均數(shù)
　　6.有時僅給出百分數(shù)卻缺少原始數(shù)據也能造成欺騙
　　7.在分析統(tǒng)計資料時，請留心從搜集原始資料，到形成結論的整個過程中，是否存在著概念的偷換。
　　8.請記住：到目前為止的趨勢都是事實，而未來的趨勢只不過是受教育者的猜測。該方法暗含“其他所有條件都相同”以及“現(xiàn)有趨勢保持下去”的前提。但事實上，條件總是在變化。
　　
　　現(xiàn)在社會，人對數(shù)據相對比較高的敏感性，而且偏向于認為既然統(tǒng)計出來的，數(shù)據的可信度應該是比較高的，小數(shù)點什么的給人一種嚴謹和無懈可擊的感覺。
　　出現(xiàn)一個統(tǒng)計數(shù)字，我們要思考：
　　 1.我們要考慮信息來源，這些數(shù)據是怎么獲得的？是權威機構提供的還是假借權威機構之名自己得出結論？具體的操作過程中會不會對被調查者或樣本有一定的偏向性？會不會有其他因素影響？統(tǒng)計要有整體概念，不能局限某一平均數(shù)值，要了解整體數(shù)據的分布。
　　 2.信息發(fā)布者的動機與信息是否有相關性？數(shù)據是否跟發(fā)布者利益相關？有相關的話動過手腳也是正常的，統(tǒng)計數(shù)值無非是為了我們已有的認知服務好去引導大眾，而且數(shù)字容易讓讀者上癮，讓讀者有一種了解事實的錯覺。
　　 3.信息的語義問題，即統(tǒng)計上的概念偷換，語義不一樣的，統(tǒng)計也會給人一種很大的錯覺
　　 4.信息的完整性。比如小樣本的統(tǒng)計根本沒有代表性，因為信息不夠完整。
　　猛然間覺得自己每天看那么多新聞中的數(shù)據，尤其是國家政府發(fā)布的或者不正規(guī)機構發(fā)布的，或者雜志媒體自己杜撰調查的，原來自己被騙了很多
　　第一章內部有偏的樣本
　　
　　人們往往對問卷不會說真話。
　　
　　很多統(tǒng)計數(shù)字建立在統(tǒng)計者永遠無法發(fā)現(xiàn)的事實上。
　　
　　要仔細審查整個抽樣的過程，一定要特別注意樣本所代表的范圍，不要想當然地將范圍擴大或縮小
　　
　　最基本的樣本是隨機樣本，指完全遵循隨機的原則從總體中選出樣本。
　　
　　隨機樣本的檢驗標準是：總體中的每個事物是否具有相同的幾率被選進樣本？
　　
　　一般而言，民意調查都帶有一定的偏差。民意調查最終將演變?yōu)橐粓龊驼`差的遭遇戰(zhàn)，而這場戰(zhàn)斗永遠不會取得勝利。
　　
　　在看到“67%的美國人反對”時，應保留這樣一個問題：67%的哪些美國人？
　　
　　由誰組成調查人員也會對調查結果產生微妙的影響。人們在接受調查時有迎合對方說好話的傾向。同時，不同的調查人員也會選擇不同的調查對象。
　　
　　第二章精心挑選的平均數(shù)
　　
　　當讀到“平均數(shù)”時，一定要弄清楚是算術平均數(shù)、中位數(shù)還是眾數(shù)（數(shù)字序列中出現(xiàn)次數(shù)最多的數(shù)）
　　
　　在處理諸如人類特征的數(shù)據時，不同的平均數(shù)將大致相等，因為這些數(shù)據的分布十分接近正態(tài)分布。而在描述他們的經濟收入時就不是如此了，它的算術平均值和中位數(shù)離得很遠。
　　
　　當你看到一個平均數(shù)時，首先問問：是什么的平均？包括了什么？
　　
　　對于那些未加解釋的平均數(shù)我們根本不用太在意。
　　
　　第三章沒有披露的數(shù)據
　　
　　不充分樣本
　　
　　顯著性方法：反應測驗數(shù)據以多大的可能性代表實際結論而不代表那些由于機遇產生的其他結論的方法。
　　顯著程度通常用概率表示，通常5%的顯著程度是最低要求，有時需要更精確的1%的顯著程度，即意味著以99%的概率保證該結果是真實的。
　　
　　另一類被遺漏的數(shù)據是表明事物整體范圍的全距和與平均數(shù)偏離水平的數(shù)據。
　　通常情況下，平均數(shù)----不管是否指明均值或中位數(shù)，都由于過于簡單而導致無用。
　　不要只看平均數(shù)，而應了解數(shù)值的變化范圍。
　　
　　將“正常的”與“期望的”混為一談使事情變得更糟?！罢５摹辈⒉坏扔凇昂玫摹?、“對的”、“應該如此的”。
　　
　　第四章毫無意義的工作
　　
　　對待抽樣結果應注意它的范圍，其值不應該是一個數(shù)值，而是一個帶有誤差的范圍，如100+-3
　　
　　只有當差別有意義時才能稱之為差別。
　　
　　第五章驚人的統(tǒng)計圖形
　　
　　陷阱1：在折線圖中，將圖形的底部抹去，而夸大變化趨勢。
　　陷阱2：在折線圖中，改變橫軸與縱軸刻度的比例關系，將縱軸的每一個刻度縮減為原來的十分之一，而夸大變化趨勢。
　　
　　第六章平面圖形
　　
　　不要使用形象化圖形。形象化圖形的面積或體積之比往往與其所代表的數(shù)值之比并不相同。
　　第七章不相匹配的資料
　　如果你想證明某事，卻發(fā)現(xiàn)沒有能力辦到，那么試著解釋其它事情并假裝它們是一回事。
　　
　　當遇到比率數(shù)字時，一定要弄清楚對比的對象是什么，而且要了解兩個對象的可比性。
　　
　　要弄清絕對值和相對值，許多情況下不能直接用絕對值進行比較。
　　
　　銷售利潤率和投資回收率不是一碼事。投資利潤率，即用稅前利潤除以總投資，主要是看單位投資能產出多少利潤；銷售利潤率，即有稅前利潤除以銷售收入，看單位銷售能得到多少利潤。
　　
　　第八章相關關系和因果關系
　　
　　陷阱：如果B總是緊跟著A出現(xiàn)，那么A一定導致B。
　　
　　所謂“相關”，往往是通過“相關系數(shù)”這個精確的數(shù)據來證明兩件事物間具有關聯(lián)關系。它可以有多種不同的類型：
　　1. 一種相關是通過機緣巧合而產生的。
　　2. 利用小樣本，任何兩個你能想到的事件或兩組特性之間都能建立顯著的相關。
　　3. 聯(lián)合變動的一種普遍形式是存在著真實的關系，但無法確定何為因，何為果。有時，因果可以不斷地交換地位，或者可以同為因果。
　　4. 最具有戲劇性的相關是所有變量之間沒有任何影響，卻存在著顯著的相關。此時只能證明變量之間存在著相關關系，但是否存在因果關系仍是未知數(shù)。
　　
　　另一個需要留意的是，超過了推斷相關關系的數(shù)據范圍而得出的結論。正相關到了一定的程度之后會急劇地轉化為負相關。
　　
　　相關顯示了一種趨勢，而這種趨勢并不是那種理想的一對一關系。
　　請時刻記住，即使某種相關關系是真實的，并有真實的因果關系，仍舊不能因此做出行為決策。
　　
　　第九章如何進行統(tǒng)計操縱
　　
　　扭曲統(tǒng)計數(shù)據最巧妙的方法是利用地圖。
　　
　　百分數(shù)也給誤解提供了肥沃的土壤。和小數(shù)一樣，它也能為不確切的事物蒙上精確的面紗。
　　任何建立在小樣本容量上的百分數(shù)都可能產生誤導，直接給出具體數(shù)值的大小將更有價值。如果再將百分數(shù)表示成小數(shù)點后幾位的小數(shù)形式，你可能正從愚蠢邁向故意欺詐。
　　
　　變換基數(shù)能增加折扣的幻覺，當商人向你提供一份“50%折上再20%折”的報價單時，那并不意味著70%的折扣，而只是60%，因為后20%折扣是用五折后的價格計算的。
　　
　　將一些看似能直接相加但卻不能如此操作的事情加在一起會產生大量的欺騙和隱瞞。允許所有百分數(shù)直接相加的邏輯將得到各種奇談怪論。
　　
　　第十章對統(tǒng)計資料提出的五個問題
　　
　　一、誰說的？
　　首先要尋找偏差。
　　有意識的偏差：錯誤的陳述、不易被揭穿的含糊之詞、刻意挑選合適的數(shù)據而將不合適的數(shù)據放在一邊、測量標準的改動、不正確的測量方法（如不加說明的“平均數(shù)”）
　　無意識的偏差：通常更危險。
　　所謂“權威人士”掩蓋了真實的資料來源。當某個權威人士被引用時，請弄清楚到底資料的內容是權威的，還是僅僅與權威人士沾邊。
　　
　　二、他是如何知道的？
　　注意樣本的有偏，是由于選擇不當，還是由刻意挑選有利的樣本造成的？
　　樣本是否足夠大到能夠保證結論值得信賴？
　　對于相關系數(shù)：數(shù)值是否足夠大從而能說明問題？案例是否足夠多？是否具有一定的顯著性？
　　
　　三、遺漏了什么？
　　如果無法了解樣本中包含了多少案例，已足以使你對整件事情提出質疑。
　　對一個沒有經過可信度（可能誤差、標準誤差）檢驗的相關也不用太當真。
　　當均值與中位數(shù)相差甚遠時，注意那些沒有標明類型的平均數(shù)。
　　很多數(shù)據由于缺乏比較而變得沒有意義。
　　有時僅給出百分數(shù)而缺少原始數(shù)據也能造成欺騙。
　　當看到一個指數(shù)時，你或許會覺得遺漏了什么。巧妙之處在于基期，一個經過挑選的基期將會扭曲事實。
　　有時文章中遺漏了引起變化的原因，這容易讓讀者認為其它的因素才應對變化負責。
　　
　　四、是否有人偷換了概念？
　　前后的統(tǒng)計口徑是否一致
　　如果數(shù)據是建立在人們的口頭回答（即使有一些聽上去十分客觀）基礎之上，將發(fā)生許多怪事。
　　將“相關關系”偷換成“因果關系”
　　
　　五、這個資料有意義嗎？
　　當所接觸到的資料是建立在未經證實的假設基礎之上時，你可以發(fā)問“這個資料有意義嗎？”
　　許多統(tǒng)計資料一眼就可以看出是錯的，這是因為奇妙的數(shù)據與感覺不符。
　　讓人印象深刻的精確數(shù)據也會與現(xiàn)實相左。
　　當看到用外推法計算出來的數(shù)據和圖表時，請記住這點：到目前為止所有的趨勢都是事實，而未來的趨勢只不過是受教育者的猜測。該方法暗含“其它所有條件都相同”以及“現(xiàn)有趨勢將繼續(xù)下去”的前提，但實際上條件總是在變化的。
　　
　　在信息爆炸的時代，各種信息良莠不齊，真?zhèn)瓮?，媒體和宣傳機構越來越重視使用統(tǒng)計來傳遞信息。但是大量的統(tǒng)計數(shù)據，統(tǒng)計資料由于主，客觀的原因被濫用，很難起到描述事實，傳遞有效信息的作用，反而會對讀者形成誤導。
　　
　　一內在有偏的樣本
　　1 一個以抽樣為基礎的報告如果要有價值，就必須使用具有代表性的樣本，并且排除各種偏差。
　　2 無形的誤差和有形的誤差一樣容易破壞樣本的可信度。即使你找不到任何破壞性的誤差來源，但只要有產生誤差的可能性，你就有必要對結果保留一定的懷疑。
　　3 以《時代》雜志報道的耶魯畢業(yè)生年薪25111美元為例，問卷的回收率，答題人的誠實度，樣本是否具有代表性決定了數(shù)據本身的科學性，可信性！
　　4 一條河流永遠不可能高于它的源頭，但是在河的某處藏有水電站，卻可以做到。對于樣本研究后得到的結論不會好于樣本本身。當數(shù)據經過層層統(tǒng)計處理，最后簡化成一個小數(shù)形式的平均數(shù)時，結論似乎被確定的光環(huán)所籠罩，但是只要再仔細留心整個抽樣過程。光環(huán)就會破滅。
　　5 隨機樣本是指完全遵循隨機的原則從總體（調查時在場的所有的人）中選出的樣本，其標準為：總體中的每個名字或事物是否具有相同的幾率被選進樣本？
　　6 相對于隨機抽樣的難度大，經濟成本高而言，選擇使用分層抽樣：把總體按照事先已知的優(yōu)勢比例劃分成不同的組。
　　7 統(tǒng)計是與誤差的遭遇戰(zhàn)。樣本有偏的趨勢可以自動地操縱結果，使其變的扭曲。
　　二精心挑選的平均數(shù)
　　平均數(shù)：
　　均值：個體總數(shù)的值(比如收入)的總和除以個體總數(shù)
　　中位數(shù)：一半家庭的收入超過3500 美元，而另一半家庭的收入低于3500美元。
　　眾數(shù)：在所有家庭收入序列中出現(xiàn)次數(shù)最多的數(shù)值，就是眾數(shù)！年收入5000 的家庭總數(shù)遠大于其他收入的家庭，則眾數(shù)為500 美元
　　2 公司財報中的員工平均收入多半是均值，比如一個80w 兩個 10 w 年薪的人平均年薪 33w 顯然這樣的均值是無意義的。
　　
　　三沒有披漏的數(shù)據
　　1使用小樣本的重要性在于：在大樣本使用中，任何由于機遇產生的差異都是微不足道的，不足以作為廣告標題。采用不充分樣本得出的結論顯然具有誤導性。
　　
　　四毫無意義的工作
　　五驚人的統(tǒng)計圖形
　　1 統(tǒng)計圖形代替表格中的文字表現(xiàn)直觀的趨勢發(fā)展。
　　2 統(tǒng)計圖形中的表格的基本單位的差異可以使圖形趨勢表現(xiàn)出驚人的效果。
　　六平面圖形
　　七不相匹配的資料
　　使用統(tǒng)計數(shù)據報道一個事件本身比如 1952年“小兒麻痹癥之年”，忽略了當時的客觀因素（1有更多易感染的孩子2對麻痹癥有更深的認識，積極到醫(yī)院就醫(yī)3經濟刺激，從國家嬰兒麻痹基金獲取經濟幫助）就會導致基于統(tǒng)計數(shù)據的報道是真。
　　八相關關系與因果關系
　　1 相關謬誤：如果B緊跟著A出現(xiàn)，那邊A一定導致B。然而更大的可能性是兩個因素并不互為因果關系，而同為第三個因素的產物。
　　2 相關是所有變量相互間沒有任何影響，卻存在著顯著的相關。比如抽煙和成績不好這樣的例子。
　　3 學歷的高低和賺錢的多少的相關性！
　　九如何進行統(tǒng)計操作
　　
　　十對統(tǒng)計資料的五個提問
　　 1 誰說的？尋找偏差：有意識的偏差和無意識的偏差
　　 2 如何知道？
　　 3 遺漏了什么？
　　 4 是否偷換了概念？
　　 5 資料是否具有意義？
　　看了“學會批評性思維”這本書，再看”統(tǒng)計數(shù)字會撒謊“，覺得與其中部分章節(jié)有異曲同工之處
　　
　　這兩本書都用實例說明了統(tǒng)計數(shù)字再商業(yè)調查中的各種不完全信息的用法帶給用戶的錯覺
　　
　　從這些事例中，可以收獲很多，比如很多網上的調查結果，僅看結果是非常誘人的，但是結果獲得的過程、展示方式更值得我們用批判的思維去對待
　　
　　心得1：隨機樣本獲取的檢驗標準是：總體中的每個名字或事物是否具有相同的幾率被選進樣本
　　心得2：顯著性檢驗方法是一種反映測驗數(shù)據以多大可能性代表實際結論而不代表那些由于機遇產生的其他結論的方法
　　心得3：正常的智商不應該只是100這樣一個數(shù)值，而應是一個范圍。如果兩組數(shù)據相差接近，就沒有比較的意義
　　心得4：利用小樣本，任意兩個你能想到的事件或兩組特性之間都能建立顯著相關
　　心得5：幾乎所有人都可以標榜之間在某個領域獲得了第一，如果沒有特別住處某個領域。從這條讓我想到了今天在微博上看到的一天新聞：互聯(lián)網中的各種第一，例如第一視頻網站搜狐，第一門戶網站新浪等等
　　前段時間，我負責完成一份新人的素質情況分析。這是三年來我第二次干這事了，做得更從容，更輕松，也更“漂亮”，但卻更沒有價值。何出此言？因為這份報告是杜撰出來的，說是杜撰也不確切，因為它的數(shù)據基本是真的，問題在于它分析的著眼點和它的說法。
　　首先，我要如實的匯報一下為什么我要杜撰。原因很簡單，上面想要盡快拿到一份“好看”的報告。因為催得緊，我只好提前設想一些新人的特征，然后在設計問卷時就有意識地加到問卷當中。報告也是在新人到之前就大致完成了的，除了差異很大的幾點（比如，原來以為高學歷會像往年一樣占很高比例。其實，由于前幾年吸引高學歷人才的政策沒有落實，致使今年招收的新人學歷層次普遍回落）幾乎沒有變化。其實也不是我偷懶，找出以前的報告改改。問卷是重新設計的，報告也幾乎是全新的。我閉門造車的原因只是來源于第一次的經驗：上頭很有“統(tǒng)籌規(guī)劃”能力，說“你可以分批搞（調查）嘛，后面的又不影響前面的，工作不就可以并行了！”他們總是在新人剛到齊就開始催報告，好像報告就只是統(tǒng)計幾個數(shù)字，不需要花時間分析似的。另外，工作量很大，容不得我等到數(shù)據出來再分析。新人總數(shù)過千，而為了報告“漂亮”需要兼顧各個方面，問卷題量是歷年來最大的（我設計了近50個客觀題（雖然問卷還是比較全面的，但后來完善報告時還是有點小遺憾：沒有設計主觀題，致使報告缺乏個案，最后只得問了幾個名字杜撰上去）。當然也是有點小私心的，現(xiàn)在手下有人，統(tǒng)計不用我弄，而如果問卷哪個方面沒有涉及，我可是要挨收拾的。我干過那活，心里有點過意不去）。做好模板的另一個好處就是可以減少統(tǒng)計量。我會有針對性的去統(tǒng)計一些問題，只有拿到“證據”就行了。
　　為什么說這份報告沒什么價值呢？最重要的一點，它早已由上面定好調了。按理說，調查不能不預先設想，毫無側重，但上面給我定的調是：總體情況“只能”不斷提高，存在的問題“只能”不痛不癢。比如前面提到的政策不落實的分析，我就不能寫進報告吧。我所要做的不過是挑選一些數(shù)據和實例充實、完善上頭的判斷。其實，我也知道不完全是上頭的意思，因為上頭總還有上頭。其次，統(tǒng)計也不準。在填寫問卷的環(huán)節(jié)，總會有這樣那樣的情況致使新人不敢如實填寫。我跟同事開玩笑說過“你信不信，就算是不記名，我還是能把那些‘刺頭’的身份找出來”。不是我虛夸，問卷中的基本信息和問題設置會暴露很多信息，更何況它是“刺頭”。除了原始資料不準確，在統(tǒng)計環(huán)節(jié)，我們也只統(tǒng)計了一半。只有少數(shù)客觀情況（比如：籍貫、性別、學歷、戶籍情況、學歷層次等），才去認真查了準確數(shù)。雖然統(tǒng)計的樣本量也算夠了，但樣本是有偏的。因為新人是一個省一批到的，我們只統(tǒng)計了前面幾批，而不是每個地方抽出一部分來。最后在審核環(huán)節(jié)，有些數(shù)據領導覺得高了（比如性經歷），隨意調低，或者換個說法（比如，2%換成“個別”，61%說是“絕大部分”）?？傊@份報告就像那句廣為流傳的“團結的、勝利的大會”一樣，是一份“高質量的、論點新穎、論據充分、個案詳實”的報告。
　　最后，回到這本書上來。我一直認為，比較只能在兩個單一變量間進行，就像你可以說3 > 2，但你不可以說(3, 2) > (2, 3)。一旦涉及到現(xiàn)實世界，就沒這么好區(qū)分比較的是不是單一變量了。但你還是有一件不那么準確的武器——常識。就像不管某人羅列怎樣的數(shù)據證明房市降溫，可依舊買不起房的你半個字也不會相信一樣，警惕那些虛偽的統(tǒng)計量，不要盡信“科學”的幌子。
　　每天翻開報紙，總是看到很多充滿著數(shù)據的報道，看似用數(shù)據說話，非常可靠，然而達萊爾.哈夫告訴你，小心別被忽悠了，里面的門道多著呢！沒錯，這就是用數(shù)據說謊之道?！督y(tǒng)計陷阱》英文原版叫做《How to Lie with Statistics》,其實作者不是教你怎么用統(tǒng)計來撒謊，而是教你怎么識別這些謊言。是面向大眾的一本入門書籍，里面沒有復雜的統(tǒng)計學知識，也沒有頭痛的各種圖表等，簡單易懂，例子非常有趣。
　　應用書中的知識，也來看看近期看到的一些報道吧。
　　香港新聞：港大民意調查機構做的一個調查發(fā)現(xiàn)，行政長官候選人梁振英的支持率遠高于唐英年，一個52.x%，一個26.x%，高了20多個百分點?？催@個頭條還真的覺得唐英年民望不行了。鑒于之前一般的風聲都比較多人支持唐英年。好奇的tvb記者試著隨便找了些行人支持誰，結果基本上說的都是唐英年。于是就很有意思了。一個調查的結果是否可靠會受到很多情況的影響。嗯，第一章名字叫做：內在有偏的樣本。沒錯，做民意調查首先要抽樣，抽樣很重要，非常重要。如果抽樣的樣本數(shù)量不夠多就不具有代表性（記者路邊的采訪樣本更少，所以更加不具有代表性）。而且抽樣一般要講究隨機抽樣，如果無法隨機抽樣，那么按照分層抽樣，分幾層，每層比例占多少,每層抽樣多少人這些都要很謹慎。港大的民意調查說，我的是隨機抽樣！別以為純隨機抽樣就會很嚴謹了，隨機抽樣也是有缺陷的。更詳細地了解新聞，說是”對530多名人士進行電話訪問“得出的結果。重點有兩個：530多名，電話訪問。530多名樣本多不多？這個不能說多，也不能所很少。再來看看電話訪問，是固話還是固話和移動電話都有？是什么時間段訪問的？如果白天打固話訪問，訪問的會不會大部分都是家庭主婦呢？這會不會有一定的偏向呢？有很多的影響結果的疑問在沒有完整的了解之前，這個民調結果真的是僅供娛樂了。
　　
　　再來看看可靠的官方數(shù)據。近日各大報紙和網站頭條都寫著“深圳人均住房面積40平方米”字樣標題的新聞。全國其他省市的人民看了肯定淚流滿面！??！一家三口就有120平米，哇塞，特區(qū)就是特區(qū)，連房子都特別大，雖然房價特別貴，但是里面的人都特別有錢。標題總是容易讓人記住，詳細內容總是很少人看的。仔細看這一長篇報道發(fā)現(xiàn)里頭有這么一句話：”李榮強（住建局局長）說，如果按照戶籍人口計算，包括低收入家庭在內的住房完全不成問題，住房保障率達到100%。但是根據統(tǒng)計，目前深圳共有4億多平方米的住房面積，約600萬套住房，人均40平方米。“原來人均40平米是這么來的！共有住房面積/戶籍人口=人均住房面積。這就是偷換概念了。把人均住房面積計算的除數(shù)和被除數(shù)都變換了，得出來的還是人均住房面積嗎？這個4億多平米的住房面積是賣出去的還是建成的所有住房呢？沒有說。為什么用戶籍人口不用常住人口呢？不知道！仔細挖掘一下，就發(fā)現(xiàn)這是一個面目全非的”人均40平方米“。
　　
　　另外一條更讓人歡樂的新聞說：“深圳人平均月薪6644元金融保險月薪最高”。一看到題目，很多深圳網友都開玩笑表示自己給國家拖后腿了。然而這個新聞可信嗎？常識告訴我們，不可信！常識都覺得不可能的事情，怎么嚴謹?shù)臄?shù)學、統(tǒng)計會出現(xiàn)呢？根據書中所學，禁不住要問這里寫的“人均”，這個平均數(shù)究竟是算數(shù)平均數(shù)、中位數(shù)還是眾數(shù)呢？如果樣本的薪酬分布和正態(tài)分布差別很大，那這三者是接近的，然而實踐表明，很多調查的結果分布往往不是這樣的。這個調查的抽樣是隨機抽樣還是分層抽樣，分層抽樣分幾層，每層比例占多少？抽樣總數(shù)是多少？好吧，問題太多了，簡單點，問兩個問題：這個調查是誰做的？TA是怎么得出來的？仔細查了一下這個新聞，才發(fā)現(xiàn)原來這個數(shù)據是南方人才市場得出來的，從一段時間內的簡歷庫，獵頭等地方獲得相關參考數(shù)據。很顯然，一般普工和行政、事業(yè)單位的工作人員是不會去人才市場投簡歷的，所以這個抽樣是不全面的。即使這個是一個抽樣合理的調查，也還會有問題存在。一般報紙雜志上報道只給出了結果，并不會給出可能誤差和標準誤差的一些相關參考數(shù)值，這就無法判斷這些平均數(shù)等數(shù)據的可信度了。媒體只會抓住這種新聞亮點大肆報道，不會認真去核實這些問題，觀眾看了容易受到誤導。
　　
　　又是近期的一則報道”研究發(fā)現(xiàn)鎮(zhèn)痛藥增加老年人肺炎危險“，報道根據是：”阿片類鎮(zhèn)痛藥(opioids典型的中樞神經鎮(zhèn)痛藥)與65—94歲人群肺炎危險增加關聯(lián)密切。”“多項動物研究發(fā)現(xiàn)，嗎啡、可待因和芬太尼(fentanyl)等阿片類鎮(zhèn)痛藥會損害免疫系統(tǒng)，可能會增加肺炎危險?！薄敖涍^2000—2003年病例對照研究發(fā)現(xiàn)，在肺炎病例中，服用阿片類鎮(zhèn)痛藥和苯二氮草類鎮(zhèn)痛藥的患者分別占13.9%和8.4%。而在沒有得肺炎的參試者中，服用阿片類鎮(zhèn)痛藥和苯二氮草類鎮(zhèn)痛藥的患者分別占8%和4.6%?！鞍l(fā)現(xiàn)阿片類鎮(zhèn)痛藥與老年人群的肺炎病發(fā)有相關性，然后通過動物實驗再次驗證了這個相關性，就得出了鎮(zhèn)痛藥會增加老年人的肺炎的發(fā)生。后面的數(shù)據也就是不斷重復做了一件事：證明阿片類鎮(zhèn)痛藥的使用與老年人的肺炎發(fā)生有相關性。但是媒體報道的標題就成了鎮(zhèn)痛藥導致了肺炎的增加，相關關系成了因果關系。兩個事物a和b存在相關關系，可能的情況有很多種，可能的確是因為鎮(zhèn)痛藥的使用降低了免疫力導致肺炎的發(fā)生，又或者是易患肺炎的人群在發(fā)病前都有其他的并發(fā)癥狀導致他們需要服用鎮(zhèn)痛藥，又或者因為這類人免疫力低下的原因，容易患肺炎和其他需要鎮(zhèn)痛藥的疾病。在沒有各種對照實驗和病例研究之前，單純根據觀察到的相關關系是沒法確定他們的因果連接的。這類相關性實驗的作用只是為后續(xù)的實驗提供一個研究的參考方向。一般科學研究實驗總是比較嚴謹?shù)模苌俪霈F(xiàn)這種情況。但是問題出在幾個方面：1）媒體斷章取義，故意忽視了一些研究結論所限定的條件，擴大到了日常生活中；2）媒體不夠專業(yè)，不能理解真實意思。但是不管哪個原因媒體只要把標題起好了，就可以吸引人的注意力，新聞點有了，目的就打到了。至于解釋這種事情，沒人關心。個人發(fā)現(xiàn)此類報道多見于生活健康一類科學前沿的報道。
　　
　　現(xiàn)在太多這種報道了，各種官方數(shù)據、各種行業(yè)企業(yè)數(shù)據、各種媒體報道、讓人防不勝防。網上的玩笑說，一個窮人一個富人，窮人住50平方米的房子，富人住120平方米的房子，平均住房面積為80多平方米。后來富人換成了240平方米的房子，窮人依舊，但是平均住房面積變成了差不多150平方米，增加了差不多一倍。面對各種的數(shù)據”謊言“，達萊爾.哈夫教我們，要問五個問題”誰說的？“”他是怎么知道的？“”遺漏了什么？“”是否有人偷換了概念？“”這個資料有意義嗎？“
　　距離達萊爾.哈夫這本書的出版也已經有幾十年的時間了。各種利用統(tǒng)計數(shù)據撒謊的報道仍然在繼續(xù)，只不過手段沒有那么笨拙了，書中所說的很多”愚蠢“方法已經不再出現(xiàn)，現(xiàn)在的手段越來越難辨識了。然而《統(tǒng)計陷阱》只是一個向導，引導出我們的找碴能力，對于媒體上報道的，不能輕易相信，應該時刻帶著批判思維去思考和檢視。正所謂，世界上本來沒有防騙術，給騙的人多了，自然就會開發(fā)出了防騙術了。看完這本書之后頗有幾分凡是報道的數(shù)據都可疑的味道，嗯，很好，帶著這樣的目光去發(fā)掘更多的防騙術吧，這次就不單是數(shù)據了！
　　1. 內在有偏的樣本
　　2. 精心挑選的平均數(shù)：均值（偏大），中位數(shù)（偏下），眾數(shù)（居中），只有滿足高斯分布，這三個值才差不多。
　　3. 沒有披露的數(shù)據
　　4. 毫無意義的工作
　　5. 令人驚奇的圖形：改變坐標軸的比例，可以產生不同的視覺效果。
　　6. 一維圖形的濫用：數(shù)字是2：1，如果畫成二維圖形，視覺效果就是4:1
　　7. 不完全匹配的資料：數(shù)據是真實的，但得到結論是從某一側面
　　8. 相關關系的誤解：兩個事物之間的關聯(lián)關系并不能用于說明其中一個將引起另一個的變化。
　　9. 如何進行統(tǒng)計操縱：變化基數(shù)能產生增加折扣的幻覺。
　　10. 如何反駁統(tǒng)計資料：對統(tǒng)計資料應該提出五個問題：（1）誰說的；（2）如何知道的；（3）是否遺漏了什么；（4）是否偷換了概念；（5）資料是否有意義。
　　
　　
　　其實統(tǒng)計學只是工具而已，出于特別用意的人用就會有特定的結果，尤其是在商業(yè)中，選擇、加工、發(fā)布利于自己的數(shù)據是人性使然。
　　
　　一般來說，理工科畢業(yè)，有著良好的邏輯思維和統(tǒng)計學基礎的人都不容易上當，只不過這個世界這樣的人較少罷了。這么說來，說出一些“常識”幫助大部分人，也算是善舉了。
　　
　　btw，其實這本書中文版的標題也有這個“陷阱”，呵呵，人性啊人性。。。
　　很愧疚地講，作為一個工科畢業(yè)生，我對數(shù)字是非常不敏感的。小學時期，老師讓我數(shù)跳繩的數(shù)，基本上就沒有數(shù)對過，總會差幾個，老師在黑板上出的“11111”我能抄成“1111”然后被罰站不讓回家吃飯。上了高中、大學以后，看見那種一連串的1，或者一連串的0，我都會腦袋發(fā)懵，要閉了一只眼睛，用手指頭按著一個一個數(shù)清楚。直到現(xiàn)在，看見excel里面“￥100，000,000.00”，我還是會緊張，用老辦法“個十百千萬”地數(shù)。
　　但是現(xiàn)在，數(shù)字充斥了所有的媒體，權威機構，政府部門也樂于向大家發(fā)布一些帶著小數(shù)點的數(shù)字。作為學過《數(shù)理統(tǒng)計》的工科學生，我毫無猶豫地看重這些數(shù)字并且視其為科學的象征。
　　但是《統(tǒng)計數(shù)字會撒謊》這本書告訴我，帶著小數(shù)點的統(tǒng)計數(shù)字，很可能是在扯淡。
　　得到統(tǒng)計數(shù)字以前，需要采集數(shù)字，然后利用工具處理、分析數(shù)字，最后使用方法展示數(shù)字，這些環(huán)節(jié)都是不靠譜的。
　　街頭采集的數(shù)據，會受到采集人本身偏向性的影響。以我為例，如果我讓我上街去做問卷調查，憑我這種身材、長相和氣質，大約能夠吸引更多的中老年婦女的青睞；而如果是林志玲上街做問卷調查，大約是16-60的老中青三代男孩會搶著回答吧。掛在雜志或網站上的表格，永遠只會是經常購買、訪問這些媒體的人才會做。
　　數(shù)據還要進行有效性檢查，不合格的數(shù)據要排除，排除的準則也有偏向性。
　　統(tǒng)計方法有很多種，統(tǒng)計人員會根據自己內心想要得出的結論有針對性地選擇。比如說，如果要證明工資很低，那么選擇中位數(shù)來做計算，如果要證明工作相對較高，那么算術平均數(shù)是不錯的選擇。說句題外話，前段時間房價瘋長，離單位很近的房子租不起了。我很郁悶地google了一下2010年北京市月平均工資，4073元，以2010年平均房價2萬元一平方米計算，買一套90平方米的房子，需要180萬，這個收入用哪個網站上哪個房貸計算器，都只能得出傾家蕩產還房貸的結論。都是誰在買房？用什么錢在買房呢？不是統(tǒng)計數(shù)字錯就是房地產商在說瞎話，對嗎？
　　展示數(shù)字同樣講究。用圖表，橫軸、縱軸用什么比例？用語言，選擇什么樣的分母來計算百分數(shù)和比例，怎么處理比例？
　　書上沒有多少憤世嫉俗的語言，從口氣上看，作者其實還是很同情收集、計算、公布數(shù)字的這些人和他們的工作的，因為很多偏見在所難免，看數(shù)字的我們要打起精神來好好看看書數(shù)字背面的說法。
　　不能盲目迷信數(shù)字，我想這才是作者想說的吧？
　　但是搞明白這些好累喲。。。
　　看這本書不累，作者把書寫的很輕松，用講故事的方法去講述他的思考，內容雖然是上個世紀50年代寫就，但那些分析方法和思路到現(xiàn)在仍然管用，這也是這本書不斷再版的根本原因。
　　
　　看完這本書之后比較累。我在看完后一段時間，形成了一個思維習慣，再看到有統(tǒng)計數(shù)字的報道，第一個念頭就是“不能相信這些數(shù)字”，潛意識里已經認為這些數(shù)字經過了“修飾、加工或存在不合理的推導邏輯”，之后就開始用書里的內容試著去把他們背后的“錯誤”挑出來。我再面對統(tǒng)計數(shù)字時，不再像原來那樣默認通過，會增加獨立的思考和分析，我覺得這是一種思維習慣的改變，這是這本書帶給我的變化，也是我推薦他的最重要理由。
　　
　　那統(tǒng)計數(shù)據是如何偽裝而取得信任的呢？一般來講，分析可分為定性分析和定量分析兩類，定量分析因為有數(shù)據支撐，普遍被認為分析過程更嚴密可信?！敖y(tǒng)計這種神秘的語言，在一個靠事實說話的社會里是如此地吸引眼球，但有時他卻被人利用，并成為惡意夸大或簡化事實，迷惑他人的工具”，統(tǒng)計數(shù)據最迷人的地方，他會羅列很多數(shù)字、過程說明和分析過程，這讓這些數(shù)字賦予了邏輯的力量，很容易給人以信任感。但其實，很多數(shù)字的本后其實只是一個有目的性的謊言。
　　
　　我根據書中所寫原理，反向編譯了一個小case，有戲謔味道，說明一下典型的“How to lie with statistics”。
　　　　 “據路邊社報道，某著名研究結構經研究表明，進行產品研發(fā)工作的員工生男孩的機率遠高于進行解決方案工作的員工。該機構統(tǒng)計發(fā)現(xiàn)，某大公司產品部已有孩子員工當中，男孩所占比例為89%，解決方案部為56%，高出30多個百分點。數(shù)據表明，產品研發(fā)因為更需要理性思考，會刺激身體產生更多的Y基因，因此更有助于生男孩。因此如果你還沒有孩子，又想生男孩，最好選擇產品經理作為下一個職位?！?
　　　　這個報道因為有具體的數(shù)字（而且那些數(shù)字是真實的），有分析過程，看上去好像很合理。這些數(shù)字都是真實的，但再讓我告訴你一些背景信息：
　　1、公司是個大公司，但例子中所說的產品部其實只有9個人有孩子，解決方案部有孩子的也只有9個人。屬于典型的小樣本統(tǒng)計
　　2、這18個人中，有部分人在來產品部或解決方案部工作之前，已經有了孩子。
　　3、即使樣本數(shù)足夠大，也只能說明不同工作與孩子性別比例之間存在一定的相關關系，但不見得有因果關系。
　　　
　　某些利益代言體可以很容易為了一個既定的目標，去運用統(tǒng)計數(shù)據去迎合他想表達的那個結論。所以再看到統(tǒng)計數(shù)字時，先不要直接相信，多打幾個問號，仔細思考這些數(shù)字本后的背景信息和分析思路，怎么能有效分析，不想繼續(xù)被各種統(tǒng)計數(shù)據迷惑，本書序言有一句話“騙子對于行騙的技巧早已胸有成竹，而誠實的人出于自衛(wèi)也應該掌握它。”這本書很薄，早點收了閱讀他吧。
　　
　　我們日常生活中常常會看到各種各樣的調查，以及基于調查結果得出的種種結論。調查往往做得一本正經，但是似乎我們又經常能看到各種讓人感覺不那么對勁的調查結果，總覺得哪里出了問題。這本書就力圖解釋這樣的現(xiàn)象：為什么看似認真的統(tǒng)計卻得到虛假的數(shù)字？
　　
　　調查者選取了合適的樣本嗎？被調查者有沒有主動或被動地說出并非真實的答案？統(tǒng)計數(shù)字是否真的可以推導出那樣的答案？統(tǒng)計圖表是不是也在誤導著讀者？其實我們每次看到統(tǒng)計局發(fā)表什么新數(shù)字的時候都會想這樣的問題，對吧？
　　
　　其實調查者也不一定是故意為之，我印象里有些學校還開設了社會調查學這樣的課程，調查本身就是一門頗有可研究之處的學問。即使我們想得到真實客觀的數(shù)字，其實也常常會被一些疏忽打攪了這美好的愿望。調查結果說用戶喜歡這樣的頁面，但頁面真的上線之后的反響未必就像想象中那樣熱烈。這時，產品經理會撓撓頭說：“這到底是為什么呢？”這本書就在用一個個的反例告訴我們這到底是為什么。
　　
　　話說回來，統(tǒng)計局還是很威武的……
　　
　　辦公室鐵皮柜里發(fā)現(xiàn)的，覺得挺薄的就偷回家了?？戳碎_頭還覺得有點意思，后來就越看越覺得沒意思。不過要是入門還是可以，輔導讀讀也不是什么壞事。最近看書越來越少了，時間不多，擠了很久也沒有擠出來能靜靜看書。錢沒有多拿，反而事情不少做。而且還沒有人說你好，到處還被擠兌，越想越覺得什么世道啊，挺累的。真的挺累的。
　　拿到統(tǒng)計數(shù)據之后，問幾個問題：
　　1. 誰說的；
　　2. 統(tǒng)計數(shù)字是否足夠大而說明問題；
　　3. 采用的那種平均值算法；
　　4. 僅僅有百分比說明不了什么；
　　5. 相關關系，是否有概念的偷換；
　　6. 存在被調查者說謊的可能；
　　7. 這個材料有意義嗎？
　　8. 準確的數(shù)字更讓人懷疑；
　　
　　雖然不能把這本性價比實在不高的書完全歸罪于作者本身，可是我還是不滿這本薄薄的二小時能看完的書居然價格為28元。
　　寫書的年代和我們真的差距太大，以至于我很難能理解一個個案例，眾多古怪的聞所未聞的統(tǒng)計數(shù)字極大地降低了閱書的流暢性。
　　至于書中所闡明的觀點，我覺得太過淺顯（可能是由于我的工作原本就是和統(tǒng)計數(shù)字有關），稍微有點工作常識的人都應該能識破書中的數(shù)字詭計吧。
　　感謝網友的博文推薦，讓我找到了一位久違的朋友。不過，令人費解的是，這位朋友頻繁更名，都不知道該怎么稱呼了。它的本名叫《How to lie with statistics》，直譯為《如何利用統(tǒng)計撒謊》。80年代出版時，翻譯為《怎能利用統(tǒng)計撒謊》。2002年上海財經大學出版時，改名為《統(tǒng)計謊言》。2009年中國城市出版社出版時，改名為《統(tǒng)計數(shù)字會撒謊》。這本書在大學時讀過，印象很深刻。畢業(yè)后多次在網上搜索，都沒找到蹤影，原來換了馬甲。
　　
　　這本書出版于1954年，作者是美國的達萊爾?哈夫，一位對統(tǒng)計頗有研究的新聞記者。記者的職業(yè)特點是博而不通，對什么都了解，又了解不深，以似懂非懂的筆觸，讓本來全然不懂的讀者閱后覺得很懂。哈夫對統(tǒng)計的研究不限于表面，顯然是下了功夫，并且收集了很多素材。深入淺出的介紹，加上新聞的筆法，使這本書非常生動。無論你對統(tǒng)計學、經濟學有沒有興趣，無論你是什么職業(yè)，讀讀這本書都會受益匪淺。這本書在網上能找到電子版，出于對知識產權的尊重，就不上傳了。
　　
　　《如何利用統(tǒng)計撒謊》，本質上是一本關于統(tǒng)計學的科普作品，抽絲剝繭地告訴讀者，統(tǒng)計數(shù)字是運用什么方法得來的，會有哪些偏差，在表現(xiàn)形式上會給人以什么樣的錯覺，什么樣的統(tǒng)計數(shù)字是有意義的，什么樣的是在有意誤導。例如怎么看待抽樣調查，怎么認識平均數(shù)，怎樣察覺沒有披露的數(shù)據，怎樣識別夸張的統(tǒng)計圖形，怎樣判別相關關系和因果關系。這與飽受詬病的統(tǒng)計數(shù)據失真、統(tǒng)計造假并不是一回事，出版社把中譯本改名為《統(tǒng)計謊言》、《統(tǒng)計數(shù)字會撒謊》有著明確的指向性，難免有炒作的嫌疑。
　　
　　中國的統(tǒng)計數(shù)據，向來飽受非議。外國人質疑，國人也懷疑。這些質疑和懷疑，很多時候并沒有什么理由，只是出于一種不信任。其實大多數(shù)人對統(tǒng)計數(shù)據的認知，存在著很多誤區(qū)。前些日子，媒體炒作平均工資時，本來打算寫一帖子，后來一想很多人質疑統(tǒng)計數(shù)據其實是在借題發(fā)揮，表達對收入的不滿，咱又不是高收入階層，何必站在大眾的對立面？不過，就事論事，公眾確實對統(tǒng)計有誤解。
　　
　　第一個誤解，把統(tǒng)計當會計。有道是“七分統(tǒng)，三分估”，還有倒過來說的，“三分統(tǒng)，七分估”。統(tǒng)計不是會計，統(tǒng)計數(shù)字不可能丁是丁、卯是卯，完全準確地普查匯總。西方國家的統(tǒng)計制度，估計的成分十分高。以嚴謹著稱的德國，GDP核算采取分邦推算，這個邦今年核算工業(yè)，另一個邦統(tǒng)計農業(yè)、服務業(yè)，第二年再輪換。通過幾個邦的工業(yè)資料，推算全國的工業(yè)數(shù)據，進而核算全國的GDP。英國核算完GDP，直接再加10%，作為可能漏統(tǒng)的地下經濟。頭號經濟強國美國的GDP也是推算出來的。這些方法擱在中國，公眾肯定不能接受。假設中國的實際GDP是28萬億，統(tǒng)計為30萬億或者25萬億，就不準確了嗎？自己口袋里面的錢都未必能說具體，一個大國的經濟總量有個大概齊也就不錯了。順便說一下，在90年代，世界銀行每年都會在中國公布的GDP的基礎上，再加上23%，他們認為中國的服務業(yè)統(tǒng)計有遺漏。
　　
　　第二個誤解，把統(tǒng)計數(shù)字絕對化。哈夫的書中舉了一個例子，一個孩子的智商測試成績是98分，一個是101分，那么101分的就一定比98分的聰明嗎？智商測試也是有誤差的，假設誤差是上下3分，那么第一個孩子實際得分是在95-101分這個區(qū)間，而第二個孩子的得分是在98-104分這個區(qū)間，如果一個取上限，一個取下限，結果正好顛倒過來。很多地區(qū)之間為了多幾億、少幾億比來比去的，把數(shù)字絕對化、機械化，毫無意義。
　　
　　第三個誤解，把總體數(shù)據與個體比。國家統(tǒng)計局公布全國的平均工資，很多人認為與自己的實際收入水平不相符，弄虛作假，粉飾太平。個體達不到平均水平，是再正常不過的事情。這里就不普及平均數(shù)、中位數(shù)、眾數(shù)的知識了，只想說指責國家統(tǒng)計局以平均數(shù)掩蓋事實，實在是沒道理。在國家統(tǒng)計局的網站上，公布了各行業(yè)的工資水平，收入高的行業(yè)高的驚人，收入低的行業(yè)低的可憐，這是現(xiàn)實，對號入座就是了。同樣，也按收入等級公布了分組收入水平，最高收入戶是最低收入戶的9倍，60%以上的居民收入低于平均數(shù)，如果你在此之列，就統(tǒng)計數(shù)據而言也極為正常。
　　
　　第四個誤解，統(tǒng)計數(shù)據拿起來就可以用。太晚了，想睡覺了，不一一列舉了。
　　
　　哈夫提出，對統(tǒng)計資料應提五個問題：誰說的？如何知道的？是否遺漏了什么？是否偷換了概念？資料是否有意義？能多問幾個為什么，是一種能力。蒙蔽住眼睛的，不一定是他人的欺騙，也可能是自己的無知。希望大家都有一雙慧眼，再次推薦我的老相識——《How to lie with statistics》。
　　
你最后的總結一語中的非常到位，反映出中國大眾更應該從小養(yǎng)成質疑的思維習慣，而非一概照單全收和相信權威，更不能輕易相信媒體。
另外，對你最后提出的疑問，“如果你以每月等額分期還款的形式從銀行以6%的利率借了100美元，應支付的利息的3美元?！?“3美元的利息是怎么算出來的啊？這種借貸法沒聽說過啊?！?br /> 做個簡單解釋，等額分期還款，分為等額本息還款和等額本金還款，如果是等額本息還款則累計支付利息是約3.28美元，如果是等額本金還款則累計支付利息是3.25美元。
等額本息貸款每月還款額計算法：
=[貸款本金×月利率×（1+月利率）^還款月數(shù)]÷[（1+月利率）^還款月數(shù)－1]
老實說吧....看完這書，第一反應是我靠，我生活在一個無時無刻不被耍的社會里啊，怎么沒有早點看到這本書。但過了許久再想想，即使我了解完了騙人九招，自救N招，在面對那么多統(tǒng)計數(shù)字時，我還是沒有專業(yè)知識加以辨別，而且似乎自己也活得略累啊...
反其道行之，作者知道后一定會會心一笑，公務人員必備手冊~
最后在審核環(huán)節(jié)，有些數(shù)據領導覺得高了（比如性經歷）。。。。什么樣的單位，還需要知道這個么￣□￣｜｜
同感，而且翻譯得極差
是啊，翻譯太差，有些話要讀好幾遍才能明白作者的意思。

統(tǒng)計陷阱

用戶評論 (總計34條)

推薦圖書

相關圖書