什麼都能算,什麼都不奇怪

出版時間:2008年10月27日  出版社:時報文化  作者:Ian Ayres  譯者:張美惠  
Tag標簽:無  

內(nèi)容概要

   為什麼Google與亞馬遜比你更了解你的品味?   賭場為什麼不讓你繼續(xù)輸錢?   數(shù)學公式如何幫你找到另一半?   應(yīng)徵工作時,你知道自己是因統(tǒng)計分析而吃了閉門羹嗎?   生活裡,數(shù)據(jù)無所不在,決策只靠經(jīng)驗與直覺,已不夠看,在這個資料至上的社會,統(tǒng)計文盲絕無法成功--甚至難以生存?!? 數(shù)據(jù)+直覺+經(jīng)驗=創(chuàng)意→聰明決策   這是個數(shù)據(jù)思考的時代。這場數(shù)字革命,與其抗拒,不如參與?!? 舉凡醫(yī)生的診斷、下一代的教育、企業(yè)經(jīng)營、政府組織、網(wǎng)站--例如Google與亞馬遜便比你更了解你的品味   這些新品種的決策者無處不在發(fā)揮影響力。他們提出的預(yù)測精準到讓人咋舌?!? 你知道棒球教練即使沒有見過球員也能評斷他的潛力嗎?你希望在購買機票之前預(yù)知票價會漲還是會跌?簡單的公式為何比酒評家更能預(yù)估葡萄酒的品質(zhì)?這些問題,超級數(shù)據(jù)達人都有答案。在這個方程式VS專家的美麗新世界,蘊藏其中的利益與風險為何?誰是贏家?誰是輸家?如何善用超級數(shù)據(jù)分析以避免被操縱?   仰賴直覺進行決策的時代已然過去。不論你是企業(yè)家、消費者或?qū)W生,若想要超越群倫,在跨出下一步之前一定要先讀讀《什麼都能算,什麼都不奇怪--超級數(shù)據(jù)分析的祕密》。 

作者簡介

伊恩?艾瑞斯(Ian Ayres)
計量經(jīng)濟學家與律師,耶魯法學院教授(William K. Townsend教授席),耶魯管理學院教授。經(jīng)常在美國公共電臺的「市場分析節(jié)目」(Marketplace)擔任評論員,也是《富比世雜誌》(Forbes)的專欄作家。目前擔任《法律、經(jīng)濟學與組織期刊》(Journal of Law, Economics, and Organization)編輯,已出版八本書,發(fā)表過上百篇文章。另外,也以客座部落客身分在《紐約時報》「蘋果橘子經(jīng)濟學部落格」定期發(fā)表評論、分享意見。

編輯推薦

   ◎聯(lián)合推薦   亞洲資採技術(shù)總監(jiān)&微軟特約顧問/尹相志   輔仁大學統(tǒng)計資訊學系教授/中華資料採礦協(xié)會理事長/謝邦昌   臺灣實證醫(yī)學學會祕書長/萬芳醫(yī)院實證醫(yī)學中心主任/陳杰峰   臺灣體育大學休閒產(chǎn)業(yè)經(jīng)營學系副教授/陳美燕   政治大學公共行政學系助理教授/蕭乃沂

圖書封面

圖書標簽Tags

評論、評分、閱讀與下載


    什麼都能算,什麼都不奇怪 PDF格式下載


用戶評論 (總計25條)

 
 

  •     就是原書副標題:Why Thinking-By-Numbers is the New Way To Be Smart.
      
      說到標題真是無法理解《什么都能算,什么都不奇怪》這個東西到底是從哪里翻譯出來的,不要告訴我是增加銷量考慮。。。下方正文:
      
      1. 控制臨界點
      
      哈樂賭場運用顧客的資訊來預(yù)測特定賭客可以忍受輸?shù)舳嗌馘X(將顧客資料套入會回歸分析公式),仍愿意回來消費,即痛苦臨界點。而當資料庫偵測到某顧客將要輸?shù)脚R界點時,會有幸運大師引導(dǎo)她離開機子(比如好可惜今天運氣不好,我知道你喜歡我們的牛排,不如離開去嘗一下這樣)
      
     ?。粌H是數(shù)據(jù)和分析,更是消費心理。的確有一些顧客本來就抱著手上錢都輸?shù)艟妥呷说男睦碓谕妫驾敼夂蠡揪透杏X心愿已了,以后也不會再來了。
      
      
      2. 消費者(or 對立面?zhèn)€體)的反擊
      
      比如發(fā)現(xiàn)航空公司在起飛前不斷調(diào)整價格的教授進行反向分析,創(chuàng)立了farecast。 還有房地產(chǎn)業(yè)的Zillow是根據(jù)大量資料集的分析,通過過去房價幫助買賣雙方訂定適當價格。
      
     ?。R姷氖怯眠^去數(shù)據(jù)(大量數(shù)據(jù))進行對未來的預(yù)測和分析,而且在作者看來會因為資料的大量產(chǎn)生(智能化),免費取得而使進行分析更加方便。但我覺得更有效的是針對商家算法進行反分析~一時之間想不出典型案例,先記一下。
      
      3.人與程式的對立
      
      書種典型案例(在我看來)是直接教學法。因為這個方法基本上,明顯,坦白,直接地消除了教師作為個體的價值(或者附加價值)。教師只用照本宣科,不用準備也不用創(chuàng)新,那下一階段的發(fā)展就是取消或者減小這一載體(全面電子化或者遠程)。所以看那一段的時候我想到的是《慧眼挑金》里提到的技術(shù)進步必然帶來大批工作的消亡,的說法。
      
      總結(jié):
      
      相比《大數(shù)據(jù)》(Big Data:A Revolution That Will Transform How We Live, Work, and Think),這本書中商業(yè),創(chuàng)新化的案例少得多。而且大概是學者慣例,常用大半章講一個社會化的案例(醫(yī)學,教育)。
      
      在實際操作上,給了一個有效的公式——就是我們的葡萄酒先生。大概因為有公式無銷量的理念太深入人心了。問題是數(shù)字非常多,尤其是涉及常舉的決策層面例子時,差點變成~大數(shù)字~。。。
      
      最后一點是此書很適合和其他幾類配合看。比如大數(shù)據(jù)類,還有賭場掌控臨界點的已經(jīng)進入了行為心理學范疇。 直接教學的爭議性是工業(yè)革命以來技術(shù)威脅職員的又一例證。 算法和反算法的進步真是讓人對人類的未來期待得熱淚盈眶。
      
      
      作者在書中提到的有用工具:
      
      Google :: prediction tools ayres (是的這多方便)
      
  •     作者推薦閱讀:
      Ray C. Fair,
      Predicting Presidential Elections and Other Things (2002).
      
      Steven Levitt and Stephen J. Dubner,
      Freakonomics: A Rogue Economist Explores the Hidden Side of Everything (2005).
      
      John Allen Paulos,
      Innumeracy: Mathematical illiteracy and Its Consequences (1989).
      
      John Donohue,
      Beautiful Models, and Other Threats to Life, Law, and Truth (forthcoming).
      
      書中值得一讀的其他書籍和文章:
      
      An introduction to Neural Networks By Kevin Gurney
      
      Neural Networks and Betting:
      Hsinchun Chen et al.,
      "Expert Prediction, Symbolic Learning, and Neural Networks: An Experiment on
      Greyhound Racing," 9 IEEE Expert 21 (Dec. 1994).
      
      Daniel C. Esty and Reece Rushing, Data-Driven Policymaking, Center for American Progress (Dec. 2005).
      
      James Surowiecki, The Wisdom of Crowds (2004)
      
      Steve Carter and Chadwick Snow, eHarmony.com, "Helping Singles Enter Better Marriages Using Predictive Models of Marital Success," Presentation to 16th Annual Convention of the American Psychological Society (May 2004), http://sratic.eharmony.com/images/eHarmony-APS-handout.pdf
      
      Barbara Ehrenreich, Nickel and Dimed: On (Not) Getting By in America (2001).
      
      Ronald Fisher, Statistical Methods for Research Workers (1925);
      Ronald Fisher, The Design of Experiments (1935).
      
      David Greenberg et al., Social Experimentation and Public Policy-making (2003).
      
      
      Benjamin A. Olken, "Monitoring Corruption: Evidence from a Field Experiment in Indonesia,"
      
      Clinical Versus Statistical Prediction: The Contribution of Paul E. Meehl," 61 J. Clinical Psychol. 1233 (2005), http://www.psych.umn.edu/faculty/grove/112clinicalversusstatisticalprediction.pdf
      
      
       William M. Grove and Paul E. Meehl,
      "Comparative Efficiency of Informal (Subjective, Impressionistic) and Formal
      (Mechanical, Algorithmic) Prediction Procedures: The Clinical-Statistical
      Controversy," 2 Psychol. Pub. Pol'y and L. 293, 298 (1996);
      
      D. Kahneman et al.,Judgment Under Uncertainty: Heuristics and Biases (1982)
      
      
      Oliver Wendell Holmes, Jr.,
      "The Path of the Law," 10 Harv. L. Rev. 457 (1897)
  •     在大部分被數(shù)學折磨得死去活來的關(guān)注人類心靈的“人文學者”或是文藝青年眼里,數(shù)學不過是加減乘除,用來算算房價、股市收益或是購物打折就可以了,更高深點的東西是科學呆瓜們的事情??纯茨菐秃翢o情趣的家伙,他們神情呆滯,體態(tài)孱弱,老是犯類似“然后,就沒有然后了……”的錯誤,終日在實驗室中鼓搗那些與正常生活八竿子打不著的東西,用甚至自己都看不懂的數(shù)學公式將他們的工作包裝一番,不知怎么的就得出了一個可能全世界只有幾個人會關(guān)心的結(jié)論。
      
      但現(xiàn)在看來,文藝青年們的陣地可能要失守了。Super Crunchers科普了統(tǒng)計學在諸多領(lǐng)域的應(yīng)用和強大威力。在過去幾十年里,潘多拉搖身一變?yōu)椤敖y(tǒng)計學”,已經(jīng)偷偷溜出了關(guān)著她的實驗室,把魔爪伸到諸如葡萄酒娘、電影、書籍、癥狀診斷、法律、教育理念等以往看來跟數(shù)學毫無關(guān)系的領(lǐng)域。它施展諸如回歸方程、正態(tài)分布、貝葉斯公式,甚至神經(jīng)網(wǎng)絡(luò)算法等十八般武藝,拳打品酒師,腳踢制片人,將這些領(lǐng)域中靠經(jīng)驗和直覺吃飯的權(quán)威專家們打得滿地找牙節(jié)節(jié)敗退。
      
      有什么辦法呢,哪怕你是有著50年從醫(yī)經(jīng)驗的專家醫(yī)師,世界上11000種疾病你也只知點滴,依然有各種疑難怪病是你見所未見聞所未聞的。但將癥狀與數(shù)據(jù)庫信息匹配,很快就能夠?qū)⒁伤萍膊∫钥赡苄缘母叩鸵涣锱砰_。
      
      又或者,就算你拍過一系列暢銷電影,對電影的認識極具洞見,但你可敢宣稱暢銷電影不需要明星,不需要好導(dǎo)演,不需要滿世界找拍攝地點?數(shù)據(jù)統(tǒng)計的分析結(jié)果告訴你,一部賣座的電影,確實不需要這些。統(tǒng)計學家們根據(jù)劇本就能夠預(yù)測電影的票房——雖然不是特別精準,但已經(jīng)比“業(yè)內(nèi)專家”的準確率高了一倍!
      
      再比如說靠“感覺”吃飯的品酒師,他們品呷一口美酒,給它定下品級,決定了價錢,一不小心便成就幾百萬的生意。但統(tǒng)計學家告訴人們,品酒師們的舌頭跟鼻子可不準確,立場也未必中立,葡萄酒的質(zhì)量要看當年的氣溫和降雨量。有了這兩個參數(shù),計算機能夠預(yù)測出葡萄酒的品質(zhì)。這讓品酒師們氣急敗壞。但最后結(jié)果證明,統(tǒng)計數(shù)據(jù)是對的。無論品酒師們怎么吹噓,市場價格最終證明了86年的波爾多紅酒確實品質(zhì)很差,同時也證明了88年的紅酒品質(zhì)極佳,89年的更勝一籌。
      
      想來真是一件美妙的事情。無論什么事情,只要將其數(shù)據(jù)化,輸入計算機,經(jīng)過一系列復(fù)雜的計算,便能預(yù)知未來的可能性——統(tǒng)計學家和極客們將要統(tǒng)治世界!想想看,我在猶豫是否要買iphone 4s,計算機分析我的過往消費和生活習慣數(shù)據(jù)后,給出建議,讓我去買1000元的山寨機,這能讓我收益最大化。而深圳的山寨機廠雖然生產(chǎn)手機不怎么樣,但有超強的數(shù)據(jù)分析能力,他能夠根據(jù)我以往的消費習慣,分析出我能最多能被坑/購買另一家廠商的產(chǎn)品的價格臨界點,利潤最大化。這個世界將井然有序,科學合理,不是么?
      
      不過數(shù)據(jù)統(tǒng)計并非萬能。數(shù)據(jù)畢竟來源于過去,完全由歷史來推斷未來,很多時候顯得自縛手腳。默片時代,數(shù)據(jù)無法證明一部有聲音的電影將會賣座。在蘋果鼓搗出iphone之前,數(shù)據(jù)的來源是可以用來砸核桃的諾基亞手機,根據(jù)它的預(yù)測,更好的手機應(yīng)該是續(xù)航更久、鍵盤更好用……而不是......iphone。
      
      但真正讓人深思的不僅僅如此。書中還提到了統(tǒng)計學在法律中的應(yīng)用。潘多拉搖曳著身姿,進入了最為嚴肅、關(guān)乎人類社會基石的領(lǐng)域。同樣的罪行,假如受到更嚴厲的懲罰(坐更長時間的牢),是否會降低罪犯出獄后再犯的幾率?看上去是的。但統(tǒng)計學研究告訴我們,坐牢時間長短與再犯率沒有關(guān)系。
      
      另一個例子讓人更加印象深刻。一名劣跡斑斑的性罪犯刑滿出獄。在他即將踏出監(jiān)獄大門的時候,法官們用計算機分析他的案底、心理數(shù)據(jù)后發(fā)現(xiàn),這家伙重犯的幾率非常高,于是要讓他一直被民事拘留,直到他通過年度審核,經(jīng)過一些列的測試,法官認可后才可真正獲得自由——否則便是無異于終身監(jiān)禁的持續(xù)性拘留。
      
      多棒的一幅后現(xiàn)代圖景!人們已經(jīng)為過往的行為付出了代價,卻依然要因為根據(jù)自己的過去而計算出來的一個“可能性”而失去自由——為還未發(fā)生的事情負責。盡管在商業(yè)中,比如說銀行貸款,銀行完全可以根據(jù)一個人的信用記錄來決定給不給顧客提供服務(wù);但這畢竟是剝奪自由,不是你情我愿的商業(yè)買賣。
      
      一個持槍走向銀行的人有明顯的危險性要被制止(感謝李騰君提供的例子),對犯罪的預(yù)防是有必要的。但你能夠想象,一個眼前看上去毫無侵略性的人,會因為他的歷史和心理狀態(tài)而已經(jīng)失去了自由么?哪怕是被提前截下的銀行搶劫未遂者,也是在他謀劃、行動途中,而不會是在兩個月前跟女友分手,或是失業(yè)半年窮困潦倒的時候被逮捕吧?
      
      但有趣的是,這個法案確實被通過了。(當然,我是法律外行,只能就最淺顯的信息作出近乎直覺的判斷)
      
      看過黑鏡的同學應(yīng)該還記得,第三集的男主角要開車的時候,Grain警告他的心理狀態(tài)不適合駕駛。按照片中對Grain的描述,它自然也能夠分析出男主角當時有強烈的暴力傾向,非常有可能進行犯罪行為——這個時候應(yīng)該馬上有警察將他拿下,預(yù)防犯罪嘛。數(shù)據(jù)收集、分析、預(yù)測,加上預(yù)防犯罪……
      
      可以想象,未來的某天,由于前天晚上忘了設(shè)置鬧鐘,起床太晚馬上要遲到,因此產(chǎn)生了強烈的反社會情緒。計算機馬上根據(jù)我的心理狀況預(yù)測出我有89%的幾率要在老板的辱罵下揍他一頓;同時根據(jù)我的能量水平和肌肉狀態(tài),認為我確實有這個能力,于是禁止我出門。在焦急中我產(chǎn)生了更強烈的暴力傾向,計算機接收數(shù)據(jù)后經(jīng)過計算,直接報警通知警察。我在心緒平靜下來后,決定要掩飾自己的反社會情緒,計算機查探出了我的“掩飾”,于是乎我要掩飾“掩飾”……最后我終于出門了,內(nèi)心的小宇宙被無數(shù)層“正常”的盔甲包裹,臉上洋溢著幸??鞓范忠馕渡铋L的蒙娜麗莎式微笑……
      
      李騰君說,盡管這是可能的發(fā)展方向,只要人類還保持對權(quán)力的警惕,應(yīng)該不至于如此。
      
      但人類對權(quán)力保持警惕乃是因為對人性和理性的完備性不信任。但假如權(quán)力依托于機器呢?價值中立的計算機,隨著科技的發(fā)展,因擁有超強的信息搜集和數(shù)據(jù)運算能力而幾乎理性完備,世界于是乎可以在他/她/它的安排下井井有條……
      
      又或者,雖然人類對權(quán)力抱有警惕,但你知道有些權(quán)力代表著真善美、高大全,是不管你的警惕的……如果那個社團熬過了某個“科技閾值”,于是……
      
      噢,未來還真是值得期待啊。一曲忠誠的贊歌。
      
  •      這是BI系列的書,BI(bussiness intelege)是綜合了統(tǒng)計學,現(xiàn)代信息技術(shù),人工智能的多個學科的決策方法。令我驚奇的是作者是計量經(jīng)濟學,律師,管理學教授。讀他這本書有些法律方面的探討有點難理解,也覺得美國對于法律方面的“糾結(jié)”真多。
       書中事例很多也隨之介紹了基本的統(tǒng)計學知識,如隨機試驗,回歸預(yù)測,平均值,標準差,概率,置信區(qū)間還有貝葉斯。從古到今,我們的自己做的決策和選擇的過程,往往是依賴于對于整個信息的
      綜合反映,也夾雜著作為人的這種情感動物的顯著特點,而社會科學給我們大家的感覺是研究一種人類活動的規(guī)律,現(xiàn)在數(shù)學尤其是統(tǒng)計學作為一種定量分析工具越來越參與進來了。書中涉及到的公共政策
      制定的隨機試驗,醫(yī)學上的循證法,教學上的直導(dǎo)教學法,各類生產(chǎn)上的預(yù)測,商業(yè)上的廣告隨機試驗,消費分析,銀行業(yè)上的信用評價等通過強大的數(shù)據(jù)庫系統(tǒng)搜集信息,利用統(tǒng)計學的知識還有人工智能
      方面(如神經(jīng)網(wǎng)絡(luò))的知識產(chǎn)生更加準備的決策信息讓人感覺新的時代將要到來,但這也的確讓人沮喪,我們?nèi)绱俗院?,獨一無二的直覺,感情,邏輯所形成的“智慧”有時候竟然比不過機器,自己通過網(wǎng)絡(luò)搜索得到的診斷有時候比專業(yè)醫(yī)生準備,若是有一套強大的自我跟蹤數(shù)據(jù)庫系統(tǒng),經(jīng)過跟蹤整理可以很快分析出你的病因,以及需要采取的治療手段,對于記憶調(diào)用來說,數(shù)據(jù)庫的確擁有無法比擬的優(yōu)勢,得益于信息科技的突飛猛進的發(fā)展,首先,我們自己的知識量可以通過網(wǎng)絡(luò)得到無限的擴充,而進一步,我們的思維活動決策開始可以依賴建立在定量基礎(chǔ)上的機器分析出來結(jié)果,這種變革引發(fā)的爭議更是不少,書中作者探討了很多這方面問題,比如人的隱私怎么辦,或許在得到好處后是否能夠?qū)㈦[私重新定義呢?而我們是否是應(yīng)該利用數(shù)字做參考,還是我們應(yīng)該大輔助相信通過機器而來的決策呢?我們的直覺,創(chuàng)造力如何與這個用算法處理出來的決策信息結(jié)合呢?數(shù)據(jù)統(tǒng)計決策失效怎么辦,會帶來多大的災(zāi)難性后果而這個人為決策比較呢?我的行為下一步已經(jīng)被預(yù)測,這告訴我后會產(chǎn)生怎樣的循環(huán)反映呢,這對人來說,對社會來說意味著什么?我們該相信誰,或者我們應(yīng)該如果融合這項新技術(shù)?未來會怎么樣,人工智能會發(fā)展到什么程度,未來我們能干什么,失去的智慧思考能力,萬一機器連電影都可以寫的比我們好時,繪畫也比我們好時,我們能否重新找到人生意義?
       1,現(xiàn)代信息技術(shù)發(fā)達,如網(wǎng)速的提升,cpu運算能力提升,硬盤存儲提升,平板,無線,移動終端的智能化,七七八八的定律都證明的是這種發(fā)展速度是以兩年翻倍速度增長的;2,互聯(lián)網(wǎng)世界的誕生,人們生活的拓展,互聯(lián)網(wǎng)帶來新的生活,社交,商業(yè)體驗以及維基精神,開源運動等開放,互助,共享,遠程合作,虛擬世界的新文化;3,統(tǒng)計學在信息科學的運用還有涉及人工智能的模式識別,神經(jīng)網(wǎng)絡(luò),遺傳算法。。等等,結(jié)合最新數(shù)據(jù)庫技術(shù)得以實現(xiàn)。我覺得這種趨勢是不可避免的,唯一做的就是敞開自己的胸懷去了解它?,F(xiàn)在來說,我們應(yīng)該有種新的思維來認識這個世界,用數(shù)據(jù)的眼光來分析這個世界,當然這可以當一種樂趣一樣去行動,想想如何對待自己的行為,如何將信息組織起來,如何將信息用來分析,如何參考結(jié)論再結(jié)合自己的經(jīng)驗發(fā)現(xiàn)些新的,有意思的東西。
      例子:
      第一代“診斷-決策支持”軟件。一個名叫“伊莎貝爾”的診斷項目使醫(yī)生可以輸入病人的癥狀就可以得到一系列最可能的病因。它甚至還可以告訴醫(yī)生病人的癥狀是否由于過度服用藥物,涉及藥物達到4000多種?!耙辽悹枴睌?shù)據(jù)庫涉及1100多種疾病的大量臨床發(fā)現(xiàn),實驗室結(jié)果,病人的病史,以及其本身的癥狀?!耙辽悹枴钡捻椖可婕叭藛T創(chuàng)立了一套針對所有疾病的分類法,然后通過搜索報刊文章的關(guān)鍵詞找出統(tǒng)計上與每個疾病最相關(guān)的文章,如此形成一個數(shù)據(jù)庫。這種統(tǒng)計搜索程序顯著地提高給每個疾病癥狀匹配編碼的效率。而且如果有新的并且高相關(guān)性的文章出現(xiàn)時,可以不斷更新數(shù)據(jù)庫。
      
      
  •     
      最近在卓越上買了一些商業(yè)智能相關(guān)的書,卓越給我推薦了一些相關(guān)的書。這兩本都是卓越給推薦的,感覺可能還值得一看,就買來看了看。
      
      《數(shù)據(jù)分析競爭法》是商務(wù)印書館的哈佛經(jīng)管系列之一,名頭比較大,先看它。不過有些失望。不是給技術(shù)人員看的。題目中的數(shù)據(jù)分析大約是說商業(yè)智能中的數(shù)據(jù)挖掘。作者把企業(yè)利用數(shù)據(jù)挖掘的程度分為由低到高的五級。全書反復(fù)論述每個級別的方法、工具、流程、對企業(yè)的好處,還舉了一些的例子。在我看來這些例子不夠詳細,太籠統(tǒng)。所以我認為這本書適合于不了解商業(yè)智能與數(shù)據(jù)挖掘的管理人員閱讀。
      
      《超級數(shù)字天才》也在將數(shù)據(jù)挖掘給人類帶來的好處。不同之處是相對比較詳細,給出了具體的例子和實現(xiàn)的思路。書中列也在使用“數(shù)據(jù)分析”這個詞,基本也在指“數(shù)據(jù)挖掘”。書中列舉了數(shù)據(jù)挖掘在政府政策、教育、醫(yī)療等許多方面的實際應(yīng)用的例子,都比較有意思。想了解數(shù)據(jù)挖掘的具體應(yīng)用,可以看看這本書。
      
      書中給我印象比較深刻的是例子中政府與教育行業(yè)的數(shù)據(jù)挖掘應(yīng)用。一項政策的好壞,一個教育方法的好壞,美國人都試圖用數(shù)據(jù)說話。
      
      
  •     First of all, 我老人家就是喜歡沒事收集和tweek data,分析看看有沒有什么trend的,雖然生活里面沒有什么設(shè)計randomized trial驗證假設(shè)的機會,但是這個概念實在非常貼近內(nèi)心。Overall I like the book,雖然新信息不是很多,這個喜歡來自于自己的bias吧。
      
      喜歡本書的另外原因是剛好書里提到的好幾個方面從前也讀過類似的書,Checklist Manifesto, Freakonomics等等,(回頭來列一下幾大方向的試驗)。Randomized trial in marketing and medical research, 甚至還提了一點supple chain management (which is an area that I am hugely curious about but not sure where to look for further information)
      
      書里提出的一個idea是,不要用heuristics 去猜什么辦法會有最佳成效,instead推出各種類似辦法,設(shè)計試驗用數(shù)據(jù)驗證到底哪個辦法最好。這個說法在現(xiàn)在很多書里面都提到,包括the dragonfly effect(use social media for nonprofit organizations)。大體意思是,不要糾結(jié)于自己的成見,快速measure and analyze,放棄不好的辦法,趕快去adopt事實證明就是好用的辦法,就行了。甚至不需要知道一種辦法為什么work,if good data says it works, then adopt it on a wider scale (作為statistician 這個claim還是有點懷疑態(tài)度,因為試驗設(shè)計里面出各種問題忽略一些因素的可能還是很大的)
      
      對作者claim的regression sustainably beat expert opinion in many fields,很想看看具體數(shù)據(jù)和試驗設(shè)計,雖然是一條我很樂于同意的claim,還是覺得too good to be true。
      
      書中提到eharmony之類claim data driven prediction model是他們claim成功的原因,但是The upside of irrationality 里面攻擊這個model的弱點也正在于此。Human traits are not so readily reduced to easy to compute dimensions.
      
      
      書還沒有讀完,我還想知道作者有沒有說什么場合下可以stats prediction consistently beat experts,什么時候不是。
      
      -------------------------------------
      讀完了,缺乏驚人的地方,最終也沒有能回答上面提的問題。
      書可能過淺顯了?讀過的感覺是good to know, but now what?
      也許對于我自己來說,就是多想想自己生活里面還有什么其他data可以去crunch?
  •     這本書的主標題是"Super (Number) Crunchers", 副標題是"Why Thinking-by-Numbers Is the New Way to Be Smart". 前者和我的專業(yè)相關(guān),后者則是在贊美我的專業(yè),所以我本著自我肯定和自我欣賞的目的讀了這本書 : P
      
      寫到這里,有必要澄清,讀這本書絕對無需數(shù)學分析或高等數(shù)學的基礎(chǔ),不過你若是對隨機抽樣、統(tǒng)計回歸、置信區(qū)間、數(shù)據(jù)挖掘等概念稍有了解,則最好不過。如果這些名詞對你來說完全陌生,你仍可以100%看懂這本書,只是無法深入理解其應(yīng)用。
      
      這是一本很不錯的Freakonomics以及The Long Tail的后續(xù)讀物,前兩本書指出了社會現(xiàn)象,而Super Crunchers則展示了其背后豐富的實際應(yīng)用,尤其是商業(yè)和公共政策方面的運用,比如:
      
      如何計算出素未謀面的球員的價值?
      哪個學校的教育給學生的人生附加值最高?
      如何用數(shù)理統(tǒng)計方法找到最適合你的另一半?
      如何用數(shù)據(jù)輔助醫(yī)療決定,降低誤診率和死亡率?
      如何給自己的書起個最為“標題黨”的名字,最大化點擊量?
      如何用一個簡單公式精確預(yù)測尚未上市的葡萄酒多年后的市場價格?
      如何將有限的促銷資源分配給即將流失的優(yōu)質(zhì)客戶(而不是消費最多的客戶)?
      如何在賭客達到最大損失心理承受值之際,及時幫助其收手,維護顧客體驗從而留住回頭客?
      
      這本書是漸入佳境式的,后一半更有閱讀價值 (關(guān)于Neural Network, Direct Instruction (DI) 和數(shù)據(jù)挖掘的廣泛社會影響的內(nèi)容),對統(tǒng)計應(yīng)用有一定了解的人可以直接從后一半讀起。
      
      國外網(wǎng)站上關(guān)于這本書的評論有點兩極分化,大眾讀者的評價較高,而專業(yè)人士則提出不少批評,他們指出Ian Ayres的所謂大樣本數(shù)據(jù)挖掘遠不夠?qū)I(yè),舉例時未說明過去事件和未來事件的獨立性,以及回避了商業(yè)數(shù)據(jù)挖掘的倫理問題等等等等。
      
      這些意見都有其道理,而且我認為本書在統(tǒng)計應(yīng)用方面也算不上有多創(chuàng)新。但從另一個角度來看,這不過是一本兩百多頁的大眾讀物,目的在于介紹數(shù)據(jù)挖掘的實際應(yīng)用,講述商業(yè)故事,而非提供具體數(shù)理方法的專業(yè)著作,從這個角度來說,這本書不失為有趣易讀且富于啟發(fā)性。
      
      
      
      
      推薦閱讀人群:1)喜歡Freakonomics或The Long Tail的人 2)對數(shù)理統(tǒng)計的實際應(yīng)用感興趣者
      推薦擴展閱讀:《The Numerati》 http://book.douban.com/subject/3218109/
      
      推薦反面觀點:《Blink》 (這兩本書相當于 Pro-intuition v.s. Anti-intuition)
      
      推薦擴展游戲:www.20q.net (此游戲可看作Super Crunching的擴展應(yīng)用)
      
      
      
      
      Interesting Quotes:
     ?。剑剑剑剑剑剑剑剑?br />   "William Osler must be turning over in his grave. You Googled the diagnosis? . . . Are we physicians no longer needed?”
     ?。orry, doctors, but it's time to face the inconvenient truth
      
      Some researchers have so comprehensively tortured the data that their datasets become like prisoners who will tell you anything you want to know.
     ?。aha, 這不就是我嘛!作為一個有明確目的的獄長,敝人的逼供哲學是:統(tǒng)計結(jié)果要為我的觀點服務(wù),與觀點一致的統(tǒng)計量被我技術(shù)性放大,與觀點沖突的數(shù)據(jù)被我"合理"去除。在學術(shù)上,我也許不是個好學生,但在工作上,我顯然是個模范員工 : P
      
      As a nation, we lack a vocabulary of dispersion.
      
      The future belongs to the super cruncher who can work back and forth and back again between his intuitions and numbers.
     ?。W髡叩腣ision
      
      Progress in medical science occurred one funeral at a time.
     ?。<词乖诮裉?,這仍是真理。
      
      "You can't Google dead trees."
      He meant that it was (then) impossible to search the text of books.
     ?。OL, I am still a tree book person.
  •     通勤途中讀的科普書。對應(yīng)的大致是「個體計量」與「實驗經(jīng)濟學」兩個領(lǐng)域。
      
      有一次我問計量課老師,類似《蘋果橘子經(jīng)濟學》那樣的個體計量研究,究竟在公共政策實務(wù)上有什麼應(yīng)用空間?
      
      尤其在臺灣,公共政策的品質(zhì)之糟糕是有目共睹的,各種施政根本不尋求嚴謹?shù)难芯恐С?,甚或發(fā)包的研究案擺明了就是要求為其施政背書宣傳。另一個重大的侷限則是資料的品質(zhì)。相較於美國和日本,臺灣的統(tǒng)計資料品質(zhì)實在不好,既有的許多資料在取得上也有各種奇怪限制,自然也大大侷限了此類個體計量的研究空間。
      
      老師回答說,個體計量在臺灣的政策實務(wù)上確實沒什麼用,只是有啟發(fā)性的研究。不過他接著補充說,在企業(yè)界已經(jīng)有人開始重視這種方法,分析企業(yè)手中所掌握的資訊,可以對企業(yè)產(chǎn)生直接助益。
      
      這本書就是這樣的應(yīng)用案例集。書中的案例五花八門,例如(括號中為頁數(shù)):
      ? 以氣溫和雨量來預(yù)測紅酒的品質(zhì)(3);
      ? 球團以球員過去表現(xiàn)的數(shù)據(jù)來預(yù)測其未來潛力(8);
      ? 交友網(wǎng)站以使用者人際關(guān)係基本資訊來篩選你理想的伴侶(23);
      ? 賭場從你過去的行為模式研究你的「痛苦臨界點」,當你逼近臨界點時阻止你再賭下去(31);
      ? 1840年代奧地利的史模懷斯(Ignaz Semmelweis)透過統(tǒng)計分析找出孕婦大量死亡的原因是醫(yī)生離開解剖室後沒把手洗乾淨(80);
      ? 伯衛(wèi)克(Don Berwick)利用實證醫(yī)學研究推動「拯救十萬人活動」,指出只要簡單改變一些作法就可降低病患風險,如將病床的頭部調(diào)高並經(jīng)常清潔患者口腔就可降低術(shù)後肺部感染風險(82);
      ? 伊莎貝爾(Isabel)軟體將各種疾病的特徵、醫(yī)學相關(guān)研究與病例病史等資訊整合為可快速檢索的資料庫,協(xié)助醫(yī)生減少誤診率(94);
      ? 以過去採購案的資料進行統(tǒng)計分析,預(yù)測企業(yè)採購案的交貨準時度、預(yù)算符合度、採購滿意度(108);
      ? 運用神經(jīng)網(wǎng)路預(yù)測電影上映後的票房(140);
      ? 或者企業(yè)利用隨機試驗(主要是網(wǎng)路)找出最佳行銷策略(第二章)。
      
      本書也提到一些與公共政策有關(guān)的實驗研究案例:
      ? 強制提供求職輔助可幫助失業(yè)者提早找到工作減少失業(yè)津貼給付(64);
      ? 刑期長短不影響再犯率(70);
      ? 國安單位分析電話通聯(lián)紀錄找出恐怖攻擊嫌犯;揪出工程投標舞弊(42);
      ? 墨西哥政府的教養(yǎng)計畫,將讓孩子上學、懷孕時接受產(chǎn)檢與營養(yǎng)監(jiān)測,作為現(xiàn)金補助的條件,且只有母親可拿到補助金(73);
      ? 預(yù)測法院法官判決結(jié)果(102);
      ? 預(yù)測受刑人再犯率(70、115);
      ? 評估何種教學方法比較有效(156)
      
      書中案例的研究方式大致可分為兩類,一是利用既有的資料進行統(tǒng)計分析,另一種則是設(shè)計實驗產(chǎn)生出新資料。
      
      ◎去技術(shù)化與階級問題
      
      在這些令人眼花撩亂的案例之外,作者明確提出了「將舊的(依賴經(jīng)驗的)白領(lǐng)專家去技術(shù)化」的議題。
      
      「去技術(shù)化」是社會學領(lǐng)域的勞動過程研究的關(guān)鍵議題,也是歷史上許多工人運動的主題,但這裡不多談了,有興趣者請參考經(jīng)典著作:LABOR AND MONOPOLY CAPITAL by Harry Braverman。
      
      在本書中,矛頭針對的是那些依賴經(jīng)驗的專家,這種專家一再被統(tǒng)計分析擊敗,十分狼狽。這些過去被認為是白領(lǐng)專家的人,比如醫(yī)生,如今也可能面臨去技術(shù)化的衝擊。
      
      但稍有常識的人都知道,「受害」的絕對不只是這些人,還包括舊一代的技術(shù)人員、一般基層員工(本書中提到受到更精細管控的Wallmart員工,但作者覺得這沒什麼不對)。而在企業(yè)外部,受害的或許在某種程度上也包括要面對更加高明的行銷手段的消費者、個人資料更加沒有隱蔽的一般公民等。
      
      去技術(shù)化當然不是指技術(shù)水平的簡單降低。就整體技術(shù)水平來說,很難論證新科技的引進造成技術(shù)的降低,首先,技術(shù)高低很難有一致的衡量標準,再者,新技術(shù)也許確實會將某些工作去技術(shù)化,但也會產(chǎn)生另一些技術(shù)性工作。
      
      去技術(shù)化爭論的關(guān)鍵在於,被去技術(shù)化的,與掌握新技術(shù)的,是不同群體,時間與空間上都是分開的,於是便出現(xiàn)了很明顯的一群受害者與受益者。在現(xiàn)行的資本主義制度之下,資方總是千方百計要將基層勞工去技術(shù)化,以方便控制、壓低工資,將技術(shù)集中在高級管理人員與技術(shù)專家手中。在這種「技術(shù)進步」的模式中,這些受害者很難得到補償,也很不容易轉(zhuǎn)移到其他工作而不至降低報酬。也就是說,看似中性的技術(shù)進步在現(xiàn)行的社會制度下一點都不中性,反而具有很明確的階級敵視意涵,即便這些技術(shù)人員可能並不具任何「惡意」。
      
      當然,他們也可能具有惡意。操作技術(shù)的始終是具體的從屬於某些權(quán)力關(guān)係之中的人,高明的人還是有辦法用新的辦法玩弄統(tǒng)計。比如書中提到的利用統(tǒng)計分析設(shè)定有利於特定種族的條件(173)。也就是說,儘管作者努力把統(tǒng)計分析描述成無偏見、可信賴的科學力量,但其實統(tǒng)計本身也有很多不同的設(shè)計方法,生產(chǎn)出你想要的結(jié)果,用以包裹各種意圖。在此方面,我們看到的可能比較不是統(tǒng)計專家與非專家的對立,而是不同立場的統(tǒng)計專家的對立。
      
      ◎次貸風暴也算是其應(yīng)用的後果吧
      
      以上所談大致還是學術(shù)研究、以及簡單的預(yù)測應(yīng)用,在作者筆下基本上十分光明、成功。但現(xiàn)實世界當然沒有這麼單純美好,將統(tǒng)計新技術(shù)玩到極端玩到爛,最終導(dǎo)致災(zāi)難的例子還不算少。作者書中曾簡略地提到銀行核貸人員的經(jīng)驗與知識被統(tǒng)計取代的例子,但他沒有繼續(xù)往下說的是,這種作法幫助了房地產(chǎn)市場以及金融市場泡沫的擴大,以及隨著泡沫破裂而來臨的全球金融危機。這方面已經(jīng)有很多人提過了,這裡不再重複,轉(zhuǎn)貼一篇文章供參考:
      
      
       【信報財經(jīng)新聞】 2009年3月6日
       濫用中國學者公式引致金融海嘯
       林行止
      
       一、
      
       三十年代華爾街大崩潰後,投資理論並無重大進展,它之出現(xiàn)突破,為一 九五二年的事;是年三月號(第七卷第一期)的《財務(wù)學學報》(Journal of Finance),發(fā)表哈利.馬可維茨(Harry M. Markowitz, 1922-)的論文〈投資組合選擇〉(Portfolio Selection),引起投資理論的革命;馬可維茨的文章,被投資學界稱為「十四頁最重要的論文」─這篇論文只有十四頁,四頁文字其餘皆為程式和圖表。
      
       包 括馬可維茨在內(nèi),誰都沒有料到這篇短文會造成「革命性影響」。因為這篇被稱為不朽的文章(monumental article),當年只有二十五歲的作者不會想到三十八年後的一九九○年,他因此和其他二位學者米勒(Merton Miller, 1923-2000)與夏普(W. Sharpe, 1934-)分享諾貝爾經(jīng)濟學獎!
      
       馬可維茨知道投資者對回報和風險同樣關(guān)注,這是何以 投資者通?!覆粫央u蛋放在同一籃裏」的原因。風險和報酬率(Risk & Reward Ratio)便是這樣發(fā)展出來的。馬可維茨的真知灼見是,風險為整個投資過程的重心,一項投資計劃若沒有風險(riskless),困難將不存在,但利潤 亦相應(yīng)低微。風險意味著可能發(fā)生的事較預(yù)期發(fā)生的更多!我們並不期待居住的樓宇火災(zāi),但火災(zāi)可能發(fā)生,為了避免這種可能損失,只有買保險;同理,我們不希 望所持的股票跌價,然而它們可能下跌,因此我們不把所有資金購進一種股票,即使它看起來前景那麼美好。
      
       分散投資(把雞蛋放在多個籃裏)和看中後重錘出擊(雞蛋少籃子亦少)孰優(yōu)孰劣,是馬可維茨試圖解答的問題。〈投資組合選擇〉告訴投資者如何在風險與報酬之間作正確的取捨(trade-off),即如何建立一個風險與報酬平衡的投資組合。
      
       非常明顯,「提供最高回報的有效率投資組合」,在七十年代風起雲(yún)湧,投資基金的成立如雨後春筍,帶旺了華爾街進而全球的金融業(yè),令基金市場成為以萬億美元計的大生意,它便是建立在馬可維茨組合投資理論基礎(chǔ)上。一篇短文帶起一個行業(yè),馬可維茨因此得以分享諾獎。
      
       二、
      
       南 開大學經(jīng)濟學碩士、加拿大滑鐵盧大學統(tǒng)計學博士李祥林(Xiang Lin Li,江蘇連雲(yún)港人;以David X Li之名行世),在二○○○年三月號的《固定收入學報》(The Journal of Fixed Income)發(fā)表〈聯(lián)結(jié)函數(shù)的違約相關(guān)分析〉(On Default Correlation: A Copula Function Approach)。「聯(lián)結(jié)」和「相關(guān)」均為統(tǒng)計學名詞,用大眾化語言,可作這樣的解釋─夫妻日夕相處,生活習慣漸漸相近,其中一人過世,另一半在短期內(nèi) 的平均死亡率較夫妻健在者高;這種關(guān)係換為統(tǒng)計術(shù)語便是「聯(lián)結(jié)」和「相關(guān)」的關(guān)係。李祥林把之引入金融分析,指出一間發(fā)行債券的公司倒閉,對另外一間甚至 多間相關(guān)企業(yè)必然帶來衝擊。李祥林的計量模型提出一項創(chuàng)新的觀點「time-until-default」(直至違約〔?〕),描述在一定經(jīng)濟環(huán)境下,公 司倒閉的相關(guān)聯(lián)結(jié)性。
      
       李祥林的研究,刺激了信貸衍生債券市場的高速發(fā)展,其勢有人稱為「爆炸性」,帶動一種新興衍生金融工具「信貸違約掉期」(CDS, Credit Default Swaps)。從此角度,李祥林對金融業(yè)的貢獻不下於馬可維茨。
      
       在 傳統(tǒng)市場,投資者購進債券,獲得固定孳息,同時承受債券發(fā)行企業(yè)或政府可能破產(chǎn)無力付息及屆時無力贖回即違效的風險,CDS等於把債券持有者的風險賣掉; 由於債市數(shù)額以萬億美元計,擔保債券不會違約的CDS幾乎是無限制地發(fā)行。李祥林適時地提出一個模型,幫助CDS的投資者在特定情況下能準確計算回報、定 價、計算風險及應(yīng)採取什麼策略以降低風險,等於為結(jié)構(gòu)化的信貸衍生產(chǎn)品的估價和風險控制提供定量化的有效工具,有了這套準則,CDS發(fā)行及成交大增;而把 不同種類的CDS滙集而成的「債務(wù)抵押債券」(CDO-Collateralized Debt Obligations)應(yīng)運而生,金融機構(gòu)把CDO以債券形式賣給散戶(下游投資者),那等於把風險以傳統(tǒng)最穩(wěn)健的債券形式賣給小投資者。在風調(diào)雨順的 日子,CDO持有者可獲比債券孳息高的利息,是不錯的投資,一旦形勢逆轉(zhuǎn),CDS的「現(xiàn)金回報」驟降,市場風雲(yún)變色,投資者全軍覆沒,金融海嘯由是而起!
      
       二 月二十五日《Wired》月刊發(fā)表名記者沙爾蒙(F. Salmon)題為〈災(zāi)難的處方─摧毀華爾街的公式〉(Recipe for Disaster-The Formula That Killed Wall Stree),歐美傳媒紛紛轉(zhuǎn)載,網(wǎng)上且有令人愈讀愈糊塗的中譯本。文章指出在不久前,因為帶起一個新行業(yè)令金融市場狂旺的李祥林,是諾貝爾經(jīng)濟學獎的熱 門人選;可是,自從○八年三月次按問題浮現(xiàn)以至七、八月間的危機驟起,李祥林公式成為令華爾街步入絕境的禍首!這種說法當然非常偏頗,那便如武器殺人但殺 人者非其發(fā)明者。財迷心竅、貪婪無厭和不負責任的華爾街炒家利用所僱用的「火箭專家」讀通李氏公式後(李氏○五年曾對《華爾街日報》記者說了解其公式的人 不多),濫發(fā)CDO,才是造成金融海嘯的罪魁。
      
       歷任歐美金融機構(gòu)要職的李祥林,○八年做了海歸派,擔任中國國際金融的風險管理部門主管。
  •     賭場老板會關(guān)心你的財政狀況與輸贏,及時勸阻你在走霉運時繼續(xù)孤注一擲;你可以在醇酒剛釀制時就預(yù)測品質(zhì),及早買下奇貨可居,而不必再等待10年花費巨額金錢拍下“絕世佳釀”;真命天子,很可能就在你鼠標的數(shù)次點擊下,再不必擔心茫茫人海無緣相逢;同樣一件商品,你也許要付出別人兩倍的價錢,因為人的差別而非商品的差別;航空公司重新定位常旅客,不再獎勵飛行里程最多的乘客轉(zhuǎn)而獎勵讓公司盈利最多的乘客;通過神奇數(shù)字,你可以發(fā)現(xiàn)競標中的欺詐行為;雇主在面試時就可以分辨誰將會是適應(yīng)本企業(yè)文化的忠心耿耿的好雇員;企業(yè)在迅捷反饋消費者需求時又能做到零庫存以節(jié)省成本;不相信?Well, 歡迎來到Super Crunchers的美麗新世界。
      
      科技的迅捷發(fā)展(Moore's Law & Kryder's Law所揭示的計算機性能與硬盤存儲空間的發(fā)展趨勢)、龐大的數(shù)據(jù)庫(Terabyte、Petabyte數(shù)量級)、智能的搜索引擎,使年逾百歲的統(tǒng)計數(shù)學工具(Regression、Randomized Trials)青春煥發(fā),朝氣蓬勃得向這一愿景奔去。書中,Ian Ayers列舉了很多有趣的故事來說明Super Crunchers如何用數(shù)字說話,從海量數(shù)據(jù)中挖掘看似毫不相關(guān)的事物之間的內(nèi)在聯(lián)系和因果關(guān)系,發(fā)現(xiàn)隱藏的規(guī)律,預(yù)測未來。耐人尋味的是,在與 super crunchers的同臺競技中,依賴于經(jīng)驗和直覺的傳統(tǒng)專家屢戰(zhàn)屢敗,預(yù)測未來的精準度常常略輸一籌。Ian一度想以“The End of Intuition"命名此書,也是因為在越來越多的領(lǐng)域的較量中,經(jīng)驗法則和直覺正節(jié)節(jié)敗退給數(shù)字分析這個事實。但在其后的章節(jié),他也指出,數(shù)據(jù)決策方法的興起并不代表直覺的末日,它們是相輔相成的互助關(guān)系,因為敏銳的直覺能夠指引我們?nèi)グl(fā)現(xiàn)問題、提出問題,而數(shù)據(jù)挖掘則能夠分析問題、檢驗直覺。
      
      不可否認,Super Crunchers在犯罪學、教育學、醫(yī)學、經(jīng)濟學、政治學等各領(lǐng)域攻城掠地,在力圖改變以往決策模式的同時,也掀起權(quán)力更迭的大潮。他們的崛起威脅到很多傳統(tǒng)職業(yè)的權(quán)力、地位,以及受尊重程度,既得利益者對其的否定和抵觸自然不難理解。此外,除了人們因循守舊的慣性,數(shù)字化進程對公民隱私權(quán)的侵蝕也是抵觸和恐慌情緒蔓延的重要源頭之一——你的一切數(shù)據(jù)、信息盡在掌握中,有人比你更了解你自己的行為、意識甚至潛意識。不過,人類發(fā)展史也一再揭示了“順我者昌,逆我者亡”這一規(guī)律,未來,屬于那些能夠在直覺和數(shù)據(jù)之間游走自如的super crunchers,因為他們比傳統(tǒng)專家和電腦都看得更遠、更準。你要做的,是克服對數(shù)字、公式的望而生畏,努力掌握基本的統(tǒng)計數(shù)學概念和工具,改變自己的思維、決策方式,做一個站在浪尖風口的弄潮兒,而不是被潮流吞噬的溺水者。
      
      闔上書本的最后一頁,我腦中不禁浮現(xiàn)狄更斯廣為流傳的一段話 “It was the best of times, it was the worst of times; It was the age of wisdom, it was the age of foolishness; It was the epoch of belief, it was the epoch of incredulity; It was the season of Light, it was the season of Darkness; It was the spring of hope, it was the winter of despair; We had everything before us, we had nothing before us; We were all going direct to heaven, we were all going direct the other way”...
      
      Some useful concepts in the book:
      
      Super crunching is statistical analysis that impact real-world decision. Super Crunching predicitions usually bring together the combination of data, speed and scale.
       * the big size of dataset, both in number of observations and variables.
       * the increasing speed of analysis.
       * the huge scale of impact
      
      Collaborative filters are examples of "the wisdom of crowds":
       * the collective predictions are more accurate than the best estimate that any member of the group could achieve.
       * a kind of tailored audience polling.
       * preference database are powerful ways to improve personal decision making.
      
      But, there is also a social cost to exploiting the long tail:
       * the more successful these personalized filters are, the more we as a citizen are deprived of a common expereience
       * expose citizens only to information that fits with their narrowly preconceived preferences.
      
      The core of super crunching techniques:
       1. Regression:
       * a statistical procedure that takes raw historical data and estimates how various causal factors influence a single variable of interest.
       * not only make predictions but also are able to simultaneously tell you how precise the prediction is.
       2. Randomized trials:
       * having a computer flip a coin and treating prospects who come up head differently that the ones who come up tails.
       * the sample size is the key: after randomization makes the two groups identical on every other dimension, we can be confident that any change in the two groups' outcome was caused by their different treatment. -- treatment effect.
       * the process of randomization creates matched distribution.
       3. Neural Network:
       * computer can be programmed to update their reponse based on new or different information.
       * neural network is a series of interconnected switches that receive, evaluate and transmit information. Each switch is a mathematical equation that takes and weighs multiple types of input information.
      
      Regression versus Randomized trials:
       * Regression lets the researcher sit back and decide what to test after the fact.
       * Randomized trials require to hypothesize in advance before the test starts.
       * Regression are used for identify the target group.
       * Randomized trials are used for test the impact of one specific treatment.
      
      Regression versus Neural Network:
       * Regression need to be specified the specific form of the equation in advance.
       * Neural Network let the data pick out the best functional form from massively interconnected set of equations.
       * Compared to plain-old regression analysis, neural network is more flexible and nuanced.
       * The subtle interplay of its weighting schemes in neural network leads to the biggest drawback of neural network: it can't identify which single factor will impact on the prediction result and how it will impact; it can't tell the confidence intervals of its prediction.
       * The overfitting problem in neural network may hinder the predicting capability.
  •     Super Crunchers 這本書向我們展現(xiàn)了現(xiàn)代人,或者說現(xiàn)代的西方學者,是怎么研究社會科學的。在我國,常常是很多人因為感到數(shù)學不好學而去學社會科學,比如說去學法律。這樣自然選擇的結(jié)果是產(chǎn)生了一大批像李銀河這樣感情充沛而不切實際的所謂學者。然而現(xiàn)在最領(lǐng)先的西方學者已經(jīng)拋棄了過去那一套抱著悲天憫人的心態(tài)空談理論的研究方法。如果你去讀他們的論文,你會發(fā)現(xiàn)其中到處都是圖表和數(shù)學公式;如果你去觀察他們的工作,你會發(fā)現(xiàn)他們大部分時間不是在寫字,而是在編程。
      
      法律領(lǐng)域內(nèi)有一個非常經(jīng)典的問題:給犯罪分子更長的刑期,是否會增強對他的改造,從而減少其出獄后的再犯罪率?在以往,人們可能會從倫理,道德,心理學的角度去分析這個問題。有的人可能會舉出各種例子來證明他的論點,然而這些例子往往是非常極端而沒有代表性的。這個問題直到最近才得到一個有說服力的答案。
      
      耶魯大學的Berube 和 Green 的研究完全基于數(shù)學統(tǒng)計。聯(lián)邦法院總是隨機的往不同的轄區(qū)派法官。有些法官傾向于重判,給長刑期;有些法官傾向于輕判,而隨機過程決定了每個法官傾向于總體面對類似的案件。這樣一來,可能完全相同的犯罪事實,有的犯罪分子比較幸運就獲得了較短的刑期,而不幸的就會刑期較長。作者通過對一萬多名犯罪分子記錄的統(tǒng)計分析,結(jié)論是,刑期長短與再犯罪率無關(guān)。如果沒有這樣的統(tǒng)計數(shù)據(jù),如果沒有法官的隨機指定,像這樣的問題可能永遠都無法解決。
      
      統(tǒng)計是一個非常強大的研究社會問題的手段。NCAA籃球中有沒有球隊參與賭球?拉斯維加斯的一個賭博項目是每場比賽的勝負分差(Point Spread),也就是我們所常說的讓多少球。比如賓夕法尼亞大學對哈佛大學,賭場開出的分差是14.5分,也就是說如果你押賓大,他們必須贏至少15分你才能賭贏。如果你考察每場比賽的實際分差,和賭場事先開出來的比賽分差,其相差值幾乎完美地符合正態(tài)分布(平均值是0)。這樣一來,正好有50%的時候,勝者實際贏了對手多少分比賭場預(yù)測值高,50%的時候比預(yù)測值低。也就是說賭博的賠率幾乎是50%。這種50%概率正是賭場最喜歡的賭贏概率。
      
      然而問題是,如果你考察那些勝負分差超過12分的場次,那么其分布就不是完美的正態(tài)分布了:有53%的機會,勝隊實際取勝分差會比預(yù)測值低。為什么會出現(xiàn)這種情況?賓大學者 WOLFERS 猜測,當穩(wěn)操勝券的時候,勝隊會故意放水一點,去操縱比賽分差來影響賭局(術(shù)語叫做 Shave Points)。也就是說使用統(tǒng)計方法,你甚至不需要任何直接的證據(jù)就能發(fā)現(xiàn)有人參與賭博。
      
      類似的手段可以應(yīng)用幾乎任何社會領(lǐng)域。比如說婚姻問題。傳統(tǒng)的婚姻問題專家判斷一對夫婦是否會離婚,成功率只有53%,只比瞎蒙高一點。而最新的方法,聽一對夫婦之間的交談15分鐘,專家就有能以95%的準確率判斷他們未來15年內(nèi)會不會離婚。其所使用的方法,是給這15分鐘的交談錄像,然后幾個人坐下來看錄像,一個畫面一個畫面的分析其中人物的細微表情和語言,然后把統(tǒng)計結(jié)果輸入一個事先做好的復(fù)雜方程之中,這個方程會告訴你該夫婦離婚的可能性。這個方程是怎么設(shè)計出來的呢?用大量的數(shù)據(jù)回歸出來的。
      
      統(tǒng)計方法能夠大行其道的根本原因是現(xiàn)在網(wǎng)路和計算機技術(shù)的提高,特別是便宜的海量存儲給大量的數(shù)據(jù)分析提供了可能性?,F(xiàn)在指導(dǎo)社會科學的先進文化是理工科思維,先進生產(chǎn)力是統(tǒng)計模型,計算機和海量的數(shù)據(jù)。
      
      這種通過分析海量數(shù)據(jù)來預(yù)測和理解社會問題的方法被人稱為 number crunching,現(xiàn)在甚至已經(jīng)有了專業(yè)的公司專門為商業(yè)公司干這個事情來預(yù)測顧客行為。這樣做的一個結(jié)果是商家可能比你自己更了解你。比如你從 Blockbuster 租了一盤 DVD,Blockbuster 可能比你更了解你不按時歸還的概率。
      
      一個典型的專業(yè)公司是 Teradata。它為65%的世界頂級零售商,70% 的航空公司,和40%的銀行服務(wù)。他們的一個典型業(yè)務(wù)是判斷哪些老顧客可能會因為一次不愉快的服務(wù)經(jīng)歷而離開你們公司。Continental Airlines 就專門有人做這個。比如一次航班誤點或者行李丟失事件發(fā)生之后,如果統(tǒng)計分析系統(tǒng)判斷某個長期顧客有可能要因此從此不飛 Continental 了,這位客戶就會得到特別好的照顧。
      
      甚至賭場也這么做。每一個顧客入場玩都刷卡。他們根據(jù)每一個顧客的收入,年齡,以往賭博記錄,居住地等等計算該顧客的 pain point - 也就是此人一晚上最多輸多少錢下次還能來玩。一旦發(fā)現(xiàn)某位顧客今晚輸?shù)腻X已經(jīng)接近 pain point 了,就會立即派服務(wù)員過去邀請他免費吃頓牛排停止賭博。
      
      這件事情的最可怕前景是,商家將會可以根據(jù)顧客不同的價格承受能力,給每個顧客一個不同的價格。
      
      傳統(tǒng)的社會專家靠直覺,甚至是個人感情好惡來做研究,而未來屬于數(shù)字。但我國在這方面可以說是相當落后。我國"主流經(jīng)濟學家"經(jīng)常鄙視那些玩數(shù)學模型的海歸,人們不習慣用數(shù)字說話。
      
      更不利的一點是,我們可能根本就沒有數(shù)字可以用。我國的統(tǒng)計水平可以說是極差,一個最基本的GDP數(shù)字居然都能隨便變來變?nèi)?。在這種情況下你怎么才能很好的做出決策?我們看NBA比賽,無不贊嘆美國人對數(shù)字統(tǒng)計的熱衷:這是他的這個賽季的第幾個兩雙,如果他兩雙了球隊獲勝的概率是多少,等等等等。量化思維必須被培養(yǎng)成一種習慣。從這個角度講,"吉尼斯世界紀錄"的最大貢獻可能是培養(yǎng)了人們尊重數(shù)字的習慣。
      
      沒有數(shù)字就沒有真像。
      
      本書作者作者是耶魯法學院的教授,此人擅長用計算機做統(tǒng)計研究。
      
  •     昨晚,終于把《超級數(shù)字天才》看完,看到很晚。
      
      大概讀了一個星期的時間,讀的過程中,一直覺得這是一本很枯燥,很羅嗦的,挺難懂的書。
      
      不過昨天晚上看的時候,最后一章----講的是超級數(shù)字天才和經(jīng)驗直覺之間的互補,互相彌補----充分地展示數(shù)學或者說數(shù)字在現(xiàn)實中的應(yīng)用,更具體點是概率統(tǒng)計在生活中的應(yīng)用。讓我對這本書有了新的認識。
      
      我本來就是喜歡數(shù)學的美以及數(shù)學的萬能,后來因為大學四年枯燥的數(shù)學理論學習,讓我對數(shù)學失去了興趣。
      
      可是這一次,這本書又再次燃起了我對數(shù)學的高度熱情。
      
      
      看完最后一章,我又有了去重新學習數(shù)學分析,高等代數(shù),概率統(tǒng)計等等的沖動。
      
      只是再仔細一想,這是一個怎么樣的時期,數(shù)學的確在我們的生活中扮演中絕對重要的作用,正是因為那些數(shù)字,以及處理那些數(shù)字的方法,才讓我們更加了解自然規(guī)律,讓世界上的少數(shù)人賺取了很多很多的錢。
      但是有一點需要知道,全心研究數(shù)學的數(shù)學家,他們物質(zhì)上不富有,他們的工作成功被別人利用,讓利用數(shù)學的人,享受著這個世界。
      
      我很想做一個數(shù)學家,很想做一個能夠給世界帶來變革的數(shù)學家。但是我已經(jīng)落后了很多時間,已經(jīng)不能有什么成就。何況現(xiàn)在的矛頭是要對準物質(zhì)。
      
      也許我會在以后,足夠的經(jīng)濟自由以后傾注我的精力在數(shù)學上,傾注在數(shù)學美上。
      
      不過,并不是現(xiàn)在就能無視數(shù)學,正如《超級數(shù)字天才》所說,我們只要用一些數(shù)學的公式概念,數(shù)學的理念,就能給我們的生活帶來很多驚喜,能夠讓我們對未來更有把握。
  •     這本書相當大程度的沖擊了我的觀念,現(xiàn)在的超級數(shù)字天才們已經(jīng)可以做到了讓我難以想象的地步了,可以預(yù)測選舉結(jié)果,可以預(yù)測法官判定結(jié)果,可以預(yù)測采購結(jié)果,等等這些。
      我現(xiàn)在唯一有些想法的就是,是不是也可以預(yù)測金融市場呢?不過估計是不行的。
      但是至少有一點可以肯定,那就是未來肯定是數(shù)字運算的天下,不懂這個,一定會吃虧的。
  •     作者是stevn levitt的朋友,也是好幾本書的共同作者. 這本身和freakeconomic比起來,深入的講到了(1)統(tǒng)計的方法(2)對社會的影響.如果你知道regression test , randomized test 和 neural network的話, 會有幫助理解那些分析的背景.
      
      這本書也提供了很有趣的故事. 比如用regression來預(yù)測波爾多紅酒的質(zhì)量.但是更重要的是作者提出了一些我們要將來思考的問題 - data driven decision making能不能代替人們的經(jīng)驗和直覺. 如果可以的話, 那些受到尊重的職業(yè)是不是要敗落? 比如醫(yī)生,貸款審批人員.
      
      這本書對我來說,開闊了我的視野.很多沒有想到的東西原來都是可以用數(shù)據(jù)分析來達到更好的效果的. 使我開始用一種思考的方法來看待一些日常的生活,同時也幫助我重新思考工作的一些的改進怎么用數(shù)據(jù)來作為基礎(chǔ).
      
      
  •   有一定水準
    不過
    說話客氣一些也是可以寫出深刻、風趣的文章的
    陳景潤以及
    那些白首皓經(jīng)的老人家
    比如季羨林
    還是值得敬仰的
  •   少數(shù)派報告即將降臨。
  •   對未來圖景的暢想有意思,應(yīng)該再發(fā)揮一下。
  •   當當也是推薦這兩本
  •   Wow, numbers are really beyond me.
  •   “你要做的,是克服對數(shù)字、公式的望而生畏,努力掌握基本的統(tǒng)計數(shù)學概念和工具,改變自己的思維、決策方式,做一個站在浪尖風口的弄潮兒,而不是被潮流吞噬的溺水者。 ”
    風口浪尖我不站,我追著它,呵呵
  •   因為還要掉頭跑
  •   沒有數(shù)字就沒有真相
  •   社會學的統(tǒng)計傾向往往給人一種科學的錯覺,實際上很多內(nèi)容是無法用數(shù)字進行描述和量化的,而可進行量化的部分往往很難涉及到事物的基本運行程序,導(dǎo)致了定量研究的重大局限。而不顧這種局限進行研究,比如我印象看到過類似用定量方法做什么愛情研究的,就會陷入到一種難以前行的尷尬處境。
    而如果社會學僅僅滿足于數(shù)理表面上的相關(guān),而不去研究人類行為的內(nèi)在模式便使得這門學問如同初中應(yīng)用題般索然無味。
    但幾乎所有的社會學理論又都無法避免過多的經(jīng)驗和主觀意愿的介入,使得理論的可檢驗性極低,且與所追求的科學有部分相背。也使得這門學科因長久的糾結(jié)于其中而走向落寞。
    所以,關(guān)于如何研究社會,在我看來,只要去揭示事實便可以了。
  •   "結(jié)論是,刑期長短與再犯罪率無關(guān)"
    難道美國到現(xiàn)在都還沒搞清楚“再犯罪率”和什么有關(guān)嗎?印象中關(guān)于防止再犯的經(jīng)驗,美國好像是采取的社區(qū)關(guān)懷的形式,據(jù)說在這方面很有經(jīng)驗了,而且這方面的統(tǒng)計數(shù)據(jù)也不少。
  •   是嗎,有空也研究一下...
  •   人心應(yīng)該是預(yù)測不了的。
 

250萬本中文圖書簡介、評論、評分,PDF格式免費下載。 第一圖書網(wǎng) 手機版

京ICP備13047387號-7