數(shù)據(jù)之魅

出版時(shí)間:2012-7  出版社:清華大學(xué)出版社  作者:(美)Philipp K. Janert  頁(yè)數(shù):524  譯者:黃權(quán)  
Tag標(biāo)簽:無(wú)  

前言

  本書(shū)展現(xiàn)了我在高科技行業(yè)的各個(gè)公司中從事數(shù)據(jù)工作所獲得的經(jīng)驗(yàn)。它匯聚了我所發(fā)現(xiàn)的許多最有用的概念和技術(shù),包括我希望自己能夠早點(diǎn)知道的主題——然而我沒(méi)有。  我所學(xué)的專(zhuān)業(yè)是物理,但我也從事了多年的軟件工程師工作。本書(shū)將反映出我這種雙重背景。一方面,本書(shū)是為程序員以及軟件領(lǐng)域的其他人士而寫(xiě):我假定你和我一樣,有能力通過(guò)自己動(dòng)手編程來(lái)輕松自如地操縱數(shù)據(jù)。另一方面,我思考數(shù)據(jù)的方式是由我的背景和教育決定的。作為一個(gè)物理學(xué)家,我不會(huì)只滿(mǎn)足于描述數(shù)據(jù)或者做黑盒式的預(yù)測(cè):分析的目的總是為了深入理解我們所觀察的數(shù)據(jù)是怎樣產(chǎn)生的?! 鬟_(dá)這種理解的工具就是模型:對(duì)所研究的系統(tǒng)進(jìn)行描述(換句話(huà)說(shuō),不只是對(duì)數(shù)據(jù)的描述!),必要時(shí)進(jìn)行簡(jiǎn)化但要保留相關(guān)的信息。一個(gè)模型可能很粗糙(就像一頭球形的牛),但如果它能夠幫助我們更好地理解系統(tǒng)的工作原理,那么它就是一個(gè)成功的模型。(精確度可以在之后獲得,如果確實(shí)需要的話(huà)。)  我對(duì)模型和簡(jiǎn)化描述的強(qiáng)調(diào)并不具有普遍性:其他作者和從業(yè)人員可能持有不同的看法。但是它們對(duì)于我的方法和觀點(diǎn)來(lái)說(shuō)是基本的?! ∵@本書(shū)相當(dāng)具有個(gè)人色彩。盡管我努力使之合理全面,但我所選擇的主題都是我認(rèn)為在實(shí)踐中相關(guān)和有用的——不管它們是否是“經(jīng)典”。本書(shū)還包含其他數(shù)據(jù)分析相關(guān)書(shū)中不涉及的主題。盡管它們既不新穎也非獨(dú)創(chuàng),但在數(shù)據(jù)分析這一特定背景下通常并不使用或討論它們——但我發(fā)現(xiàn)它們不可或缺?! ≡谡緯?shū)中,我提供了大量明確而具體的建議、意見(jiàn)和評(píng)估。這些評(píng)述反映了我的個(gè)人興趣、經(jīng)驗(yàn)和理解。我不敢說(shuō)我的觀點(diǎn)一定是正確的,請(qǐng)根據(jù)具體需要對(duì)我所說(shuō)的進(jìn)行評(píng)估和取舍。在我看來(lái),一個(gè)充分論證的明確立場(chǎng)比列出所有待選的可能算法更有用——即使后來(lái)你決定不同意我的觀點(diǎn)。價(jià)值并不存在于觀點(diǎn)中,而是存在于支持它的論據(jù)中。如果你的論據(jù)比我的好,或者僅僅只是更適合你,那么我也認(rèn)為自己已經(jīng)達(dá)到了我的目的!

內(nèi)容概要

  《數(shù)據(jù)之魅:基于開(kāi)源工具的數(shù)據(jù)分析》結(jié)合作者多年來(lái)從事數(shù)據(jù)分析工作的豐富經(jīng)驗(yàn),闡述了數(shù)據(jù)分析所涉及的概念和方法。本書(shū)四部分19章,主題包括如何通過(guò)圖表來(lái)觀察數(shù)據(jù),如何通過(guò)各種建模方法來(lái)分析數(shù)據(jù),然后著重闡述如何進(jìn)行數(shù)據(jù)挖掘,最后強(qiáng)調(diào)數(shù)據(jù)分析在商業(yè)和金融等領(lǐng)域的實(shí)際應(yīng)用。本書(shū)包含大量的模擬過(guò)程及結(jié)果展示,并通過(guò)實(shí)例來(lái)闡述如何使用開(kāi)源工具來(lái)進(jìn)行數(shù)據(jù)分析。通過(guò)本書(shū)的閱讀,讀者可以清楚地了解這些方法的實(shí)際用法及用途?! ”緯?shū)結(jié)構(gòu)合理,通俗易懂,適合數(shù)據(jù)分析愛(ài)好者和從業(yè)者閱讀,也適合以科學(xué)計(jì)算為工具的科研人員參考。同時(shí),本書(shū)還適用于計(jì)算機(jī)科學(xué)、數(shù)學(xué)、工程技術(shù)和其他相關(guān)專(zhuān)業(yè)本科或研究生的數(shù)據(jù)分析課程,是一本不錯(cuò)的參考書(shū)。 

作者簡(jiǎn)介

作者:(美國(guó))雅奈特(Janert K.P.) 譯者:黃權(quán)、陸昌輝、鄒雪梅、費(fèi)柳鳳

書(shū)籍目錄

第1 章導(dǎo)論1  數(shù)據(jù)分析1  本書(shū)內(nèi)容2  關(guān)于講習(xí)班 3  關(guān)于數(shù)學(xué)4  需要具備的知識(shí) 6  本書(shū)不涉及的內(nèi)容6  第Ⅰ部分圖表:觀察數(shù)據(jù)  第2 章單一變量:形狀和分布 11  數(shù)據(jù)點(diǎn)和抖動(dòng)圖 12  直方圖和核密度估計(jì) 14  直方圖15  核密度估計(jì) 19  (選學(xué))如何選擇最優(yōu)帶寬 22  累積分布函數(shù)23  (選學(xué))概率圖分布和qq 圖分布的對(duì)比 25  秩序圖和上升圖 30  僅用于適當(dāng)時(shí)機(jī):匯總統(tǒng)計(jì)量和箱形圖 33  匯總統(tǒng)計(jì)量 33  box-and-whisker 圖 36  (講習(xí)班)numpy 38  numpy 實(shí)踐 38  numpy 詳解 41  擴(kuò)展閱讀 45  第3 章兩個(gè)變量:建立關(guān)系 47  散點(diǎn)圖 47  克服噪聲:平滑 48  樣條 50  loess51  示例 52  殘差 54  其他觀點(diǎn)及提醒55  對(duì)數(shù)圖 57  傾斜 61  線(xiàn)性回歸以及諸如此類(lèi)的方法 62  描述重要信息 66  圖形分析與圖形演示68  (講習(xí)班)matplotlib 69  交互式使用matplotlib 70  案例學(xué)習(xí):matplotlib 與loess73  控制屬性 74  matplotlib 對(duì)象模型及結(jié)構(gòu) 76  零碎知識(shí) 77  擴(kuò)展閱讀 78  第4 章以時(shí)間為變量:  時(shí)序分析 79  示例 79  任務(wù) 83  需求和現(xiàn)實(shí) 84  平滑處理 84  移動(dòng)平均法 85  指數(shù)平滑法 86  不要忽視顯而易見(jiàn)的東西 90  相關(guān)函數(shù) 91  示例 92  實(shí)現(xiàn)上的問(wèn)題 93  (選學(xué))過(guò)濾器和卷積 95  (講習(xí)班)scipy.signal 96  擴(kuò)展閱讀 98  第5 章多變量:圖形的多變量分析 99  假色圖100  概覽:多值圖 105  散點(diǎn)圖矩陣105  協(xié)作圖 107  變種 108  組成問(wèn)題 110  組成的改變110  多維組成:樹(shù)形圖和馬賽克圖112  新穎的曲線(xiàn)類(lèi)型116  標(biāo)識(shí)符116  平行坐標(biāo)圖117  交互式探索120  查詢(xún)和縮放121  連接和涂層121  大游覽與投影尋蹤121  工具 122  工作坊:多變量圖形工具123  R 123  實(shí)驗(yàn)工具124  python 的chaco 庫(kù)124  擴(kuò)展閱讀 125  第6 章插曲:數(shù)據(jù)分析會(huì)話(huà) 127  數(shù)據(jù)分析會(huì)話(huà)127  工作坊:gnuplot 軟件136  擴(kuò)展閱讀 138  第Ⅱ部分分析:數(shù)據(jù)建模  第7 章推算和粗略計(jì)算141  推算的原理 142  估計(jì)大小143  建立關(guān)聯(lián)145  使用數(shù)字146  10 的冪146  小擾動(dòng)147  對(duì)數(shù)148  更多示例149  我所知道的一些常見(jiàn)事(物)  的相關(guān)數(shù)字151  這些數(shù)字是否足夠好? 151  準(zhǔn)備工作:可行性和成本 153  完成之后:引用和  呈現(xiàn)數(shù)字154  (選學(xué))進(jìn)一步探索攝動(dòng)理論和誤差傳播 155  誤差傳播156  工作坊:Gnu科學(xué)庫(kù)(GSL)158  擴(kuò)展閱讀 161  第8 章縮放參數(shù)模型163  模型163  建模 164  模型的運(yùn)用和誤用 164  參數(shù)的縮放 165  縮放參數(shù)165  示例:維度參數(shù) 167  示例:優(yōu)化問(wèn)題 169  示例:成本模型 170  (選學(xué))縮放參數(shù)與  量綱分析172  其他理論174  平均場(chǎng)近似 175  背景知識(shí)和其他示例176  常見(jiàn)的時(shí)間演變方案 178  無(wú)限增長(zhǎng)和衰減現(xiàn)象178  約束增長(zhǎng):邏輯斯諦方程180  振蕩 181  案例學(xué)習(xí):多少臺(tái)服務(wù)器才是  最好的?  182  為什么要建模? 184  工作坊:Sage.184  擴(kuò)展閱讀188  第9 章關(guān)于概率模型的討論 191  9.1 二項(xiàng)分布和伯努利試驗(yàn)191  精確的結(jié)果192  利用伯努利試驗(yàn)建立平均場(chǎng)模型194  9.2 高斯分布和中心極限定理195  中心極限定理 195  中心項(xiàng)與尾項(xiàng) 197  為什么高斯分布如此實(shí)用? 198  (選學(xué))高斯積分199  冪律分布和非常規(guī)統(tǒng)計(jì)學(xué)201  冪律分布的用法203  (選學(xué))期望值為無(wú)限時(shí)的分布204  接下來(lái)的研究 206  其他分布 206  幾何分布207  泊松分布207  對(duì)數(shù)正態(tài)分布209  特殊用途的分布211  (選學(xué))案例學(xué)習(xí)——隨時(shí)間變化的單一訪(fǎng)問(wèn)者數(shù)量 211  工作坊:冪律分布215  擴(kuò)展閱讀 219  第10 章你真正需要了解的  經(jīng)典統(tǒng)計(jì)學(xué)知識(shí)221  起源221  統(tǒng)計(jì)學(xué)的定義 223  從統(tǒng)計(jì)學(xué)角度解釋 226  示例:公式測(cè)驗(yàn)vs 圖解法 229  控制實(shí)驗(yàn)vs 觀察研究 230  實(shí)驗(yàn)設(shè)計(jì)232  前景 234  (選學(xué))貝葉斯統(tǒng)計(jì)—— 另一種觀點(diǎn) 235  用頻率論來(lái)解釋概率235  用貝葉斯方法來(lái)理解概率 236  貝葉斯數(shù)據(jù)分析: 一個(gè)實(shí)際有效的例子238  貝葉斯推理:總結(jié)與討論 241  工作坊:關(guān)于R 243  擴(kuò)展閱讀249  第11 章插敘:數(shù)學(xué)大搜捕——大腳怪和最小二乘等253  如何平均均值 253  辛普森(悖論 254  標(biāo)準(zhǔn)差 256  如何計(jì)算258  (選學(xué))應(yīng)該選擇哪一個(gè)259  (選學(xué))標(biāo)準(zhǔn)誤差 259  最小二乘 260  統(tǒng)計(jì)參數(shù)估計(jì) 261  函數(shù)逼近263  擴(kuò)展閱讀 264  第Ⅲ部分計(jì)算:數(shù)據(jù)挖掘  …… 附錄A科學(xué)計(jì)算與數(shù)據(jù)分析的編程環(huán)境435  附錄B應(yīng)用:微積分447  附錄C 使用數(shù)據(jù)485  索引499

章節(jié)摘錄

版權(quán)頁(yè):   插圖:   我很喜歡假色圖,因?yàn)樗饶鼙A舳啃畔?,又能表示大量信息資料。然而,假色圖的準(zhǔn)確性主要取決于調(diào)色板的質(zhì)量。映射過(guò)程,就是將數(shù)值與顏色聯(lián)系在一起的過(guò)程。 讓我們快速回顧一下顏色和計(jì)算機(jī)圖形的相關(guān)知識(shí)。計(jì)算機(jī)圖形中的顏色常常是由一組數(shù)據(jù)指定的,而這組數(shù)據(jù)則由紅、綠、藍(lán)三種基本色彩元素強(qiáng)度來(lái)表示。雖然RGB三基色技術(shù)在技術(shù)層面上看似很好,但它并不是特別直觀。相反,我們傾向于從顏色的色調(diào)、飽和度和明暗度來(lái)考慮顏色表示問(wèn)題(例如,亮度或顏色的淺淡)。一般來(lái)說(shuō),色調(diào)包含彩虹的所有顏色(從紅到黃、綠、藍(lán)、紫)。奇怪的是,色譜似乎繞了一圈又回到本身,就像紫最終又平滑地漸變?yōu)榧t。(這種情況是因?yàn)椴屎缰猩V是按各種色彩的主要電磁頻率的順序來(lái)排列的。對(duì)于紫/品紅來(lái)說(shuō),它們沒(méi)有主要的頻率,而紫色是一種由低頻率的紅色和高頻率的藍(lán)色混合而成的色調(diào)。)大多數(shù)計(jì)算機(jī)圖形程序用色調(diào)—飽和度—明暗度(HSV)三基色技術(shù)來(lái)生成彩色圖形。 我們很難找到一個(gè)可靠的調(diào)色板設(shè)計(jì)方案。更不幸的是,人們的權(quán)宜心理和常識(shí)似乎常常導(dǎo)致設(shè)計(jì)出來(lái)的調(diào)色板非常糟糕。這里有一些想法和建議供大家參考。 保持簡(jiǎn)單 簡(jiǎn)單地使用紅、白、藍(lán)的調(diào)色板往往能產(chǎn)生非常好的效果。對(duì)于連續(xù)的顏色變化,可以使用藍(lán)—白—紅調(diào)色板,而對(duì)于分割任務(wù),可以使用一個(gè)白—藍(lán)—紅—白的調(diào)色板,分割線(xiàn)上使用藍(lán)—紅進(jìn)行過(guò)渡。 分割任務(wù)和平滑性改變的區(qū)別 分割任務(wù)(例如,找到超過(guò)一定閾值的所有點(diǎn),找出過(guò)零數(shù)據(jù)的分布情況)要求在區(qū)域兩邊的臨界線(xiàn)上都使用亮麗的色彩過(guò)渡,而一個(gè)數(shù)據(jù)集的平滑變化則要求用連續(xù)的顏色漸變來(lái)表示。當(dāng)然,可以在單個(gè)調(diào)色板中既使用顏色漸變,又使用強(qiáng)烈的對(duì)比色。 保持直觀上的有序性 在調(diào)色板中,可以將低值映射為冷色、高值映射為暖色,讓人從直觀上感覺(jué)井然有序。類(lèi)似的例子包括簡(jiǎn)單的藍(lán)—紅調(diào)色盤(pán)和“強(qiáng)烈、對(duì)比色系”(黑—紅—黃—白——稍后將討論為什么不建議使用“強(qiáng)烈的對(duì)比色”)。其他能讓人感覺(jué)盡然有序的調(diào)色方案是“改進(jìn)的彩虹”(包括藍(lán)—青—綠—黃—橙—紅—紫)和與地形圖(藍(lán)—青—綠—棕色—黃褐色—白)相似的“地理系列”。

媒體關(guān)注與評(píng)論

  “一本通俗易懂的參考書(shū),有助于理解如何征服海量數(shù)據(jù)?!薄  狝ustin King,Mozolla資深Web開(kāi)發(fā)人員  “造就數(shù)據(jù)科學(xué)家的必讀工具書(shū)?!薄  狹ichael E. Driscoll,Dataspora的CEO兼創(chuàng)始人 

編輯推薦

《數(shù)據(jù)之魅:基于開(kāi)源工具的數(shù)據(jù)分析》結(jié)構(gòu)合理,通俗易懂,適合數(shù)據(jù)分析愛(ài)好者和從業(yè)者閱讀,也適合以科學(xué)計(jì)算為工具的科研人員參考。同時(shí),《數(shù)據(jù)之魅:基于開(kāi)源工具的數(shù)據(jù)分析》還適用于計(jì)算機(jī)科學(xué)、數(shù)學(xué)、工程技術(shù)和其他相關(guān)專(zhuān)業(yè)本科或研究生的數(shù)據(jù)分析課程,是一本不錯(cuò)的參考書(shū)。

名人推薦

“Google,F(xiàn)acebook,Amazon和Netflix,更別說(shuō)華爾街和制造業(yè)、零售業(yè)到保健行業(yè)的企業(yè),他們的成功越來(lái)越得益于選擇正確的工具從海量數(shù)據(jù)中抽取和挖掘出有意義、有價(jià)值的信息?,F(xiàn)在,‘?dāng)?shù)據(jù)科學(xué)家’是硅谷最搶手的人物。” ——Tim O'Reilly “一本通俗易懂的參考書(shū),有助于理解如何征服海量數(shù)據(jù)?!?——Allstin King. Mozilla資深Web開(kāi)發(fā)人員“造就數(shù)據(jù)科學(xué)家的必讀工具書(shū)?!?——Michael E.Driscoll. Dataspora的CE0兼創(chuàng)始人

圖書(shū)封面

圖書(shū)標(biāo)簽Tags

無(wú)

評(píng)論、評(píng)分、閱讀與下載


    數(shù)據(jù)之魅 PDF格式下載


用戶(hù)評(píng)論 (總計(jì)14條)

 
 

  •   剛拿到手覺(jué)得書(shū)不錯(cuò),可是看了覺(jué)得譯的太差了,很多東西都沒(méi)說(shuō)清楚,不知道作者最后要說(shuō)什么,建議專(zhuān)業(yè)的書(shū)要專(zhuān)業(yè)人員翻譯,連over fitting都譯錯(cuò)了,英語(yǔ)系的就不要摻和了,建議看原版
  •   外文翻譯圖書(shū),建議翻譯者多于一人的不要考慮,通常是掙錢(qián)心切的導(dǎo)師抓學(xué)生湊合。本人上學(xué)的時(shí)候也是深受其害, 自己根本沒(méi)用過(guò)的系統(tǒng), 就翻譯出指南。
  •   本來(lái)是一本很不錯(cuò)的英文資料,可惜英文翻譯的太爛。很多地方,專(zhuān)業(yè)名詞和數(shù)學(xué)公式都解釋錯(cuò)誤。我不知道這是一個(gè)什么樣的翻譯團(tuán)隊(duì),兩個(gè)字評(píng)價(jià):失望。
  •   才看了30頁(yè),一頁(yè)都快掉了?。。。。。≠|(zhì)量太差@
  •   相當(dāng)不錯(cuò)的一本書(shū),數(shù)據(jù)分析人員可以放在案頭
  •   通俗易懂而又實(shí)用的書(shū),不空談,而是解決問(wèn)題。
  •   垃圾??!這本書(shū)到了,有如下問(wèn)題:第一圖的色差有點(diǎn)小,其中有些圖形的描述與圖形相差十分大第二,有脫頁(yè)的情況?。。。〈蠹屹?gòu)買(mǎi)的時(shí)候,小心點(diǎn)?。。?!
  •   不錯(cuò),挺實(shí)用的,寫(xiě)的很好噢~~·
  •   數(shù)據(jù)魅力
  •   從數(shù)學(xué)和分析的角度來(lái)講工具
  •   四顆星啊
  •   數(shù)據(jù)分析必看
  •   貌似很好!
  •   還 沒(méi)看呢,應(yīng)該不錯(cuò)
 

250萬(wàn)本中文圖書(shū)簡(jiǎn)介、評(píng)論、評(píng)分,PDF格式免費(fèi)下載。 第一圖書(shū)網(wǎng) 手機(jī)版

京ICP備13047387號(hào)-7