數據之美

出版時間:2010年10月  出版社:機械工業(yè)出版社  作者:Toby Segaran,Jeff Hammerbacher  頁數:354  譯者:祝洪凱,李妹芳,段煉  
Tag標簽:無  

前言

我一直對數據挖掘很感興趣,尤其是通過對海量、抽象甚至枯燥的數據進行挖掘分析后,利用數據可視化工具展現出來的那種絢麗多彩、富含意蘊的數據之美更是令我癡迷、嘆為觀止。本書涉及領域很廣,各領域的精英們向我們娓娓道來相關領域的數據信息系統(tǒng)的架構的設計,包括Yahoo!的云存儲架構、Deep Web數據抓取、Face book的信息平臺、自然語言處理、“鳳凰號”火星探測器的圖像數據處理、探索數據生命的DNA漫談,甚至是Radio head視頻的制作、舊金山的次貸危機等。閱讀完本書之后,我自己的一個很大的收獲是對于自己比較了解的領域,如云存儲、Deep Web、NLP等有了進一步的理解和實踐指導,而對于那些完全不熟悉的領域,如探索數據生命、火星探測器、制作Radio head視頻等則更是開闊了視野,不但對數據有了新的認識,而且激發(fā)了思考問題的一些新的思維方式。這本書令我很感懷的另一方面是,我發(fā)現這些“數據科學家”在兢兢業(yè)業(yè)構建平臺處理數據的過程中,雖然遇到了很多困難和挑戰(zhàn),但是卻依然如此堅持、執(zhí)著地探索數據之美。在翻譯本書過程中,這種激情不僅激勵著我完成這本書的翻譯,同時也激勵著我在生活、工作中要有毅力和恒心。而縱觀我身邊的阿里巴巴云計算的同事們——這些“阿里數據科學家”們,也無一不是那種永遠充滿著激情致力于我們的“飛天”夢想!這是我翻譯的第一本書,很感激機械工業(yè)出版社華章公司編輯陳冀康先生慷慨地引我入門,并且對因為我前段時期項目開發(fā)非常緊張而導致翻譯進度幾乎停滯的寬容和理解表示深深感激。感謝所有其他為本書付出努力的人們。由于時間和精力有限,本書的疏漏、錯誤之處在所難免,還望各位讀者不吝批評指正。

內容概要

本書揭示了數據發(fā)現可以是多么廣泛和美麗!在本書中,39位業(yè)內最佳數據實踐者揭秘了他們如何為各種項目開發(fā)簡單優(yōu)雅的解決方案,例如火星著陸探測器、Radiohead視頻的制作等。在本書中,你將:
  探索在海量的在線數據集中所固有的機遇和挑戰(zhàn)
  學習如何使用地圖和數據“混搭”(mashup)來對都市犯罪趨勢進行可視化
  發(fā)現“開放來源”(crowdsourcing)和透明化如何改善藥物研究的現狀
  理解新的數據可能會覆蓋已有數據時,如何向用戶報警
  了解DNA數據處理所需要的大規(guī)模的基礎設施

作者簡介

譯者:祝洪凱 李妹芳 段煉 編者:(美國)托比(Toby Segaran) (美國)Jeff Hammerbacher

書籍目錄

前言
第1章 在數據中觀察生活 
 NathanYau
 個人環(huán)境影響報告(PEIR)
 your.flowingdata(YFD)
 個人數據收集
 數據存儲
 數據處理
 數據可視化
 要點
 如何參與
第2章 美麗的人們:設計數據收集方法時牢記用戶
 JonathanFollett和MatthewHolm
 簡介:用戶共鳴正當其時
 項目:關于一個新奢侈品的用戶調查
 數據收集面臨的特殊挑戰(zhàn)
 設計解決方案
 結論和反思
第3章 火星上的嵌入式圖像數據處理
 J.M.Hughes
 摘要
 簡介
 一些背景
 數據是否打包
 三個任務
 對圖像切槽
 傳遞圖像:三個任務間的通信
 獲取圖片:圖像下載和處理
 圖像壓縮
 “下行”或一切都從這里向下傳輸
 結束語
第4章 PNUTShell中的云存儲設計
 BrianFCooper、RaghuRamakrishnan和UtkarshSrivastava
 簡介
 更新數據
 復雜查詢
 和其他系統(tǒng)的比較
 結論
 致謝
 參考文獻
第5章 信息平臺和數據科學家的興起
 JeffHammerbacher
 圖書館和大腦
 Facebook具有了“自知之明”
 商業(yè)智能系統(tǒng)
 數據倉庫的消亡和重起
 超越數據倉庫
 “獵豹”和“大象”
 ……
第6章 照片檔案的地理之美
第7章 數據發(fā)現數據
第8章 實時的可移動數據
第9章 探尋Deep Web
第10章 構建Radiohead的“House of cards”
第11章 都市數據可視化
第12章 Sense.us的設計
第13章 數據所做不到的
第14章 自然語言語料庫數據
第15章 數據中的生命:DNA漫談
第16章 美化真實世界中的數據
第17章 數據淺析:探索形形色色的社會定型
第18章 舊金山海灣區(qū)之殤:次貸危機的影響
第19章 美麗的政治數據
第20章 邊接數據
附錄 作者簡介

章節(jié)摘錄

插圖:正如由機器人完成的任務生成的數據非常寶貴,需要返回這些數據的通信帶寬也是非常寶貴的。對于較小的圖像,比如那些通過子圖定位或者抽樣操作,圖片大小已經減少了,因此直接執(zhí)行“下行”操作而不做壓縮處理是可行的。更大的圖像,比如全尺寸大小的ssI圖像,“下行”操作會消耗很多帶寬,因此在這種情況下,通常采用壓縮方法來解決。ICS采用像素映射和擴展,提供了兩種壓縮和減少圖像大小的方式。對于某個特定的圖片,采用哪種壓縮或減少圖像大小方式,主要依賴于圖像需要達到的保真程度,高保真被認為是圖像的一個必要方面。在一些情況下,每個像素8位就足夠了;而在其他一些情況下,JPEG壓縮本身造成的圖像保真損失是可以接受的;而對于一些情況,圖像需要保持盡可能高的保真,則可以采用無損壓縮的方式。在ICS內部,一臺JPEG壓縮器采用所有的整數算術計算和就地操作,提供所謂的“有損”壓縮方式。JPEG被認為是有損的,因為其壓縮過程丟失了部分圖像數據。JPEG可以通過命令,對圖像數據實現不同程度的壓縮。最終代碼是松散式地基于Mars’98使命的JPEG壓縮器;雖然鳳凰號火星著陸探測器的ICS的實現只采用了其部分原始代碼。原始的JPEG壓縮器使用的是浮點數乘以全尺寸大小的圖像數組作為緩存,并采用動態(tài)內存分配方式。對于這種方式如何在飛行軟件上正常工作,我仍然感到很困惑,不過它確實能夠正常工作。在壓縮代碼中使用浮點數來表示像素數據,這也意味著對于每個圖像,比起16位整數的原始圖像表示方式,浮點數占用了其四倍的內存空間。第二種壓縮方式,也稱為Rice無損壓縮(Rice Lossless)或者Rice壓縮,采用了由Jet Propulsion實驗室的Robert Rice開發(fā)的一種算法。該Rice算法可以對圖像數據實現幾乎2:1的壓縮效果,且沒有數據損失。而JPEG算法在壓縮過程中丟失了部分數據。Rice壓縮方法也是在圖像槽中就地對圖像進行壓縮。兩種無壓縮的縮小圖像大小技術或者采用查詢表,把12位的像素值映射到8位的像素值,或者采用位縮小技術,對像素數據向右移動4位,生成一個每個像素8位的圖像。JPEG和Rice壓縮函數都接受12位或者8位的圖像數據。

媒體關注與評論

“數據實際上已經是下一代計算機應用的真正核心。本書中,各位業(yè)界精英描述了在他們的項目中如何以全新的方式來駕馭數據的力量。對于任何對數據的未來和問題的解決感興趣的讀者來說,本書都是一部必讀之作?!薄  猅im O'Reilly,O'Reilly Media公司創(chuàng)始人兼CEO

圖書封面

圖書標簽Tags

評論、評分、閱讀與下載


    數據之美 PDF格式下載


用戶評論 (總計60條)

 
 

  •   期待已久的好書,是《數據可視化之美》的姊妹篇。
  •   涉及的領域相當廣,對數據的表現方法和數據可視化以及用戶交互這些方面都會有很好的啟發(fā)。
  •   從采集來源、處理方式、展現形式等幾個方面來介紹數據,值得一看
  •   眾多的數據解決方案真實案例為我提供了很好的借鑒。
  •   每一個案例都是當前比較流行的網站數據架構方式,很值得一讀,可以開闊眼界!
  •   此書為你揭示數據另一面。為你展示了數據其實并不枯燥。
  •   個人感覺更偏向于做數據展示。給處理數據的人提供了一些指引和思路
  •   適合從事數據工作,并且有一定經驗的人看,這本書可以用來開闊視野,里面有facebook和yahoo內部人講的小故事,很不錯!
  •   通過很多例子來講述數據使用的各種demo,很不錯的書
  •   沒想到還有這個的中文版,14章統(tǒng)計自然語言節(jié),比《數學之美》詳細多了!推薦
  •   需要一定基礎才能看懂。
  •   可以多方面了解下當前時代時髦的技術,整體來說擴寬視野,增加了解還是不錯的
  •   應該是正品,有防偽標志,東西不錯 物流太給力了,第二天就收到了
  •   只能欣賞,上面的知識一時半伙還用不上,全當擴充知識面了
  •   封面很漂亮,像個獼猴桃,呵呵
  •   還沒有仔細看,但內容不錯
  •   以前看過部分章節(jié),覺得很好,這次活動順便就買了
  •   書還沒有仔細看,大略翻了下,紙張不錯,內容的話排版有些太密了。而且,封面太丑了。
  •   這本書相對來說還算比較新,是從英文版翻譯過來的。英文版2009年出版。中文版2010年10月出版。由20篇相互獨立的文章組成。每篇講一個數據處理相關的項目。不涉及具體的技術細節(jié),僅僅是概括說明原理、思路、過程、結果。

    總體來說,閱讀起來有點晦澀。感覺作者基本都明白英文版的意思,不過有些地方中文表達上不夠通順。這在IT業(yè)的翻譯書中已經算不錯的組合了,強過中文過關但是不懂技術的情況。

    其中講數據可視化的文章有幾篇。還都比較有意思。比如第六章“照片檔案的地理之美”,說的是英國的一個名叫“Geograph”的項目,收集了大量的英國的照片及普通用戶對照片的標簽,作者分析這些標簽,并且用圖形化的方法把許多分析結果展現出來;第11章“都市數據可視化”,講的是把警察局的犯罪發(fā)生的數據與地圖結合起來,預測犯罪發(fā)生的地點與類型從而提早預防;第12章“Sense.us的設計”講以可視化手段分析美國150年以來的人口數據,得出許多有趣的結論;第17章“數據淺析:探索形形色色的社會定型”說的是用圖形化方法分析一個網站的大量用戶相互之間的評論;第19章“美麗的政治數據”同樣使用可視化手段分析選舉相關數據。

    第4章“PNUTShell中的云存儲設計”,說的是雅虎的一個云存儲的項目PNUTShell的設計思路和優(yōu)缺點。這個項目面對的應用主要是社交方面的應用,數據一致性要求不高,可用性、擴展性要求很高。因此就對一致性做了一些犧牲,滿足比較高的可用性和擴展性。數據只要最終按照操作順序執(zhí)行了相關的操作,最終一致就可以了。每一條數據都記錄了版本號,好知道自己執(zhí)行到那個步驟了。每一條記錄還需要記錄自己是不是主備份。寫操作要先寫主備份然后逐步同步到其他數據庫上。如果系統(tǒng)發(fā)現用戶比較頻繁地寫數據但是主備份所在服務器的物理距離與用戶的物理距離比較遠,就自動把主備份記錄轉移到距離用戶更近的服務器上。如果主備份損壞,系統(tǒng)也會從剩下的數據中挑選最合適的一條做主備份。

    第9章“探尋Deep Web”說的是如何讓搜索引擎自動搜索Form表單。Form表單可以有無窮個組合,這篇文章給出一些基本思路來讓搜索引擎判斷如何去選擇下拉列表或者去填寫文本框,目標是用盡量少的操作步驟盡量多地獲取form表單后面的數據庫中的內容。
  •   此本書既不講解技術,也不講解領域,通過對一些現實例子的分析來闡述數據帶給我們的美。
    讀完的感覺并不是技術上的收獲,而是拓展了我們的視野。
  •   部門總監(jiān)推薦的書,適合做數據分析商戶分析的同學們學習。你能從一些簡單的數據中發(fā)現別人發(fā)現不了的問題
  •   作為一個地圖應用的開發(fā)者,對這本書大量和地圖數據結合的數據展現案例自然是非常有感
  •   從技術的角度,不建議讀,技術層面介紹的很少
    從解決方案的角度,可以讀一下,開闊視野。
    另外,印刷質量一般
  •   沒事時看著玩兒
  •   比較專業(yè)的書籍,可以開拓思維。
  •   還可以吧,增廣見聞不錯
  •   還未讀,翻了翻感覺還好
  •   不是實操新型的書,各章節(jié)來源于美國各大頂尖技術公司
  •   內容比較雜,但是有好多實踐的經驗是其他樹立找不到的。
  •   需要過段時間看才能感覺
  •   書本質量還可以,印刷也不錯。單篇文檔內容還可以,但本書就值缺乏一個整體的思想,顯得有些雜亂!建議內容挑選上做一些改進。
  •   很有見地,文字輕巧卻不乏教導意義,作者經驗豐富,書中實例可操作性強
  •   導師推薦的。但我讀起來比較費勁。
  •   對于非專業(yè)的,很難。
  •   太專業(yè)看不懂
  •   我自己的錯,現在已經沒有耐心讀進純技術的書籍了.. 唉
  •   說實話,感覺原版介紹的的內容還是不錯的,舉得例子涉及了很多領域,但是糟糕的是翻譯是個外行,把數據之美重繪的一團糟,很多地方像在讀google翻譯的文字。
  •   剛剛收到書,打開發(fā)現合訂的地方都歪了,裂了好幾條紋,強烈要求換貨
  •   這本書相對來說還算比較新,是從英文版翻譯過來的。英文版2009年出版。中文版2010年10月出版。由20篇相互獨立的文章組成。每篇講一個數據處理相關的項目。不涉及具體的技術細節(jié),僅僅是概括說明原理、思路、過程、結果。總體來說,閱讀起來有點晦澀。感覺作者基本都明白英文版的意思,不過有些地方中文表達上不夠通順。這在IT業(yè)的翻譯書中已經算不錯的組合了,強過中文過關但是不懂技術的情況。其中講數據可視化的文章有幾篇。還都比較有意思。比如第六章“照片檔案的地理之美”,說的是英國的一個名叫“Geograph”的項目,收集了大量的英國的照片及普通用戶對照片的標簽,作者分析這些標簽,并且用圖形化的方法把許多分析結果展現出來;第11章“都市數據可視化”,講的是把警察局的犯罪發(fā)生的數據與地圖結合起來,預測犯罪發(fā)生的地點與類型從而提早預防;第12章“Sense.us的設計”講以可視化手段分析美國150年以來的人口數據,得出許多有趣的結論;第17章“數據淺析:探索形形色色的社會定型”說的是用圖形化方法分析一個網站的大量用戶相互之間的評論;第19章“美麗的政治數據”同樣使用可視化手段分析選舉相關數據。第4章“PNUTShell中的云存儲設計”,說的是雅虎的一個云存儲的項目PNUTShell的設計思路和優(yōu)缺點。這個項目面對的應用主要是社交方...面的應用,數據一致性要求不高,可用性、擴展性要求很高。因此就對一致性做了一些犧牲,滿足比較高的可用性和擴展性。數據只要最終按照操作順序執(zhí)行了相關的操作,最終一致就可以了。每一條數據都記錄了版本號,好知道自己執(zhí)行到那個步驟了。每一條記錄還需要記錄自己是不是主備份。寫操作要先寫主備份然后逐步同步到其他數據庫上。如果系統(tǒng)發(fā)現用戶比較頻繁地寫數據但是主備份所在服務器的物理距離與用戶的物理距離比較遠,就自動把主備份記錄轉移到距離用戶更近的服務器上。如果主備份損壞,系統(tǒng)也會從剩下的數據中挑選最合適的一條做主備份。第9章“探尋Deep Web”說的是如何讓搜索引擎自動搜索Form表單。Form表單可以有無窮個組合,這篇文章給出一些基本思路來讓搜索引擎判斷如何去選擇下拉列表或者去填寫文本框,目標是用盡量少的操作步驟盡量多地獲取form表單后面的數據庫中的內容。 閱讀更多 ›
  •   此本書既不講解技術,也不講解領域,通過對一些現實例子的分析來闡述數據帶給我們的美。讀完的感覺并不是技術上的收獲,而是拓展了我們的視野。
  •   一是紙質、印刷都很棒,二是英文也不是太難,當然我只看了幾篇的開頭……
  •   介紹的東西很不錯。了解了好的思路。
  •   比《大數據時代》在技術上更深入,又不是特別深入,對于我這種偽GEEK來說,剛剛好。一般俺不愛挑翻譯的毛病,不耽誤看就成。不過這本書,著實讀著別扭,求店家送英文版……
  •   所有括號里的英文都少了第二個字母,轉換程序就算有BUG,難道就不手工查看嗎?
  •   Kindle版恐怕是校對得不認真,出現很多不應該的錯漏,影響閱讀。
  •   就是一論文合集,作為資料看一看,沒啥特別的感覺
  •   這本書深入淺出,講述了大數據應用的多個方面,有利于深入開發(fā)互聯(lián)網資源,為企業(yè)升級服務。
  •   可能偏向于技術層面吧,所以我感覺不出來作者對于數據美感的說明
  •   灰常好的一本書 不錯啊
  •   純英文,學術很強,完全看不進去,我想適合這個專業(yè)的博士或者研究人員閱讀,不適合程序員
  •   經驗是可以學習的,此書必讀
  •   這本書對于DBA工程師非常有用
  •   什么東西都介紹了,又什么都沒介紹清楚,有些讀著都很不順。
  •   還沒看 不好做過多的評價
  •   最近流行xx之美,這本書評價很高
  •   還沒來得及翻,品相不錯!
  •   學習研究數據的典型書籍
  •   書有點貴,還集中地數據挖掘方面的
  •   時代之巔
  •   認識大數據
 

250萬本中文圖書簡介、評論、評分,PDF格式免費下載。 第一圖書網 手機版

京ICP備13047387號-7