出版時間:2010年10月 出版社:機械工業(yè)出版社 作者:Toby Segaran,Jeff Hammerbacher 頁數:354 譯者:祝洪凱,李妹芳,段煉
Tag標簽:無
前言
我一直對數據挖掘很感興趣,尤其是通過對海量、抽象甚至枯燥的數據進行挖掘分析后,利用數據可視化工具展現出來的那種絢麗多彩、富含意蘊的數據之美更是令我癡迷、嘆為觀止。本書涉及領域很廣,各領域的精英們向我們娓娓道來相關領域的數據信息系統(tǒng)的架構的設計,包括Yahoo!的云存儲架構、Deep Web數據抓取、Face book的信息平臺、自然語言處理、“鳳凰號”火星探測器的圖像數據處理、探索數據生命的DNA漫談,甚至是Radio head視頻的制作、舊金山的次貸危機等。閱讀完本書之后,我自己的一個很大的收獲是對于自己比較了解的領域,如云存儲、Deep Web、NLP等有了進一步的理解和實踐指導,而對于那些完全不熟悉的領域,如探索數據生命、火星探測器、制作Radio head視頻等則更是開闊了視野,不但對數據有了新的認識,而且激發(fā)了思考問題的一些新的思維方式。這本書令我很感懷的另一方面是,我發(fā)現這些“數據科學家”在兢兢業(yè)業(yè)構建平臺處理數據的過程中,雖然遇到了很多困難和挑戰(zhàn),但是卻依然如此堅持、執(zhí)著地探索數據之美。在翻譯本書過程中,這種激情不僅激勵著我完成這本書的翻譯,同時也激勵著我在生活、工作中要有毅力和恒心。而縱觀我身邊的阿里巴巴云計算的同事們——這些“阿里數據科學家”們,也無一不是那種永遠充滿著激情致力于我們的“飛天”夢想!這是我翻譯的第一本書,很感激機械工業(yè)出版社華章公司編輯陳冀康先生慷慨地引我入門,并且對因為我前段時期項目開發(fā)非常緊張而導致翻譯進度幾乎停滯的寬容和理解表示深深感激。感謝所有其他為本書付出努力的人們。由于時間和精力有限,本書的疏漏、錯誤之處在所難免,還望各位讀者不吝批評指正。
內容概要
本書揭示了數據發(fā)現可以是多么廣泛和美麗!在本書中,39位業(yè)內最佳數據實踐者揭秘了他們如何為各種項目開發(fā)簡單優(yōu)雅的解決方案,例如火星著陸探測器、Radiohead視頻的制作等。在本書中,你將:
探索在海量的在線數據集中所固有的機遇和挑戰(zhàn)
學習如何使用地圖和數據“混搭”(mashup)來對都市犯罪趨勢進行可視化
發(fā)現“開放來源”(crowdsourcing)和透明化如何改善藥物研究的現狀
理解新的數據可能會覆蓋已有數據時,如何向用戶報警
了解DNA數據處理所需要的大規(guī)模的基礎設施
作者簡介
譯者:祝洪凱 李妹芳 段煉 編者:(美國)托比(Toby Segaran) (美國)Jeff Hammerbacher
書籍目錄
前言
第1章 在數據中觀察生活
NathanYau
個人環(huán)境影響報告(PEIR)
your.flowingdata(YFD)
個人數據收集
數據存儲
數據處理
數據可視化
要點
如何參與
第2章 美麗的人們:設計數據收集方法時牢記用戶
JonathanFollett和MatthewHolm
簡介:用戶共鳴正當其時
項目:關于一個新奢侈品的用戶調查
數據收集面臨的特殊挑戰(zhàn)
設計解決方案
結論和反思
第3章 火星上的嵌入式圖像數據處理
J.M.Hughes
摘要
簡介
一些背景
數據是否打包
三個任務
對圖像切槽
傳遞圖像:三個任務間的通信
獲取圖片:圖像下載和處理
圖像壓縮
“下行”或一切都從這里向下傳輸
結束語
第4章 PNUTShell中的云存儲設計
BrianFCooper、RaghuRamakrishnan和UtkarshSrivastava
簡介
更新數據
復雜查詢
和其他系統(tǒng)的比較
結論
致謝
參考文獻
第5章 信息平臺和數據科學家的興起
JeffHammerbacher
圖書館和大腦
Facebook具有了“自知之明”
商業(yè)智能系統(tǒng)
數據倉庫的消亡和重起
超越數據倉庫
“獵豹”和“大象”
……
第6章 照片檔案的地理之美
第7章 數據發(fā)現數據
第8章 實時的可移動數據
第9章 探尋Deep Web
第10章 構建Radiohead的“House of cards”
第11章 都市數據可視化
第12章 Sense.us的設計
第13章 數據所做不到的
第14章 自然語言語料庫數據
第15章 數據中的生命:DNA漫談
第16章 美化真實世界中的數據
第17章 數據淺析:探索形形色色的社會定型
第18章 舊金山海灣區(qū)之殤:次貸危機的影響
第19章 美麗的政治數據
第20章 邊接數據
附錄 作者簡介
章節(jié)摘錄
插圖:正如由機器人完成的任務生成的數據非常寶貴,需要返回這些數據的通信帶寬也是非常寶貴的。對于較小的圖像,比如那些通過子圖定位或者抽樣操作,圖片大小已經減少了,因此直接執(zhí)行“下行”操作而不做壓縮處理是可行的。更大的圖像,比如全尺寸大小的ssI圖像,“下行”操作會消耗很多帶寬,因此在這種情況下,通常采用壓縮方法來解決。ICS采用像素映射和擴展,提供了兩種壓縮和減少圖像大小的方式。對于某個特定的圖片,采用哪種壓縮或減少圖像大小方式,主要依賴于圖像需要達到的保真程度,高保真被認為是圖像的一個必要方面。在一些情況下,每個像素8位就足夠了;而在其他一些情況下,JPEG壓縮本身造成的圖像保真損失是可以接受的;而對于一些情況,圖像需要保持盡可能高的保真,則可以采用無損壓縮的方式。在ICS內部,一臺JPEG壓縮器采用所有的整數算術計算和就地操作,提供所謂的“有損”壓縮方式。JPEG被認為是有損的,因為其壓縮過程丟失了部分圖像數據。JPEG可以通過命令,對圖像數據實現不同程度的壓縮。最終代碼是松散式地基于Mars’98使命的JPEG壓縮器;雖然鳳凰號火星著陸探測器的ICS的實現只采用了其部分原始代碼。原始的JPEG壓縮器使用的是浮點數乘以全尺寸大小的圖像數組作為緩存,并采用動態(tài)內存分配方式。對于這種方式如何在飛行軟件上正常工作,我仍然感到很困惑,不過它確實能夠正常工作。在壓縮代碼中使用浮點數來表示像素數據,這也意味著對于每個圖像,比起16位整數的原始圖像表示方式,浮點數占用了其四倍的內存空間。第二種壓縮方式,也稱為Rice無損壓縮(Rice Lossless)或者Rice壓縮,采用了由Jet Propulsion實驗室的Robert Rice開發(fā)的一種算法。該Rice算法可以對圖像數據實現幾乎2:1的壓縮效果,且沒有數據損失。而JPEG算法在壓縮過程中丟失了部分數據。Rice壓縮方法也是在圖像槽中就地對圖像進行壓縮。兩種無壓縮的縮小圖像大小技術或者采用查詢表,把12位的像素值映射到8位的像素值,或者采用位縮小技術,對像素數據向右移動4位,生成一個每個像素8位的圖像。JPEG和Rice壓縮函數都接受12位或者8位的圖像數據。
媒體關注與評論
“數據實際上已經是下一代計算機應用的真正核心。本書中,各位業(yè)界精英描述了在他們的項目中如何以全新的方式來駕馭數據的力量。對于任何對數據的未來和問題的解決感興趣的讀者來說,本書都是一部必讀之作?!薄 猅im O'Reilly,O'Reilly Media公司創(chuàng)始人兼CEO
圖書封面
圖書標簽Tags
無
評論、評分、閱讀與下載