出版時(shí)間:2010年10月 出版社:機(jī)械工業(yè)出版社 作者:Toby Segaran,Jeff Hammerbacher 頁數(shù):354 譯者:祝洪凱,李妹芳,段煉
Tag標(biāo)簽:無
前言
我一直對數(shù)據(jù)挖掘很感興趣,尤其是通過對海量、抽象甚至枯燥的數(shù)據(jù)進(jìn)行挖掘分析后,利用數(shù)據(jù)可視化工具展現(xiàn)出來的那種絢麗多彩、富含意蘊(yùn)的數(shù)據(jù)之美更是令我癡迷、嘆為觀止。本書涉及領(lǐng)域很廣,各領(lǐng)域的精英們向我們娓娓道來相關(guān)領(lǐng)域的數(shù)據(jù)信息系統(tǒng)的架構(gòu)的設(shè)計(jì),包括Yahoo!的云存儲(chǔ)架構(gòu)、Deep Web數(shù)據(jù)抓取、Face book的信息平臺、自然語言處理、“鳳凰號”火星探測器的圖像數(shù)據(jù)處理、探索數(shù)據(jù)生命的DNA漫談,甚至是Radio head視頻的制作、舊金山的次貸危機(jī)等。閱讀完本書之后,我自己的一個(gè)很大的收獲是對于自己比較了解的領(lǐng)域,如云存儲(chǔ)、Deep Web、NLP等有了進(jìn)一步的理解和實(shí)踐指導(dǎo),而對于那些完全不熟悉的領(lǐng)域,如探索數(shù)據(jù)生命、火星探測器、制作Radio head視頻等則更是開闊了視野,不但對數(shù)據(jù)有了新的認(rèn)識,而且激發(fā)了思考問題的一些新的思維方式。這本書令我很感懷的另一方面是,我發(fā)現(xiàn)這些“數(shù)據(jù)科學(xué)家”在兢兢業(yè)業(yè)構(gòu)建平臺處理數(shù)據(jù)的過程中,雖然遇到了很多困難和挑戰(zhàn),但是卻依然如此堅(jiān)持、執(zhí)著地探索數(shù)據(jù)之美。在翻譯本書過程中,這種激情不僅激勵(lì)著我完成這本書的翻譯,同時(shí)也激勵(lì)著我在生活、工作中要有毅力和恒心。而縱觀我身邊的阿里巴巴云計(jì)算的同事們——這些“阿里數(shù)據(jù)科學(xué)家”們,也無一不是那種永遠(yuǎn)充滿著激情致力于我們的“飛天”夢想!這是我翻譯的第一本書,很感激機(jī)械工業(yè)出版社華章公司編輯陳冀康先生慷慨地引我入門,并且對因?yàn)槲仪岸螘r(shí)期項(xiàng)目開發(fā)非常緊張而導(dǎo)致翻譯進(jìn)度幾乎停滯的寬容和理解表示深深感激。感謝所有其他為本書付出努力的人們。由于時(shí)間和精力有限,本書的疏漏、錯(cuò)誤之處在所難免,還望各位讀者不吝批評指正。
內(nèi)容概要
本書揭示了數(shù)據(jù)發(fā)現(xiàn)可以是多么廣泛和美麗!在本書中,39位業(yè)內(nèi)最佳數(shù)據(jù)實(shí)踐者揭秘了他們?nèi)绾螢楦鞣N項(xiàng)目開發(fā)簡單優(yōu)雅的解決方案,例如火星著陸探測器、Radiohead視頻的制作等。在本書中,你將:
探索在海量的在線數(shù)據(jù)集中所固有的機(jī)遇和挑戰(zhàn)
學(xué)習(xí)如何使用地圖和數(shù)據(jù)“混搭”(mashup)來對都市犯罪趨勢進(jìn)行可視化
發(fā)現(xiàn)“開放來源”(crowdsourcing)和透明化如何改善藥物研究的現(xiàn)狀
理解新的數(shù)據(jù)可能會(huì)覆蓋已有數(shù)據(jù)時(shí),如何向用戶報(bào)警
了解DNA數(shù)據(jù)處理所需要的大規(guī)模的基礎(chǔ)設(shè)施
作者簡介
譯者:祝洪凱 李妹芳 段煉 編者:(美國)托比(Toby Segaran) (美國)Jeff Hammerbacher
書籍目錄
前言
第1章 在數(shù)據(jù)中觀察生活
NathanYau
個(gè)人環(huán)境影響報(bào)告(PEIR)
your.flowingdata(YFD)
個(gè)人數(shù)據(jù)收集
數(shù)據(jù)存儲(chǔ)
數(shù)據(jù)處理
數(shù)據(jù)可視化
要點(diǎn)
如何參與
第2章 美麗的人們:設(shè)計(jì)數(shù)據(jù)收集方法時(shí)牢記用戶
JonathanFollett和MatthewHolm
簡介:用戶共鳴正當(dāng)其時(shí)
項(xiàng)目:關(guān)于一個(gè)新奢侈品的用戶調(diào)查
數(shù)據(jù)收集面臨的特殊挑戰(zhàn)
設(shè)計(jì)解決方案
結(jié)論和反思
第3章 火星上的嵌入式圖像數(shù)據(jù)處理
J.M.Hughes
摘要
簡介
一些背景
數(shù)據(jù)是否打包
三個(gè)任務(wù)
對圖像切槽
傳遞圖像:三個(gè)任務(wù)間的通信
獲取圖片:圖像下載和處理
圖像壓縮
“下行”或一切都從這里向下傳輸
結(jié)束語
第4章 PNUTShell中的云存儲(chǔ)設(shè)計(jì)
BrianFCooper、RaghuRamakrishnan和UtkarshSrivastava
簡介
更新數(shù)據(jù)
復(fù)雜查詢
和其他系統(tǒng)的比較
結(jié)論
致謝
參考文獻(xiàn)
第5章 信息平臺和數(shù)據(jù)科學(xué)家的興起
JeffHammerbacher
圖書館和大腦
Facebook具有了“自知之明”
商業(yè)智能系統(tǒng)
數(shù)據(jù)倉庫的消亡和重起
超越數(shù)據(jù)倉庫
“獵豹”和“大象”
……
第6章 照片檔案的地理之美
第7章 數(shù)據(jù)發(fā)現(xiàn)數(shù)據(jù)
第8章 實(shí)時(shí)的可移動(dòng)數(shù)據(jù)
第9章 探尋Deep Web
第10章 構(gòu)建Radiohead的“House of cards”
第11章 都市數(shù)據(jù)可視化
第12章 Sense.us的設(shè)計(jì)
第13章 數(shù)據(jù)所做不到的
第14章 自然語言語料庫數(shù)據(jù)
第15章 數(shù)據(jù)中的生命:DNA漫談
第16章 美化真實(shí)世界中的數(shù)據(jù)
第17章 數(shù)據(jù)淺析:探索形形色色的社會(huì)定型
第18章 舊金山海灣區(qū)之殤:次貸危機(jī)的影響
第19章 美麗的政治數(shù)據(jù)
第20章 邊接數(shù)據(jù)
附錄 作者簡介
章節(jié)摘錄
插圖:正如由機(jī)器人完成的任務(wù)生成的數(shù)據(jù)非常寶貴,需要返回這些數(shù)據(jù)的通信帶寬也是非常寶貴的。對于較小的圖像,比如那些通過子圖定位或者抽樣操作,圖片大小已經(jīng)減少了,因此直接執(zhí)行“下行”操作而不做壓縮處理是可行的。更大的圖像,比如全尺寸大小的ssI圖像,“下行”操作會(huì)消耗很多帶寬,因此在這種情況下,通常采用壓縮方法來解決。ICS采用像素映射和擴(kuò)展,提供了兩種壓縮和減少圖像大小的方式。對于某個(gè)特定的圖片,采用哪種壓縮或減少圖像大小方式,主要依賴于圖像需要達(dá)到的保真程度,高保真被認(rèn)為是圖像的一個(gè)必要方面。在一些情況下,每個(gè)像素8位就足夠了;而在其他一些情況下,JPEG壓縮本身造成的圖像保真損失是可以接受的;而對于一些情況,圖像需要保持盡可能高的保真,則可以采用無損壓縮的方式。在ICS內(nèi)部,一臺JPEG壓縮器采用所有的整數(shù)算術(shù)計(jì)算和就地操作,提供所謂的“有損”壓縮方式。JPEG被認(rèn)為是有損的,因?yàn)槠鋲嚎s過程丟失了部分圖像數(shù)據(jù)。JPEG可以通過命令,對圖像數(shù)據(jù)實(shí)現(xiàn)不同程度的壓縮。最終代碼是松散式地基于Mars’98使命的JPEG壓縮器;雖然鳳凰號火星著陸探測器的ICS的實(shí)現(xiàn)只采用了其部分原始代碼。原始的JPEG壓縮器使用的是浮點(diǎn)數(shù)乘以全尺寸大小的圖像數(shù)組作為緩存,并采用動(dòng)態(tài)內(nèi)存分配方式。對于這種方式如何在飛行軟件上正常工作,我仍然感到很困惑,不過它確實(shí)能夠正常工作。在壓縮代碼中使用浮點(diǎn)數(shù)來表示像素?cái)?shù)據(jù),這也意味著對于每個(gè)圖像,比起16位整數(shù)的原始圖像表示方式,浮點(diǎn)數(shù)占用了其四倍的內(nèi)存空間。第二種壓縮方式,也稱為Rice無損壓縮(Rice Lossless)或者Rice壓縮,采用了由Jet Propulsion實(shí)驗(yàn)室的Robert Rice開發(fā)的一種算法。該Rice算法可以對圖像數(shù)據(jù)實(shí)現(xiàn)幾乎2:1的壓縮效果,且沒有數(shù)據(jù)損失。而JPEG算法在壓縮過程中丟失了部分?jǐn)?shù)據(jù)。Rice壓縮方法也是在圖像槽中就地對圖像進(jìn)行壓縮。兩種無壓縮的縮小圖像大小技術(shù)或者采用查詢表,把12位的像素值映射到8位的像素值,或者采用位縮小技術(shù),對像素?cái)?shù)據(jù)向右移動(dòng)4位,生成一個(gè)每個(gè)像素8位的圖像。JPEG和Rice壓縮函數(shù)都接受12位或者8位的圖像數(shù)據(jù)。
媒體關(guān)注與評論
“數(shù)據(jù)實(shí)際上已經(jīng)是下一代計(jì)算機(jī)應(yīng)用的真正核心。本書中,各位業(yè)界精英描述了在他們的項(xiàng)目中如何以全新的方式來駕馭數(shù)據(jù)的力量。對于任何對數(shù)據(jù)的未來和問題的解決感興趣的讀者來說,本書都是一部必讀之作?!薄 猅im O'Reilly,O'Reilly Media公司創(chuàng)始人兼CEO
圖書封面
圖書標(biāo)簽Tags
無
評論、評分、閱讀與下載