鮮活的數(shù)據(jù)

出版時(shí)間:2012-10  出版社:人民郵電出版社  作者:[美] Nathan Yau  頁(yè)數(shù):281  字?jǐn)?shù):437000  譯者:向怡寧  
Tag標(biāo)簽:無(wú)  

前言

引  言數(shù)據(jù)不是什么新鮮玩意。早在幾個(gè)世紀(jì)之前,人們就開(kāi)始對(duì)數(shù)據(jù)進(jìn)行量化分析并為之繪制表格了。然而在為FlowingData(我創(chuàng)建的一個(gè)有關(guān)設(shè)計(jì)、可視化和統(tǒng)計(jì)的網(wǎng)站)寫(xiě)作時(shí),我發(fā)覺(jué)這一領(lǐng)域在過(guò)去數(shù)年間出現(xiàn)了爆炸式的發(fā)展,而且未來(lái)還會(huì)更加蓬勃??萍嫉倪M(jìn)步使得收集和存儲(chǔ)數(shù)據(jù)變得輕而易舉,而互聯(lián)網(wǎng)則讓我們擺脫了時(shí)間和空間的束縛。如果運(yùn)用得當(dāng),這種數(shù)據(jù)的“財(cái)富”能夠提供豐富的信息,幫助人們更明智地制定決策、更清楚地傳達(dá)理念,而且能讓我們以更為客觀的角度去審視自己對(duì)世界和自身的看法。隨著2009年年中Data.gov網(wǎng)站的上線,美國(guó)政府?dāng)?shù)據(jù)公開(kāi)化進(jìn)程發(fā)生了一次重大轉(zhuǎn)變。這是一套綜合的數(shù)據(jù)目錄系統(tǒng),由各級(jí)聯(lián)邦政府機(jī)構(gòu)提供,表現(xiàn)出各組織及官方的透明度和責(zé)任感。比如說(shuō),國(guó)民有權(quán)利了解政府把稅收收入都花在了哪里,而在此之前美國(guó)政府給人的感覺(jué)就像一個(gè)黑箱。Data.gov上的很多數(shù)據(jù)其實(shí)在許多網(wǎng)站中都能找到,但現(xiàn)在它們都被會(huì)聚在一起,而且有著統(tǒng)一的格式,更加便于人們進(jìn)行分析和可視化。除了Data.gov之外,聯(lián)合國(guó)也有類似的網(wǎng)站UNdata,英國(guó)很快也發(fā)布了Data.gov.uk,而像紐約、舊金山和倫敦等全球許多城市也都參與到了數(shù)據(jù)公開(kāi)這一潮流中來(lái)。如今的網(wǎng)站也變得越來(lái)越開(kāi)放,有數(shù)千個(gè)API(應(yīng)用編程接口)在鼓勵(lì)和“慫恿”著開(kāi)發(fā)人員去調(diào)用網(wǎng)站已有的數(shù)據(jù)做各種事情。比如Twitter和Flickr就提供了覆蓋面極廣的API,開(kāi)發(fā)人員可以自由定制與網(wǎng)站本身完全不同、五花八門的用戶界面。API編目網(wǎng)站ProgrammableWeb目前已收錄超過(guò)2000個(gè)API 。諸如Infochimps和Factual這樣的應(yīng)用最近也大量涌現(xiàn)出來(lái),它們存在的目的就是向人們提供結(jié)構(gòu)化的數(shù)據(jù)。在個(gè)人層面,我們可以在Facebook上結(jié)交朋友,在Foursquare上分享所在的位置,或者在Twitter上發(fā)布自己的最新動(dòng)態(tài),這所有的一切都只需要點(diǎn)擊幾次鼠標(biāo)或者敲擊幾下鍵盤就能實(shí)現(xiàn)。一些針對(duì)性更強(qiáng)的應(yīng)用則方便我們記錄品嘗過(guò)什么美食、體重幾何、情緒高低等林林總總的事情。幾乎可以這樣說(shuō),只要你想對(duì)自己的某個(gè)方面進(jìn)行追蹤,就會(huì)有這樣一款應(yīng)用來(lái)幫助你實(shí)現(xiàn)愿望。數(shù)據(jù)就靜靜地待在我們生活的每一個(gè)角落。園子里已經(jīng)果實(shí)累累,正等待著我們?nèi)ゲ烧?duì)大多數(shù)人來(lái)說(shuō),真正有意思的并不是數(shù)據(jù)本身,而是數(shù)據(jù)背后蘊(yùn)涵的信息。人們都希望知道他們的數(shù)據(jù)有何意義,而如果你能幫助他們,那么你就會(huì)大受歡迎。難怪Google首席經(jīng)濟(jì)學(xué)家Hal Varian會(huì)說(shuō)統(tǒng)計(jì)學(xué)家將是未來(lái)十年內(nèi)最迷人的職業(yè),而這絕不僅僅是因?yàn)榻y(tǒng)計(jì)學(xué)家長(zhǎng)得好看(盡管以極客們的別樣眼光來(lái)看,我們確實(shí)長(zhǎng)得讓人賞心悅目)??梢暬胩剿骱屠斫饽切┐笮偷臄?shù)據(jù)集,可視化是最有效的途徑之一。把數(shù)字置于視覺(jué)空間中,我們的大腦或者讀者的大腦就會(huì)更容易發(fā)現(xiàn)其中潛藏的模式。人類對(duì)圖形的理解能力確實(shí)很強(qiáng),往往能夠從中發(fā)現(xiàn)一些通過(guò)常規(guī)統(tǒng)計(jì)方法很難挖掘到的信息。John Tukey是我最喜愛(ài)的統(tǒng)計(jì)學(xué)家,也是探索性數(shù)據(jù)分析理論(Exploratory Data Analysis)的締造者。他精通各種統(tǒng)計(jì)方法和工具,而且深信圖形技術(shù)在其中亦占有一席之地。他堅(jiān)信,圖形的呈現(xiàn)方式會(huì)讓人們得到許多出乎意料的結(jié)果。只需對(duì)數(shù)據(jù)進(jìn)行可視化,我們就能從中發(fā)現(xiàn)大量信息,而且很多情況下這也是我們制定明智決策或描述復(fù)雜事件所需要的唯一手段。比如說(shuō),在2009年美國(guó)的失業(yè)率遭遇了一次大幅增長(zhǎng)。2007年的全美平均失業(yè)率是4.6%,2008年上漲到了5.8%。而到了2009年9月,突然就攀升至9.8%。但是這些全國(guó)平均數(shù)字只揭示了事件的一部分,它們只是概括了整個(gè)國(guó)家的總體狀況。有哪些地區(qū)的失業(yè)率高于其他地區(qū)?又有哪些地區(qū)并未受到很大波及?我們無(wú)法從中獲得答案。圖0-1用一系列美國(guó)地圖更為完整地說(shuō)明了情況,而且我們只需略掃一眼就能回答上面的問(wèn)題。顏色較深的縣失業(yè)率相對(duì)較高,而顏色較淺的縣失業(yè)率較低。在2009年的地圖上(圖0-2),我們可以看到美國(guó)西部和東部大多數(shù)地區(qū)的失業(yè)率都超過(guò)了10%,而中西部地區(qū)則未受到太大影響。圖0-1 2004—2009年美國(guó)失業(yè)率分布圖如果手上只有單純的電子表格,要想找到其中蘊(yùn)涵的地區(qū)性或周期性的模式就會(huì)很花時(shí)間,而只靠前面那些全國(guó)平均數(shù)字則完全不可能。而用地圖呈現(xiàn)之后,雖然增加了許多縣的數(shù)據(jù),但讀者的理解程度反而提高了。這些地圖有可能幫助當(dāng)局決定往哪些地區(qū)劃撥救濟(jì)金或提供其他形式的援助。圖0-2 2009年失業(yè)率分布圖這個(gè)例子的絕妙之處在于,用于產(chǎn)生地圖的數(shù)據(jù)都是免費(fèi)的,由美國(guó)勞工統(tǒng)計(jì)局直接面向公眾開(kāi)放。盡管找到這些數(shù)據(jù)并不是那么輕而易舉,但它們確實(shí)就在某個(gè)地方聽(tīng)候我們的差遣,而且還有更多格式化的數(shù)據(jù)正等待著我們作更好的視覺(jué)處理。比如說(shuō),《美國(guó)統(tǒng)計(jì)摘要》(The Statistical Abstract of the United States) 就含有數(shù)百個(gè)數(shù)據(jù)表格(見(jiàn)圖0-3),但沒(méi)有任何圖表。這簡(jiǎn)直是天賜的良機(jī),我們可以在此基礎(chǔ)上進(jìn)行加工,展現(xiàn)整個(gè)國(guó)家的概貌。這個(gè)過(guò)程將會(huì)非常有趣。不久前我用圖形描繪了其中的部分表格(見(jiàn)圖0-4),很快就得到了美國(guó)近年來(lái)結(jié)婚率及離婚率、郵政資費(fèi)、用電量等信息的直觀變化情況。單純的表格形式很難閱讀,讀者只能得到一些零散的數(shù)值,而在圖表化視圖中,人們能夠輕易地發(fā)現(xiàn)變化的趨勢(shì)和模式,而且一眼就能作出比較。圖0-3 美國(guó)統(tǒng)計(jì)摘要網(wǎng)站中的表格圖0-4 美國(guó)統(tǒng)計(jì)摘要網(wǎng)站數(shù)據(jù)的圖表化視圖類似《紐約時(shí)報(bào)》、《華盛頓郵報(bào)》這樣的新聞機(jī)構(gòu)很擅長(zhǎng)讓數(shù)據(jù)變得栩栩如生、易于理解。它們對(duì)已有數(shù)據(jù)的利用也許是最充分的,因?yàn)榻?jīng)常會(huì)有相關(guān)主題的新聞故事見(jiàn)諸報(bào)端。有時(shí)故事中還會(huì)插入數(shù)據(jù)圖表以強(qiáng)調(diào)不同的觀點(diǎn),而有時(shí)只需要圖表就能講述整個(gè)故事。在傳統(tǒng)媒體向網(wǎng)絡(luò)媒體轉(zhuǎn)型的過(guò)程中,圖形的應(yīng)用變得更加普及。如今的新聞機(jī)構(gòu)中都已設(shè)立了專門處理交互、圖表或地圖數(shù)據(jù)的各種部門,比如《紐約時(shí)報(bào)》就專門為“計(jì)算機(jī)輔助報(bào)道”成立了一個(gè)新聞編輯部,旗下的記者都專注于用數(shù)據(jù)來(lái)報(bào)道新聞。而《紐約時(shí)報(bào)》的圖形編輯部處理起大量數(shù)據(jù)來(lái)也同樣得心應(yīng)手。即使是在流行文化領(lǐng)域,可視化也占據(jù)了自己的一席之地。Stamen Design是一家以在線交互聞名的可視化公司,他們?cè)谶^(guò)去數(shù)年中一直都在對(duì)每年的MTV音樂(lè)錄影帶大獎(jiǎng)?lì)C獎(jiǎng)時(shí)期的Twitter狀態(tài)進(jìn)行追蹤。Stamen Design每一次的設(shè)計(jì)都與之前有所不同,但其核心一直保持不變:實(shí)時(shí)展現(xiàn)人們?cè)赥witter上的熱門話題。2009年Kanye West在Taylor Swift發(fā)表獲獎(jiǎng)感言時(shí)突然暴走 ,我們通過(guò)Stamen Design的追蹤可以很容易地了解人們對(duì)他這種行徑的看法?,F(xiàn)在看來(lái),我們發(fā)現(xiàn)這個(gè)領(lǐng)域中也有偏重情緒而非分析的一面,對(duì)可視化的定義開(kāi)始變得模糊起來(lái)。在很長(zhǎng)一段時(shí)間內(nèi)人們都認(rèn)為,可視化就是關(guān)于量化后的事實(shí):我們把它們作為工具來(lái)識(shí)別事物發(fā)展的模式,轉(zhuǎn)而為分析研究提供幫助。但可視化并不僅僅與冰冷的事實(shí)有關(guān)。就如同Stamen Design的追蹤設(shè)計(jì)一樣,它有著很強(qiáng)的娛樂(lè)因素,為觀眾提供了另一種方式去關(guān)注頒獎(jiǎng)典禮,并在過(guò)程中與其他粉絲進(jìn)行互動(dòng)。Jonathan Harris的設(shè)計(jì)也是一個(gè)很好的例子。在他的We Feel Fine(我們感覺(jué)良好) 和Whale Hunt(捕鯨) 等作品中,Harris并不是出于分析角度,而是圍繞著故事本身來(lái)進(jìn)行設(shè)計(jì),而且這些故事以人類情感為中心,超越了單純的數(shù)字和分析行為。圖表和圖形逐漸也超出了工具的范疇,發(fā)展為傳達(dá)理念的載體。GraphJam和Indexed之類的網(wǎng)站 就喜歡運(yùn)用文氏圖 、餅圖等形式來(lái)戲謔流行歌曲及文化,用紅白黑等顏色組合來(lái)譏諷政客,或者譴責(zé)虐待動(dòng)物的行為。我自己也在這個(gè)方向上作了一些嘗試,在FlowingData上發(fā)表了系列漫畫(huà)Data Underload(數(shù)據(jù)低負(fù)荷)。在圖0-5中,我用圖形表現(xiàn)了美國(guó)電影協(xié)會(huì)評(píng)選出的一些經(jīng)典電影臺(tái)詞——非常無(wú)厘頭,但很有趣(至少對(duì)我來(lái)說(shuō)如此)。圖0-5 圖表形式的電影臺(tái)詞那么,到底什么是可視化呢?每個(gè)人都有自己的答案。有些人認(rèn)為只有嚴(yán)格意義上的傳統(tǒng)圖形圖表才是可視化。而另一些人的觀點(diǎn)則更加開(kāi)放,他們認(rèn)為只要是在表現(xiàn)數(shù)據(jù),不管是數(shù)據(jù)藝術(shù)品還是微軟Excel表格,都可以算是可視化。我個(gè)人較為傾向于后者,但有時(shí)也發(fā)現(xiàn)自己站在前一陣營(yíng)。畢竟,這一問(wèn)題上孰是孰非并不是那么重要,只要能達(dá)成我們的目的就行了。不管可視化是什么,我們繪制演示用的圖例也好、進(jìn)行數(shù)據(jù)分析也好、用數(shù)據(jù)來(lái)報(bào)道新聞也罷,最終其實(shí)都是在尋求真相。在某些時(shí)候,統(tǒng)計(jì)也會(huì)產(chǎn)生錯(cuò)誤的假象,但造成錯(cuò)覺(jué)的并不是數(shù)字本身,而是運(yùn)用數(shù)字的人。有時(shí)候這是有意為之,但更多情況下是疏忽大意所致。如果我們不知道如何創(chuàng)建合適的圖形,或者不知道如何客觀地看待數(shù)據(jù),那么就會(huì)產(chǎn)生謬誤。但只要我們掌握了適當(dāng)?shù)目梢暬记珊吞幚矸绞剑湍芨幼孕诺仃愂鲇^點(diǎn),并且對(duì)自己的發(fā)現(xiàn)感覺(jué)良好。學(xué)習(xí)數(shù)據(jù)我在大學(xué)一年級(jí)時(shí)開(kāi)始接觸統(tǒng)計(jì)學(xué),當(dāng)時(shí)它是一門必修的基礎(chǔ)課,但與我的專業(yè)電氣工程并沒(méi)有太大關(guān)系。講課的教授熱情極高,而且對(duì)這一領(lǐng)域樂(lè)此不疲。他上課時(shí)喜歡在教室的臺(tái)階上來(lái)回走動(dòng),身體語(yǔ)言極為豐富,而且不時(shí)鼓勵(lì)身邊的學(xué)生參與討論。我從未遇到過(guò)如此興奮的老師,而且毫無(wú)疑問(wèn),正是這種精神吸引我進(jìn)入了數(shù)據(jù)領(lǐng)域,最終在四年后考上了統(tǒng)計(jì)學(xué)的研究生。在本科四年中,統(tǒng)計(jì)學(xué)就是數(shù)據(jù)分析、頻率分布和假設(shè)檢驗(yàn),而我一直樂(lè)在其中。我覺(jué)得觀察數(shù)據(jù)集,探索其中的趨勢(shì)、模式和關(guān)聯(lián)性很有意思。但開(kāi)始研究生學(xué)業(yè)之后,我的觀點(diǎn)發(fā)生了改變,事情變得更加有趣了。統(tǒng)計(jì)學(xué)不再是假設(shè)檢驗(yàn)(結(jié)果表明,在許多情況下它并無(wú)太大作用)以及尋找模式了。哦,不,我收回這句話。統(tǒng)計(jì)學(xué)仍然與這些有關(guān),但我對(duì)它產(chǎn)生了不一樣的感受。統(tǒng)計(jì)學(xué)其實(shí)是在用數(shù)據(jù)講故事。我們手頭的大堆數(shù)據(jù)反映了真實(shí)的世界,然后我們對(duì)它們進(jìn)行分析,得到的不只是數(shù)據(jù)的關(guān)聯(lián)性,我們還能了解到身邊正在發(fā)生什么。這些故事反過(guò)來(lái)可以幫助我們解決真實(shí)世界中存在的問(wèn)題,例如降低犯罪率、提高衛(wèi)生意識(shí)、改善高速上的交通狀況,或者只是增長(zhǎng)我們的見(jiàn)識(shí)。很多人都未能找到數(shù)據(jù)與真實(shí)生活之間的聯(lián)系。我想這也是為什么當(dāng)我告訴人們我讀研是為了學(xué)統(tǒng)計(jì)學(xué)時(shí),大多數(shù)人都說(shuō)那是他們“上學(xué)時(shí)最痛恨的一門課”。我相信讀者們不會(huì)犯同樣的錯(cuò)誤,否則你就不會(huì)選擇讀這本書(shū)了,不是嗎?運(yùn)用數(shù)據(jù)需要一些技能,如何才能掌握呢?你可以像我一樣去學(xué)校選擇正規(guī)的課程訓(xùn)練,但你也可以通過(guò)大量的實(shí)踐經(jīng)驗(yàn),自學(xué)成才。其實(shí)大多數(shù)研究生課程和自學(xué)也沒(méi)有多大區(qū)別。在可視化和信息圖(infographics)方面也是如此。并不是只有專業(yè)圖形設(shè)計(jì)師才能創(chuàng)建優(yōu)秀的圖表,同樣,你也不需要拿到統(tǒng)計(jì)學(xué)的博士學(xué)位。你所需要的只是保持對(duì)學(xué)習(xí)的渴望,而且和生活中的所有事情一樣,你需要不斷練習(xí)才能變得更在行。我制作的第一張數(shù)據(jù)圖大概是在小學(xué)四年級(jí),那是為了應(yīng)付一次課外科學(xué)研究。我和搭檔一直很想知道蝸牛在什么樣的平面上會(huì)爬得更快,于是把它們放在各種粗糙或光滑的物體表面上,并計(jì)時(shí)觀察它們爬過(guò)一段特定距離各需要多久。最后我拿到了蝸牛在不同表面上爬行的時(shí)間數(shù)據(jù),并據(jù)此制作了一張柱形圖。至于當(dāng)時(shí)是否知道應(yīng)該將它們按長(zhǎng)短進(jìn)行排序,我已經(jīng)記不太清了,但是和Excel軟件的辛苦糾纏倒是一直刻骨銘心。不過(guò)第二年當(dāng)我們研究赤擬谷盜 最喜歡吃哪種谷制品時(shí),作圖就是小菜一碟了。當(dāng)你理順某款軟件的基本功能和操作方式之后,剩下的幾乎都輕而易舉。這個(gè)例子完美地說(shuō)明了什么叫做從經(jīng)驗(yàn)中學(xué)習(xí)。噢,順便提一句,如果你還在琢磨前面的問(wèn)題,答案是蝸牛在玻璃上爬得最快,而赤擬谷盜最喜歡吃葡萄果仁麥片(Grape Nut)。從本質(zhì)上來(lái)說(shuō),學(xué)習(xí)任何軟件或編程語(yǔ)言的過(guò)程幾乎都是一樣的。如果你一行代碼都沒(méi)寫(xiě)過(guò),那么R(許多統(tǒng)計(jì)學(xué)家都采用的一種計(jì)算環(huán)境)必然會(huì)讓你望而生畏,而一旦你跟著完成了幾個(gè)范例之后,就會(huì)很快找到竅門。這本書(shū)能夠幫助你做到這些。之所以這樣說(shuō),是因?yàn)槲冶救司褪沁@樣學(xué)習(xí)的。我還記得自己第一次深入接觸可視化的設(shè)計(jì)層面時(shí)的情形。那還是我讀研究生的第二年,好消息從天而降,我得知自己獲得了《紐約時(shí)報(bào)》圖形編輯的實(shí)習(xí)機(jī)會(huì)。在那一刻之前,圖表對(duì)我而言只是一種分析工具而已(比如小學(xué)課外活動(dòng)時(shí)作的柱形圖),就算其中含有一些美學(xué)和設(shè)計(jì)因素,比重也少得可憐。而將數(shù)據(jù)用于新聞報(bào)道,這對(duì)我來(lái)說(shuō)更是無(wú)從入手。所以為了作準(zhǔn)備,我閱讀了手邊能找到的所有設(shè)計(jì)書(shū)籍,以及一本Adobe Illustrator的使用指南,因?yàn)槲抑馈都~約時(shí)報(bào)》圖形編輯部用的就是這款軟件。不過(guò)還沒(méi)等我真正上手就已經(jīng)開(kāi)始繪制工作了。當(dāng)你被迫邊學(xué)邊干的時(shí)候,就不得不盡快掌握那些必需的知識(shí),而當(dāng)你開(kāi)始處理更多數(shù)據(jù)、設(shè)計(jì)更多圖表時(shí),你的技能也會(huì)隨之突飛猛進(jìn)。如何閱讀本書(shū)本書(shū)以實(shí)例講解為主,目的是讓大家熟悉制圖所需的每一個(gè)步驟,掌握每一項(xiàng)技能。你可以從頭開(kāi)始完整地讀一遍,不過(guò)如果你已經(jīng)有想法在醞釀了,也可以只挑選最感興趣的幾章來(lái)讀。所有的章節(jié)都經(jīng)過(guò)了精心的組織,案例是相互獨(dú)立的。如果讀者對(duì)數(shù)據(jù)領(lǐng)域還比較陌生,那么閱讀最開(kāi)始的幾章應(yīng)該會(huì)很有幫助。它們介紹了處理數(shù)據(jù)的方法、需要關(guān)注的重點(diǎn)以及各種可用的工具,便于讀者了解如何獲得數(shù)據(jù),如何規(guī)范格式并為可視化作準(zhǔn)備。之后的幾章會(huì)根據(jù)不同的數(shù)據(jù)類型和側(cè)重面分別介紹各種可視化技巧。請(qǐng)記住,永遠(yuǎn)都要讓數(shù)據(jù)說(shuō)話。不管你選擇何種閱讀方式,我都強(qiáng)烈建議你在閱讀時(shí)打開(kāi)電腦,和我一起逐步完成每一個(gè)范例,并且瀏覽在注釋和參考中提到的各種資源。你也可以在網(wǎng)站上下載到所有的代碼、數(shù)據(jù)文件和可交互演示。為了表述得更清楚一些,圖0-6給出了一張流程圖,便于讀者找到需要的章節(jié)。祝大家閱讀開(kāi)心!  

內(nèi)容概要

  
在生活中,數(shù)據(jù)幾乎無(wú)處不在,任我們?nèi)∮?。然而,同樣的?shù)據(jù)給人的感覺(jué)可能會(huì)千差萬(wàn)別:或冰冷枯燥,讓人望而生畏、百思不解其意;或生動(dòng)有趣,讓人一目了然、豁然開(kāi)朗。為了達(dá)到后一種效果,我們需要采用一種特別的方式來(lái)展示數(shù)據(jù),來(lái)解釋、分析和應(yīng)用它。這就是數(shù)據(jù)可視化技術(shù)。
   Nathan
Yau是這一創(chuàng)新領(lǐng)域的先鋒。在《鮮活的數(shù)據(jù):數(shù)據(jù)可視化指南》中,他根據(jù)數(shù)據(jù)可視化的工作流程,先后介紹了如何獲取數(shù)據(jù),將數(shù)據(jù)格式化,用可視化工具(如R)生成圖表,以及在圖形編輯軟件(如Illustrator)中修改以使圖表達(dá)到最佳效果。本書(shū)介紹了數(shù)十種方法(如柱形圖、餅圖、折線圖和散點(diǎn)圖等),以創(chuàng)造性的視覺(jué)方式生動(dòng)講述了有關(guān)數(shù)據(jù)的故事。翻開(kāi)本書(shū),思維之門會(huì)豁然大開(kāi),你會(huì)發(fā)現(xiàn)有那么多樣的手段去賦予數(shù)據(jù)全新的意義!
   《鮮活的數(shù)據(jù):數(shù)據(jù)可視化指南》主要內(nèi)容包括:
   學(xué)習(xí)如何用視覺(jué)化表示方式來(lái)呈現(xiàn)數(shù)據(jù),讓讀者看到不一樣的信息;
   發(fā)現(xiàn)數(shù)據(jù)背后的故事;
   探索不同的數(shù)據(jù)來(lái)源,確定有效的展示格式;
   試驗(yàn)并對(duì)比不同的可視化工具;
   尋找數(shù)據(jù)中的趨勢(shì)和模式,并以適當(dāng)?shù)膱D表來(lái)展現(xiàn)它們;
   設(shè)定明確的目標(biāo),并用其指引你的可視化過(guò)程。

作者簡(jiǎn)介

   Nathan
Yau,加州大學(xué)洛杉磯分校統(tǒng)計(jì)學(xué)專業(yè)在讀博士、超級(jí)數(shù)據(jù)迷,專注于數(shù)據(jù)可視化與個(gè)人數(shù)據(jù)收集。他曾在《紐約時(shí)報(bào)》、CNN、Mozilla和SyFy工作過(guò),認(rèn)為數(shù)據(jù)和信息圖不僅適用于分析,用來(lái)講述與數(shù)據(jù)有關(guān)的故事也非常合適。Yau的目標(biāo)是讓非專業(yè)人士讀懂并用好數(shù)據(jù)。你可以從中欣賞到他最新的數(shù)據(jù)可視化實(shí)驗(yàn)作品。
  
向怡寧,交互和視覺(jué)設(shè)計(jì)師、搖滾樂(lè)手,同時(shí)還熱衷于翻譯和寫(xiě)作。著有《Flash組件、游戲、SWF加解密》及《就這么簡(jiǎn)單:Web開(kāi)發(fā)中的可用性和用戶體驗(yàn)》,譯有《奇思妙想:15位計(jì)算機(jī)天才及其重大發(fā)現(xiàn)》、《瞬間之美:Web界面設(shè)計(jì)如何讓用戶心動(dòng)》、《網(wǎng)站設(shè)計(jì)解構(gòu):有效的交互設(shè)計(jì)框架和模式》、《網(wǎng)站搜索設(shè)計(jì):兼顧SEO及可用性的網(wǎng)站設(shè)計(jì)心得》等書(shū)。他認(rèn)為“一個(gè)不會(huì)彈吉他的設(shè)計(jì)師不是個(gè)好譯者”。

書(shū)籍目錄

第1章  用數(shù)據(jù)講故事
1.1  不只是數(shù)字
1.1.1  新聞報(bào)道
1.1.2  藝術(shù)
1.1.3  娛樂(lè)
1.1.4  引人注目
1.2  我們要尋求什么
1.2.1  模式
1.2.2  相互關(guān)系
1.2.3  有問(wèn)題的數(shù)據(jù)
1.3  設(shè)計(jì)
1.3.1  解釋編碼
1.3.2  標(biāo)注坐標(biāo)軸
1.3.3  確保幾何上的正確性
1.3.4  提供數(shù)據(jù)來(lái)源
1.3.5  考慮你的受眾
1.4  小結(jié)
第2章  處理數(shù)據(jù)
2.1  收集數(shù)據(jù)
2.1.1  由他人提供
2.1.2  尋找數(shù)據(jù)源
2.1.3  自動(dòng)搜集數(shù)據(jù)
2.2  設(shè)置數(shù)據(jù)的格式
2.2.1  數(shù)據(jù)格式
2.2.2  格式化工具
2.2.3  用代碼來(lái)格式化
2.3  小結(jié)
第3章  選擇可視化工具
3.1  開(kāi)箱即用的可視化工具
3.1.1  可選項(xiàng)
3.1.2  取舍
3.2  編程工具
3.2.1  可選項(xiàng)
3.2.2  取舍
3.3  繪圖軟件
3.3.1  可選項(xiàng)
3.3.2  取舍
3.4  地圖繪制工具
3.4.1  可選項(xiàng)
3.4.2  取舍
3.5  衡量各種可選項(xiàng)
3.6  小結(jié)
第4章  有關(guān)時(shí)間趨勢(shì)的可視化
4.1  在時(shí)間中尋求什么
4.2  時(shí)間中的離散點(diǎn)
4.2.1  柱形
4.2.2  柱形的堆疊
4.2.3  圓點(diǎn)
4.3  延續(xù)性數(shù)據(jù)
4.3.1  點(diǎn)與點(diǎn)相連
4.3.2  一步一個(gè)臺(tái)階
4.3.3  平滑和估算
4.4  小結(jié)
第5章  有關(guān)比例的可視化
5.1  在比例中尋求什么
5.2  整體中的各個(gè)部分
5.2.1  餅圖
5.2.2  面包圈圖
5.2.3  比例中的堆疊
5.2.4  層級(jí)和矩形
5.3  帶時(shí)間屬性的比例
5.3.1  堆疊的延續(xù)
5.3.2  逐點(diǎn)詳述
5.4  小結(jié)
第6章  有關(guān)關(guān)系的可視化
6.1  在關(guān)系中尋求什么
6.2  關(guān)聯(lián)性
6.2.1  更多的圓點(diǎn)
6.2.2  探索更多的變量
6.2.3  氣泡
6.3  分布
6.3.1  老式的分布圖表
6.3.2  有關(guān)分布的柱形
6.3.3  延續(xù)性的密度
6.4  對(duì)照和比較
6.5  小結(jié)
第7章  發(fā)現(xiàn)差異
7.1  在差異中尋求什么
7.2  在多個(gè)變量間比較
7.2.1  熱身
7.2.2  相面術(shù)
7.2.3  星光燦爛
7.2.4  平行前進(jìn)
7.3  減少維度
7.4  尋找異常值
7.5  小結(jié)
第8章  有關(guān)空間關(guān)系的可視化
8.1  在空間中尋求什么
8.2  具體位置
8.2.1  找到緯度和經(jīng)度
8.2.2  單純的點(diǎn)
8.2.3  有大有小的點(diǎn)
8.3  地區(qū)
8.4  跨越空間和時(shí)間
8.4.1  系列組圖
8.4.2  抓住差額
8.4.3  動(dòng)畫(huà)
8.5  小結(jié)
第9章  有目的地設(shè)計(jì)
9.1  讓自己作好準(zhǔn)備
9.2  讓讀者作好準(zhǔn)備
9.3  視覺(jué)提示
9.4  好的可視化
9.5  小結(jié)

章節(jié)摘錄

版權(quán)頁(yè):   插圖:   1.帶分隔符的文本 很多人都很熟悉帶分隔符的文本。我們?cè)谇懊嬉还?jié)的例子中就創(chuàng)建過(guò)以逗號(hào)分隔的文本文件。如果把數(shù)據(jù)集看成是按行和列來(lái)分布,那么分隔符文本就是用分隔符來(lái)分開(kāi)每一列。分隔符一般用的是英文逗號(hào)(半角字符),也可以是制表符tab,或者是空格、英文分號(hào)、冒號(hào)、斜杠等任何你喜歡的字符。不過(guò)逗號(hào)和tab是最常見(jiàn)的。 分隔符文本應(yīng)用廣泛,可以被大多數(shù)電子表格程序閱讀,例如Excel或者Google Documents。我們也可以把電子表格輸出成分隔符文本。如果你要使用多個(gè)工作表格,通常就會(huì)有多個(gè)分隔符文件,除非特殊指定。 這種格式也便于與其他人共享,因?yàn)樗鼰o(wú)需依賴于任何特定程序。 2.JavaScript對(duì)象表示法(JSON) 很多網(wǎng)頁(yè)API都適用于這種格式。它既能夠讓計(jì)算機(jī)理解,又便于人類閱讀。不過(guò)如果你眼前的數(shù)據(jù)過(guò)多,盯太久可能會(huì)頭暈?zāi)垦?。該格式基于JavaScript表示法,但并不依賴于這種語(yǔ)言。JSON中有許多規(guī)格說(shuō)明,但只用掌握一些基礎(chǔ)就能滿足大部分需要。 JSON利用關(guān)鍵字和值,并且把數(shù)據(jù)條目作為對(duì)象來(lái)處理。如果我們把JSON數(shù)據(jù)轉(zhuǎn)化成逗號(hào)分隔數(shù)據(jù)(Comma-Separated Value,CSV),那么每個(gè)對(duì)象都會(huì)占一行。 大家將會(huì)在后文中看到,有很多應(yīng)用、語(yǔ)言和函數(shù)庫(kù)都支持JSON輸入。如果你打算設(shè)計(jì)便于互聯(lián)網(wǎng)傳播的數(shù)據(jù)圖形,就得了解一下這種格式。 訪問(wèn)http:∕∕json.org閱讀JSON的完整說(shuō)明。你不必了解這一格式的所有細(xì)節(jié),但當(dāng)你需要使用某個(gè)JSON數(shù)據(jù)源時(shí),它還是很管用的。 3.XML XML(可擴(kuò)展標(biāo)記語(yǔ)言)是另一種互聯(lián)網(wǎng)上的流行格式,常被用于在API間傳遞數(shù)據(jù)。XML分為很多類型,規(guī)格說(shuō)明也不少,但從最基本的層面來(lái)看,它就是一個(gè)文本文件,其中的值都封閉在各種標(biāo)簽之內(nèi)。

媒體關(guān)注與評(píng)論

本書(shū)就像是一封寫(xiě)給Python、R、地圖和數(shù)據(jù)的情書(shū)。——FlowingData讀者評(píng)論我是Nathan Yau的博客FlowingDate的忠實(shí)粉絲,本書(shū)還沒(méi)出來(lái)我就預(yù)定了。果然,它完全符合我的預(yù)期:各種各樣的分析、數(shù)據(jù)資源和絕對(duì)精美的圖表?!獊嗰R遜讀者評(píng)論本書(shū)寫(xiě)的很好,思路清晰,實(shí)例豐富,如果你經(jīng)常與數(shù)據(jù)打交道,選擇本書(shū)錯(cuò)不了?!獊嗰R遜讀者評(píng)論

編輯推薦

數(shù)據(jù)可視化經(jīng)典著作 講解清晰、示例豐富、實(shí)用性強(qiáng) 創(chuàng)作信息圖的最佳參考指南

名人推薦

“本書(shū)就像是一封寫(xiě)給Python、R、地圖和數(shù)據(jù)的情書(shū)?!?--FlowingData讀者評(píng)論 “我是Nathan Yan的博客FlowingData的忠實(shí)粉絲,本書(shū)還沒(méi)出來(lái)我就預(yù)訂了。果然,它完全符合我的預(yù)期:各種各樣的分析、數(shù)據(jù)資源和絕對(duì)精美的圖表?!?--亞馬遜讀者評(píng)論 “本書(shū)寫(xiě)得很好,思路清晰,實(shí)例豐富,如果你經(jīng)常與數(shù)據(jù)打交道,選擇本書(shū)錯(cuò)不了?!?--亞馬遜讀者評(píng)論

圖書(shū)封面

圖書(shū)標(biāo)簽Tags

無(wú)

評(píng)論、評(píng)分、閱讀與下載


    鮮活的數(shù)據(jù) PDF格式下載


用戶評(píng)論 (總計(jì)44條)

 
 

  •   偏于理論和概念 要看代碼的話 建議 可視化數(shù)據(jù)
  •   有數(shù)據(jù)還要會(huì)制圖,這樣數(shù)據(jù)才會(huì)顯得鮮活。
  •   在數(shù)據(jù)的展示方面可以做到:“直觀、藝術(shù)、娛樂(lè)、關(guān)注”
  •   很不錯(cuò)的一本書(shū),甚至可以當(dāng)做專業(yè)外的興趣讀物,比較淺顯易懂,涵蓋面比較廣,介紹了可視化的應(yīng)用領(lǐng)域。
  •   這本書(shū)快看完了,是我買的幾本可視化書(shū)籍中較好的一本
  •   開(kāi)拓思路,啟發(fā)思維。建議作產(chǎn)品設(shè)計(jì)可精讀該書(shū)。
  •   非常不錯(cuò)的一本書(shū)!是當(dāng)代立志于或者已經(jīng)在信息化領(lǐng)域工作的人,非常的棒,里邊對(duì)信息化的革新影響真的很棒!推薦大家都去買哈!
  •   好書(shū),內(nèi)容詳實(shí),文字生動(dòng)
  •   很好,不錯(cuò)的書(shū)。很好看。
  •   很實(shí)用的書(shū),希望能夠?qū)ぷ饔袔椭?/li>
  •   很詳細(xì),很精美,很實(shí)用!
  •   不錯(cuò),很多示例,很多工具,都附有詳細(xì)說(shuō)明
  •   各種作圖工具耍的很好,很有啟發(fā)
  •   感覺(jué)還行吧,不過(guò)不是我想要的,買錯(cuò)了,呵呵
  •   有參考價(jià)值,但不能期望太高
  •   價(jià)格實(shí)惠,性價(jià)比高。值得購(gòu)買
  •   書(shū)中中的圖片應(yīng)該都是彩色的,特別是里面的信息圖和數(shù)據(jù)圖更應(yīng)該使用彩圖,這樣才能可能將原作者的不經(jīng)意間展露的思維模式反映出來(lái)??墒悄玫降臅?shū)中除了前面的幾張數(shù)據(jù)圖以外,書(shū)中主要部分的數(shù)據(jù)圖都是黑白的,數(shù)據(jù)圖的顏色對(duì)于要表達(dá)的信息來(lái)說(shuō)是及其重要的,雖然印刷質(zhì)量有保證,但是這樣處理信息可視化和數(shù)據(jù)可視化方面的書(shū)中的圖片是值得商榷的。原版的電子板都是彩圖的,建議到網(wǎng)上找英文電子版的看,好在原版作者一直嘗試將可視化用淺顯易懂的語(yǔ)言介紹給讀者,用的語(yǔ)言不是很難,很多人是可以直接看懂的。
  •   如果是想學(xué)習(xí)如何利用圖表來(lái)表達(dá)數(shù)據(jù)的話,還是劉萬(wàn)祥的“Excel圖表之道”實(shí)惠。本書(shū)是外國(guó)人編制,中國(guó)人翻譯的。理念、思路和表達(dá)很難理解。
  •   大體講了下可視化,看完后感覺(jué)沒(méi)什收獲。
  •   這個(gè)書(shū)里介紹了不少作圖的方法,因?yàn)橛泻芏嚅_(kāi)源軟件的介紹,所以書(shū)中有很多實(shí)現(xiàn)的代碼。所需的基礎(chǔ)工具為Adobe Illustrator.如果平時(shí)沒(méi)有使用Illustrator的習(xí)慣的話,估計(jì)還要重新買一本使用指南一起看了。書(shū)上圖表的效果很漂亮,希望有實(shí)力的人能更好的使用它,我還是回去看excel的高級(jí)指南吧=.=
  •   有點(diǎn)不是那個(gè)味
  •   當(dāng)看到281頁(yè)69元這個(gè)信息時(shí),我以為這本書(shū)會(huì)是令人期待的彩印。而事實(shí),正如大家在試讀中看到的——黑白,外加幾頁(yè)不疼不癢的彩印插頁(yè)。我并不是非得強(qiáng)求彩印,但是這本書(shū)的定價(jià)確實(shí)給人以錯(cuò)覺(jué)。采用彩插也是很好的方式,但是僅僅8頁(yè)的彩插能覆蓋這本近乎每頁(yè)一圖的書(shū)嗎?顯然不能。華章的《數(shù)據(jù)之美》《數(shù)據(jù)可視化之美》就是彩插了所有插圖,而圖靈這本的彩插令人大失所望。畢竟這本書(shū)講的,是可視化。可視化這個(gè)主題,用黑白是萬(wàn)萬(wàn)無(wú)法表現(xiàn)的。圖靈公司是業(yè)內(nèi)公認(rèn)的翻譯質(zhì)量好的公司,但是在這本書(shū)上,我看不到任何亮點(diǎn)。這本書(shū)并不是技術(shù)性很強(qiáng)的圖書(shū),犯技術(shù)錯(cuò)誤的可能性很低,基本上英語(yǔ)過(guò)了8級(jí)的人就能做出一個(gè)差強(qiáng)人意的翻譯,而本書(shū)的翻譯,基本上就是中規(guī)中矩,不好不壞,普普通通,說(shuō)不出什么不好,當(dāng)然也說(shuō)不出什么好。另外,作為讀者不強(qiáng)求譯者去重復(fù)原文中的每一個(gè)程序然后截圖替換原文中的插圖,但書(shū)中所有的界面操作都是直接從原版上弄下來(lái)的,這或許是一個(gè)譯者是否用心的體現(xiàn)。比翻譯更加值得說(shuō)的,是本書(shū)的板式。英文原書(shū)的板式非常養(yǎng)眼,也很考究,而圖靈的翻譯版,則使用了圖靈那老態(tài)龍鐘的固定套路,有些插圖縮小了,而邊欄也融合進(jìn)了正文中??梢暬臅?shū)可視化很差,真是一個(gè)諷刺。最后說(shuō)說(shuō)本書(shū)的標(biāo)題,原文標(biāo)題直譯為“可視化!來(lái)自...flowingdata的設(shè)計(jì)、可視化與統(tǒng)計(jì)指南”,(flowingdata是作者的網(wǎng)站名,)而圖靈的標(biāo)題居然改成了“鮮活的數(shù)據(jù),數(shù)據(jù)可視化指南”,可視化的主題淪落為副標(biāo)題,而設(shè)計(jì)、統(tǒng)計(jì)兩個(gè)詞完全刪去,不知道原書(shū)的作者看到“Fresh Data:A Guide to Visulization”這個(gè)反譯的標(biāo)題會(huì)作何感想。(圖靈的書(shū)一向喜歡嘩眾取寵,以不好賣為理由亂改原標(biāo)題,然后炮制一個(gè)花里胡哨的新標(biāo)題。)這本書(shū)本身并不是嚴(yán)肅的教科書(shū),而是一本即學(xué)即做的指南式圖書(shū)。而圖靈翻譯,從標(biāo)題到譯文風(fēng)格,再到板式,都使得原著中這種清新流暢的風(fēng)格蕩然無(wú)存。這本書(shū)的原版下載只有epub版而沒(méi)有pdf版,真是個(gè)大大的憾事。有條件的讀者可以買一本原版,與圖靈這種本對(duì)比一下。69元的定價(jià)換來(lái)一本281頁(yè)的粗糙的書(shū),真的不是很值得。圖靈在圈內(nèi)口碑不低,已經(jīng)有很好的基礎(chǔ),何必不更進(jìn)一步。但圖靈不要唯利是圖,做書(shū)就是做良心。 閱讀更多 ›
  •   內(nèi)容雜,介紹了如何用工具產(chǎn)生一些圖。并沒(méi)有介紹信息圖的設(shè)計(jì)要點(diǎn),原則。深度,高度不夠.
  •   本來(lái)以為這種書(shū)都應(yīng)該是彩印的,可本書(shū)確實(shí)黑白搭配,文字倒罷了,可那些圖表怎么辦,而且標(biāo)價(jià)還這么高
  •   python、javascript、R語(yǔ)言。各種類型的數(shù)據(jù)可視化,手把手教你操作,相當(dāng)不錯(cuò)。
  •   介紹不少軟件,然后進(jìn)行了評(píng)比,然后作者利用他優(yōu)選的軟件進(jìn)行了實(shí)際操作。軟件相對(duì)也比較新,推薦。但涉及軟件較多,故而都沒(méi)有很深的講解,適合那些想正在考慮自己該用哪些軟件進(jìn)行可視化工作人和其他相關(guān)人員。打五星的原因是看了好多其他的書(shū)籍 這本確實(shí)相對(duì)實(shí)用一點(diǎn),是個(gè)相對(duì)五星。
  •   只想了解點(diǎn)概念,結(jié)果這是一本實(shí)踐相關(guān)的書(shū)。里面居然還講到 php xml . oh my god.!
  •   內(nèi)容很實(shí)用,可以指導(dǎo)工作
  •   很實(shí)用,學(xué)生很喜歡的一本書(shū)
  •   印刷質(zhì)量相當(dāng)?shù)膼毫?,?qǐng)注意,是惡劣,都是不差能形容的了
  •   實(shí)例不少,告訴我們一個(gè)道理,十八般武藝在手,總能解決各種case
  •   書(shū)的內(nèi)容沒(méi)的說(shuō),否則也不會(huì)買,但是,質(zhì)量很一般,哎,
  •   本書(shū)介紹了數(shù)據(jù)可視化的常用工具,基本以R語(yǔ)言為例介紹不同類別的數(shù)據(jù)可視化場(chǎng)景的解決方案。可以看作數(shù)據(jù)可視化工具清單。已經(jīng)看過(guò)一遍,估計(jì)以后還會(huì)經(jīng)常拿出來(lái)翻翻。另外這本書(shū)在圖靈網(wǎng)站上可以買到電子版,PDF的,看著挺舒服的。
  •   大部分是基于r語(yǔ)言的,能不這樣偏頗嗎,即便是你加上r啊
  •   同時(shí)買了4本書(shū),正在讀其它的書(shū)。首先,從裝幀和紙張上,這本書(shū)是最不滿意的一本。一同買的吳軍的《數(shù)學(xué)之美》、李航的《統(tǒng)計(jì)學(xué)習(xí)方法》都遠(yuǎn)遠(yuǎn)好于這本。但這本書(shū)是最貴的,從這個(gè)角度看,出版社太沒(méi)誠(chéng)意了,光想著賺讀者的錢了。其次,說(shuō)說(shuō)內(nèi)容。沒(méi)仔細(xì)看,粗略掃了一眼,應(yīng)該屬于基本的入門的書(shū)籍。說(shuō)到底,一個(gè)字總結(jié)“貴”。
  •   作者應(yīng)該是付出了很大努力,把本書(shū)的技術(shù)難度降到最低,使讀者幾乎不需要參考別的書(shū)就能基本從頭到尾讀下來(lái)。書(shū)的內(nèi)容組織方面也是很花心思,條理性較強(qiáng),便于讀者理解。此外,本書(shū)的翻譯質(zhì)量也很好,在此向譯者致敬!
  •   書(shū)很一般,不建議購(gòu)買
  •   內(nèi)行人看的東西
  •   內(nèi)容空洞,參考意義不大
  •   幫老公買的 不錯(cuò)
  •   翻譯的不是特別的專業(yè)
  •   作者功力差一點(diǎn)明顯沒(méi)有可視化之美這本書(shū)好
  •   老公的工具書(shū)
  •   老公看的...
 

250萬(wàn)本中文圖書(shū)簡(jiǎn)介、評(píng)論、評(píng)分,PDF格式免費(fèi)下載。 第一圖書(shū)網(wǎng) 手機(jī)版

京ICP備13047387號(hào)-7