出版時(shí)間:2010.5 出版社:清華大學(xué)出版社 作者:(美) Tom White 頁數(shù):504 字?jǐn)?shù):769000 譯者:周傲英,曾大聃
Tag標(biāo)簽:無
前言
馬丁·加德納(數(shù)學(xué)家和科學(xué)作家),曾經(jīng)在一次采訪中說道: “沒有微積分,我的生命就失去了意義。這是我成功的秘訣。我花了如此長(zhǎng)的時(shí)間了解我在寫什么,所以我知道如何寫作才能讓大多數(shù)讀者明白我的意思。” 在許多方面,這就是我對(duì)Hadoop的感覺。它的內(nèi)部工作機(jī)制是復(fù)雜的、相互依賴的,因?yàn)樗\(yùn)行在分布式系統(tǒng)的理論、實(shí)用技術(shù)和技術(shù)常識(shí)這些復(fù)雜的基礎(chǔ)之上。對(duì)于門外漢來說,Hadoop就像是異形一樣難以理解。 但事實(shí)上并不是這樣的。剝離其核心,Hadoop提供給組件分布式系統(tǒng)的工具——如數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析和協(xié)調(diào)——是十分簡(jiǎn)單的。如果有一個(gè)共同的主題,那么它將與提高抽象水平相關(guān)的——為程序員創(chuàng)建用于處理這些事情的基礎(chǔ)架構(gòu),這些程序員中,或者正好有大量數(shù)據(jù)需要存儲(chǔ),或者有大量數(shù)據(jù)需要分析,或者有大量機(jī)器需要協(xié)調(diào),或者沒有時(shí)間、技能或興趣成為分布式系統(tǒng)專家?! 〗栌蛇@樣一個(gè)簡(jiǎn)單的、普遍適用的功能組合,在開始使用這個(gè)理當(dāng)被廣泛普及的Hadoop的時(shí)候,我的想法逐漸清晰起來。然而,在當(dāng)時(shí)(2006年初),設(shè)置、配置和編寫程序來使用Hadoop稱得上是一門藝術(shù)。幸運(yùn)的是,此后有了明顯的進(jìn)步,因?yàn)橛懈嗟奈募嗟睦?,一旦有疑問,還有那么多郵件地址可以發(fā)過去幫助你解惑。但對(duì)大多數(shù)新手來說,最大的障礙是理解這項(xiàng)技術(shù)能做什么,它的長(zhǎng)處何在,如何使用它。這就是我寫這本書的原因。
內(nèi)容概要
本書從Hadoop的緣起開始,由淺入深,結(jié)合理論和實(shí)踐,全方位地介紹Hadoop這一高性能處理海量數(shù)據(jù)集的理想工具。全書共14章,3個(gè)附錄,涉及的主題包括:Haddoop簡(jiǎn)介;MapReduce簡(jiǎn)介;Hadoop分布式文件系統(tǒng);Hadoop的I/O、MapReduce應(yīng)用程序開發(fā);MapReduce的工作機(jī)制;MapReduce的類型和格式;MapReduce的特性;如何安裝Hadoop集群,如何管理Hadoop;Pig簡(jiǎn)介;Hbase簡(jiǎn)介;ZooKeeper簡(jiǎn)介,最后還提供了豐富的案例分析。 本書是Hadoop權(quán)威參考,程序員可從中探索如何分析海量數(shù)據(jù)集,管理員可以從中了解如何安裝與運(yùn)行Hadoop集群。
作者簡(jiǎn)介
懷特,2007年2月以來,一直擔(dān)任Apache Hadoop項(xiàng)目負(fù)責(zé)人。他是Apache軟件基金會(huì)的成員之一,同時(shí)也是Cloudera的一名工程師。Tome為IBM的developerWorks撰寫過大量文章,并經(jīng)常在很多行業(yè)大會(huì)上舉行Hadoop主題演講。Loudera Cloudera為Hadoop提供商業(yè)支持并志愿貢獻(xiàn)社區(qū),不收取任何費(fèi)用。不管是打算在云中運(yùn)行Hadoop,還是在自己的服務(wù)器上運(yùn)行Hadoop Cloudera都能使其輕松實(shí)現(xiàn)。
書籍目錄
第1章 初識(shí)Hadoop第2章 MapReduce簡(jiǎn)介第3章 Hadoop分布式文件系統(tǒng)第4章 Hadoop的I/O第5章 MapReduce應(yīng)用開發(fā)第6章 MapReduce的工作原理第7章 MapReduce的類型與格式第8章 MapReduce特性第9章 Hadoop集群的安裝第10章 Hadoop的管理第11章 Pig簡(jiǎn)介第12章 Hbase簡(jiǎn)介第13章 ZooKeeper簡(jiǎn)介第14章 案例研究附錄A Apache Hadoop的安裝附錄B Cloudera的Hadoop分發(fā)包附錄C 預(yù)備NCDC氣象資料
章節(jié)摘錄
HDFS建立在這樣一個(gè)思想上:一次寫入、多次讀取模式是最高效的。一個(gè)數(shù)據(jù)集通常由數(shù)據(jù)源生成或復(fù)制,接著在此基礎(chǔ)上進(jìn)行各種各樣的分析。每個(gè)分析至少都會(huì)涉及數(shù)據(jù)集中的大部分?jǐn)?shù)據(jù)(甚至全部),因此讀取整個(gè)數(shù)據(jù)集的時(shí)間比讀取第一條記錄的延遲更為重要。商甬硬件Hadoop不需要運(yùn)行在昂貴并且高可靠性的硬件上。它被設(shè)計(jì)運(yùn)行在商用硬件(在各種零售店都能買到的普通硬件)的集群上,因此至少對(duì)于大的集群來說,節(jié)點(diǎn)故障的幾率還是較高的。HDFS在面對(duì)這種故障時(shí),被設(shè)計(jì)為能夠繼續(xù)運(yùn)行而讓用戶察覺不到明顯的中斷。同時(shí),那些并不適合HDFS的應(yīng)用也是值得研究的?! ≡谀壳埃琀DFS還不太適用于某些領(lǐng)域,不過日后可能會(huì)有所改進(jìn)。低延遲數(shù)據(jù)訪問需要低延遲訪問數(shù)據(jù)在毫秒范周內(nèi)的應(yīng)用并不適HDFS。HDFS是為達(dá)到高數(shù)據(jù)吞吐量而優(yōu)化的,這有可能會(huì)以延遲為代價(jià)。目前,對(duì)于低延遲訪問,HBase(參見第12章)是更好的選擇。大量的小文件名稱節(jié)A(namenode)存儲(chǔ)著文件系統(tǒng)的元數(shù)據(jù),因此文件數(shù)量的限制也由名稱節(jié)點(diǎn)的內(nèi)存量決定。根據(jù)經(jīng)驗(yàn),每個(gè)文件,索引目錄以及塊占大約150個(gè)字節(jié)。因此,舉例來說,如果有一百萬個(gè)文件,每個(gè)文件占一個(gè)塊,就至少需要300MB的內(nèi)存。雖然存儲(chǔ)上百萬的文件是可行的,十億或更多的文件就超出目前硬件的能力了。多用聲寫入,任意修改文饞HDFS中的文件只有一個(gè)寫入者,而且寫操作總是在文件的末尾。它不支持多個(gè)寫入者,或是在文件的任意位置修改?!? ……
媒體關(guān)注與評(píng)論
“恭喜您有此良機(jī)向大師學(xué)習(xí)Hadoop,在享用技術(shù)本身的同時(shí),您還能領(lǐng)略到大師的睿智及其令人如沐春風(fēng)的寫作風(fēng)格。” ——Hadoop 創(chuàng)始人 Doug Cutting
圖書封面
圖書標(biāo)簽Tags
無
評(píng)論、評(píng)分、閱讀與下載