出版時間:2010.5 出版社:清華大學出版社 作者:(美) Tom White 頁數(shù):504 字數(shù):769000 譯者:周傲英,曾大聃
Tag標簽:無
前言
馬丁·加德納(數(shù)學家和科學作家),曾經在一次采訪中說道: “沒有微積分,我的生命就失去了意義。這是我成功的秘訣。我花了如此長的時間了解我在寫什么,所以我知道如何寫作才能讓大多數(shù)讀者明白我的意思。” 在許多方面,這就是我對Hadoop的感覺。它的內部工作機制是復雜的、相互依賴的,因為它運行在分布式系統(tǒng)的理論、實用技術和技術常識這些復雜的基礎之上。對于門外漢來說,Hadoop就像是異形一樣難以理解?! 〉聦嵣喜⒉皇沁@樣的。剝離其核心,Hadoop提供給組件分布式系統(tǒng)的工具——如數(shù)據存儲、數(shù)據分析和協(xié)調——是十分簡單的。如果有一個共同的主題,那么它將與提高抽象水平相關的——為程序員創(chuàng)建用于處理這些事情的基礎架構,這些程序員中,或者正好有大量數(shù)據需要存儲,或者有大量數(shù)據需要分析,或者有大量機器需要協(xié)調,或者沒有時間、技能或興趣成為分布式系統(tǒng)專家?! 〗栌蛇@樣一個簡單的、普遍適用的功能組合,在開始使用這個理當被廣泛普及的Hadoop的時候,我的想法逐漸清晰起來。然而,在當時(2006年初),設置、配置和編寫程序來使用Hadoop稱得上是一門藝術。幸運的是,此后有了明顯的進步,因為有更多的文件,更多的例子,一旦有疑問,還有那么多郵件地址可以發(fā)過去幫助你解惑。但對大多數(shù)新手來說,最大的障礙是理解這項技術能做什么,它的長處何在,如何使用它。這就是我寫這本書的原因。
內容概要
本書從Hadoop的緣起開始,由淺入深,結合理論和實踐,全方位地介紹Hadoop這一高性能處理海量數(shù)據集的理想工具。全書共14章,3個附錄,涉及的主題包括:Haddoop簡介;MapReduce簡介;Hadoop分布式文件系統(tǒng);Hadoop的I/O、MapReduce應用程序開發(fā);MapReduce的工作機制;MapReduce的類型和格式;MapReduce的特性;如何安裝Hadoop集群,如何管理Hadoop;Pig簡介;Hbase簡介;ZooKeeper簡介,最后還提供了豐富的案例分析。 本書是Hadoop權威參考,程序員可從中探索如何分析海量數(shù)據集,管理員可以從中了解如何安裝與運行Hadoop集群。
作者簡介
懷特,2007年2月以來,一直擔任Apache Hadoop項目負責人。他是Apache軟件基金會的成員之一,同時也是Cloudera的一名工程師。Tome為IBM的developerWorks撰寫過大量文章,并經常在很多行業(yè)大會上舉行Hadoop主題演講。Loudera Cloudera為Hadoop提供商業(yè)支持并志愿貢獻社區(qū),不收取任何費用。不管是打算在云中運行Hadoop,還是在自己的服務器上運行Hadoop Cloudera都能使其輕松實現(xiàn)。
書籍目錄
第1章 初識Hadoop第2章 MapReduce簡介第3章 Hadoop分布式文件系統(tǒng)第4章 Hadoop的I/O第5章 MapReduce應用開發(fā)第6章 MapReduce的工作原理第7章 MapReduce的類型與格式第8章 MapReduce特性第9章 Hadoop集群的安裝第10章 Hadoop的管理第11章 Pig簡介第12章 Hbase簡介第13章 ZooKeeper簡介第14章 案例研究附錄A Apache Hadoop的安裝附錄B Cloudera的Hadoop分發(fā)包附錄C 預備NCDC氣象資料
章節(jié)摘錄
HDFS建立在這樣一個思想上:一次寫入、多次讀取模式是最高效的。一個數(shù)據集通常由數(shù)據源生成或復制,接著在此基礎上進行各種各樣的分析。每個分析至少都會涉及數(shù)據集中的大部分數(shù)據(甚至全部),因此讀取整個數(shù)據集的時間比讀取第一條記錄的延遲更為重要。商甬硬件Hadoop不需要運行在昂貴并且高可靠性的硬件上。它被設計運行在商用硬件(在各種零售店都能買到的普通硬件)的集群上,因此至少對于大的集群來說,節(jié)點故障的幾率還是較高的。HDFS在面對這種故障時,被設計為能夠繼續(xù)運行而讓用戶察覺不到明顯的中斷。同時,那些并不適合HDFS的應用也是值得研究的。 在目前,HDFS還不太適用于某些領域,不過日后可能會有所改進。低延遲數(shù)據訪問需要低延遲訪問數(shù)據在毫秒范周內的應用并不適HDFS。HDFS是為達到高數(shù)據吞吐量而優(yōu)化的,這有可能會以延遲為代價。目前,對于低延遲訪問,HBase(參見第12章)是更好的選擇。大量的小文件名稱節(jié)A(namenode)存儲著文件系統(tǒng)的元數(shù)據,因此文件數(shù)量的限制也由名稱節(jié)點的內存量決定。根據經驗,每個文件,索引目錄以及塊占大約150個字節(jié)。因此,舉例來說,如果有一百萬個文件,每個文件占一個塊,就至少需要300MB的內存。雖然存儲上百萬的文件是可行的,十億或更多的文件就超出目前硬件的能力了。多用聲寫入,任意修改文饞HDFS中的文件只有一個寫入者,而且寫操作總是在文件的末尾。它不支持多個寫入者,或是在文件的任意位置修改?!? ……
媒體關注與評論
“恭喜您有此良機向大師學習Hadoop,在享用技術本身的同時,您還能領略到大師的睿智及其令人如沐春風的寫作風格。” ——Hadoop 創(chuàng)始人 Doug Cutting
圖書封面
圖書標簽Tags
無
評論、評分、閱讀與下載