Hadoop權威指南(中文版)

出版時間:2010.5  出版社:清華大學出版社  作者:(美) Tom White  頁數(shù):504  字數(shù):769000  譯者:周傲英,曾大聃  
Tag標簽:無  

前言

  馬丁·加德納(數(shù)學家和科學作家),曾經在一次采訪中說道:  “沒有微積分,我的生命就失去了意義。這是我成功的秘訣。我花了如此長的時間了解我在寫什么,所以我知道如何寫作才能讓大多數(shù)讀者明白我的意思。”  在許多方面,這就是我對Hadoop的感覺。它的內部工作機制是復雜的、相互依賴的,因為它運行在分布式系統(tǒng)的理論、實用技術和技術常識這些復雜的基礎之上。對于門外漢來說,Hadoop就像是異形一樣難以理解?! 〉聦嵣喜⒉皇沁@樣的。剝離其核心,Hadoop提供給組件分布式系統(tǒng)的工具——如數(shù)據存儲、數(shù)據分析和協(xié)調——是十分簡單的。如果有一個共同的主題,那么它將與提高抽象水平相關的——為程序員創(chuàng)建用于處理這些事情的基礎架構,這些程序員中,或者正好有大量數(shù)據需要存儲,或者有大量數(shù)據需要分析,或者有大量機器需要協(xié)調,或者沒有時間、技能或興趣成為分布式系統(tǒng)專家?! 〗栌蛇@樣一個簡單的、普遍適用的功能組合,在開始使用這個理當被廣泛普及的Hadoop的時候,我的想法逐漸清晰起來。然而,在當時(2006年初),設置、配置和編寫程序來使用Hadoop稱得上是一門藝術。幸運的是,此后有了明顯的進步,因為有更多的文件,更多的例子,一旦有疑問,還有那么多郵件地址可以發(fā)過去幫助你解惑。但對大多數(shù)新手來說,最大的障礙是理解這項技術能做什么,它的長處何在,如何使用它。這就是我寫這本書的原因。

內容概要

本書從Hadoop的緣起開始,由淺入深,結合理論和實踐,全方位地介紹Hadoop這一高性能處理海量數(shù)據集的理想工具。全書共14章,3個附錄,涉及的主題包括:Haddoop簡介;MapReduce簡介;Hadoop分布式文件系統(tǒng);Hadoop的I/O、MapReduce應用程序開發(fā);MapReduce的工作機制;MapReduce的類型和格式;MapReduce的特性;如何安裝Hadoop集群,如何管理Hadoop;Pig簡介;Hbase簡介;ZooKeeper簡介,最后還提供了豐富的案例分析。    本書是Hadoop權威參考,程序員可從中探索如何分析海量數(shù)據集,管理員可以從中了解如何安裝與運行Hadoop集群。

作者簡介

  懷特,2007年2月以來,一直擔任Apache Hadoop項目負責人。他是Apache軟件基金會的成員之一,同時也是Cloudera的一名工程師。Tome為IBM的developerWorks撰寫過大量文章,并經常在很多行業(yè)大會上舉行Hadoop主題演講。Loudera Cloudera為Hadoop提供商業(yè)支持并志愿貢獻社區(qū),不收取任何費用。不管是打算在云中運行Hadoop,還是在自己的服務器上運行Hadoop Cloudera都能使其輕松實現(xiàn)。

書籍目錄

第1章 初識Hadoop第2章 MapReduce簡介第3章 Hadoop分布式文件系統(tǒng)第4章 Hadoop的I/O第5章 MapReduce應用開發(fā)第6章 MapReduce的工作原理第7章 MapReduce的類型與格式第8章 MapReduce特性第9章 Hadoop集群的安裝第10章 Hadoop的管理第11章 Pig簡介第12章 Hbase簡介第13章 ZooKeeper簡介第14章 案例研究附錄A Apache Hadoop的安裝附錄B Cloudera的Hadoop分發(fā)包附錄C 預備NCDC氣象資料

章節(jié)摘錄

  HDFS建立在這樣一個思想上:一次寫入、多次讀取模式是最高效的。一個數(shù)據集通常由數(shù)據源生成或復制,接著在此基礎上進行各種各樣的分析。每個分析至少都會涉及數(shù)據集中的大部分數(shù)據(甚至全部),因此讀取整個數(shù)據集的時間比讀取第一條記錄的延遲更為重要。商甬硬件Hadoop不需要運行在昂貴并且高可靠性的硬件上。它被設計運行在商用硬件(在各種零售店都能買到的普通硬件)的集群上,因此至少對于大的集群來說,節(jié)點故障的幾率還是較高的。HDFS在面對這種故障時,被設計為能夠繼續(xù)運行而讓用戶察覺不到明顯的中斷。同時,那些并不適合HDFS的應用也是值得研究的。  在目前,HDFS還不太適用于某些領域,不過日后可能會有所改進。低延遲數(shù)據訪問需要低延遲訪問數(shù)據在毫秒范周內的應用并不適HDFS。HDFS是為達到高數(shù)據吞吐量而優(yōu)化的,這有可能會以延遲為代價。目前,對于低延遲訪問,HBase(參見第12章)是更好的選擇。大量的小文件名稱節(jié)A(namenode)存儲著文件系統(tǒng)的元數(shù)據,因此文件數(shù)量的限制也由名稱節(jié)點的內存量決定。根據經驗,每個文件,索引目錄以及塊占大約150個字節(jié)。因此,舉例來說,如果有一百萬個文件,每個文件占一個塊,就至少需要300MB的內存。雖然存儲上百萬的文件是可行的,十億或更多的文件就超出目前硬件的能力了。多用聲寫入,任意修改文饞HDFS中的文件只有一個寫入者,而且寫操作總是在文件的末尾。它不支持多個寫入者,或是在文件的任意位置修改?!? ……

媒體關注與評論

  “恭喜您有此良機向大師學習Hadoop,在享用技術本身的同時,您還能領略到大師的睿智及其令人如沐春風的寫作風格。”  ——Hadoop 創(chuàng)始人 Doug Cutting

圖書封面

圖書標簽Tags

評論、評分、閱讀與下載


    Hadoop權威指南(中文版) PDF格式下載


用戶評論 (總計10條)

 
 

  •   權威書就是權威書

    看了一些了

    感覺還是挺難
  •   書挺好的,真是實用,發(fā)貨速度也很快
  •   針對介紹Hadoop的書籍很少,這本書還算是不錯的
  •   并沒有評論的那么不濟,勉強可以看不影響閱讀,雖然有些專業(yè)名詞翻譯的不好
  •   下載了英文版電子書,需要代碼時,直接從英文版拷貝,還是很有幫助的。
  •   幫別人買的,聽說還可以吧
  •   書上手已經有兩天了。。。也沒有網上說的那么恐怖,,,什么不能看。。翻譯的還行。。有卸妝液的地方就直接對照英文版本的看吧。。這書不錯。。。買了不后悔。。。
  •   計算機的書籍本就是應該嚴謹求實的,但是這本書讓人讀著處處疑惑,有些明顯是否定的語句,給你說成肯定的??隙ǖ恼Z句給你說成否定的。理論的東西本來就是摳字眼來理解,不像讀代碼。你真的讓人失望。

    英文不好的人只能被你強奸,沒辦法。我擦你,譯者!
  •   折扣還是太低
  •   我不是有意詆毀某個東西,但這次真是一個例外?!禜adoop權威指南(中文版)》我真想知道這書的翻譯者是做什么工作的。只看了前面兩章,實在看不下去了。這本書的翻譯就是用所謂的翻譯工具翻譯的,無數(shù)多的病句與錯別字。。。難道用工具翻譯完了之后,你們就沒有去檢查一下就印刷開賣了????做人還是要講良心。奉勸大家別買中文版了。。自己耐心點,看英文版吧
 

250萬本中文圖書簡介、評論、評分,PDF格式免費下載。 第一圖書網 手機版

京ICP備13047387號-7