Hadoop權(quán)威指南(中文版)

出版時(shí)間:2010.5  出版社:清華大學(xué)出版社  作者:(美) Tom White  頁數(shù):504  字?jǐn)?shù):769000  譯者:周傲英,曾大聃  
Tag標(biāo)簽:無  

前言

  馬丁·加德納(數(shù)學(xué)家和科學(xué)作家),曾經(jīng)在一次采訪中說道:  “沒有微積分,我的生命就失去了意義。這是我成功的秘訣。我花了如此長(zhǎng)的時(shí)間了解我在寫什么,所以我知道如何寫作才能讓大多數(shù)讀者明白我的意思。”  在許多方面,這就是我對(duì)Hadoop的感覺。它的內(nèi)部工作機(jī)制是復(fù)雜的、相互依賴的,因?yàn)樗\(yùn)行在分布式系統(tǒng)的理論、實(shí)用技術(shù)和技術(shù)常識(shí)這些復(fù)雜的基礎(chǔ)之上。對(duì)于門外漢來說,Hadoop就像是異形一樣難以理解。  但事實(shí)上并不是這樣的。剝離其核心,Hadoop提供給組件分布式系統(tǒng)的工具——如數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析和協(xié)調(diào)——是十分簡(jiǎn)單的。如果有一個(gè)共同的主題,那么它將與提高抽象水平相關(guān)的——為程序員創(chuàng)建用于處理這些事情的基礎(chǔ)架構(gòu),這些程序員中,或者正好有大量數(shù)據(jù)需要存儲(chǔ),或者有大量數(shù)據(jù)需要分析,或者有大量機(jī)器需要協(xié)調(diào),或者沒有時(shí)間、技能或興趣成為分布式系統(tǒng)專家?! 〗栌蛇@樣一個(gè)簡(jiǎn)單的、普遍適用的功能組合,在開始使用這個(gè)理當(dāng)被廣泛普及的Hadoop的時(shí)候,我的想法逐漸清晰起來。然而,在當(dāng)時(shí)(2006年初),設(shè)置、配置和編寫程序來使用Hadoop稱得上是一門藝術(shù)。幸運(yùn)的是,此后有了明顯的進(jìn)步,因?yàn)橛懈嗟奈募嗟睦?,一旦有疑問,還有那么多郵件地址可以發(fā)過去幫助你解惑。但對(duì)大多數(shù)新手來說,最大的障礙是理解這項(xiàng)技術(shù)能做什么,它的長(zhǎng)處何在,如何使用它。這就是我寫這本書的原因。

內(nèi)容概要

本書從Hadoop的緣起開始,由淺入深,結(jié)合理論和實(shí)踐,全方位地介紹Hadoop這一高性能處理海量數(shù)據(jù)集的理想工具。全書共14章,3個(gè)附錄,涉及的主題包括:Haddoop簡(jiǎn)介;MapReduce簡(jiǎn)介;Hadoop分布式文件系統(tǒng);Hadoop的I/O、MapReduce應(yīng)用程序開發(fā);MapReduce的工作機(jī)制;MapReduce的類型和格式;MapReduce的特性;如何安裝Hadoop集群,如何管理Hadoop;Pig簡(jiǎn)介;Hbase簡(jiǎn)介;ZooKeeper簡(jiǎn)介,最后還提供了豐富的案例分析。    本書是Hadoop權(quán)威參考,程序員可從中探索如何分析海量數(shù)據(jù)集,管理員可以從中了解如何安裝與運(yùn)行Hadoop集群。

作者簡(jiǎn)介

  懷特,2007年2月以來,一直擔(dān)任Apache Hadoop項(xiàng)目負(fù)責(zé)人。他是Apache軟件基金會(huì)的成員之一,同時(shí)也是Cloudera的一名工程師。Tome為IBM的developerWorks撰寫過大量文章,并經(jīng)常在很多行業(yè)大會(huì)上舉行Hadoop主題演講。Loudera Cloudera為Hadoop提供商業(yè)支持并志愿貢獻(xiàn)社區(qū),不收取任何費(fèi)用。不管是打算在云中運(yùn)行Hadoop,還是在自己的服務(wù)器上運(yùn)行Hadoop Cloudera都能使其輕松實(shí)現(xiàn)。

書籍目錄

第1章 初識(shí)Hadoop第2章 MapReduce簡(jiǎn)介第3章 Hadoop分布式文件系統(tǒng)第4章 Hadoop的I/O第5章 MapReduce應(yīng)用開發(fā)第6章 MapReduce的工作原理第7章 MapReduce的類型與格式第8章 MapReduce特性第9章 Hadoop集群的安裝第10章 Hadoop的管理第11章 Pig簡(jiǎn)介第12章 Hbase簡(jiǎn)介第13章 ZooKeeper簡(jiǎn)介第14章 案例研究附錄A Apache Hadoop的安裝附錄B Cloudera的Hadoop分發(fā)包附錄C 預(yù)備NCDC氣象資料

章節(jié)摘錄

  HDFS建立在這樣一個(gè)思想上:一次寫入、多次讀取模式是最高效的。一個(gè)數(shù)據(jù)集通常由數(shù)據(jù)源生成或復(fù)制,接著在此基礎(chǔ)上進(jìn)行各種各樣的分析。每個(gè)分析至少都會(huì)涉及數(shù)據(jù)集中的大部分?jǐn)?shù)據(jù)(甚至全部),因此讀取整個(gè)數(shù)據(jù)集的時(shí)間比讀取第一條記錄的延遲更為重要。商甬硬件Hadoop不需要運(yùn)行在昂貴并且高可靠性的硬件上。它被設(shè)計(jì)運(yùn)行在商用硬件(在各種零售店都能買到的普通硬件)的集群上,因此至少對(duì)于大的集群來說,節(jié)點(diǎn)故障的幾率還是較高的。HDFS在面對(duì)這種故障時(shí),被設(shè)計(jì)為能夠繼續(xù)運(yùn)行而讓用戶察覺不到明顯的中斷。同時(shí),那些并不適合HDFS的應(yīng)用也是值得研究的?! ≡谀壳埃琀DFS還不太適用于某些領(lǐng)域,不過日后可能會(huì)有所改進(jìn)。低延遲數(shù)據(jù)訪問需要低延遲訪問數(shù)據(jù)在毫秒范周內(nèi)的應(yīng)用并不適HDFS。HDFS是為達(dá)到高數(shù)據(jù)吞吐量而優(yōu)化的,這有可能會(huì)以延遲為代價(jià)。目前,對(duì)于低延遲訪問,HBase(參見第12章)是更好的選擇。大量的小文件名稱節(jié)A(namenode)存儲(chǔ)著文件系統(tǒng)的元數(shù)據(jù),因此文件數(shù)量的限制也由名稱節(jié)點(diǎn)的內(nèi)存量決定。根據(jù)經(jīng)驗(yàn),每個(gè)文件,索引目錄以及塊占大約150個(gè)字節(jié)。因此,舉例來說,如果有一百萬個(gè)文件,每個(gè)文件占一個(gè)塊,就至少需要300MB的內(nèi)存。雖然存儲(chǔ)上百萬的文件是可行的,十億或更多的文件就超出目前硬件的能力了。多用聲寫入,任意修改文饞HDFS中的文件只有一個(gè)寫入者,而且寫操作總是在文件的末尾。它不支持多個(gè)寫入者,或是在文件的任意位置修改?!? ……

媒體關(guān)注與評(píng)論

  “恭喜您有此良機(jī)向大師學(xué)習(xí)Hadoop,在享用技術(shù)本身的同時(shí),您還能領(lǐng)略到大師的睿智及其令人如沐春風(fēng)的寫作風(fēng)格。”  ——Hadoop 創(chuàng)始人 Doug Cutting

圖書封面

圖書標(biāo)簽Tags

評(píng)論、評(píng)分、閱讀與下載


    Hadoop權(quán)威指南(中文版) PDF格式下載


用戶評(píng)論 (總計(jì)10條)

 
 

  •   權(quán)威書就是權(quán)威書

    看了一些了

    感覺還是挺難
  •   書挺好的,真是實(shí)用,發(fā)貨速度也很快
  •   針對(duì)介紹Hadoop的書籍很少,這本書還算是不錯(cuò)的
  •   并沒有評(píng)論的那么不濟(jì),勉強(qiáng)可以看不影響閱讀,雖然有些專業(yè)名詞翻譯的不好
  •   下載了英文版電子書,需要代碼時(shí),直接從英文版拷貝,還是很有幫助的。
  •   幫別人買的,聽說還可以吧
  •   書上手已經(jīng)有兩天了。。。也沒有網(wǎng)上說的那么恐怖,,,什么不能看。。翻譯的還行。。有卸妝液的地方就直接對(duì)照英文版本的看吧。。這書不錯(cuò)。。。買了不后悔。。。
  •   計(jì)算機(jī)的書籍本就是應(yīng)該嚴(yán)謹(jǐn)求實(shí)的,但是這本書讓人讀著處處疑惑,有些明顯是否定的語句,給你說成肯定的。肯定的語句給你說成否定的。理論的東西本來就是摳字眼來理解,不像讀代碼。你真的讓人失望。

    英文不好的人只能被你強(qiáng)奸,沒辦法。我擦你,譯者!
  •   折扣還是太低
  •   我不是有意詆毀某個(gè)東西,但這次真是一個(gè)例外。《Hadoop權(quán)威指南(中文版)》我真想知道這書的翻譯者是做什么工作的。只看了前面兩章,實(shí)在看不下去了。這本書的翻譯就是用所謂的翻譯工具翻譯的,無數(shù)多的病句與錯(cuò)別字。。。難道用工具翻譯完了之后,你們就沒有去檢查一下就印刷開賣了????做人還是要講良心。奉勸大家別買中文版了。。自己耐心點(diǎn),看英文版吧
 

250萬本中文圖書簡(jiǎn)介、評(píng)論、評(píng)分,PDF格式免費(fèi)下載。 第一圖書網(wǎng) 手機(jī)版

京ICP備13047387號(hào)-7