Hadoop權威指南(中文版)

出版時間：2010.5 出版社：清華大學出版社作者：(美) Tom White 頁數(shù)：504 字數(shù)：769000 譯者：周傲英,曾大聃
Tag標簽：無

前言

　　馬丁·加德納（數(shù)學家和科學作家），曾經在一次采訪中說道：　　“沒有微積分，我的生命就失去了意義。這是我成功的秘訣。我花了如此長的時間了解我在寫什么，所以我知道如何寫作才能讓大多數(shù)讀者明白我的意思。”　　在許多方面，這就是我對Hadoop的感覺。它的內部工作機制是復雜的、相互依賴的，因為它運行在分布式系統(tǒng)的理論、實用技術和技術常識這些復雜的基礎之上。對于門外漢來說，Hadoop就像是異形一樣難以理解?！　〉聦嵣喜⒉皇沁@樣的。剝離其核心，Hadoop提供給組件分布式系統(tǒng)的工具——如數(shù)據存儲、數(shù)據分析和協(xié)調——是十分簡單的。如果有一個共同的主題，那么它將與提高抽象水平相關的——為程序員創(chuàng)建用于處理這些事情的基礎架構，這些程序員中，或者正好有大量數(shù)據需要存儲，或者有大量數(shù)據需要分析，或者有大量機器需要協(xié)調，或者沒有時間、技能或興趣成為分布式系統(tǒng)專家?！　〗栌蛇@樣一個簡單的、普遍適用的功能組合，在開始使用這個理當被廣泛普及的Hadoop的時候，我的想法逐漸清晰起來。然而，在當時（2006年初），設置、配置和編寫程序來使用Hadoop稱得上是一門藝術。幸運的是，此后有了明顯的進步，因為有更多的文件，更多的例子，一旦有疑問，還有那么多郵件地址可以發(fā)過去幫助你解惑。但對大多數(shù)新手來說，最大的障礙是理解這項技術能做什么，它的長處何在，如何使用它。這就是我寫這本書的原因。

內容概要

本書從Hadoop的緣起開始，由淺入深，結合理論和實踐，全方位地介紹Hadoop這一高性能處理海量數(shù)據集的理想工具。全書共14章，3個附錄，涉及的主題包括：Haddoop簡介；MapReduce簡介；Hadoop分布式文件系統(tǒng)；Hadoop的I／O、MapReduce應用程序開發(fā)；MapReduce的工作機制；MapReduce的類型和格式；MapReduce的特性；如何安裝Hadoop集群，如何管理Hadoop；Pig簡介；Hbase簡介；ZooKeeper簡介，最后還提供了豐富的案例分析。    本書是Hadoop權威參考，程序員可從中探索如何分析海量數(shù)據集，管理員可以從中了解如何安裝與運行Hadoop集群。

作者簡介

　　懷特，2007年2月以來，一直擔任Apache Hadoop項目負責人。他是Apache軟件基金會的成員之一，同時也是Cloudera的一名工程師。Tome為IBM的developerWorks撰寫過大量文章，并經常在很多行業(yè)大會上舉行Hadoop主題演講。Loudera Cloudera為Hadoop提供商業(yè)支持并志愿貢獻社區(qū)，不收取任何費用。不管是打算在云中運行Hadoop，還是在自己的服務器上運行Hadoop Cloudera都能使其輕松實現(xiàn)。

書籍目錄

第1章 初識Hadoop第2章 MapReduce簡介第3章 Hadoop分布式文件系統(tǒng)第4章 Hadoop的I/O第5章 MapReduce應用開發(fā)第6章 MapReduce的工作原理第7章 MapReduce的類型與格式第8章 MapReduce特性第9章 Hadoop集群的安裝第10章 Hadoop的管理第11章 Pig簡介第12章 Hbase簡介第13章 ZooKeeper簡介第14章 案例研究附錄A Apache Hadoop的安裝附錄B Cloudera的Hadoop分發(fā)包附錄C 預備NCDC氣象資料

章節(jié)摘錄

　　HDFS建立在這樣一個思想上：一次寫入、多次讀取模式是最高效的。一個數(shù)據集通常由數(shù)據源生成或復制，接著在此基礎上進行各種各樣的分析。每個分析至少都會涉及數(shù)據集中的大部分數(shù)據（甚至全部），因此讀取整個數(shù)據集的時間比讀取第一條記錄的延遲更為重要。商甬硬件Hadoop不需要運行在昂貴并且高可靠性的硬件上。它被設計運行在商用硬件（在各種零售店都能買到的普通硬件）的集群上，因此至少對于大的集群來說，節(jié)點故障的幾率還是較高的。HDFS在面對這種故障時，被設計為能夠繼續(xù)運行而讓用戶察覺不到明顯的中斷。同時，那些并不適合HDFS的應用也是值得研究的。　　在目前，HDFS還不太適用于某些領域，不過日后可能會有所改進。低延遲數(shù)據訪問需要低延遲訪問數(shù)據在毫秒范周內的應用并不適HDFS。HDFS是為達到高數(shù)據吞吐量而優(yōu)化的，這有可能會以延遲為代價。目前，對于低延遲訪問，HBase（參見第12章）是更好的選擇。大量的小文件名稱節(jié)A（namenode）存儲著文件系統(tǒng)的元數(shù)據，因此文件數(shù)量的限制也由名稱節(jié)點的內存量決定。根據經驗，每個文件，索引目錄以及塊占大約150個字節(jié)。因此，舉例來說，如果有一百萬個文件，每個文件占一個塊，就至少需要300MB的內存。雖然存儲上百萬的文件是可行的，十億或更多的文件就超出目前硬件的能力了。多用聲寫入，任意修改文饞HDFS中的文件只有一個寫入者，而且寫操作總是在文件的末尾。它不支持多個寫入者，或是在文件的任意位置修改?！? ……

媒體關注與評論

　　“恭喜您有此良機向大師學習Hadoop，在享用技術本身的同時，您還能領略到大師的睿智及其令人如沐春風的寫作風格。”　　——Hadoop 創(chuàng)始人 Doug Cutting

圖書封面

圖書標簽Tags

無

評論、評分、閱讀與下載

還沒讀過(70)
勉強可看(511)
一般般(872)
內容豐富(3618)
強力推薦(296)

Hadoop權威指南(中文版) PDF格式下載

用戶評論 (總計10條)

權威書就是權威書

看了一些了

感覺還是挺難
書挺好的，真是實用，發(fā)貨速度也很快
針對介紹Hadoop的書籍很少，這本書還算是不錯的
并沒有評論的那么不濟，勉強可以看不影響閱讀，雖然有些專業(yè)名詞翻譯的不好
下載了英文版電子書，需要代碼時，直接從英文版拷貝，還是很有幫助的。
幫別人買的，聽說還可以吧
書上手已經有兩天了。。。也沒有網上說的那么恐怖，，，什么不能看。。翻譯的還行。。有卸妝液的地方就直接對照英文版本的看吧。。這書不錯。。。買了不后悔。。。
計算機的書籍本就是應該嚴謹求實的，但是這本書讓人讀著處處疑惑，有些明顯是否定的語句，給你說成肯定的?？隙ǖ恼Z句給你說成否定的。理論的東西本來就是摳字眼來理解，不像讀代碼。你真的讓人失望。

英文不好的人只能被你強奸，沒辦法。我擦你，譯者！
折扣還是太低
我不是有意詆毀某個東西，但這次真是一個例外?！禜adoop權威指南（中文版）》我真想知道這書的翻譯者是做什么工作的。只看了前面兩章，實在看不下去了。這本書的翻譯就是用所謂的翻譯工具翻譯的，無數(shù)多的病句與錯別字。。。難道用工具翻譯完了之后，你們就沒有去檢查一下就印刷開賣了？？？？做人還是要講良心。奉勸大家別買中文版了。。自己耐心點，看英文版吧

Hadoop權威指南(中文版)

用戶評論 (總計10條)

推薦圖書

相關圖書