Hadoop實(shí)戰(zhàn)

出版時(shí)間：2011-10 出版社：機(jī)械工業(yè)出版社華章公司作者：陸嘉恒
Tag標(biāo)簽：無

內(nèi)容概要

　　本書是一本系統(tǒng)且極具實(shí)踐指導(dǎo)意義的hadoop工具書和參考書。內(nèi)容全面，對(duì)hadoop整個(gè)技術(shù)體系進(jìn)行了全面的講解，不僅包括hdfs和mapreduce這兩大核心內(nèi)容，而且還包括hive、hbase、mahout、pig、zookeeper、avro、chukwa等與hadoop相關(guān)的子項(xiàng)目的內(nèi)容。實(shí)戰(zhàn)性強(qiáng)，為各個(gè)知識(shí)點(diǎn)精心設(shè)計(jì)了大量經(jīng)典的小案例，易于理解，可操作性強(qiáng)。
　　全書一共18章：第1章全面介紹了hadoop的概念、優(yōu)勢、項(xiàng)目結(jié)構(gòu)、體系結(jié)構(gòu)，以及它與分布式計(jì)算的關(guān)系；第2章詳細(xì)講解了hadoop集群的安裝和配置，以及常用的日志分析技巧；第3章分析了hadoop在yahoo！、ebay、facebook和百度的應(yīng)用案例，以及hadoop平臺(tái)上海量數(shù)據(jù)的排序；第4-7章深入地講解了mapreduce計(jì)算模型、mapreduce應(yīng)用的開發(fā)方法、mapreduce的工作機(jī)制，同時(shí)還列出了多個(gè)mapreduce的應(yīng)用案例，涉及單詞計(jì)數(shù)、數(shù)據(jù)去重、排序、單表關(guān)聯(lián)和多表關(guān)聯(lián)等內(nèi)容；第8-11章全面地闡述了hadoop的i/o操作、hdfs的原理與基本操作，以及hadoop的各種管理操作，如集群的維護(hù)等；第12-17章詳細(xì)而系統(tǒng)地講解了hive、hbase、mahout、pig、zookeeper、avro、chukwa等所有與hadoop相關(guān)的子項(xiàng)目的原理及使用，以及這些子項(xiàng)目與hadoop的整合使用；第18章以實(shí)例的方式講解了常用hadoop插件的使用和hadoop插件的開發(fā)。
　　本書既適合沒有hadoop基礎(chǔ)的初學(xué)者系統(tǒng)地學(xué)習(xí)，又適合有一定hadoop基礎(chǔ)但是缺乏實(shí)踐經(jīng)驗(yàn)的讀者實(shí)踐和參考。

作者簡介

　　陸嘉恒，中國人民大學(xué)副教授，新加坡國立大學(xué)博士，美國加利福尼亞大學(xué)爾灣分校(University of
California, Irvine)
博士后。專注于云計(jì)算及其相關(guān)技術(shù)的研究，對(duì)Hadoop有較深入的研究，積累了豐富的實(shí)踐經(jīng)驗(yàn)。對(duì)分布式計(jì)算和海量數(shù)據(jù)處理有深刻的認(rèn)識(shí)，主持并完成了多個(gè)國家863和自然科學(xué)基金項(xiàng)目的研究與實(shí)施。2009年入選新世紀(jì)優(yōu)秀人才，2010年入選北京科技新星。主持《云計(jì)算概論》課程獲教育部-IBM精品課程稱號(hào)。

書籍目錄

前言
第1章　Hadoop簡介
 1.1 什么是Hadoop
 1.1.1 Hadoop概述
 1.1.2 Hadoop的歷史
 1.1.3 Hadoop的功能與作用
 1.1.4 Hadoop的優(yōu)勢
 1.1.5 Hadoop的應(yīng)用現(xiàn)狀和發(fā)展趨勢
 1.2 Hadoop項(xiàng)目及其結(jié)構(gòu)
 1.3 Hadoop的體系結(jié)構(gòu)
 1.3.1 HDFS的體系結(jié)構(gòu)
 1.3.2 MapReduce的體系結(jié)構(gòu)
 1.4 Hadoop與分布式開發(fā)
 1.5 Hadoop計(jì)算模型——MaDRcduce
 1.6 Hadoop的數(shù)據(jù)管理
 1.6.1 HDFS的數(shù)據(jù)管理
 1.6.2 HBase的數(shù)據(jù)管理
 1.6.3 Hive的數(shù)據(jù)管理
 1.7 小結(jié)
第2章 Hadoop的安裝與配置
 2.1 在Linux上安裝與配置Hadoop
 2.1.1 安裝JDK 1.6
 2.1.2 配置SSH免密碼登錄
 2.1.3安裝并運(yùn)行Hadoop
 2.2 在Windows上安裝與配置Hadoop
 2.2.1 安裝Cygwi~
 2.2.2 配置環(huán)境變量
 2.2.3 安裝和啟動(dòng)sshd服務(wù)
 2.2.4 配置SSH免密碼登錄
 2.3 安裝和配置Hadoop集群
 2.3.1 網(wǎng)絡(luò)拓?fù)?br /> 2.3.2 定義集群拓?fù)?br /> 2.3.3 建立和安裝Cluster
 2.4 日志分析及幾個(gè)小技巧
 2.5 小結(jié)
第3章 Hadoop應(yīng)用案例分析
 3.1 Hadoop在Yahoo!的應(yīng)用
 3.2 Hadoop在eBay的應(yīng)用
 3.3 Hadoop在百度的應(yīng)用
 3.4 Hadoop在Facebook的應(yīng)用
 3.5 Hadoop平臺(tái)上的海量數(shù)據(jù)排序
 3.6 小結(jié)
第4章 MapReduce計(jì)算模型
第5章　開發(fā)MapReduce應(yīng)用程序
第6章　MapReduce應(yīng)用案例
第7章　MapReduce工作機(jī)制
第8章　HadoopI/O
第9章　HDFS詳解
第10章　Hadoop的管理
第11章　Hive詳解
第12章　HBase詳解
第13章　Mahout詳解
第14章　Pig詳解
第15章　ZooKeepet詳解
第16章　Avro詳解
第17章　Chukwa詳解
第18章　Hadoop的常用插件與開發(fā)
附錄A　云計(jì)算在線檢測平臺(tái)

章節(jié)摘錄

版權(quán)頁：插圖：2.3 安裝和配置Hadoop集群2.3.1 網(wǎng)絡(luò)拓?fù)渫ǔ碚f，一個(gè)Hadoop的集群體系結(jié)構(gòu)由兩層網(wǎng)絡(luò)拓?fù)浣M成，如圖2-1所示。結(jié)合實(shí)際的應(yīng)用來看，每個(gè)機(jī)架中會(huì)有30～40臺(tái)機(jī)器，這些機(jī)器共享一個(gè)1GB帶寬的網(wǎng)絡(luò)交換機(jī)。在所有的機(jī)架之上還有一個(gè)核心交換機(jī)或路由器，通常來說其網(wǎng)絡(luò)交換能力為1GB或更高?？梢院苊黠@地看出，同一個(gè)機(jī)架中機(jī)器節(jié)點(diǎn)之間的帶寬資源肯定要比不同機(jī)架中機(jī)器節(jié)點(diǎn)間豐富。這也是Hadoop隨后設(shè)計(jì)數(shù)據(jù)讀寫分發(fā)策略要考慮的一個(gè)重要因素。2.3.2 定義集群拓?fù)湓趯?shí)際應(yīng)用中，為了使Hadoop集群獲得更高的性能，讀者需要配置集群使Hadoop能夠感知其所在的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。當(dāng)然如果集群中機(jī)器數(shù)量很少，而且它們存在于一個(gè)機(jī)架中，那么就不用做太多額外的工作，而當(dāng)集群中存在多個(gè)機(jī)架時(shí)，就要使Hadoop清晰地知道每臺(tái)機(jī)器所在的機(jī)架。隨后，在處理Map Reduce任務(wù)時(shí)，Hadoop會(huì)優(yōu)先選擇在機(jī)架內(nèi)部進(jìn)行數(shù)據(jù)傳輸，而不是在機(jī)架間，這樣就可以更充分地使用網(wǎng)絡(luò)帶寬資源。同時(shí)，HDFS可以更加智能地部署數(shù)據(jù)副本，并在性能和可靠性間尋找到最優(yōu)的平衡。

媒體關(guān)注與評(píng)論

將網(wǎng)格計(jì)算、并行計(jì)算和虛擬化等技術(shù)融為一體的云計(jì)算技術(shù)已成為我們當(dāng)下存儲(chǔ)和處理海量數(shù)據(jù)的最佳選擇之一。Hadoop的開源、高性能、高容錯(cuò)、跨平臺(tái)等特點(diǎn)又使其成為架構(gòu)云計(jì)算平臺(tái)的首選。本書以實(shí)踐為主，理論與實(shí)踐相結(jié)合，全面闡述了整個(gè)Hadoop技術(shù)體系，適合讀者系統(tǒng)地學(xué)習(xí)。強(qiáng)烈推薦！　　——Hadoop中文網(wǎng)  目前，國內(nèi)的很多互聯(lián)網(wǎng)企業(yè)都在使用或正準(zhǔn)備使用Hadoop技術(shù)，這些企業(yè)都面臨著一個(gè)共同的難題：Hadoop方面的人才難求。Hadoop方面的人才之所以難找，一方面是因?yàn)镠adoop在國內(nèi)應(yīng)用的時(shí)間不長，從業(yè)人員并不多；另一方面是因?yàn)镠adoop技術(shù)本身較難以掌握，而且與涉及海量數(shù)據(jù)處理的實(shí)際生產(chǎn)環(huán)境密切相關(guān)。本書很好地把握住了當(dāng)前Hadoop從業(yè)者的核心需求，不僅理論知識(shí)全面，更重要的是包含大量與實(shí)際生產(chǎn)環(huán)境相結(jié)合的案例，極具指導(dǎo)意義?！　　狧adoop用戶社區(qū) 　 Hadoop可謂炙手可熱，在全球范圍內(nèi)，已經(jīng)有數(shù)量龐大的大中型互聯(lián)網(wǎng)公司開始使用Hadoop，國外的Amazon、Facebook、Yahoo！，國內(nèi)的騰訊、百度、淘寶、阿里巴巴等都是成功應(yīng)用Hadoop的典范。然而，Hadoop技術(shù)本身卻極為復(fù)雜，而且涉及眾多其他的技術(shù)，學(xué)習(xí)門檻比較高。本書從中初級(jí)讀者的需求出發(fā)，以實(shí)踐為導(dǎo)向，全面而系統(tǒng)地講解了Hadoop技術(shù)本身，以及與之相關(guān)的其他各種技術(shù)。對(duì)于想系統(tǒng)學(xué)習(xí)Hadoop和想增加實(shí)戰(zhàn)經(jīng)驗(yàn)的讀者來說，本書不可多得！　　——51CTO

編輯推薦

《Hadoop實(shí)戰(zhàn)》內(nèi)容全面，涵蓋Hadoop技術(shù)本身和Hive、HBase、Mahout、Pig、ZooKeeper、Avro、Chukwa等所有與Hadoop相關(guān)的子項(xiàng)目，實(shí)戰(zhàn)性強(qiáng)，為各個(gè)知識(shí)點(diǎn)精心設(shè)計(jì)了大量經(jīng)典的小案例，易于理解，可操作性強(qiáng)。當(dāng)越來越多的人涌向互聯(lián)網(wǎng)時(shí)，不僅互聯(lián)網(wǎng)應(yīng)用的種類和形態(tài)在不斷發(fā)生變化，而且互聯(lián)網(wǎng)上的信息量也在以我們無法想象的速度迅猛增長。如今，無論是傳統(tǒng)企業(yè)，還是互聯(lián)網(wǎng)企業(yè)都越來越重視對(duì)所有與企業(yè)相關(guān)的各種數(shù)據(jù)的分析和利用。對(duì)海量數(shù)據(jù)的處理能力已成為現(xiàn)代企業(yè)的核心競爭力之一。云計(jì)算技術(shù)的出現(xiàn)為海量數(shù)據(jù)的處理提供了良好的解決方案。Hadoop是云計(jì)算技術(shù)的開源實(shí)現(xiàn)，具有高容錯(cuò)、跨平臺(tái)等優(yōu)勢，用戶可以利用Hadoop輕松地組織計(jì)算機(jī)資源來搭建自己的分布式云計(jì)算平臺(tái)，從而充分地利用集群的計(jì)算和存儲(chǔ)能力，完成對(duì)海量數(shù)據(jù)的處理。《Hadoop實(shí)戰(zhàn)》對(duì)Hadoop的整個(gè)技術(shù)體系進(jìn)行了全面的講解，不僅包括HDFS和MapReduce這兩大核心內(nèi)容，而且還包括Hive、HBase、Mahout、Pig、ZooKeeper、Avro、Chukwa等與Hadoop相關(guān)的子項(xiàng)目的內(nèi)容?！禜adoop實(shí)戰(zhàn)》“以理論為基礎(chǔ)、以實(shí)踐為重點(diǎn)”，希望能為大家奉上一場Hadoop的盛宴。如果你想使用Hadoop，或正在使用Hadoop，《Hadoop實(shí)戰(zhàn)》將會(huì)給你絕佳的指導(dǎo)。

圖書封面

圖書標(biāo)簽Tags

無

評(píng)論、評(píng)分、閱讀與下載

還沒讀過(87)
勉強(qiáng)可看(630)
一般般(107)
內(nèi)容豐富(4460)
強(qiáng)力推薦(365)

Hadoop實(shí)戰(zhàn) PDF格式下載

用戶評(píng)論 (總計(jì)69條)

很不錯(cuò)，目前還沒有看完，介紹了hadoop的構(gòu)成，原理以及在企業(yè)級(jí)的應(yīng)用。詳細(xì)的介紹了HDFS的原理和mapreduce的原理，適合有一定的基礎(chǔ)人看。
一向?qū)鴥?nèi)人寫的技術(shù)書比較謹(jǐn)慎，并不是說我看不起國內(nèi)的技術(shù)人員，的確是因?yàn)閲鴥?nèi)的書水平太良莠不齊了。

不知道為什么會(huì)有2本《Hadoop實(shí)戰(zhàn)》，一本是國外的，只有00多頁，一本是國內(nèi)的，也就是這本書，400多頁，在買之前去公司旁邊的書店做了比對(duì)，發(fā)現(xiàn)國內(nèi)這本書遠(yuǎn)比國外的那本好，內(nèi)容更系統(tǒng)、更全面，如果要入門的話，這本原創(chuàng)書完全足夠了。

第一次對(duì)國內(nèi)人寫的書比較滿意。
對(duì)于Hadoop的原理及代碼沒有什么太多的分析，但對(duì)于了解Hadoop，學(xué)習(xí)Hadoop的使用的話還是非常不錯(cuò)的，值得推薦，不錯(cuò)的一本書。
hadoop實(shí)戰(zhàn)，講的很全面，實(shí)戰(zhàn)比理論要多，很實(shí)用。
涵蓋Hadoop的各種技術(shù)
全面學(xué)習(xí)hadoop的很好的教材
買了兩本hadoop的書，先看了這本。簡介、簡單，是入門的好書。不過要是實(shí)戰(zhàn)的話，還欠缺一些經(jīng)驗(yàn)之談。
Hadoop 的書籍中這本講的不錯(cuò)..講的也非常詳細(xì)
值得擁有
很好，正好是我需要的Hadoop的實(shí)戰(zhàn)方面的書
書籍還不錯(cuò)，紙張還好，是一本比較好的hadoop書籍
內(nèi)容全面，理論與例子相結(jié)合，很便于快速學(xué)習(xí)
感覺比權(quán)威指南容易閱讀，雖然內(nèi)容不如那個(gè)多，很適合初學(xué)者看，再就是物流超給力，早上的訂單，下午五點(diǎn)就送到了
內(nèi)容可以，適合初學(xué)者
這本書很不錯(cuò)，內(nèi)容詳細(xì)，一直都很支持機(jī)械工業(yè)出版社的書。
書不錯(cuò)，不過對(duì)于沒有接觸過java開發(fā)的來說，確實(shí)有一點(diǎn)門檻，而且第二版快上市了，這一版內(nèi)容有些成舊。
涵蓋內(nèi)容豐富，寫的還行
內(nèi)容非常詳盡，是入門的好書。有實(shí)例，易上手
對(duì)開發(fā)有作用
感覺內(nèi)容不錯(cuò)，準(zhǔn)備好好看。
看了一上目錄，還沒來及看，所講內(nèi)容不錯(cuò)
華章的書是很前沿，但總是不夠深入，印刷排版很像盜版
從基礎(chǔ)開始，還算不錯(cuò)。
不錯(cuò)的參考手冊
以前學(xué)的是。***，對(duì)java不熟悉，故買來學(xué)習(xí)學(xué)習(xí)，確實(shí)收益匪淺
這本書很好，都是一些實(shí)際的例子，很好很喜歡
一直在用,挺好的,能看一段時(shí)間~ 一直在用,挺好的,能看一段時(shí)間~ 一直在用,挺好的,能看一段時(shí)間~
不錯(cuò)的書本，很好！??！
整體來講是本專業(yè)好書,有些地方有些深,有些地方有些泛.
才收到翻了翻。感覺挺不錯(cuò)的
這方面為數(shù)不多的書，初學(xué)很不錯(cuò)
還沒看，翻了一下，感覺應(yīng)該還不錯(cuò)
非常全，可以做普及版本
書還沒看，但是還不錯(cuò)，作者嚴(yán)謹(jǐn)
這本書對(duì)于了解hadoop還是很有幫助的，書中講解挺基礎(chǔ)的，理解上還可以，就是排版有點(diǎn)不太好，有些內(nèi)容重復(fù)敘述，還有一些錯(cuò)誤的地方，但總體上還是不錯(cuò)的~~
對(duì)了解Hadoop技術(shù)入門書籍
目前HADOOP的書不多，這本算還是可以的了。
內(nèi)容講解比較全面，還不錯(cuò)。。
比較基礎(chǔ)，操作介紹很細(xì)，適合新手。但是不適合更高層次學(xué)習(xí)
書講的內(nèi)容還算全面，內(nèi)容挺多的，正在學(xué)習(xí)中
書很好，內(nèi)容值得學(xué)習(xí)！
介紹的較詳細(xì)，入門看，不錯(cuò)
內(nèi)容不錯(cuò)，展現(xiàn)作者功底很身后。
還沒來的及看，單位報(bào)銷買的
由簡入深，挺合適。
不過還沒有細(xì)看。
包裝完好不錯(cuò)
粗看了一下，有些難！
正在看, 還不錯(cuò).
書中有例子,還沒有看完,不過整體還是不錯(cuò)的
走上巔峰
剛拿到書，大概翻了下，有理論有例子，還不錯(cuò)
講的都是比較入門級(jí)別的，很適合初學(xué)者。涉及到了hadoop的子項(xiàng)目的很多方面，建議不習(xí)慣看英文的買這個(gè)，不然的話還是看官網(wǎng)的或者網(wǎng)上的一些資料比較好，很多內(nèi)容都是在網(wǎng)上能找到，失去了一些價(jià)值
里面有些知識(shí)點(diǎn)還是講得不太清楚或不全。目前hadoop的書籍比較少，本書對(duì)于了解hadoop系統(tǒng)的人員還是有所幫助的。
挺不錯(cuò)的，不過初學(xué)者用的話不是很合適
收到了，包裝和發(fā)貨速度都不錯(cuò)，用的是加急發(fā)貨（多加錢），嘻嘻。
配送速度還可以，第二天到達(dá)。書第二天到達(dá)
剛收到，沒細(xì)看。
還沒看，先留在
不如權(quán)威指南
不滿意不滿意
太一般了，西貝貨
講的還可以，需要有基礎(chǔ)的支持
hadoop寫的挺好
內(nèi)容簡單清楚
　　講的不夠深入，例子也不多，不過如果作為入門書籍，還是相當(dāng)?shù)牟诲e(cuò)，介紹的很詳細(xì)，例子也能跑通。而且69快的書，也不送個(gè)光盤，例子碼字碼的累死?！　　　　　　　　　　　　　　　　　　　　　　　　　　　　?/li>
　　完全適合新手入門，有一些小例子幫助你理解每個(gè)開源項(xiàng)目的意義，但是沒有真實(shí)的項(xiàng)目經(jīng)驗(yàn)和細(xì)節(jié)，有點(diǎn)對(duì)不住 “實(shí)戰(zhàn)” 這兩個(gè)字。幫助讀者迅速梳理一遍倒是不錯(cuò)的
　　在網(wǎng)上幾乎可以找到所有書中的訊息
　　短嗎？
　　短嗎？
　　短嗎？
　　短嗎？
　　短嗎？
　　這本書適合那些真的想學(xué)點(diǎn)實(shí)戰(zhàn)本領(lǐng)的人閱讀，確實(shí)能了解架構(gòu)，然后再架構(gòu)上開發(fā)，寫程序。是一本好書，強(qiáng)烈建議入門hadoop的人能閱讀學(xué)習(xí)，有介紹hadoop架構(gòu)，有介紹mapreduce編程，有介紹在eclipse下編程，還有提供一個(gè)學(xué)習(xí)檢測的平臺(tái)，從教到教會(huì)面面俱到。很值得學(xué)習(xí)。
　　最近Hadoop的書很多，也許是因?yàn)樗芑鸢?。我初學(xué)Hadoop，想買一本書來提高自己，我選了這本書，因?yàn)槠渌芏鄷挤悍憾?，沒有什么意義。這本書中MapReduce的使用講的非常詳細(xì)，實(shí)踐性很強(qiáng)（力薦），對(duì)實(shí)際應(yīng)用幫助很大，還有因項(xiàng)目需要，我要了解Avro的內(nèi)容，其它的書竟然沒有介紹（怒～），這本書介紹的很詳細(xì)，贊～。
能不水么

Hadoop實(shí)戰(zhàn)

用戶評(píng)論 (總計(jì)69條)

推薦圖書

相關(guān)圖書