出版時(shí)間:2011-10 出版社:機(jī)械工業(yè)出版社華章公司 作者:陸嘉恒
Tag標(biāo)簽:無
內(nèi)容概要
本書是一本系統(tǒng)且極具實(shí)踐指導(dǎo)意義的hadoop工具書和參考書。內(nèi)容全面,對(duì)hadoop整個(gè)技術(shù)體系進(jìn)行了全面的講解,不僅包括hdfs和mapreduce這兩大核心內(nèi)容,而且還包括hive、hbase、mahout、pig、zookeeper、avro、chukwa等與hadoop相關(guān)的子項(xiàng)目的內(nèi)容。實(shí)戰(zhàn)性強(qiáng),為各個(gè)知識(shí)點(diǎn)精心設(shè)計(jì)了大量經(jīng)典的小案例,易于理解,可操作性強(qiáng)。
全書一共18章:第1章全面介紹了hadoop的概念、優(yōu)勢、項(xiàng)目結(jié)構(gòu)、體系結(jié)構(gòu),以及它與分布式計(jì)算的關(guān)系;第2章詳細(xì)講解了hadoop集群的安裝和配置,以及常用的日志分析技巧;第3章分析了hadoop在yahoo!、ebay、facebook和百度的應(yīng)用案例,以及hadoop平臺(tái)上海量數(shù)據(jù)的排序;第4-7章深入地講解了mapreduce計(jì)算模型、mapreduce應(yīng)用的開發(fā)方法、mapreduce的工作機(jī)制,同時(shí)還列出了多個(gè)mapreduce的應(yīng)用案例,涉及單詞計(jì)數(shù)、數(shù)據(jù)去重、排序、單表關(guān)聯(lián)和多表關(guān)聯(lián)等內(nèi)容;第8-11章全面地闡述了hadoop的i/o操作、hdfs的原理與基本操作,以及hadoop的各種管理操作,如集群的維護(hù)等;第12-17章詳細(xì)而系統(tǒng)地講解了hive、hbase、mahout、pig、zookeeper、avro、chukwa等所有與hadoop相關(guān)的子項(xiàng)目的原理及使用,以及這些子項(xiàng)目與hadoop的整合使用;第18章以實(shí)例的方式講解了常用hadoop插件的使用和hadoop插件的開發(fā)。
本書既適合沒有hadoop基礎(chǔ)的初學(xué)者系統(tǒng)地學(xué)習(xí),又適合有一定hadoop基礎(chǔ)但是缺乏實(shí)踐經(jīng)驗(yàn)的讀者實(shí)踐和參考。
作者簡介
陸嘉恒,中國人民大學(xué)副教授,新加坡國立大學(xué)博士,美國加利福尼亞大學(xué)爾灣分校(University of
California, Irvine)
博士后。專注于云計(jì)算及其相關(guān)技術(shù)的研究,對(duì)Hadoop有較深入的研究,積累了豐富的實(shí)踐經(jīng)驗(yàn)。對(duì)分布式計(jì)算和海量數(shù)據(jù)處理有深刻的認(rèn)識(shí),主持并完成了多個(gè)國家863和自然科學(xué)基金項(xiàng)目的研究與實(shí)施。2009年入選新世紀(jì)優(yōu)秀人才,2010年入選北京科技新星。主持《云計(jì)算概論》課程獲教育部-IBM精品課程稱號(hào)。
書籍目錄
前言
第1章 Hadoop簡介
1.1 什么是Hadoop
1.1.1 Hadoop概述
1.1.2 Hadoop的歷史
1.1.3 Hadoop的功能與作用
1.1.4 Hadoop的優(yōu)勢
1.1.5 Hadoop的應(yīng)用現(xiàn)狀和發(fā)展趨勢
1.2 Hadoop項(xiàng)目及其結(jié)構(gòu)
1.3 Hadoop的體系結(jié)構(gòu)
1.3.1 HDFS的體系結(jié)構(gòu)
1.3.2 MapReduce的體系結(jié)構(gòu)
1.4 Hadoop與分布式開發(fā)
1.5 Hadoop計(jì)算模型——MaDRcduce
1.6 Hadoop的數(shù)據(jù)管理
1.6.1 HDFS的數(shù)據(jù)管理
1.6.2 HBase的數(shù)據(jù)管理
1.6.3 Hive的數(shù)據(jù)管理
1.7 小結(jié)
第2章 Hadoop的安裝與配置
2.1 在Linux上安裝與配置Hadoop
2.1.1 安裝JDK 1.6
2.1.2 配置SSH免密碼登錄
2.1.3安裝并運(yùn)行Hadoop
2.2 在Windows上安裝與配置Hadoop
2.2.1 安裝Cygwi~
2.2.2 配置環(huán)境變量
2.2.3 安裝和啟動(dòng)sshd服務(wù)
2.2.4 配置SSH免密碼登錄
2.3 安裝和配置Hadoop集群
2.3.1 網(wǎng)絡(luò)拓?fù)?br /> 2.3.2 定義集群拓?fù)?br /> 2.3.3 建立和安裝Cluster
2.4 日志分析及幾個(gè)小技巧
2.5 小結(jié)
第3章 Hadoop應(yīng)用案例分析
3.1 Hadoop在Yahoo!的應(yīng)用
3.2 Hadoop在eBay的應(yīng)用
3.3 Hadoop在百度的應(yīng)用
3.4 Hadoop在Facebook的應(yīng)用
3.5 Hadoop平臺(tái)上的海量數(shù)據(jù)排序
3.6 小結(jié)
第4章 MapReduce計(jì)算模型
第5章 開發(fā)MapReduce應(yīng)用程序
第6章 MapReduce應(yīng)用案例
第7章 MapReduce工作機(jī)制
第8章 HadoopI/O
第9章 HDFS詳解
第10章 Hadoop的管理
第11章 Hive詳解
第12章 HBase詳解
第13章 Mahout詳解
第14章 Pig詳解
第15章 ZooKeepet詳解
第16章 Avro詳解
第17章 Chukwa詳解
第18章 Hadoop的常用插件與開發(fā)
附錄A 云計(jì)算在線檢測平臺(tái)
章節(jié)摘錄
版權(quán)頁:插圖:2.3 安裝和配置Hadoop集群2.3.1 網(wǎng)絡(luò)拓?fù)渫ǔ碚f,一個(gè)Hadoop的集群體系結(jié)構(gòu)由兩層網(wǎng)絡(luò)拓?fù)浣M成,如圖2-1所示。結(jié)合實(shí)際的應(yīng)用來看,每個(gè)機(jī)架中會(huì)有30~40臺(tái)機(jī)器,這些機(jī)器共享一個(gè)1GB帶寬的網(wǎng)絡(luò)交換機(jī)。在所有的機(jī)架之上還有一個(gè)核心交換機(jī)或路由器,通常來說其網(wǎng)絡(luò)交換能力為1GB或更高??梢院苊黠@地看出,同一個(gè)機(jī)架中機(jī)器節(jié)點(diǎn)之間的帶寬資源肯定要比不同機(jī)架中機(jī)器節(jié)點(diǎn)間豐富。這也是Hadoop隨后設(shè)計(jì)數(shù)據(jù)讀寫分發(fā)策略要考慮的一個(gè)重要因素。2.3.2 定義集群拓?fù)湓趯?shí)際應(yīng)用中,為了使Hadoop集群獲得更高的性能,讀者需要配置集群使Hadoop能夠感知其所在的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。當(dāng)然如果集群中機(jī)器數(shù)量很少,而且它們存在于一個(gè)機(jī)架中,那么就不用做太多額外的工作,而當(dāng)集群中存在多個(gè)機(jī)架時(shí),就要使Hadoop清晰地知道每臺(tái)機(jī)器所在的機(jī)架。隨后,在處理Map Reduce任務(wù)時(shí),Hadoop會(huì)優(yōu)先選擇在機(jī)架內(nèi)部進(jìn)行數(shù)據(jù)傳輸,而不是在機(jī)架間,這樣就可以更充分地使用網(wǎng)絡(luò)帶寬資源。同時(shí),HDFS可以更加智能地部署數(shù)據(jù)副本,并在性能和可靠性間尋找到最優(yōu)的平衡。
媒體關(guān)注與評(píng)論
將網(wǎng)格計(jì)算、并行計(jì)算和虛擬化等技術(shù)融為一體的云計(jì)算技術(shù)已成為我們當(dāng)下存儲(chǔ)和處理海量數(shù)據(jù)的最佳選擇之一。Hadoop的開源、高性能、高容錯(cuò)、跨平臺(tái)等特點(diǎn)又使其成為架構(gòu)云計(jì)算平臺(tái)的首選。本書以實(shí)踐為主,理論與實(shí)踐相結(jié)合,全面闡述了整個(gè)Hadoop技術(shù)體系,適合讀者系統(tǒng)地學(xué)習(xí)。強(qiáng)烈推薦! ——Hadoop中文網(wǎng) 目前,國內(nèi)的很多互聯(lián)網(wǎng)企業(yè)都在使用或正準(zhǔn)備使用Hadoop技術(shù),這些企業(yè)都面臨著一個(gè)共同的難題:Hadoop方面的人才難求。Hadoop方面的人才之所以難找,一方面是因?yàn)镠adoop在國內(nèi)應(yīng)用的時(shí)間不長,從業(yè)人員并不多;另一方面是因?yàn)镠adoop技術(shù)本身較難以掌握,而且與涉及海量數(shù)據(jù)處理的實(shí)際生產(chǎn)環(huán)境密切相關(guān)。本書很好地把握住了當(dāng)前Hadoop從業(yè)者的核心需求,不僅理論知識(shí)全面,更重要的是包含大量與實(shí)際生產(chǎn)環(huán)境相結(jié)合的案例,極具指導(dǎo)意義?! 狧adoop用戶社區(qū) Hadoop可謂炙手可熱,在全球范圍內(nèi),已經(jīng)有數(shù)量龐大的大中型互聯(lián)網(wǎng)公司開始使用Hadoop,國外的Amazon、Facebook、Yahoo!,國內(nèi)的騰訊、百度、淘寶、阿里巴巴等都是成功應(yīng)用Hadoop的典范。然而,Hadoop技術(shù)本身卻極為復(fù)雜,而且涉及眾多其他的技術(shù),學(xué)習(xí)門檻比較高。本書從中初級(jí)讀者的需求出發(fā),以實(shí)踐為導(dǎo)向,全面而系統(tǒng)地講解了Hadoop技術(shù)本身,以及與之相關(guān)的其他各種技術(shù)。對(duì)于想系統(tǒng)學(xué)習(xí)Hadoop和想增加實(shí)戰(zhàn)經(jīng)驗(yàn)的讀者來說,本書不可多得! ——51CTO
編輯推薦
《Hadoop實(shí)戰(zhàn)》內(nèi)容全面,涵蓋Hadoop技術(shù)本身和Hive、HBase、Mahout、Pig、ZooKeeper、Avro、Chukwa等所有與Hadoop相關(guān)的子項(xiàng)目,實(shí)戰(zhàn)性強(qiáng),為各個(gè)知識(shí)點(diǎn)精心設(shè)計(jì)了大量經(jīng)典的小案例,易于理解,可操作性強(qiáng)。當(dāng)越來越多的人涌向互聯(lián)網(wǎng)時(shí),不僅互聯(lián)網(wǎng)應(yīng)用的種類和形態(tài)在不斷發(fā)生變化,而且互聯(lián)網(wǎng)上的信息量也在以我們無法想象的速度迅猛增長。如今,無論是傳統(tǒng)企業(yè),還是互聯(lián)網(wǎng)企業(yè)都越來越重視對(duì)所有與企業(yè)相關(guān)的各種數(shù)據(jù)的分析和利用。對(duì)海量數(shù)據(jù)的處理能力已成為現(xiàn)代企業(yè)的核心競爭力之一。云計(jì)算技術(shù)的出現(xiàn)為海量數(shù)據(jù)的處理提供了良好的解決方案。Hadoop是云計(jì)算技術(shù)的開源實(shí)現(xiàn),具有高容錯(cuò)、跨平臺(tái)等優(yōu)勢,用戶可以利用Hadoop輕松地組織計(jì)算機(jī)資源來搭建自己的分布式云計(jì)算平臺(tái),從而充分地利用集群的計(jì)算和存儲(chǔ)能力,完成對(duì)海量數(shù)據(jù)的處理。《Hadoop實(shí)戰(zhàn)》對(duì)Hadoop的整個(gè)技術(shù)體系進(jìn)行了全面的講解,不僅包括HDFS和MapReduce這兩大核心內(nèi)容,而且還包括Hive、HBase、Mahout、Pig、ZooKeeper、Avro、Chukwa等與Hadoop相關(guān)的子項(xiàng)目的內(nèi)容?!禜adoop實(shí)戰(zhàn)》“以理論為基礎(chǔ)、以實(shí)踐為重點(diǎn)”,希望能為大家奉上一場Hadoop的盛宴。如果你想使用Hadoop,或正在使用Hadoop,《Hadoop實(shí)戰(zhàn)》將會(huì)給你絕佳的指導(dǎo)。
圖書封面
圖書標(biāo)簽Tags
無
評(píng)論、評(píng)分、閱讀與下載