出版時間:2012-10 出版社:清華大學(xué)出版社 作者:周 品 頁數(shù):411 字?jǐn)?shù):612000
Tag標(biāo)簽:無
內(nèi)容概要
《hadoop云計算實戰(zhàn)》全面介紹了云計算的基本概念、google(谷歌)云計算的關(guān)鍵技術(shù),以及hadoop云計算的相關(guān)配套項目及其實戰(zhàn),包括hadoop的hdfs、mapreduce、hbase、hive、pig、cassandra、chukwa及zookeeper等配套項目的實現(xiàn)機制、用法及應(yīng)用。
《hadoop云計算實戰(zhàn)》可作為高等院校本科生和研究生的教材,也可作為廣大科研人員、學(xué)者、工程技術(shù)人員的參考用書。
書籍目錄
《hadoop云計算實戰(zhàn)》
第1章 云計算概論
1. 云計算概述
1.1. 云計算的定義
1.1. 云計算產(chǎn)生的背景
1.1. 云時代誰是主角
1.1. 云計算的特征
1.1. 云計算的發(fā)展史
1.1. 云計算的服務(wù)層次
1.1. 云計算的服務(wù)形式
1.1. 云計算的實現(xiàn)機制
1.1. 云計算研究方向
1.1. 云計算發(fā)展趨勢
1. 云計算關(guān)鍵技術(shù)研究
1.2. 虛擬化技術(shù)
1.2. 數(shù)據(jù)存儲技術(shù)
1.2. 資源管理技術(shù)
1.2. 能耗管理技術(shù)
1.2. 云監(jiān)測技術(shù)
1. 云計算應(yīng)用研究
1.3. 語義分析應(yīng)用
1.3. it企業(yè)應(yīng)用
1.3. 生物學(xué)應(yīng)用
1.3. 電信企業(yè)應(yīng)用
1.3. 數(shù)據(jù)庫的應(yīng)用
1.3. 地理信息應(yīng)用
1.3. 醫(yī)學(xué)應(yīng)用
1. 云安全
1.4. 云安全發(fā)展趨勢
1.4. 云安全與網(wǎng)絡(luò)安全的差別
1.4. 云安全研究的方向
1.4. 云安全難點問題
1.4. 云安全新增及增強功能
1. 云計算生命周期
1. 云計算存在的問題
1. 云計算的優(yōu)缺點
第2章 hadoop相關(guān)項目介紹
2. hadoop簡介
2.1. hadoop的基本架構(gòu)
2.1. hadoop文件系統(tǒng)結(jié)構(gòu)
2.1. hadoop文件讀操作
2.1. hadoop文件寫操作
2. hadoop系統(tǒng)性質(zhì)
2.2. 可靠存儲性
2.2. 數(shù)據(jù)均衡
2. 比較sql數(shù)據(jù)庫與hadoop
2. mapreduce概述
2.4. mapreduce實現(xiàn)機制
2.4. mapreduce執(zhí)行流程
2.4. mapreduce映射和化簡
2.4. mapreduce輸入格式
2.4. mapreduce輸出格式
2.4. mapreduce運行速度
2. hbase概述
2.5. hbase的系統(tǒng)框架
2.5. hbase訪問接口
2.5. hbase的存儲格式
2.5. hbase的讀寫流程
2.5. hbase的優(yōu)缺點
2. zookeeper概述
2.6. 為什么需要zookeeper
2.6. zookeeper設(shè)計目標(biāo)
2.6. zookeeper數(shù)據(jù)模型
2.6. zookeeper工作原理
2.6. zookeeper實現(xiàn)機制
2.6. zookeeper的特性
2. hive概述
2.7. hive的組成
2.7. hive結(jié)構(gòu)解析
2. pig概述
2. cassandra概述
2.9. cassandra主要功能
2.9. cassandra的體系結(jié)構(gòu)
2.9. cassandra存儲機制
2.9. cassandra的寫過程
2.9. cassandra的讀過程
2.9. cassandra的刪除
2. chukwa概述
2.10. 使用chukwa的原因
2.10. chukwa的不是
2.10. chukwa的定義
2.10. chukwa架構(gòu)與設(shè)計
第3章 hadoop配置與實戰(zhàn)
3. hadoop的安裝
3.1. 在linux下安裝hadoop
3.1. 運行模式
3.1. 在windows下安裝hadoop
3. 運行hadoop
3. hadoop的avatar機制
3.3. 系統(tǒng)架構(gòu)
3.3. 元數(shù)據(jù)同步機制
3.3. 切換故障過程
3.3. 運行流程
3.3. 切換故障流程
3. hadoop實戰(zhàn)
3.4. 使用hadoop運行wordcount實例
3.4. 使用eclipse編寫hadoop程序
第4章 hadoop的分布式數(shù)據(jù)hdfs
4. hdfs的操作
4.1. 文件操作
4.1. 管理與更新
4. fs shell使用指南
4. api使用
4.3. 文件系統(tǒng)的常見操作
4.3. api的java操作實例
第5章 hadoop編程模型mapreduce
5. mapreduce基礎(chǔ)
5.1. mapreduce編程模型
5.1. mapreduce實現(xiàn)機制
5.1. java mapreduce
5. mapreduce的容錯性
5. mapreduce實例分析
5. 不帶map()、reduce()的mapreduce
5. shuffle過程
5. 新增hadoop api
5. hadoop的streaming
5.7. 通過unix命令使用streaming
5.7. 通過ruby版本使用streaming
5.7. 通過python版本使用streaming
5. mapreduce實戰(zhàn)
5.8. mapreduce排序
5.8. mapreduce二次排序
5. mapreduce作業(yè)分析
5. 定制mapreduce數(shù)據(jù)類型
5.10. 內(nèi)置的數(shù)據(jù)輸入格式和recordreader
5.10. 定制輸入數(shù)據(jù)格式與recordreader
5.10. 定制數(shù)據(jù)輸出格式實現(xiàn)多集合文件輸出
5. 鏈接mapreduce作業(yè)
5.11. 順序鏈接mapreduce作業(yè)
5.11. 復(fù)雜的mapreduce鏈接
5.11. 前后處理的鏈接
5.11. 鏈接不同的數(shù)據(jù)
5. hadoop的pipes
5. 創(chuàng)建bloom filter
5.13. bloom filter作用
5.13. bloom filter實現(xiàn)
第6章 hadoop的數(shù)據(jù)庫hbase
6. hbase數(shù)據(jù)模型
6.1. 數(shù)據(jù)模型
6.1. 概念視圖
6.1. 物理視圖
6. hbase與rdbms對比
6. bigtable的應(yīng)用實例
6. hbase的安裝與配置
6. java api
6. hbase實例分析
6.6. rowlock
6.6. hbase的hfileoutputformat
6.6. hbase的tableoutputformat
6.6. 在hbase中使用mapreduce
6.6. hbase分布式模式
第7章 hadoop的數(shù)據(jù)倉庫hive
7. hive的安裝
7.1. 準(zhǔn)備的軟件包
7.1. 內(nèi)嵌模式安裝
7.1. 安裝獨立模式
7.1. 遠(yuǎn)程模式安裝
7.1. 查看數(shù)據(jù)信息
7. hive的入口
7.2. 類clidriver
7.2. 類clisessionstate
7.2. 類commandprocessor
7. hive ql詳解
7.3. hive的數(shù)據(jù)類型
7.3. hive與數(shù)據(jù)庫比較
7.3. ddl操作
7.3. join查詢
7.3. dml操作
7.3. sql操作
7.3. hive ql的應(yīng)用實例
7. hive的服務(wù)
7.4. jdbc/odbc服務(wù)
7.4. thrift服務(wù)
7.4. web接口
7. hive sql的優(yōu)化
7.5. hive sql優(yōu)化選項
7.5. hive sql優(yōu)化應(yīng)用實例
7. hive的擴展性
7.6. serde
7.6. map/reduce腳本
7.6. udf
7.6. udaf
7. hive實戰(zhàn)
第8章 hadoop的大規(guī)模數(shù)據(jù)平臺pig
8. pig的安裝與運行
8.1. pig的安裝
8.1. pig的運行
8. pig實現(xiàn)
8. pig latin語言
8.3. pig latin語言概述
8.3. pig latin數(shù)據(jù)類型
8.3. pig latin運算符
8.3. pig latin關(guān)鍵字
8.3. pig內(nèi)置函數(shù)
8. 自定義函數(shù)
8.4. udf的編寫
8.4. udfs的使用
8. jaql和pig查詢語言的比較
8.5. pig和jaql運行環(huán)境和執(zhí)行形式的比較
8.5. pig和jaql支持?jǐn)?shù)據(jù)類型的比較
8.5. pig和jaql操作符和內(nèi)建函數(shù)以及自定義函數(shù)的比較
8.5. 其他
8. pig實戰(zhàn)
第9章 hadoop的非關(guān)系型數(shù)據(jù)cassandra
9. cassandra的安裝
9.1. 在windows 7中安裝
9.1. 在linux中安裝
9. cassandra的數(shù)據(jù)模型
9.2. column
9.2. supercolumn
9.2. columnfamily
9.2. row
9.2. 排序
9. cassandra的實例分析
9.3. cassandra的數(shù)據(jù)存儲結(jié)構(gòu)
9.3. 跟蹤客戶端代碼
9. cassandra常用的編程語言
9.4. java使用cassandra
9.4. php使用cassandra
9.4. python使用cassandra
9.4. c#使用cassandra
9.4. ruby使用cassandra
9. cassandra與mapreduce結(jié)合
9.5. 需求分析
9.5. 代碼分析
9.5. mapreduce代碼
9. cassandra實戰(zhàn)
9.6. buyerdao功能驗證
9.6. sellerdao功能驗證
9.6. productdao功能驗證
9.6. 新建schema在線功能
9.6. 功能驗證
第10章 hadoop的收集數(shù)據(jù)chukwa
10. chukwa的安裝與配置
10.1. 配置要求
10.1. chukwa的安裝
10.1. 基本命令
10. chukwa數(shù)據(jù)流處理
10.2. 支持?jǐn)?shù)據(jù)類型
10.2. 數(shù)據(jù)處理
10.2. 自定義數(shù)據(jù)模塊
10. chukwa源代碼分析
10.3. chukwa適配器
10.3. chukwa連接器
10.3. chukwa收集器
10. chukwa實例分析
10.4. 生成數(shù)據(jù)
10.4. 收集數(shù)據(jù)
10.4. 處理數(shù)據(jù)
10.4. 析取數(shù)據(jù)
10.4. 稀釋數(shù)據(jù)
第11章 hadoop的分布式系統(tǒng)zookeeper
11. zookeeper的安裝與配置
11.1. zookeeper的安裝
11.1. zookeeper的配置
11.1. zookeeper數(shù)據(jù)模型
11.1. zookeeper的api接口
11.1. zookeeper編程實現(xiàn)
11. zookeeper的leader流程
11. zookeeper鎖服務(wù)
11.3. zookeeper中的鎖機制
11.3. zookeeper的寫鎖實現(xiàn)
11.3. zookeeper鎖服務(wù)實現(xiàn)例子
11. 創(chuàng)建zookeeper應(yīng)用程序
11. zookeeper的應(yīng)用開發(fā)
11. zookeeper的典型應(yīng)用
11.6. 統(tǒng)一命名服務(wù)
11.6. 配置管理
11.6. 集群管理
11.6. 共享鎖
11.6. 隊列管理
11. 實現(xiàn)namenode自動切換
網(wǎng)上參考資源
參考文獻(xiàn)
章節(jié)摘錄
版權(quán)頁: 插圖: 3.收集器 Chukwa的收集器彌補了Hadoop集群不利于存儲大量小文件的缺點。收集器先是把收集到的小文件數(shù)據(jù)進(jìn)行部分合并,然后寫入集群,大幅減少了Chukwa產(chǎn)生的HDFS文件數(shù)量。具體來說,通過HTTP數(shù)據(jù)被傳送到收集器,每個收集器接收來自數(shù)百臺主機的數(shù)據(jù),并將所有數(shù)據(jù)寫入到一個Sink文件中,MapReduce作業(yè)定期將Sink中記錄的信息整合為日志收集文件。Sink文件是一個由連續(xù)的Chunks組成的Hadoop序列文件,其是由大量的數(shù)據(jù)塊和描述每一個數(shù)據(jù)塊來源和格式的元數(shù)據(jù)組成的。在收集數(shù)據(jù)期間,收集器會定期關(guān)閉Sink文件,更改文件名(便于保存及整理),重新創(chuàng)建一個新的文件,新文件仍被命名為“Sink”,接著再用新的Sink文件存儲收集的信息,這就是所謂的“文件循環(huán)”。 收集器位于數(shù)據(jù)源和數(shù)據(jù)存儲間,其屏蔽了HDFS文件系統(tǒng)的一些細(xì)節(jié),方便于使用HDFS。在某種意義上,收集器緩解了大量低速率數(shù)據(jù)源和文件系統(tǒng)間“步調(diào)”不協(xié)調(diào)的矛盾,優(yōu)化了少量高速率數(shù)據(jù)源的寫入。 為了防止收集器出現(xiàn)單點,Chukwa允許設(shè)置多臺收集器,代理可以從收集器列表中隨機地選擇一個收集器傳輸數(shù)據(jù)。當(dāng)某個收集器失敗或繁忙時,就選擇其他收集器,以免影響代理的正常工作。隨機選擇的節(jié)點使收集器的載入可能會極不均勻。 在實際應(yīng)用中,收集器的任務(wù)負(fù)載很輕的情況很少出現(xiàn);為了防止過載,系統(tǒng)設(shè)置了代理重試限制機制,如果數(shù)據(jù)寫入收集器失敗,收集器把待寫入數(shù)據(jù)標(biāo)記為“壞”數(shù)據(jù),在重新寫入數(shù)據(jù)前代理需要等待一段配置時間。在實際應(yīng)用中,多收集器的負(fù)載幾乎是平均的,從而實現(xiàn)了負(fù)載的均衡化。 4.MapReduce作業(yè) 收集器順序?qū)懭霐?shù)據(jù)文件,方便于快速獲取數(shù)據(jù)和穩(wěn)定存儲,但是,不便于數(shù)據(jù)分析和查找特征數(shù)據(jù)。因此,Chukwa利用MapReduce作業(yè)實現(xiàn)數(shù)據(jù)分析和處理。 在MapReduce階段,Chukwa提供了復(fù)用和存檔任務(wù)兩種內(nèi)置的作業(yè)類型。 (1)demux作業(yè) demux作業(yè)負(fù)責(zé)對數(shù)據(jù)的分類、排序和去重。由收集器寫入集群中的數(shù)據(jù),都有自己的類型。demux作業(yè)在執(zhí)行過程中,通過數(shù)據(jù)類型和配置文件中指定的數(shù)據(jù)處理類,執(zhí)行相應(yīng)的數(shù)據(jù)分析工作,一般是把非結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)化,抽取其中的數(shù)據(jù)屬性。由于demux的本質(zhì)是一個MapReduce作業(yè),所以用戶可以根據(jù)自己的需求制定自己的demux作業(yè),進(jìn)行各種復(fù)雜的邏輯分析。Chukwa提供的demux接口可以用Java語言來方便地擴展。
編輯推薦
《Hadoop云計算實戰(zhàn)》可作為高等院校本科生和研究生的教材,也可作為廣大科研人員、學(xué)者、工程技術(shù)人員的參考用書。
圖書封面
圖書標(biāo)簽Tags
無
評論、評分、閱讀與下載