Hadoop權(quán)威指南

出版時(shí)間:2011-6  出版社:清華大學(xué)出版社  作者:Tom White  頁數(shù):600  譯者:周敏奇,王曉玲,金澈清,錢衛(wèi)寧,周傲英  
Tag標(biāo)簽:無  

前言

據(jù)2011年4月圣地亞哥大學(xué)公布的報(bào)告,2008年全球兩千七百萬臺(tái)服務(wù)器處理的數(shù)據(jù)量已達(dá)9.57ZB。如何有效管理和高效處理這些海量數(shù)據(jù)已成為當(dāng)前亟待解決的問題。另外,三大類海量數(shù)據(jù)——商業(yè)數(shù)據(jù)、科學(xué)數(shù)據(jù)、網(wǎng)頁數(shù)據(jù)——的異構(gòu)性(結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù))又進(jìn)一步加劇了海量數(shù)據(jù)處理的難度。2011年2月出版的《科學(xué)》雜志刊登專題“Special Online Collection: Dealing with Data”,圍繞著目前各類數(shù)據(jù)量的激增展開討論,認(rèn)為海量數(shù)據(jù)的收集、維護(hù)和使用已成為科學(xué)研究的主要工作。對(duì)許多學(xué)科而言,海量數(shù)據(jù)處理意味著更嚴(yán)峻的挑戰(zhàn),然而更好地管理和處理這些數(shù)據(jù)也將會(huì)獲得意想不到的收獲。關(guān)系型數(shù)據(jù)庫系統(tǒng)的研究在數(shù)據(jù)管理方面積累較多經(jīng)驗(yàn)。20世紀(jì)70年代,關(guān)系模型的提出以及IBM System R 和伯克利Ingres的成功開發(fā),證明了關(guān)系型數(shù)據(jù)庫系統(tǒng)處理商業(yè)數(shù)據(jù)的優(yōu)越性。20世紀(jì)80年代,由此模型派生出的IBM DB2,Sybase SQL Server、Oracle Database等以聯(lián)機(jī)事務(wù)處理(OLTP)為主的數(shù)據(jù)庫系統(tǒng)的蓬勃發(fā)展,使數(shù)據(jù)庫系統(tǒng)得以充分的商業(yè)化。20世紀(jì)90年代,W. H. Inmon提出的整合歷史數(shù)據(jù),通過在線分析(OLAP)和數(shù)據(jù)挖掘等方法實(shí)現(xiàn)商業(yè)規(guī)劃、決策支持等商業(yè)智能服務(wù)的數(shù)據(jù)倉庫系統(tǒng),為數(shù)據(jù)庫系統(tǒng)的應(yīng)用翻開了嶄新的篇章。然而,面對(duì)當(dāng)下的海量數(shù)據(jù),這一近40年歷史、一體適用(one size fits all)的數(shù)據(jù)庫系統(tǒng)架構(gòu)顯得老態(tài)龍鐘,力不從心,逐漸無法應(yīng)對(duì)當(dāng)前的需求。自從2003年以來,谷歌陸續(xù)發(fā)布GFS和MapReduce等高可擴(kuò)展、高性能的分布式海量數(shù)據(jù)處理框架,并證明了該框架在處理海量網(wǎng)頁數(shù)據(jù)時(shí)的優(yōu)越性。該框架實(shí)現(xiàn)了更高應(yīng)用層次的抽象,使用戶無需關(guān)注復(fù)雜的內(nèi)部工作機(jī)制,無需具備豐富的分布式系統(tǒng)知識(shí)及開發(fā)經(jīng)驗(yàn),即可實(shí)現(xiàn)大規(guī)模分布式系統(tǒng)的部署與海量數(shù)據(jù)的并行處理。Apache Hadoop開源項(xiàng)目克隆了這一框架,推出了Hadoop系統(tǒng)。該系統(tǒng)已受到學(xué)術(shù)界和工業(yè)界的廣泛認(rèn)可和采納,并孵化出眾多子項(xiàng)目(如Pig,Zookeeper和Hive等),日益形成一個(gè)易部署、易開發(fā)、功能齊全、性能優(yōu)良的系統(tǒng)。華東師范大學(xué)海量計(jì)算研究所從2006年開始從事海量數(shù)據(jù)方面的研究,且在集群(288核,40TB存儲(chǔ))上部署了Hadoop系統(tǒng),并成功完成多項(xiàng)研究。多年來從事海量數(shù)據(jù)學(xué)術(shù)研究和項(xiàng)目實(shí)施的相關(guān)經(jīng)歷,使得我們對(duì)Hadoop系統(tǒng)及其開發(fā)有了較深入的理解和認(rèn)識(shí),并在Hadoop部署、調(diào)優(yōu)和優(yōu)化等方面積累了豐富的經(jīng)驗(yàn)。2010年,Hadoop項(xiàng)目負(fù)責(zé)人Tom White的《Hadoop權(quán)威指南》出版第2版。這本書內(nèi)容組織得很好,思路清晰,緊密結(jié)合了實(shí)際問題。

內(nèi)容概要

  本書從Hadoop的緣起開始,由淺入深,結(jié)合理論和實(shí)踐,全方位地介紹Hadoop這一高性能處理海量數(shù)據(jù)集的理想工具。全書共16章,3個(gè)附錄,涉及的主題包括:Haddoop簡介;MapReduce簡介;Hadoop分布式文件系統(tǒng);Hadoop的I/O、MapReduce應(yīng)用程序開發(fā);MapReduce的工作機(jī)制;MapReduce的類型和格式;MapReduce的特性;如何構(gòu)建Hadoop集群,如何管理Hadoop;Pig簡介;Hbase簡介;Hive簡介;ZooKeeper簡介;開源工具Sqoop,最后還提供了豐富的案例分析。
  本書是Hadoop權(quán)威參考,程序員可從中探索如何分析海量數(shù)據(jù)集,管理員可以從中了解如何安裝與運(yùn)行Hadoop集群。

作者簡介

作者:(美國)懷特 (Tom White) 譯者:周敏奇 錢衛(wèi)寧 金澈清 王曉玲懷特(Tom White),從2007年以來,一直擔(dān)任Apache Hadoop項(xiàng)目負(fù)責(zé)人。他是Apache軟件基金會(huì)的成員之一,同時(shí)也是Cloudera的一名工程師。Tom為oreully網(wǎng)、java.net和IBM的developerWorks寫過大量文章,并經(jīng)常在很多行業(yè)大會(huì)上發(fā)表演講。

書籍目錄

第1章 初識(shí)Hadoop
 數(shù)據(jù)!數(shù)據(jù)!
 數(shù)據(jù)存儲(chǔ)與分析
 與其他系統(tǒng)相比
 關(guān)系型數(shù)據(jù)庫管理系統(tǒng)
 網(wǎng)格計(jì)算
 志愿計(jì)算
 1.3.4 Hadoop 發(fā)展簡史
 Apache Hadoop和Hadoop生態(tài)圈
第2章 關(guān)于MapReduce
 一個(gè)氣象數(shù)據(jù)集
 數(shù)據(jù)的格式
 使用Unix工具進(jìn)行數(shù)據(jù)分析
 使用Hadoop分析數(shù)據(jù)
 map階段和reduce階段
 橫向擴(kuò)展
 合并函數(shù)
 運(yùn)行一個(gè)分布式的MapReduce作業(yè)
 Hadoop的Streaming
 Ruby版本
 Python版本
 Hadoop Pipes
 編譯運(yùn)行
第3章 Hadoop分布式文件系統(tǒng)
 HDFS的設(shè)計(jì)
 HDFS的概念
 數(shù)據(jù)塊
 namenode和datanode
 命令行接口
 基本文件系統(tǒng)操作
 Hadoop文件系統(tǒng)
 接口
 Java接口
 從Hadoop URL中讀取數(shù)據(jù)
 通過FileSystem API讀取數(shù)據(jù)
 寫入數(shù)據(jù)
 目錄
 查詢文件系統(tǒng)
 刪除數(shù)據(jù)
 數(shù)據(jù)流
 文件讀取剖析
 文件寫入剖析
 一致模型
 通過 distcp并行拷貝
 保持 HDFS 集群的均衡
 Hadoop的歸檔文件
 使用Hadoop歸檔文件
 不足
第4章 Hadoop I/O
 數(shù)據(jù)完整性
 HDFS的數(shù)據(jù)完整性
 LocalFileSystem
 ChecksumFileSystem
 壓縮
 codec
 壓縮和輸入切分
 在MapReduce中使用壓縮
 序列化
 Writable接口
 Writable類
 實(shí)現(xiàn)定制的Writable類型
 序列化框架
 Avro
 依據(jù)文件的數(shù)據(jù)結(jié)構(gòu)
 寫入SequenceFile
 MapFile
第5章 MapReduce應(yīng)用開發(fā)
 配置API
 合并多個(gè)源文件
 可變的擴(kuò)展
 配置開發(fā)環(huán)境
 配置管理
 輔助類GenericOptionsParser,Tool和ToolRunner
 編寫單元測(cè)試
 mapper
 reducer
 本地運(yùn)行測(cè)試數(shù)據(jù)
 在本地作業(yè)運(yùn)行器上運(yùn)行作業(yè)
 測(cè)試驅(qū)動(dòng)程序
 在集群上運(yùn)行
 打包
 啟動(dòng)作業(yè)
 MapReduce的Web界面
 獲取結(jié)果
 作業(yè)調(diào)試
 使用遠(yuǎn)程調(diào)試器
 作業(yè)調(diào)優(yōu)
 分析任務(wù)
 MapReduce的工作流
 將問題分解成MapReduce作業(yè)
 運(yùn)行獨(dú)立的作業(yè)
第6章 MapReduce的工作機(jī)制
 剖析MapReduce作業(yè)運(yùn)行機(jī)制
 作業(yè)的提交
 作業(yè)的初始化
 任務(wù)的分配
 任務(wù)的執(zhí)行
 進(jìn)度和狀態(tài)的更新
 作業(yè)的完成
 失敗
 任務(wù)失敗
 tasktracker失敗
 jobtracker失敗
 作業(yè)的調(diào)度
 Fair Scheduler
 Capacity Scheduler
 shuffle和排序
 map端
 reduce端
 配置的調(diào)優(yōu)
 任務(wù)的執(zhí)行
 推測(cè)式執(zhí)行
 重用JVM
 跳過壞記錄
 任務(wù)執(zhí)行環(huán)境
第7章 MapReduce的類型與格式
 MapReduce的類型
 默認(rèn)的MapReduce作業(yè)
 輸入格式
 輸入分片與記錄
 文本輸入
 二進(jìn)制輸入
 多種輸入
 數(shù)據(jù)庫輸入(和輸出)
 輸出格式
 文本輸出
 二進(jìn)制輸出
 多個(gè)輸出
 延遲輸出
 數(shù)據(jù)庫輸出
第8章 MapReduce的特性
 計(jì)數(shù)器
 內(nèi)置計(jì)數(shù)器
 用戶定義的Java計(jì)數(shù)器
 用戶定義的Streaming計(jì)數(shù)器
 排序
 準(zhǔn)備
 部分排序
 總排序
 二次排序
 聯(lián)接
 map端聯(lián)接
 reduce端聯(lián)接
 邊數(shù)據(jù)分布
 利用JobConf來配置作業(yè)
 分布式緩存
 MapReduce庫類
第9章 構(gòu)建Hadoop集群
 集群規(guī)范
 網(wǎng)絡(luò)拓?fù)?br /> 集群的構(gòu)建和安裝
 安裝Java
 創(chuàng)建Hadoop用戶
 安裝Hadoop
 測(cè)試安裝
 SSH配置
 Hadoop配置
 配置管理
 環(huán)境設(shè)置
 Hadoop守護(hù)進(jìn)程的關(guān)鍵屬性
 Hadoop守護(hù)進(jìn)程的地址和端口
 Hadoop的其他屬性
 創(chuàng)建用戶帳號(hào)
 安全性
 Kerberos和Hadoop
 委托令牌
 其他安全性改進(jìn)
 利用基準(zhǔn)測(cè)試程序測(cè)試Hadoop集群
 Hadoop基準(zhǔn)測(cè)試程序
 用戶的作業(yè)
 云上的Hadoop
 Amazon EC2上的Hadoop
第10章 管理Hadoop
 HDFS
 永久性數(shù)據(jù)結(jié)構(gòu)
 安全模式
 日志審計(jì)
 工具
 監(jiān)控
 日志
 度量
 Java管理擴(kuò)展(JMX)
 維護(hù)
 日常管理過程
 委任節(jié)點(diǎn)和解除節(jié)點(diǎn)
 升級(jí)
第11章 Pig簡介
 安裝與運(yùn)行Pig
 執(zhí)行類型
 運(yùn)行Pig程序
 Grunt
 Pig Latin編輯器
 示例
 生成示例
 與數(shù)據(jù)庫比較
 PigLatin
 結(jié)構(gòu)
 語句
 表達(dá)式
 1.4.4 類型
 模式
 函數(shù)
 用戶自定義函數(shù)
 過濾UDF
 計(jì)算UDF
 加載UDF
 數(shù)據(jù)處理操作
 加載和存儲(chǔ)數(shù)據(jù)
 過濾數(shù)據(jù)
 分組與連接數(shù)據(jù)
 對(duì)數(shù)據(jù)進(jìn)行排序
 組合和分割數(shù)據(jù)
 Pig實(shí)戰(zhàn)
 并行處理
 參數(shù)代換
第12章 Hive
 1.1 安裝Hive
 1.1.1 Hive外殼環(huán)境
 1.2 示例
 1.3 運(yùn)行Hive
 1.3.1 配置Hive
 1.3.2 Hive服務(wù)
 1.3.3 Metastore
 1.4 和傳統(tǒng)數(shù)據(jù)庫進(jìn)行比較
 1.4.1 讀時(shí)模式(Schema on Read)vs.寫時(shí)模式(Schema on
Write)
 1.4.2 更新、事務(wù)和索引
 1.5 HiveQL
 1.5.1 數(shù)據(jù)類型
 1.5.2 操作和函數(shù)
 1.6 表
 1.6.1 托管表(Managed Tables)和外部表(External Tables)
 1.6.2 分區(qū)(Partitions)和桶(Buckets)
 1.6.3 存儲(chǔ)格式
 1.6.4 導(dǎo)入數(shù)據(jù)
 1.6.5 表的修改
 1.6.6 表的丟棄
 1.7 查詢數(shù)據(jù)
 1.7.1 排序(Sorting)和聚集(Aggregating)
 1.7.2 MapReduce腳本
 1.7.3 連接
 1.7.4 子查詢
 1.7.5 視圖(view)
 1.8 用戶定義函數(shù)(User-Defined Functions)
 1.8.1 編寫UDF
 1.8.2 編寫UDAF
第13章 HBase
 2.1 HBasics
 2.1.1 背景
 2.2 概念
 2.2.1 數(shù)據(jù)模型的“旋風(fēng)之旅”
 2.2.2 實(shí)現(xiàn)
 2.3 安裝
 2.3.1 測(cè)試驅(qū)動(dòng)
 2.4 客戶機(jī)
 2.4.1 Java
 2.4.2 Avro,REST,以及Thrift
 2.5 示例
 2.5.1 模式
 2.5.2 加載數(shù)據(jù)
 2.5.3 Web查詢
 2.6 HBase和RDBMS的比較
 2.6.1 成功的服務(wù)
 2.6.2 HBase
 2.6.3 實(shí)例:HBase在Streamy.com的使用
 2.7 Praxis
 2.7.1 版本
 2.7.2 HDFS
 2.7.3 用戶接口(UI)
 2.7.4 度量(metrics)
 2.7.5 模式設(shè)計(jì)
 2.7.6 計(jì)數(shù)器
 2.7.7 批量加載(bulkloading)
第14章 ZooKeeper
 安裝和運(yùn)行ZooKeeper
 示例
 ZooKeeper中的組成員關(guān)系
 創(chuàng)建組
 加入組
 列出組成員
 ZooKeeper服務(wù)
 數(shù)據(jù)模型
 操作
 實(shí)現(xiàn)
 一致性
 會(huì)話
 狀態(tài)
 使用ZooKeeper來構(gòu)建應(yīng)用
 配置服務(wù)
 具有可恢復(fù)性的ZooKeeper應(yīng)用
 鎖服務(wù)
 生產(chǎn)環(huán)境中的ZooKeeper
 可恢復(fù)性和性能
 配置
第15章 開源工具Sqoop
 獲取Sqoop
 一個(gè)導(dǎo)入的例子
 生成代碼
 其他序列化系統(tǒng)
 深入了解數(shù)據(jù)庫導(dǎo)入
 導(dǎo)入控制
 導(dǎo)入和一致性
 直接模式導(dǎo)入
 使用導(dǎo)入的數(shù)據(jù)
 導(dǎo)入的數(shù)據(jù)與Hive
 導(dǎo)入大對(duì)象
 執(zhí)行導(dǎo)出
 深入了解導(dǎo)出
 導(dǎo)出與事務(wù)
 導(dǎo)出和SequenceFile
第16章 實(shí)例分析
 Hadoop 在Last.fm的應(yīng)用
 Last.fm:社會(huì)音樂史上的革命
 Hadoop a Last.fm
 用Hadoop產(chǎn)生圖表
 Track Statistics程序
 總結(jié)
 Hadoop和Hive在Facebook的應(yīng)用
 概要介紹
 Hadoop a Facebook
 假想的使用情況案例
 Hive
 問題與未來工作計(jì)劃
 Nutch 搜索引擎
 背景介紹
 數(shù)據(jù)結(jié)構(gòu)
 Nutch系統(tǒng)利用Hadoop進(jìn)行數(shù)據(jù)處理的精選實(shí)例
 總結(jié)
 Rackspace的日志處理
 簡史
 選擇Hadoop
 收集和存儲(chǔ)
 日志的MapReduce模型
 關(guān)于Cascading
 字段、元組和管道
 操作
 Tap類,Scheme對(duì)象和Flow對(duì)象
 Cascading實(shí)戰(zhàn)
 靈活性
 Hadoop和Cascading在ShareThis的應(yīng)用
 總結(jié)
 在Apache Hadoop上的TB字節(jié)數(shù)量級(jí)排序
 使用Pig和Wukong來探索10億數(shù)量級(jí)邊的 網(wǎng)絡(luò)圖
 測(cè)量社區(qū)
 每個(gè)人都在和我說話:Twitter回復(fù)關(guān)系圖
 degree(度)
 對(duì)稱鏈接
 社區(qū)提取
附錄A 安裝Apache Hadoop
 先決條件
 安裝
 配置
 本機(jī)模式
 偽分布模式
 全分布模式
附錄B Cloudera’s Distribution for Hadoop
附錄C 準(zhǔn)備NCDC天氣數(shù)據(jù)

章節(jié)摘錄

版權(quán)頁:插圖:Hadoop起源于Nutch項(xiàng)目。我們?cè)鴩L試構(gòu)建一個(gè)開源的Web搜索引擎,但是始終無法有效地將計(jì)算任務(wù)分配到多臺(tái)(也就寥寥幾臺(tái))計(jì)算機(jī)上。直到谷歌公司發(fā)表GFS和MapReduce的相關(guān)論文,我們的思路才清晰起來。他們?cè)O(shè)計(jì)的系統(tǒng)已可精準(zhǔn)地解決我們?cè)贜utch項(xiàng)目中面臨的困境。因此,我們(兩個(gè)半天工作制的人)也嘗試重建這些系統(tǒng),將其作為Nutch的一部分。我們成功地在20多臺(tái)機(jī)器上運(yùn)行了Nutch。但是我們很快就意識(shí)到,只有在幾千臺(tái)機(jī)器上運(yùn)行Nutch才能夠應(yīng)付Web的超大規(guī)模,但這個(gè)工作量遠(yuǎn)遠(yuǎn)不是兩個(gè)半天工作制的開發(fā)人員能搞定的。幾乎就在那個(gè)時(shí)候,雅虎公司也對(duì)這項(xiàng)技術(shù)產(chǎn)生了濃厚的興趣,并迅速組建了一支開發(fā)團(tuán)隊(duì)。我有幸成為其中一員。我們剝離了Nutch的分布式計(jì)算模塊,將其稱為Hadoop。在雅虎的幫助下,Hadoop很快就能夠真正處理Web數(shù)據(jù)了。從2006年起,Tom White就對(duì)Hadoop貢獻(xiàn)良多。我很早以前通過他的一篇非常優(yōu)秀的有關(guān)Nutch的論文認(rèn)識(shí)了他,在這篇論文中,他以一種優(yōu)美的筆調(diào)清晰地闡述了深刻的想法。很快,我發(fā)現(xiàn)他開發(fā)的軟件也同樣優(yōu)美且易于理解。Tom從一開始就樂于站在用戶和項(xiàng)目的角度來考慮問題。與其他開源程序開發(fā)人員不同,Tom不會(huì)刻意調(diào)整系統(tǒng)使其更加符合他個(gè)人的需要,而是盡可能地讓所有用戶用起來都很方便。Tom最初專注于如何讓Hadoop在亞馬遜的EC2和S3服務(wù)上運(yùn)行良好。之后,他轉(zhuǎn)而解決更為廣泛的難題,包括如何提高M(jìn)apReduce API,如增加強(qiáng)網(wǎng)站,如何設(shè)計(jì)對(duì)象序列化框架,等等。在所有工作中,Tom都非常精準(zhǔn)地闡明了想法。在很短的時(shí)間里,Tom進(jìn)入了Hadoop委員會(huì),并在不久之后成為Hadoop項(xiàng)目管理委員會(huì)的一員?,F(xiàn)在,Tom是一個(gè)受人尊敬的Hadoop開發(fā)社區(qū)的高級(jí)成員。盡管他是這個(gè)項(xiàng)目多個(gè)技術(shù)領(lǐng)域的專家,但他的專長是使Hadoop易于理解和使用。因此,當(dāng)我得知Tom有意寫一本關(guān)于Hadoop的書時(shí),我非常高興。是的,誰能夠比他更勝任呢?現(xiàn)在,你們有機(jī)會(huì)向這位大師學(xué)習(xí)Hadoop——不單單是技術(shù),也包括一些常識(shí)和通俗的筆調(diào)。

媒體關(guān)注與評(píng)論

“有了這本權(quán)威指南,讀者有機(jī)會(huì)通過大師的手筆來學(xué)習(xí)Hadoop——在掌握技術(shù)的同時(shí),領(lǐng)略作者的睿智和清晰的文風(fēng)。”  ——Hadoop創(chuàng)始人 Doug Cutting于Cloudera

編輯推薦

《Hadoop權(quán)威指南(第2版)(修訂?升級(jí)版)》編輯推薦:Google帝國的基石是什么?MapReduce算法!開源項(xiàng)目Hadoop作為它的一個(gè)具體實(shí)現(xiàn),可以輕松用于構(gòu)建和維護(hù)一個(gè)可靠性高、伸縮性強(qiáng)的分布式系統(tǒng)。作者Tom White作為Hadoop的項(xiàng)目負(fù)責(zé)人,通過自己對(duì)Hadoop和Hadoop社區(qū)的理解,化繁為簡,用淺顯易懂的語言介紹了Hadoop能做什么,怎么做才能充分發(fā)揮Hadoop的優(yōu)勢(shì),Hadoop能夠和哪些開源工具結(jié)合使用?!禜adoop權(quán)威指南(第2版)》是一本主題豐富、講解透徹的權(quán)威參考書,可幫助程序員了解分析海量數(shù)據(jù)集的細(xì)枝末節(jié),幫助管理員掌握搭建和運(yùn)行Hadoop集群的具體過程。經(jīng)過修訂和更新的第2版概述了Hadoop的最新動(dòng)態(tài),例如Hive、sqoop和Avro等。書中還提供了案例分析來幫助讀者了解如何用Hadoop來解決具體的問題。如果想充分利用數(shù)據(jù),從中挖掘出有價(jià)值的見解或者觀點(diǎn),毫無疑問,《Hadoop權(quán)威指南(第2版)(修訂?升級(jí)版)》將是您不可或缺的重要參考。“誰說大象不能跳舞?Hadoop-輕松應(yīng)對(duì)海量數(shù)據(jù)存儲(chǔ)與分析所帶來的挑戰(zhàn)!”使用Hadoop分布式文件系統(tǒng)(HDFS)來存儲(chǔ)大型數(shù)據(jù)集,然后用MapReduce對(duì)這些數(shù)據(jù)II執(zhí)行分布式計(jì)算。Hadoop的數(shù)據(jù)和I/O構(gòu)建塊(用于壓縮、數(shù)據(jù)完整性、序列化和持久處理)。探究MapReduce應(yīng)用開發(fā)中常見的陷阱和高級(jí)特性。設(shè)計(jì),構(gòu)建和管理Hadoop專用集群或在云上運(yùn)行Hadoop。使用Pig這種高級(jí)的查詢語言來進(jìn)行大規(guī)模數(shù)據(jù)處理。使用Hive(Hadoop的數(shù)據(jù)倉庫系統(tǒng))來分析數(shù)據(jù)集。使用HBase(Hadoop的數(shù)據(jù)庫)來處理結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)。深入介紹Zookeeper,一個(gè)用于構(gòu)建分布式系統(tǒng)的協(xié)作類型工具箱。Cloudera是一家行業(yè)領(lǐng)先的Hadoop軟件和服務(wù)供應(yīng)商。Cloudera's Distribution forHadoop (CDH)是一個(gè)基于Apache Hadoop的綜合性數(shù)據(jù)管理平臺(tái),Cloudera Enterprise則包括一些工具、平臺(tái)和支持,供生產(chǎn)環(huán)境中使用Hadoop時(shí)使用。

圖書封面

圖書標(biāo)簽Tags

評(píng)論、評(píng)分、閱讀與下載


    Hadoop權(quán)威指南 PDF格式下載


用戶評(píng)論 (總計(jì)163條)

 
 

  •   海量數(shù)據(jù)處理是時(shí)代的趨勢(shì),hadoop是眾多開源框架中最火的一款,有大量的實(shí)際應(yīng)用項(xiàng)目。
    我看這本書就是為了學(xué)習(xí),尋找一新職位,從事海量數(shù)據(jù)分析處理工作。
    啊,數(shù)據(jù)才是王道
  •   本書結(jié)合理論和實(shí)踐,深入淺出地、全面地介紹了Hadoop這一高性能的大數(shù)據(jù)處理和分析工具,與同類書相比,本書確實(shí)具有權(quán)威性,是學(xué)習(xí)Hadoop的必備工具書。
  •   2011年6月29日,雅虎與風(fēng)投將成立霍頓公司,廣泛開展Hadoop業(yè)務(wù)。
    雅虎使用Hadoop軟件檢測(cè)和挑出雅虎郵件服務(wù)中的**郵件。Facebook和eBay等許多互聯(lián)網(wǎng)公司也使用Hadoop軟件分析大量的數(shù)據(jù),從而使Hadoop成為網(wǎng)站和移動(dòng)設(shè)備產(chǎn)生數(shù)字信息爆炸式增長這一環(huán)境中一個(gè)非常有價(jià)值的工具。
    分析師稱,基于Hadoop軟件的產(chǎn)品市場(chǎng)在未來幾年里的規(guī)模將達(dá)到數(shù)十億美元。
    再看看國內(nèi),在中國移動(dòng),Hadoop已經(jīng)成為一個(gè)重要的數(shù)據(jù)挖掘工具,中國移動(dòng)已經(jīng)把Hadoop的群用來進(jìn)行閉環(huán)的數(shù)據(jù)挖掘,和傳統(tǒng)算法的數(shù)據(jù)挖掘性能相比,有很大的提升,而且成本非常低。中國移動(dòng)也在整個(gè)工業(yè)界開始推動(dòng)大云和Hadoop的應(yīng)用,比如在北京、天津等的高新技術(shù)區(qū),安裝了大云平臺(tái),可以為政府在高新技術(shù)開發(fā)區(qū)的企業(yè)提供云計(jì)算服務(wù);其次在北郵、中科院計(jì)算所等高校和科研院所,也在開始安裝大云的平臺(tái);再有與諾西(即諾基亞-西門子)網(wǎng)絡(luò)、阿爾卡特等企業(yè)探討在他們的產(chǎn)品中使用云計(jì)算平臺(tái);最后還和國內(nèi)主流提供培訓(xùn)企業(yè)合作來培訓(xùn)和推廣云計(jì)算的技術(shù)。
    在國內(nèi),Hadoop招聘的google搜索在0.29秒時(shí)間內(nèi),就得到53.4萬條結(jié)果。Hadoop人才搶手。
  •   hadoop權(quán)威指南(第2版)修訂升級(jí)版
  •   本書是很多國內(nèi)外很多Hadoop書籍的參考來源,是最權(quán)威的、最詳盡(實(shí)例除外)的Hadoop教材。講的很深,從編程開發(fā),系統(tǒng)部署,系統(tǒng)調(diào)優(yōu)到Hadoop生態(tài)系統(tǒng)相關(guān)產(chǎn)品的介紹都有涵蓋。希望國內(nèi)盡快出版第三版,以跟得上Hadoop 0.21以上版本API和新的fea***e加入的步伐~
  •   Hadoop權(quán)威指南(第2版)比第一版強(qiáng)了不少,修改了不少錯(cuò)誤。
  •   這本書很好,但是對(duì)HBASE介紹的還是少了點(diǎn),相對(duì)于另外一本hadoop In action 來說寫的內(nèi)容更多,更全面
    hadoop in action 初學(xué)者 還是要看看,上面介紹了一些道理,也便于你以后深入學(xué)習(xí),看完hadoop實(shí)戰(zhàn)再來看這一本,理解比較快了
  •   盡管比較有名氣,但畢竟是翻譯的,多少有點(diǎn)讀起來不順口。但講的內(nèi)容確實(shí)不錯(cuò),前幾章的理論講的有點(diǎn)多,就顯的有點(diǎn)冗余了。也許是翻譯的原因,廢話有點(diǎn)多。但可以體會(huì)出作者是為了讓更多讀者看明白。之后又買了本薄的看的。初學(xué)者建議看實(shí)戰(zhàn)hodoop或者h(yuǎn)adoop開源云計(jì)算一類的書比較容易上手,后期看這本書比較好。
  •   非常不錯(cuò)的Hadoop權(quán)威指南
  •   Hadoop權(quán)威指南,hadoop中的經(jīng)典之作
  •   現(xiàn)在分布式是熱門,這本書算是hadoop比較出名的
  •   這本書比較實(shí)用,知識(shí)很全面,是hadoop的權(quán)威書籍
  •   這年頭誰不看hadoop都不好意思出門跟人家說大數(shù)據(jù)。
  •   Hadoop駕馭大數(shù)據(jù),非常好
  •   努力學(xué)習(xí)hadoop,決戰(zhàn)大數(shù)據(jù)時(shí)代
  •   hadoop大數(shù)據(jù)
  •   書的印刷質(zhì)量很好,內(nèi)容很有深度,對(duì)利用hadoop進(jìn)行數(shù)據(jù)挖掘人員來說是非常好的參考書。
  •   奧萊利的書,向來很好。開源的Hadoop,更新太快,書里面的使用版本已經(jīng)老了。
  •   對(duì)hadoop仰慕很久,這本書給了全面的指導(dǎo),可能理論還是有一些深。。。需要先看看陸嘉恒的《Hadoop實(shí)戰(zhàn)》(第2版)后會(huì)更好理解一些。。。
  •   學(xué)習(xí)hadoop的不二之選,作為工具學(xué)習(xí)的書很不錯(cuò),剛開始學(xué)沒有基礎(chǔ)的還是需要一本更基礎(chǔ)的配合看。總的來說,值得擁有。
  •   Hadoop真正的權(quán)威!和英文版對(duì)比起來閱讀很有收獲!不過真正落到項(xiàng)目中還有很多路要走!
  •   內(nèi)容如其書名,hadoop的權(quán)威寫的權(quán)威的書。
  •   最關(guān)鍵的一點(diǎn),翻譯的還不錯(cuò)。內(nèi)容,個(gè)人需要不同,對(duì)他評(píng)價(jià)也就各不一樣。對(duì)我來說,算是給我一個(gè)對(duì)hadoop的整體性了解,但是我關(guān)注的一些方面,在這本書上并沒有很深入的介紹??傮w來說,很滿意。
  •   安裝配置hadoop的時(shí)候買的,覺得很有幫助,基本上按照書上的步驟就能搭建成功,謝謝!
  •   早就想學(xué)hadoop了,看到這本書覺得很不錯(cuò),是大師作品,講解全面,涉及廣而不淺,值得購買
  •   內(nèi)容不錯(cuò)哈!如果能出Hadoop 2.0版的繼續(xù)賣哈!
  •   不錯(cuò)的一本書,根據(jù)本書可以熟悉了解hadoop
  •   作為現(xiàn)在最熱門的hadoop的指南,可以給大家很多幫助
  •   覺得不容易上手,對(duì)HADOOP本身介紹的不夠全面系統(tǒng),或許是因?yàn)槲沂切率?/li>
  •   對(duì)hadoop比較全面的介紹,包括搭建,優(yōu)化,debug,挺不錯(cuò)的
  •   big data處理的經(jīng)典之作,hadoop入門必讀
  •   云計(jì)算方興未艾,Hadoop不可或缺,這本書對(duì)Hadoop的介紹還不錯(cuò)
  •   hadoop相關(guān)的書很久之前就想買了,一直沒這種時(shí)間和機(jī)會(huì),最近的項(xiàng)目中會(huì)涉及到,今天終于如愿以償買了,其他地方?jīng)]這邊書,在當(dāng)當(dāng)上買到了,很高興很給力??!
  •   雖然紙張,封面不夠好.
    但是書是本好書.
    能大概了解一下hadoop.
  •   讀了一章,講的不錯(cuò),hadoop必備
  •   為技術(shù)儲(chǔ)備參考買的,暫時(shí)沒用過hadoop
  •   hadoop介紹的很詳細(xì)
  •   hadoop知識(shí)介紹的很全面,既可深入學(xué)習(xí),同時(shí)也可作為工具書查閱。
  •   這本書很適合,hadoop軟件開發(fā)人員的學(xué)習(xí)
  •   這本書我配合hadoop實(shí)戰(zhàn)看的,兩本書一起看才有效果,當(dāng)然只是個(gè)人看法另外,當(dāng)當(dāng)網(wǎng)發(fā)貨速度確實(shí)很快
  •   如果你想要學(xué)習(xí)Hadoop,那么這本書對(duì)于你來說她將是一本一本不可多得的書
  •   這本書超級(jí)棒,可以說是研究hadoop的必讀書目啦,從銷售量上就可見一斑,好書!
  •   很好的一本書,學(xué)習(xí)hadoop很有幫忙,雖然翻譯得還有些瑕疵
  •   感覺很好正是我想要的那本書,但是我建議第一本先看hadoop實(shí)戰(zhàn)
  •   這本書是我看到的最為詳盡的hadoop書籍,幾乎涵蓋了所有內(nèi)容。對(duì)第一版的內(nèi)容有所更新,贊一個(gè)。對(duì)正在研究hadoop的朋友是不錯(cuò)的選擇。
  •   Hadoop目前所出版的書中最好的一本,希望國內(nèi)盡快跟進(jìn)新版!
  •   很好的一本用來學(xué)習(xí)hadoop的書籍 可以作為計(jì)算機(jī)專業(yè)的學(xué)生的輔導(dǎo)書
  •   學(xué)習(xí)hadoop的必備的東西
  •   做為hadoop入門必備的書籍
  •   hadoop是個(gè)很好的框架,學(xué)好后有很大的前途。可惜內(nèi)容有很多都看不懂。。。
  •   書寫的很好,適合hadoop初學(xué)者,推薦購買!
  •   hadoop不錯(cuò)的啊
  •   hadoop 經(jīng)典圖書
  •   學(xué)習(xí)Hadoop 比較全面!
  •   學(xué)習(xí)hadoop必須看的書
  •   Hadoop的好書
  •   是理解Hadoop原理的一本好書,指引我們進(jìn)一步閱讀Hadoop源代碼
  •   hadoop入門學(xué)習(xí)
  •   以前就聽說過這本說,這才買來了終于~書的質(zhì)量沒的說,真的挺好。學(xué)習(xí)hadoop的入門書籍呵呵。
  •   是我們目前看過的hadoop的書里面,最有價(jià)值的一本
  •   云計(jì)算中,hadoop必備
  •   Hadoop的絕對(duì)教材~
  •   剛剛接觸hadoop 作為工具書收藏
  •   hadoop這塊最佳書籍
  •   講解著名的hadoop的經(jīng)典的書
  •   好書,學(xué)習(xí)Hadoop必備
  •   非常好的書。學(xué)習(xí)hadoop的好書。
  •   hadoop必備
  •   開始學(xué)習(xí)Hadoop,希望將來能在云計(jì)算方面有所建樹
  •   學(xué)習(xí)hadoop的必備書籍
  •   挺好的,為數(shù)不多的hadoop啊,
  •   經(jīng)典的HADOOp書
  •   正品,書很好,是學(xué)習(xí)hadoop必備的
  •   服務(wù)器大規(guī)模數(shù)據(jù)處理,mapreduce在google三大論文上看到的 ,還有一致性哈希,,
  •   不錯(cuò). MapReduce 說的很清楚
  •   目前我只關(guān)心zookeeper和HBase兩個(gè)章節(jié),不過瀏覽到其他內(nèi)容發(fā)現(xiàn)也介紹的很詳實(shí)。唯一的問題是翻譯教材的人還是應(yīng)該自己揣摩用詞才比較好,比如說“集群”書中會(huì)翻譯成“集合體”,感覺不夠?qū)I(yè),此類翻譯問題會(huì)讓很多讀者產(chǎn)生不爽
  •   權(quán)威的我看就2本,這個(gè)是最的,輕松應(yīng)對(duì)海量數(shù)據(jù)
  •   講得很全面,很透徹,簡單易懂。不愧為權(quán)威指南。
    不過里的天氣數(shù)據(jù)的例子,很不喜歡,要是直接選個(gè)
    互聯(lián)網(wǎng)應(yīng)用的例子講解,會(huì)更好
  •   本書前部分將的分布式文件系統(tǒng)的理論,后面講解了如何使用,以及幾個(gè)框架的使用,書中代碼java為主,還有C++,python
  •   專業(yè)書籍,海量書籍處理,你懂得
  •   建議先看完MongoDB權(quán)威指南后再看,升級(jí)必備。
  •   不愧是權(quán)威指南,書很好,很實(shí)用,現(xiàn)在出第三版了,可是國內(nèi)沒有紙質(zhì)版~!
  •   google和Facebook采用的開源項(xiàng)目,足夠的說服力證明系統(tǒng)的優(yōu)越性。新手和老手,都值得學(xué)習(xí)參考。剛拿到書,研讀中謝謝在UCWeb的好友——子鴻——的推薦!這里轉(zhuǎn)推薦給致力于提高服務(wù)器效率的朋友們!
  •   大數(shù)據(jù)處理必讀,經(jīng)典
  •   權(quán)威的指南,非常細(xì)節(jié),
  •   不愧是權(quán)威指南,性價(jià)比也很高
  •   書如其名,果然是權(quán)威指南
  •   開始接觸分布式的時(shí)候讀的書,可以幫助了解大概的情況。
  •   由于目前市場(chǎng)很多對(duì)分布式和云計(jì)算的要求不斷增加,想找本書提高提高自己,經(jīng)過推薦和查看評(píng)論,這本書相對(duì)不錯(cuò),拿到手了,興奮中。。。。。。
  •   很快就收到了,很喜歡 ,學(xué)習(xí)分布式很不錯(cuò)的一本書
  •   非常經(jīng)典哦,大數(shù)據(jù),數(shù)據(jù)挖掘必知
  •   好書,譯的也不錯(cuò),看過以后有收獲,想在分布式計(jì)算領(lǐng)域有收獲的朋友推薦閱讀
  •   正好現(xiàn)在需要分布式存儲(chǔ)和計(jì)算!學(xué)習(xí)實(shí)戰(zhàn)中!
  •   確實(shí)權(quán)威,給予我很大的幫助,對(duì)于有需要的人那是太有用了。
  •   確實(shí)是權(quán)威,需要好好研究研究
  •   果真權(quán)威
  •   權(quán)威專業(yè)用書,不錯(cuò),學(xué)習(xí)有幫助
  •   hadhoop權(quán)威,還沒仔細(xì)看呢,等有空看看
  •   權(quán)威專業(yè)用書,不錯(cuò),很有用
  •   非常適合當(dāng)工具書,另外也是不錯(cuò)的學(xué)習(xí)材料,云計(jì)算程序員必備的.
 

250萬本中文圖書簡介、評(píng)論、評(píng)分,PDF格式免費(fèi)下載。 第一圖書網(wǎng) 手機(jī)版

京ICP備13047387號(hào)-7