出版時間:2011-5 出版社:東南大學(xué)出版社 作者:Tom White 頁數(shù):600
Tag標簽:無
前言
據(jù)2011年4月圣地亞哥大學(xué)公布的報告,2008年全球兩千七百萬臺服務(wù)器處理的數(shù)據(jù)量已達9.57ZB。如何有效管理和高效處理這些海量數(shù)據(jù)已成為當(dāng)前亟待解決的問題。另外,三大類海量數(shù)據(jù)——商業(yè)數(shù)據(jù)、科學(xué)數(shù)據(jù)、網(wǎng)頁數(shù)據(jù)——的異構(gòu)性(結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù))又進一步加劇了海量數(shù)據(jù)處理的難度。2011年2月出版的《科學(xué)》雜志刊登專題“Special Online Collection: Dealing with Data”,圍繞著目前各類數(shù)據(jù)量的激增展開討論,認為海量數(shù)據(jù)的收集、維護和使用已成為科學(xué)研究的主要工作。對許多學(xué)科而言,海量數(shù)據(jù)處理意味著更嚴峻的挑戰(zhàn),然而更好地管理和處理這些數(shù)據(jù)也將會獲得意想不到的收獲。關(guān)系型數(shù)據(jù)庫系統(tǒng)的研究在數(shù)據(jù)管理方面積累較多經(jīng)驗。20世紀70年代,關(guān)系模型的提出以及IBM System R 和伯克利Ingres的成功開發(fā),證明了關(guān)系型數(shù)據(jù)庫系統(tǒng)處理商業(yè)數(shù)據(jù)的優(yōu)越性。20世紀80年代,由此模型派生出的IBM DB2,Sybase SQL Server、Oracle Database等以聯(lián)機事務(wù)處理(OLTP)為主的數(shù)據(jù)庫系統(tǒng)的蓬勃發(fā)展,使數(shù)據(jù)庫系統(tǒng)得以充分的商業(yè)化。20世紀90年代,W. H. Inmon提出的整合歷史數(shù)據(jù),通過在線分析(OLAP)和數(shù)據(jù)挖掘等方法實現(xiàn)商業(yè)規(guī)劃、決策支持等商業(yè)智能服務(wù)的數(shù)據(jù)倉庫系統(tǒng),為數(shù)據(jù)庫系統(tǒng)的應(yīng)用翻開了嶄新的篇章。然而,面對當(dāng)下的海量數(shù)據(jù),這一近40年歷史、一體適用(one size fits all)的數(shù)據(jù)庫系統(tǒng)架構(gòu)顯得老態(tài)龍鐘,力不從心,逐漸無法應(yīng)對當(dāng)前的需求。自從2003年以來,谷歌陸續(xù)發(fā)布GFS和MapReduce等高可擴展、高性能的分布式海量數(shù)據(jù)處理框架,并證明了該框架在處理海量網(wǎng)頁數(shù)據(jù)時的優(yōu)越性。該框架實現(xiàn)了更高應(yīng)用層次的抽象,使用戶無需關(guān)注復(fù)雜的內(nèi)部工作機制,無需具備豐富的分布式系統(tǒng)知識及開發(fā)經(jīng)驗,即可實現(xiàn)大規(guī)模分布式系統(tǒng)的部署與海量數(shù)據(jù)的并行處理。Apache Hadoop開源項目克隆了這一框架,推出了Hadoop系統(tǒng)。該系統(tǒng)已受到學(xué)術(shù)界和工業(yè)界的廣泛認可和采納,并孵化出眾多子項目(如Pig,Zookeeper和Hive等),日益形成一個易部署、易開發(fā)、功能齊全、性能優(yōu)良的系統(tǒng)。華東師范大學(xué)海量計算研究所從2006年開始從事海量數(shù)據(jù)方面的研究,且在集群(288核,40TB存儲)上部署了Hadoop系統(tǒng),并成功完成多項研究。多年來從事海量數(shù)據(jù)學(xué)術(shù)研究和項目實施的相關(guān)經(jīng)歷,使得我們對Hadoop系統(tǒng)及其開發(fā)有了較深入的理解和認識,并在Hadoop部署、調(diào)優(yōu)和優(yōu)化等方面積累了豐富的經(jīng)驗。2010年,Hadoop項目負責(zé)人Tom White的《Hadoop權(quán)威指南》出版第2版。這本書內(nèi)容組織得很好,思路清晰,緊密結(jié)合了實際問題。
內(nèi)容概要
揭示了Apache
Hadoop如何為你釋放數(shù)據(jù)的力量。這本內(nèi)容全面的書籍展示了如何使用Hadoop架構(gòu)搭建和維護可靠、可伸縮的分布式系統(tǒng)。Hadoop架構(gòu)是MapReduce算法的一種開源應(yīng)用,是Google開創(chuàng)其帝國的重要基石。程序員可從中探索如何分析海量數(shù)據(jù)集,管理員可以了解如何建立與運行Hadoop集群。
《Hadoop權(quán)威指南(影印版第2版修訂版)》涵蓋了Hadoop最近的更新,包括諸如Hive、Sqoop和Avro之類的新特性。它也提供了案例學(xué)習(xí)來展示Hadoop如何解決特殊問題。期待盡情享受你的數(shù)據(jù)?這就是你要的書。本身由Tom
White著。
作者簡介
Tom White從2007年起就是Apache
Hadoop的理事。他是Apache軟件基金會的成員和Cloudera的工程師。Tom為oreilly.com,java.net~llBM的developerWorks撰文,并為業(yè)內(nèi)會議演講。
書籍目錄
Foreword
Preface
1. Meet Hadoop
Data!
Data Storage and Analysis
Comparison with Other Systems
RDBMS
Grid Computing
Volunteer Computing
A Brief History of Hadoop
Apache Hadoop and the Hadoop Ecosystem
2. MapReduce
A Weather Dataset
Data Format
Analyzing the Data with Unix Tools
Analyzing the Data with Hadoop
Map and Reduce
Java MapReduce
Scaling Out
Data Flow
Combiner Functions
Running a Distributed MapReduce Job
Hadoop Streaming
Ruby
Python
Hadoop Pipes
Compiling and Running
3. The Hadoop Distributed Filesystem
The Design of HDFS
HDFS Concepts
Blocks
Namenodes and Datanodes
The Command-Line Interface
Basic Filesystem Operations
Hadoop Filesystems
Interfaces
The Java Interface
Reading Data from a Hadoop URL
Reading Data Using the FileSystem API
Writing Data
Directories
Querying the Filesystem
Deleting Data
Data Flow.
Anatomy of a File Read
Anatomy of a File Write
Coherency Model
Parallel Copying with distcp
Keeping an HDFS Cluster Balanced
Hadoop Archives
Using Hadoop Archives
Limitations
4. Hadoop I/0
Data Integrity
Data Integrity in HDFS
LocalFileSystem
ChecksumFileSystem
Compression
Codecs
Compression and Input Splits
Using Compression in MapReduce
Serialization
The Writable Interface
Writable Classes
Implementing a Custom Writable
Serialization Frameworks
Avro
File-Based Data Structures
SequenceFile
……
章節(jié)摘錄
版權(quán)頁:插圖:Hadoop起源于Nutch項目。我們曾嘗試構(gòu)建一個開源的Web搜索引擎,但是始終無法有效地將計算任務(wù)分配到多臺(也就寥寥幾臺)計算機上。直到谷歌公司發(fā)表GFS和MapReduce的相關(guān)論文,我們的思路才清晰起來。他們設(shè)計的系統(tǒng)已可精準地解決我們在Nutch項目中面臨的困境。因此,我們(兩個半天工作制的人)也嘗試重建這些系統(tǒng),將其作為Nutch的一部分。我們成功地在20多臺機器上運行了Nutch。但是我們很快就意識到,只有在幾千臺機器上運行Nutch才能夠應(yīng)付Web的超大規(guī)模,但這個工作量遠遠不是兩個半天工作制的開發(fā)人員能搞定的。幾乎就在那個時候,雅虎公司也對這項技術(shù)產(chǎn)生了濃厚的興趣,并迅速組建了一支開發(fā)團隊。我有幸成為其中一員。我們剝離了Nutch的分布式計算模塊,將其稱為Hadoop。在雅虎的幫助下,Hadoop很快就能夠真正處理Web數(shù)據(jù)了。從2006年起,Tom White就對Hadoop貢獻良多。我很早以前通過他的一篇非常優(yōu)秀的有關(guān)Nutch的論文認識了他,在這篇論文中,他以一種優(yōu)美的筆調(diào)清晰地闡述了深刻的想法。很快,我發(fā)現(xiàn)他開發(fā)的軟件也同樣優(yōu)美且易于理解。Tom從一開始就樂于站在用戶和項目的角度來考慮問題。與其他開源程序開發(fā)人員不同,Tom不會刻意調(diào)整系統(tǒng)使其更加符合他個人的需要,而是盡可能地讓所有用戶用起來都很方便。Tom最初專注于如何讓Hadoop在亞馬遜的EC2和S3服務(wù)上運行良好。之后,他轉(zhuǎn)而解決更為廣泛的難題,包括如何提高MapReduce API,如增加強網(wǎng)站,如何設(shè)計對象序列化框架,等等。在所有工作中,Tom都非常精準地闡明了想法。在很短的時間里,Tom進入了Hadoop委員會,并在不久之后成為Hadoop項目管理委員會的一員?,F(xiàn)在,Tom是一個受人尊敬的Hadoop開發(fā)社區(qū)的高級成員。盡管他是這個項目多個技術(shù)領(lǐng)域的專家,但他的專長是使Hadoop易于理解和使用。因此,當(dāng)我得知Tom有意寫一本關(guān)于Hadoop的書時,我非常高興。是的,誰能夠比他更勝任呢?現(xiàn)在,你們有機會向這位大師學(xué)習(xí)Hadoop——不單單是技術(shù),也包括一些常識和通俗的筆調(diào)。
媒體關(guān)注與評論
“有了這本權(quán)威指南,讀者有機會通過大師的手筆來學(xué)習(xí)Hadoop——在掌握技術(shù)的同時,領(lǐng)略作者的睿智和清晰的文風(fēng)?!薄 狧adoop創(chuàng)始人 Doug Cutting于Cloudera
編輯推薦
《Hadoop權(quán)威指南(第2版)(修訂?升級版)》編輯推薦:Google帝國的基石是什么?MapReduce算法!開源項目Hadoop作為它的一個具體實現(xiàn),可以輕松用于構(gòu)建和維護一個可靠性高、伸縮性強的分布式系統(tǒng)。作者Tom White作為Hadoop的項目負責(zé)人,通過自己對Hadoop和Hadoop社區(qū)的理解,化繁為簡,用淺顯易懂的語言介紹了Hadoop能做什么,怎么做才能充分發(fā)揮Hadoop的優(yōu)勢,Hadoop能夠和哪些開源工具結(jié)合使用。《Hadoop權(quán)威指南(第2版)》是一本主題豐富、講解透徹的權(quán)威參考書,可幫助程序員了解分析海量數(shù)據(jù)集的細枝末節(jié),幫助管理員掌握搭建和運行Hadoop集群的具體過程。經(jīng)過修訂和更新的第2版概述了Hadoop的最新動態(tài),例如Hive、sqoop和Avro等。書中還提供了案例分析來幫助讀者了解如何用Hadoop來解決具體的問題。如果想充分利用數(shù)據(jù),從中挖掘出有價值的見解或者觀點,毫無疑問,《Hadoop權(quán)威指南(第2版)(修訂?升級版)》將是您不可或缺的重要參考?!罢l說大象不能跳舞?Hadoop-輕松應(yīng)對海量數(shù)據(jù)存儲與分析所帶來的挑戰(zhàn)!”使用Hadoop分布式文件系統(tǒng)(HDFS)來存儲大型數(shù)據(jù)集,然后用MapReduce對這些數(shù)據(jù)II執(zhí)行分布式計算。Hadoop的數(shù)據(jù)和I/O構(gòu)建塊(用于壓縮、數(shù)據(jù)完整性、序列化和持久處理)。探究MapReduce應(yīng)用開發(fā)中常見的陷阱和高級特性。設(shè)計,構(gòu)建和管理Hadoop專用集群或在云上運行Hadoop。使用Pig這種高級的查詢語言來進行大規(guī)模數(shù)據(jù)處理。使用Hive(Hadoop的數(shù)據(jù)倉庫系統(tǒng))來分析數(shù)據(jù)集。使用HBase(Hadoop的數(shù)據(jù)庫)來處理結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)。深入介紹Zookeeper,一個用于構(gòu)建分布式系統(tǒng)的協(xié)作類型工具箱。Cloudera是一家行業(yè)領(lǐng)先的Hadoop軟件和服務(wù)供應(yīng)商。Cloudera's Distribution forHadoop (CDH)是一個基于Apache Hadoop的綜合性數(shù)據(jù)管理平臺,Cloudera Enterprise則包括一些工具、平臺和支持,供生產(chǎn)環(huán)境中使用Hadoop時使用。
圖書封面
圖書標簽Tags
無
評論、評分、閱讀與下載