出版時(shí)間:2013-1 出版社:機(jī)械工業(yè)出版社 作者:(美)Kai Hwang,(美)Geoffrey C Fox,(美)Jack J Dongarra 譯者:武永衛(wèi),秦中元,李振宇,鈕艷
Tag標(biāo)簽:無(wú)
內(nèi)容概要
隨著信息技術(shù)的廣泛應(yīng)用和快速發(fā)展,云計(jì)算作為一種新興的商業(yè)計(jì)算模型日益受到人們的廣泛關(guān)注。本書是一本完整講述云計(jì)算與分布式系統(tǒng)基本理論及其應(yīng)用的教材。書中從現(xiàn)代分布式模型概述開始,介紹了并行、分布式與云計(jì)算系統(tǒng)的設(shè)計(jì)原理、系統(tǒng)體系結(jié)構(gòu)和創(chuàng)新應(yīng)用,并通過(guò)開源應(yīng)用和商業(yè)應(yīng)用例子,闡述了如何為科研、電子商務(wù)、社會(huì)網(wǎng)絡(luò)和超級(jí)計(jì)算等創(chuàng)建高性能、可擴(kuò)展的、可靠的系統(tǒng)。
本書特色
? 全面覆蓋現(xiàn)代分布式計(jì)算技術(shù),包括集群、網(wǎng)格、面向服務(wù)的體系結(jié)構(gòu)、大規(guī)模并行處理器、對(duì)等網(wǎng)絡(luò)和云計(jì)算。
? 提供的案例研究來(lái)自主流分布式計(jì)算供應(yīng)商,如亞馬遜、微軟、谷歌等。
? 解釋如何利用虛擬化來(lái)促進(jìn)管理、調(diào)試、遷移和災(zāi)難恢復(fù)。
? 專為本科生或研究生的分布式系統(tǒng)課程而設(shè)計(jì)——每章后都配有習(xí)題和進(jìn)一步閱讀建議,并為教師提供配套的PPT等教輔資源。
作者簡(jiǎn)介
作者:(美國(guó))黃鎧(Kai Hwang) (美國(guó))??怂梗℅eoffrey C. Fox)(美國(guó))唐加拉(Jack J. Dongarra) 譯者:武永衛(wèi) 秦中元 李振宇 鈕艷 Kai Hwang(黃鎧),擁有加州大學(xué)伯克利分校博士學(xué)位?,F(xiàn)為美國(guó)南加州大學(xué)電子工程與計(jì)算機(jī)科學(xué)終身教授,并先后擔(dān)任清華大學(xué)計(jì)算機(jī)與網(wǎng)絡(luò)系統(tǒng)方面EMC講座教授、分布式與云計(jì)算IV講習(xí)教授組的首席講座教授。他曾獲中國(guó)計(jì)算機(jī)學(xué)會(huì)頒發(fā)的第一屆(2004年)海外杰出學(xué)者獎(jiǎng),并于2012年獲得國(guó)際(IEEE)云計(jì)算大會(huì)(CloudCom)的終身成就獎(jiǎng)。 Geoffrey C. Fox,美國(guó)印第安納大學(xué)計(jì)算機(jī)科學(xué)、信息與物理學(xué)院的杰出教授和院長(zhǎng)。他畢業(yè)于英國(guó)劍橋大學(xué),在并行與分布式計(jì)算方面著作豐碩。他曾任職加州理工學(xué)院、Syracuse等校,指導(dǎo)畢業(yè)了60余位博士生。他目前也是清華大學(xué)的IV講座訪問(wèn)教授。 Jack J. Dongarra,美國(guó)田納西大學(xué)電子工程與計(jì)算機(jī)科學(xué)杰出教授,美國(guó)橡樹嶺國(guó)家實(shí)驗(yàn)室首席研究員。他是世界知名的超級(jí)計(jì)算機(jī)與并行計(jì)算專家,也是美國(guó)工程院院士,清華大學(xué)的IV講座訪問(wèn)教授。
書籍目錄
出版者的話 中文版序 序 前言 第一部分 系統(tǒng)建模、集群化和虛擬化 第1章 分布式系統(tǒng)模型和關(guān)鍵技術(shù) 1.1 互聯(lián)網(wǎng)之上的可擴(kuò)展計(jì)算 1.1.1 互聯(lián)網(wǎng)計(jì)算的時(shí)代 1.1.2 可擴(kuò)展性計(jì)算趨勢(shì)和新的范式 1.1.3 物聯(lián)網(wǎng)和CPS 1.2 基于網(wǎng)絡(luò)的系統(tǒng)技術(shù) 1.2.1 多核CPU和多線程技術(shù) 1.2.2 大規(guī)模和超大規(guī)模GPU計(jì)算 1.2.3 內(nèi)存、外部存儲(chǔ)和廣域網(wǎng) 1.2.4 虛擬機(jī)和虛擬化中間件 1.2.5 云計(jì)算的數(shù)據(jù)中心虛擬化 1.3 分布式和云計(jì)算系統(tǒng)模型 1.3.1 協(xié)同計(jì)算機(jī)集群 1.3.2 網(wǎng)格計(jì)算的基礎(chǔ)設(shè)施 1.3.3 對(duì)等網(wǎng)絡(luò)家族 1.3.4 互聯(lián)網(wǎng)上的云計(jì)算 1.4 分布式系統(tǒng)和云計(jì)算軟件環(huán)境 1.4.1 面向服務(wù)的體系結(jié)構(gòu)(SOA) 1.4.2 分布式操作系統(tǒng)趨勢(shì) 1.4.3 并行和分布式編程模型 1.5 性能、安全和節(jié)能 1.5.1 性能度量和可擴(kuò)展性分析 1.5.2 容錯(cuò)和系統(tǒng)可用性 1.5.3 網(wǎng)絡(luò)威脅與數(shù)據(jù)完整性 1.5.4 分布式計(jì)算中的節(jié)能 1.6 參考文獻(xiàn)和習(xí)題 第2章 可擴(kuò)展并行計(jì)算集群 2.1 大規(guī)模并行集群 2.1.1 集群發(fā)展趨勢(shì) 2.1.2 計(jì)算機(jī)集群的設(shè)計(jì)宗旨 2.1.3 基礎(chǔ)集群設(shè)計(jì)問(wèn)題 2.1.4 Top500超級(jí)計(jì)算機(jī)分析 2.2 計(jì)算機(jī)集群和MPP體系結(jié)構(gòu) 2.2.1 集群組織和資源共享 2.2.2 節(jié)點(diǎn)結(jié)構(gòu)和MPP封裝 2.2.3 集群系統(tǒng)互連 2.2.4 硬件、軟件和中間件支持 2.2.5 大規(guī)模并行GPU集群 2.3 計(jì)算機(jī)集群的設(shè)計(jì)原則 2.3.1 單系統(tǒng)鏡像特征 2.3.2 冗余高可用性 2.3.3 容錯(cuò)集群配置 2.3.4 檢查點(diǎn)和恢復(fù)技術(shù) 2.4 集群作業(yè)和資源管理 2.4.1 集群作業(yè)調(diào)度方法 2.4.2 集群作業(yè)管理系統(tǒng) 2.4.3 集群計(jì)算的負(fù)載共享設(shè)備(LSF) 2.4.4 MOSIX: Linux集群和云的操作系統(tǒng) 2.5 頂尖超級(jí)計(jì)算機(jī)系統(tǒng)的個(gè)案研究 2.5.1 Tianhe1A:2010年的世界最快超級(jí)計(jì)算機(jī) 2.5.2 Gray XT5 Jaguar:2009年的領(lǐng)先超級(jí)計(jì)算機(jī) 2.5.3 IBM Roadrunner:2008年的領(lǐng)先超級(jí)計(jì)算機(jī) 2.6 參考文獻(xiàn)和習(xí)題 第3章 虛擬機(jī)和集群與數(shù)據(jù)中心虛擬化 3.1 虛擬化的實(shí)現(xiàn)層次 3.1.1 虛擬化實(shí)現(xiàn)的層次 3.1.2 VMM的設(shè)計(jì)需求和提供商 3.1.3 操作系統(tǒng)級(jí)的虛擬化支持 3.1.4 虛擬化的中間件支持 3.2 虛擬化的結(jié)構(gòu)/工具與機(jī)制 3.2.1 hypervisor與Xen體系結(jié)構(gòu) 3.2.2 全虛擬化的二進(jìn)制翻譯 3.2.3 編譯器支持的半虛擬化技術(shù) 3.3 CPU、內(nèi)存和I/O設(shè)備的虛擬化 3.3.1 虛擬化的硬件支持 3.3.2 CPU虛擬化 3.3.3 內(nèi)存虛擬化 3.3.4 I/O虛擬化 3.3.5 多核處理器的虛擬化 3.4 虛擬集群和資源管理 3.4.1 物理集群與虛擬集群 3.4.2 在線遷移虛擬機(jī)的步驟與性能影響 3.4.3 內(nèi)存、文件與網(wǎng)絡(luò)資源的遷移 3.4.4 虛擬集群的動(dòng)態(tài)部署 3.5 數(shù)據(jù)中心的自動(dòng)化與虛擬化 3.5.1 數(shù)據(jù)中心服務(wù)器合并 3.5.2 虛擬存儲(chǔ)管理 3.5.3 虛擬化數(shù)據(jù)中心的云操作系統(tǒng) 3.5.4 虛擬化數(shù)據(jù)中心的可信管理 3.6 參考文獻(xiàn)與習(xí)題 第二部分 云平臺(tái)、面向服務(wù)的體系結(jié)構(gòu)和云編程 第4章 構(gòu)建在虛擬化數(shù)據(jù)中心上的云平臺(tái)體系結(jié)構(gòu) 4.1 云計(jì)算和服務(wù)模型 4.1.1 公有云、私有云和混合云 4.1.2 云生態(tài)系統(tǒng)和關(guān)鍵技術(shù) 4.1.3 基礎(chǔ)設(shè)施即服務(wù)(IaaS) 4.1.4 平臺(tái)即服務(wù) (PaaS) 和軟件即服務(wù)(SaaS) 4.2 數(shù)據(jù)中心設(shè)計(jì)與互連網(wǎng)絡(luò) 4.2.1 倉(cāng)庫(kù)規(guī)模的數(shù)據(jù)中心設(shè)計(jì) 4.2.2 數(shù)據(jù)中心互連網(wǎng)絡(luò) 4.2.3 運(yùn)送集裝器的模塊化數(shù)據(jù)中心 4.2.4 模塊化數(shù)據(jù)中心的互連 4.2.5 數(shù)據(jù)中心管理問(wèn)題 4.3 計(jì)算與存儲(chǔ)云的體系結(jié)構(gòu)設(shè)計(jì) 4.3.1 通用的云體系結(jié)構(gòu)設(shè)計(jì) 4.3.2 層次化的云體系結(jié)構(gòu)開發(fā) 4.3.3 虛擬化支持和災(zāi)難恢復(fù) 4.3.4 體系結(jié)構(gòu)設(shè)計(jì)挑戰(zhàn) 4.4 公有云平臺(tái):GAE、AWS和Azure 4.4.1 公有云及其服務(wù)選項(xiàng) 4.4.2 谷歌應(yīng)用引擎(GAE) 4.4.3 亞馬遜的Web服務(wù)(AWS) 4.4.4 微軟的Windows Azure 4.5 云間的資源管理 4.5.1 擴(kuò)展的云計(jì)算服務(wù) 4.5.2 資源配置和平臺(tái)部署 4.5.3 虛擬機(jī)創(chuàng)建和管理 4.5.4 云資源的全球交易 4.6 云安全與信任管理 4.6.1 云安全的防御策略 4.6.2 分布式入侵/異常檢測(cè) 4.6.3 數(shù)據(jù)和軟件保護(hù)技術(shù) 4.6.4 數(shù)據(jù)中心的信譽(yù)指導(dǎo)保護(hù) 4.7 參考文獻(xiàn)與習(xí)題 第5章 面向服務(wù)的分布式體系結(jié)構(gòu) 5.1 服務(wù)和面向服務(wù)的體系結(jié)構(gòu) 5.1.1 REST和系統(tǒng)的系統(tǒng) 5.1.2 服務(wù)和Web服務(wù) 5.1.3 企業(yè)多層體系結(jié)構(gòu) 5.1.4 網(wǎng)格服務(wù)和OGSA 5.1.5 其他的面向服務(wù)的體系結(jié)構(gòu)和系統(tǒng) 5.2 面向消息的中間件 5.2.1 企業(yè)總線 5.2.2 發(fā)布—訂閱模型和通知 5.2.3 隊(duì)列和消息傳遞系統(tǒng) 5.2.4 云或網(wǎng)格中間件應(yīng)用 5.3 門戶和科學(xué)網(wǎng)關(guān) 5.3.1 科學(xué)網(wǎng)關(guān)樣例 5.3.2 科學(xué)協(xié)作的HUBzero平臺(tái) 5.3.3 開放網(wǎng)關(guān)計(jì)算環(huán)境(OGCE) 5.4 發(fā)現(xiàn)、注冊(cè)表、元數(shù)據(jù)和數(shù)據(jù)庫(kù) 5.4.1 UDDI和服務(wù)注冊(cè)表 5.4.2 數(shù)據(jù)庫(kù)和訂閱—發(fā)布 5.4.3 元數(shù)據(jù)目錄 5.4.4 語(yǔ)義Web和網(wǎng)格 5.4.5 作業(yè)執(zhí)行環(huán)境和監(jiān)控 5.5 面向服務(wù)的體系結(jié)構(gòu)中的工作流 5.5.1 工作流的基本概念 5.5.2 工作流標(biāo)準(zhǔn) 5.5.3 工作流體系結(jié)構(gòu)和規(guī)范 5.5.4 工作流運(yùn)行引擎 5.5.5 腳本工作流系統(tǒng)Swift 5.6 參考文獻(xiàn)與習(xí)題 第6章 云編程和軟件環(huán)境 6.1 云和網(wǎng)格平臺(tái)的特性 6.1.1 云的功能和平臺(tái)的特性 6.1.2 網(wǎng)格和云的公共傳統(tǒng)特性 6.1.3 數(shù)據(jù)特性和數(shù)據(jù)庫(kù) 6.1.4 編程和運(yùn)行時(shí)支持 6.2 并行和分布式編程范式 6.2.1 并行計(jì)算和編程范式 6.2.2 MapReduce、Twister和迭代MapReduce 6.2.3 來(lái)自Apache的Hadoop軟件庫(kù) 6.2.4 微軟的Dryad和DryadLINQ 6.2.5 Sawzall和Pig Latin高級(jí)語(yǔ)言 6.2.6 并行和分布式系統(tǒng)的映射應(yīng)用 6.3 GAE的編程支持 6.3.1 GAE編程 6.3.2 谷歌文件系統(tǒng)(GFS) 6.3.3 BigTable——谷歌的NOSQL系統(tǒng) 6.3.4 Chubby——谷歌的分布式鎖服務(wù) 6.4 亞馬遜AWS與微軟Azure中的編程 6.4.1 亞馬遜EC2上的編程 6.4.2 亞馬遜簡(jiǎn)單存儲(chǔ)服務(wù)(S3) 6.4.3 亞馬遜彈性數(shù)據(jù)塊存儲(chǔ)服務(wù)(EBS)和SimpleDB 6.4.4 微軟Azure編程支持 6.5 新興云軟件環(huán)境 6.5.1 開源的Eucalyptus和Nimbus 6.5.2 OpenNebula、Sector/Sphere和Open Stack 6.5.3 Manjrasoft Aneka云和工具機(jī) 6.6 參考文獻(xiàn)與習(xí)題 第三部分 網(wǎng)格、P2P和未來(lái)互聯(lián)網(wǎng) 第7章 網(wǎng)格計(jì)算系統(tǒng)和資源管理 7.1 網(wǎng)格體系結(jié)構(gòu)和服務(wù)建模 7.1.1 網(wǎng)格歷史與服務(wù)類別 7.1.2 CPU清除和虛擬超級(jí)計(jì)算機(jī) 7.1.3 開放網(wǎng)格服務(wù)體系結(jié)構(gòu)(OGSA) 7.1.4 數(shù)據(jù)密集型網(wǎng)格服務(wù)模型 7.2 網(wǎng)格項(xiàng)目和網(wǎng)格系統(tǒng)創(chuàng)建 7.2.1 國(guó)家網(wǎng)格和國(guó)際項(xiàng)目 7.2.2 美國(guó)的NSF TeraGrid 7.2.3 歐盟的DataGrid 7.2.4 ChinaGrid設(shè)計(jì)經(jīng)驗(yàn) 7.3 網(wǎng)格資源管理和資源中介 7.3.1 資源管理和作業(yè)調(diào)度 7.3.2 CGSP的網(wǎng)格資源監(jiān)控 7.3.3 服務(wù)記賬和經(jīng)濟(jì)模型 7.3.4 Gridbus的資源中介 7.4 網(wǎng)格計(jì)算的軟件與中間件 7.4.1 開源網(wǎng)格中間件包 7.4.2 Globus Tookit體系結(jié)構(gòu)(GT4) 7.4.3 集裝器和資源/數(shù)據(jù)管理 7.4.4 ChinaGrid支持平臺(tái)(CGSP) 7.5 網(wǎng)格應(yīng)用趨勢(shì)和安全措施 7.5.1 網(wǎng)格應(yīng)用技術(shù)融合 7.5.2 網(wǎng)格負(fù)載與性能預(yù)測(cè) 7.5.3 網(wǎng)格安全執(zhí)行的信任模型 7.5.4 認(rèn)證與授權(quán)方法 7.5.5 網(wǎng)格安全基礎(chǔ)設(shè)施(GSI) 7.6 參考文獻(xiàn)與習(xí)題 第8章 對(duì)等計(jì)算和覆蓋網(wǎng)絡(luò) 8.1 P2P計(jì)算系統(tǒng) 8.1.1 P2P計(jì)算系統(tǒng)的基本概念 8.1.2 P2P計(jì)算面臨的基礎(chǔ)挑戰(zhàn) 8.1.3 P2P網(wǎng)絡(luò)系統(tǒng)分類 8.2 P2P覆蓋網(wǎng)絡(luò)及其性質(zhì) 8.2.1 無(wú)結(jié)構(gòu)P2P覆蓋網(wǎng)絡(luò) 8.2.2 分布式哈希表(DHT) 8.2.3 結(jié)構(gòu)化P2P覆蓋網(wǎng)絡(luò) 8.2.4 混合式覆蓋網(wǎng)絡(luò) 8.3 路由、鄰近性和容錯(cuò) 8.3.1 P2P覆蓋網(wǎng)絡(luò)的路由 8.3.2 P2P覆蓋網(wǎng)絡(luò)中的網(wǎng)絡(luò)鄰近性 8.3.3 容錯(cuò)和失效恢復(fù) 8.3.4 抗擾動(dòng)與失效 8.4 信任、信譽(yù)和安全管理 8.4.1 節(jié)點(diǎn)信任和信譽(yù)系統(tǒng) 8.4.2 信任覆蓋網(wǎng)絡(luò)和DHT實(shí)現(xiàn) 8.4.3 PowerTrust:可擴(kuò)展的信譽(yù)系統(tǒng) 8.4.4 加強(qiáng)覆蓋網(wǎng)絡(luò)安全,抵御DDoS攻擊 8.5 P2P文件共享和版權(quán)保護(hù) 8.5.1 快速搜索、副本和一致性 8.5.2 P2P內(nèi)容分發(fā)網(wǎng)絡(luò) 8.5.3 版權(quán)保護(hù)問(wèn)題和解決方案 8.5.4 P2P網(wǎng)絡(luò)中的共謀盜版預(yù)防 8.6 參考文獻(xiàn)與習(xí)題 第9章 普適云計(jì)算、物聯(lián)網(wǎng)與社會(huì)網(wǎng)絡(luò) 9.1 支持普適計(jì)算的云趨勢(shì) 9.1.1 云計(jì)算在HPC/HTC和普適計(jì)算中的應(yīng)用 9.1.2 NASA和CERN的大規(guī)模私有云 9.1.3 靈活和可擴(kuò)展的云混搭系統(tǒng) 9.1.4 移動(dòng)云計(jì)算平臺(tái)Cloudlet 9.2 分布式系統(tǒng)和云的性能 9.2.1 科研云綜述 9.2.2 數(shù)據(jù)密集型擴(kuò)展計(jì)算(DISC) 9.2.3 HPC/HTC系統(tǒng)的性能指標(biāo) 9.2.4 云計(jì)算的服務(wù)質(zhì)量 9.2.5 MPI、Azure、EC2、MapReduce、Hadoop的基準(zhǔn)測(cè)試 9.3 物聯(lián)網(wǎng)關(guān)鍵技術(shù) 9.3.1 實(shí)現(xiàn)普適計(jì)算的物聯(lián)網(wǎng) 9.3.2 射頻標(biāo)識(shí)(RFID) 9.3.3 傳感器網(wǎng)絡(luò)和ZigBee技術(shù) 9.3.4 全球定位系統(tǒng)(GPS) 9.4 物聯(lián)網(wǎng)創(chuàng)新應(yīng)用 9.4.1 物聯(lián)網(wǎng)應(yīng)用 9.4.2 零售和供應(yīng)鏈管理 9.4.3 智能電網(wǎng)和智能建筑 9.4.4 信息物理系統(tǒng)(CPS) 9.5 在線社會(huì)網(wǎng)絡(luò)和專業(yè)網(wǎng)絡(luò) 9.5.1 在線社會(huì)網(wǎng)絡(luò)特征 9.5.2 基于圖論的社會(huì)網(wǎng)絡(luò)分析 9.5.3 社會(huì)網(wǎng)絡(luò)社區(qū)和應(yīng)用 9.5.4 Facebook:世界上最大的社會(huì)網(wǎng)絡(luò) 9.5.5 Twitter:微博、新聞和提醒服務(wù)平臺(tái) 9.6 參考文獻(xiàn)與習(xí)題 索引
章節(jié)摘錄
版權(quán)頁(yè): 插圖: 用戶可能會(huì)遇到一些延遲或者丟失在最后檢查點(diǎn)前未保存的部分?jǐn)?shù)據(jù)。 故障切換集群故障切換可能是目前商業(yè)應(yīng)用集群所需的最重要特征。當(dāng)一個(gè)組件失效時(shí),該技術(shù)允許剩余系統(tǒng)接管之前由失效組件提供的服務(wù)。故障切換機(jī)制必須提供一些功能,如失效診斷、失效通知和失效恢復(fù)。失效診斷是指失效以及導(dǎo)致該失效的故障組件位置的檢測(cè)。一種常用的技術(shù)是使用心跳消息,集群節(jié)點(diǎn)發(fā)送心跳消息給對(duì)方。如果系統(tǒng)沒(méi)有接收到某個(gè)節(jié)點(diǎn)的心跳消息,那么可以判定節(jié)點(diǎn)或者網(wǎng)絡(luò)連接失效了。 例2.8雙網(wǎng)絡(luò)集群的失效診斷和恢復(fù) 集群使用兩個(gè)網(wǎng)絡(luò)連接其節(jié)點(diǎn)。其中一個(gè)節(jié)點(diǎn)被指定為主節(jié)點(diǎn)(master node)。每個(gè)節(jié)點(diǎn)都有一個(gè)心跳維護(hù)進(jìn)程,該進(jìn)程通過(guò)兩個(gè)網(wǎng)絡(luò)周期性(每10秒)發(fā)送心跳消息至主節(jié)點(diǎn)。如果主節(jié)點(diǎn)沒(méi)有接收到某節(jié)點(diǎn)的心跳(10秒)消息,那么將認(rèn)為探測(cè)到失效并會(huì)作出如下診斷: 節(jié)點(diǎn)到兩個(gè)網(wǎng)絡(luò)之一的連接失效,如果主節(jié)點(diǎn)從一個(gè)網(wǎng)絡(luò)接收到該節(jié)點(diǎn)的心跳消息,但從另一個(gè)卻沒(méi)有接收到。 節(jié)點(diǎn)發(fā)生故障,如果主節(jié)點(diǎn)從兩個(gè)網(wǎng)絡(luò)都沒(méi)有接收到心跳消息。這里假設(shè)兩個(gè)網(wǎng)絡(luò)同時(shí)失效的幾率忽略不計(jì)。 示例中的失效診斷很簡(jiǎn)單,但它有若干缺陷。如果主節(jié)點(diǎn)失效,怎么辦?10秒的心跳周期是太長(zhǎng)。還是太短?如果心跳消息在網(wǎng)絡(luò)中丟失了(例如,由于網(wǎng)絡(luò)擁塞),怎么辦?該機(jī)制能否適用于數(shù)百個(gè)節(jié)點(diǎn)?實(shí)際的高可用性系統(tǒng)必須解決這些問(wèn)題。一種常用的技術(shù)是使用心跳消息攜帶負(fù)載信息,當(dāng)主節(jié)點(diǎn)接收到某個(gè)節(jié)點(diǎn)的心跳消息時(shí),它不僅了解該節(jié)點(diǎn)存活著,而且知道該節(jié)點(diǎn)的資源利用率等情況。這些負(fù)載信息對(duì)于負(fù)載均衡和作業(yè)管理是很有用的。 失效一旦被診斷,系統(tǒng)將通知需要知道該失效的組件。失效通知是必要的,因?yàn)椴粌H僅只有主節(jié)點(diǎn)需要了解這類信息。例如,某個(gè)節(jié)點(diǎn)失效,DNS需要被通知,以至不會(huì)有更多的用戶連接到該節(jié)點(diǎn)。資源管理器需要重新分配負(fù)載,同時(shí)接管失效節(jié)點(diǎn)上的剩余負(fù)載。系統(tǒng)管理員也需要被提醒,這樣他能夠進(jìn)行適當(dāng)?shù)牟僮鱽?lái)修復(fù)失效節(jié)點(diǎn)。 恢復(fù)機(jī)制 失效恢復(fù)是指接管故障組件負(fù)載的必需動(dòng)作?;謴?fù)技術(shù)有兩種類型:在向后恢復(fù)中,集群上運(yùn)行的進(jìn)程持續(xù)地存儲(chǔ)一致性狀態(tài)(稱為檢查點(diǎn))到穩(wěn)定的存儲(chǔ)。失效之后,系統(tǒng)被重新配置以隔離故障組件、恢復(fù)之前的檢查點(diǎn),以及恢復(fù)正常的操作。這稱為回滾。 向后恢復(fù)與應(yīng)用無(wú)關(guān)、便攜,相對(duì)容易實(shí)現(xiàn),已被廣泛使用。然而,回滾意味著浪費(fèi)了之前執(zhí)行結(jié)果。如果執(zhí)行時(shí)間是至關(guān)重要的,如在實(shí)時(shí)系統(tǒng)中,那么回滾時(shí)間是無(wú)法容忍的,應(yīng)該使用向前恢復(fù)機(jī)制。在這個(gè)機(jī)制下,系統(tǒng)并不回滾至失效前的檢查點(diǎn)。相反,系統(tǒng)利用失效診斷信息重建一個(gè)有效的系統(tǒng)狀態(tài),并繼續(xù)執(zhí)行。向前恢復(fù)是應(yīng)用相關(guān)的,并且可能需要額外的硬件。 例2.9 MTTF、MTTR和失效成本分析 考慮一個(gè)基本沒(méi)有可用性支持的集群。當(dāng)一個(gè)節(jié)點(diǎn)失效,下面一系列事件將會(huì)發(fā)生: 1.整個(gè)系統(tǒng)被關(guān)閉和斷電。 2.如果硬件失效,故障節(jié)點(diǎn)被替換。 3.該系統(tǒng)通電和重啟。 4.用戶應(yīng)用程序被重新裝載,并從開始重新運(yùn)行。 假設(shè)集群中的某個(gè)節(jié)點(diǎn)每100小時(shí)發(fā)生一次故障。集群的其余部分不會(huì)發(fā)生故障。步驟1~3需要花費(fèi)2小時(shí)。一般來(lái)說(shuō),步驟4的平均時(shí)間也是2小時(shí)。該集群的可用性是多少?如果每小時(shí)的停機(jī)損失為82 500美元,每年的失效損失是多少? 解 集群的MTTF是100小時(shí),MTTR是2+2=4小時(shí)。根據(jù)表2—5,可用性為100/104=96.15%。這相當(dāng)于每年337小時(shí)的停機(jī)時(shí)間,失效損失為82 500美元×337,即超過(guò)2 700萬(wàn)美元。
編輯推薦
《云計(jì)算與分布式系統(tǒng):從并行處理到物聯(lián)網(wǎng)》內(nèi)容豐富,敘述深入淺出,適合作為計(jì)算機(jī)及相關(guān)專業(yè)云計(jì)算、分布式系統(tǒng)或分布式計(jì)算課程的教材,同時(shí)也適合專業(yè)技術(shù)人員參考使用。
名人推薦
“網(wǎng)格計(jì)算、對(duì)等計(jì)算、云計(jì)算這些新興領(lǐng)域近幾年日益受到學(xué)術(shù)界和工業(yè)界的關(guān)注、預(yù)計(jì)這些新技術(shù)將對(duì)商業(yè)、科學(xué)和工程及社會(huì)等眾多方面產(chǎn)生巨大影響 本書的及時(shí)出版將會(huì)幫助讀者了解分布式計(jì)算領(lǐng)域的最新技術(shù)、” ——Yi Pan,佐治亞州立大學(xué) “本書是一本全面而新穎的教材,內(nèi)容覆蓋高性能計(jì)算、分布式與云計(jì)算、虛擬化和網(wǎng)格計(jì)算 作者將應(yīng)用與技術(shù)趨勢(shì)相結(jié)合,揭示了計(jì)算的未來(lái)發(fā)展 無(wú)論是對(duì)在校學(xué)生還是經(jīng)驗(yàn)豐富的實(shí)踐者,本書都是一本優(yōu)秀的讀物。” ——Thomas J.Hacker,普度大學(xué)
圖書封面
圖書標(biāo)簽Tags
無(wú)
評(píng)論、評(píng)分、閱讀與下載