出版時(shí)間:2010-12 出版社:清華大學(xué)出版社 作者:(美)萊特斯通 等著 頁(yè)數(shù):283
Tag標(biāo)簽:無(wú)
前言
IBM工程師E.F.Codd在1970年提出關(guān)系模型后,關(guān)系數(shù)據(jù)庫(kù)成為管理和查詢結(jié)構(gòu)化數(shù)據(jù)的事實(shí)標(biāo)準(zhǔn)。在過(guò)去的15年中,隨著Internet的興起,聯(lián)機(jī)事務(wù)處理、在線銀行業(yè)務(wù)、與不同系統(tǒng)連接的能力使數(shù)據(jù)量有大幅度的增長(zhǎng)。容量在TB級(jí)以上的數(shù)據(jù)已經(jīng)很普遍。這一數(shù)據(jù)增長(zhǎng)的同時(shí),遵守摩爾定律的CPU性能急劇增長(zhǎng),磁盤技術(shù)的進(jìn)步使磁盤存儲(chǔ)密度進(jìn)一步提升?,F(xiàn)代數(shù)據(jù)庫(kù)經(jīng)常需要支持成千上萬(wàn)的用戶同時(shí)訪問(wèn)。數(shù)據(jù)庫(kù)系統(tǒng)的性能和可維護(hù)性大大取決于其物理設(shè)計(jì)。主要的數(shù)據(jù)庫(kù)廠商開發(fā)了一系列很好的物理特性和功能設(shè)計(jì)技術(shù)。當(dāng)今的數(shù)據(jù)庫(kù)可以在內(nèi)存和磁盤上進(jìn)行切片、切塊、正移,還可以以各種方式旋轉(zhuǎn)等。但是到目前為止,并沒(méi)有多少文章涉及“物理數(shù)據(jù)庫(kù)設(shè)計(jì)”。當(dāng)然,也有過(guò)白皮書、一些個(gè)人觀點(diǎn)和一些產(chǎn)品的文章涉及這個(gè)問(wèn)題,但并沒(méi)有把它作為一個(gè)整體來(lái)對(duì)待。數(shù)據(jù)庫(kù)設(shè)計(jì)人員在實(shí)際工作中遇到的困難也很少提及,“蠕變特性”的復(fù)雜性給行業(yè)帶來(lái)了不小的麻煩。因?yàn)檫@些原因,我們迫切需要關(guān)于物理數(shù)據(jù)庫(kù)設(shè)計(jì)的資料。我們編寫的這本新書面向廣大的用戶,包括數(shù)據(jù)庫(kù)系統(tǒng)的學(xué)生和數(shù)據(jù)庫(kù)領(lǐng)域的專業(yè)人士。在書中,我們引入物理數(shù)據(jù)庫(kù)設(shè)計(jì)的主要概念,包括索引(B+、哈希、位圖)、物化視圖(延遲和實(shí)時(shí))、范圍分區(qū)、散列(哈希)分區(qū)、無(wú)共享設(shè)計(jì)、多維群集、服務(wù)器拓?fù)?、?shù)據(jù)分布和基礎(chǔ)物理子系統(tǒng)(NUMA、SMP、MPP、SAN、NAS、RAID設(shè)備)等。為符合編寫這本書的目標(biāo)人群——學(xué)生和數(shù)據(jù)庫(kù)專業(yè)人員,我們把重點(diǎn)放在實(shí)際的問(wèn)題和解決方案上。在每一個(gè)細(xì)分市場(chǎng)和使用關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)的各個(gè)方面,有關(guān)物理數(shù)據(jù)庫(kù)設(shè)計(jì)的關(guān)鍵問(wèn)題似乎無(wú)處不在,如聯(lián)機(jī)事務(wù)處理(OLTP)、數(shù)據(jù)挖掘(DM)、多維聯(lián)機(jī)分析處理(MOLAP)、企業(yè)資源規(guī)劃(ERP)、管理資源計(jì)劃(MRP)、數(shù)據(jù)庫(kù)管理員(DBA)團(tuán)隊(duì)設(shè)計(jì)和管理的所有內(nèi)部企業(yè)系統(tǒng)以及開發(fā)過(guò)程中的獨(dú)立軟件提供商的應(yīng)用程序(ISVA)。我們希望對(duì)物理數(shù)據(jù)庫(kù)設(shè)計(jì)、使用范例、產(chǎn)品的特定語(yǔ)法和最優(yōu)方法的關(guān)注,能使本書成為數(shù)據(jù)庫(kù)資料的一個(gè)很好的補(bǔ)充。文章結(jié)構(gòu)第1章是物理數(shù)據(jù)庫(kù)設(shè)計(jì)的概述以及如何適應(yīng)數(shù)據(jù)庫(kù)的生命周期。第2章介紹了業(yè)界目前用得較多的索引方法和B+樹索引的基本原理,并介紹了簡(jiǎn)單索引和復(fù)合索引的變化,還對(duì)不同方法的性能測(cè)試加以比較。第3章主要從數(shù)據(jù)庫(kù)專家的角度介紹了查詢優(yōu)化的基礎(chǔ)和查詢執(zhí)行計(jì)劃選擇等需要了解的數(shù)據(jù)庫(kù)設(shè)計(jì)背景知識(shí)。第4~8章討論物理數(shù)據(jù)庫(kù)設(shè)計(jì)所需要的個(gè)別重要的設(shè)計(jì)決策。第4章介紹了如何完成索引選擇的具體內(nèi)容,以及在選擇和連接操作中索引策略的替代方案。第5章介紹了如何為獨(dú)立關(guān)系數(shù)據(jù)庫(kù)選擇物化視圖,以及如何在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)庫(kù)集合設(shè)置星型模型,用了幾個(gè)例子說(shuō)明物化視圖選擇中所涉及的折中方案。第6章介紹了如何執(zhí)行無(wú)共享分區(qū)來(lái)分步解決龐大而且需要復(fù)雜計(jì)算的數(shù)據(jù)庫(kù)問(wèn)題,并說(shuō)明了無(wú)共享分區(qū)、物化視圖復(fù)制以及索引之間的關(guān)系。第7章專門討論范圍分區(qū),將大表分成多個(gè)較小的表來(lái)保存一定范圍內(nèi)的數(shù)據(jù)和索引,方便尋址。第8章討論了群集數(shù)據(jù)的優(yōu)點(diǎn),以及在擴(kuò)展到多維數(shù)據(jù)時(shí)這種技術(shù)是多么的有效。這樣可以使系統(tǒng)在同一時(shí)間內(nèi)群集多維數(shù)據(jù),而不用復(fù)制數(shù)據(jù)。第9章討論物理設(shè)計(jì)決策的整合問(wèn)題。物理設(shè)計(jì)決策由每個(gè)決策如何影響其他決策來(lái)決定,并指導(dǎo)設(shè)計(jì)人員使用這些組件來(lái)優(yōu)化設(shè)計(jì)。第10章的重點(diǎn)是計(jì)數(shù)和抽樣數(shù)據(jù),以協(xié)助改善獨(dú)立查詢?cè)O(shè)計(jì)的方法、物化視圖的選擇、群集和分區(qū)等。第11章通過(guò)對(duì)一些比較有用的工具的描述來(lái)講述查詢執(zhí)行計(jì)劃,這些工具允許用戶了解查詢執(zhí)行計(jì)劃,以及設(shè)計(jì)數(shù)據(jù)庫(kù)時(shí)選擇的方法,如索引選擇和物化視圖等。第12章詳細(xì)說(shuō)明了自動(dòng)化物理設(shè)計(jì)決策的重要性,主要的關(guān)系數(shù)據(jù)庫(kù)如DB2、SQLServer和Oracle提供的自動(dòng)化設(shè)計(jì)支持,討論了如何使用這些工具更快速地設(shè)計(jì)高效率的數(shù)據(jù)庫(kù)。第13章提出數(shù)據(jù)庫(kù)設(shè)計(jì)人員需要了解的一些系統(tǒng)問(wèn)題,如多處理器服務(wù)器、磁盤系統(tǒng)、網(wǎng)絡(luò)拓?fù)?、?zāi)難恢復(fù)技術(shù)和內(nèi)存管理等。第14章討論了物理設(shè)計(jì)如何支持?jǐn)?shù)據(jù)倉(cāng)庫(kù)和使用OLAP技術(shù)進(jìn)行有效的信息檢索。第15章定義了什么是逆規(guī)范化,并且說(shuō)明規(guī)范化程度和數(shù)據(jù)庫(kù)性能之間的權(quán)衡。第16章是分布式數(shù)據(jù)之間分配策略的基礎(chǔ)知識(shí),包括由于數(shù)據(jù)復(fù)制影響的快速查詢響應(yīng)時(shí)間和多個(gè)數(shù)據(jù)副本更新時(shí)間成本的權(quán)衡。附錄A簡(jiǎn)要介紹了一個(gè)簡(jiǎn)單的運(yùn)算性能模型,用來(lái)評(píng)估和比較單一數(shù)據(jù)庫(kù)的不同物理設(shè)計(jì)的策略。該模型闡明了幾個(gè)章節(jié)中所講述的物理設(shè)計(jì)方法——權(quán)衡分析和設(shè)計(jì)決策。附錄B包含了兩個(gè)商業(yè)化災(zāi)難恢復(fù)技術(shù)的比較,分別為IBM的高可用性災(zāi)難恢復(fù)和Oracle的Data Guard。每一章都有數(shù)據(jù)庫(kù)設(shè)計(jì)人員的提示和獨(dú)特見解,對(duì)讀者了解每一章的設(shè)計(jì)方法很有幫助。接下來(lái)是參考書目匯總,使讀者能夠選擇相應(yīng)的物理設(shè)計(jì)主題進(jìn)行進(jìn)一步的了解。使用范例邏輯設(shè)計(jì)和物理設(shè)計(jì)之間的主要區(qū)別之一,是物理設(shè)計(jì)的基本特點(diǎn)和數(shù)據(jù)庫(kù)服務(wù)器的物理屬性(軟件和硬件)的關(guān)系越來(lái)越緊密。雖然邏輯設(shè)計(jì)可以抽象地進(jìn)行,有些產(chǎn)品和組件相對(duì)獨(dú)立,可以用來(lái)實(shí)現(xiàn)所做的設(shè)計(jì),但也不能說(shuō)是物理設(shè)計(jì)。因此,在本書中,我們仔細(xì)選擇了一些例子,包括關(guān)于物理數(shù)據(jù)庫(kù)設(shè)計(jì)的數(shù)據(jù)庫(kù)服務(wù)器產(chǎn)品中的部分主要產(chǎn)品,如DB2forzOSV8.1、DB29(Linux、UNIX和Windows)、Oracle10g、SQLServer2005、InformixDataserver和NCRTeradata的產(chǎn)品。我們認(rèn)為,這包括了行業(yè)內(nèi)流行的大部分?jǐn)?shù)據(jù)庫(kù)。一些比較流行的數(shù)據(jù)庫(kù)如MySQL和Sybase則沒(méi)有加以介紹,只是為了更簡(jiǎn)單地說(shuō)明問(wèn)題。 文獻(xiàn)綜述和書目與之前的邏輯數(shù)據(jù)庫(kù)設(shè)計(jì)書籍《數(shù)據(jù)庫(kù)建模與設(shè)計(jì):邏輯設(shè)計(jì)》(《DatabaseModelingandDesign:LogicalDesign,4th》)一樣,本書在每章的最后都有文獻(xiàn)綜述。章節(jié)當(dāng)中所涉及的材料有論文和相關(guān)參考,具體有兩種形式: 與本章討論的物理數(shù)據(jù)庫(kù)設(shè)計(jì)概念有關(guān)、原創(chuàng)的具有突破性想法、對(duì)數(shù)據(jù)庫(kù)設(shè)計(jì)發(fā)展有重大影響的論文。關(guān)于最新研究和突破性想法的主要論文。除每一章后面的文獻(xiàn)綜述外,本書的最后有個(gè)更全面的參考書目表。反饋與勘誤表如果您有任何意見或建議,我們希望能夠收到您的來(lái)信,這對(duì)我們得到反饋和改進(jìn)或者更正這本書的內(nèi)容十分有幫助。不知道有人會(huì)注意到database這幾個(gè)字母都是用左手打出來(lái)的嗎?現(xiàn)在標(biāo)準(zhǔn)鍵盤的布局設(shè)計(jì)是為了使兩只手的負(fù)擔(dān)能夠均等。因此,按照這樣設(shè)計(jì)數(shù)據(jù)庫(kù)不僅僅是不合理的,并且比它看起來(lái)要困難得多。——佚名雖然這是一句俏皮話,但您可以想象作者寫這本書時(shí),要用左手打上百次的database ,如果您使用“設(shè)計(jì)數(shù)據(jù)庫(kù)(designing databases)”來(lái)代替“編寫數(shù)據(jù)庫(kù)(writing about databases)”,那么對(duì)來(lái)自全球性社區(qū)的數(shù)據(jù)庫(kù)設(shè)計(jì)人才會(huì)更有說(shuō)服力。致謝如同做其他事一樣,作者周圍會(huì)有許多人幫忙審閱、編輯、出版,最后才會(huì)出版這樣一本書。我們?cè)谶@里特別感謝公司里的同事和為這本書做出貢獻(xiàn)的合作伙伴,他們是Sanjay Agarwal、Eric Alton、Hermann Baer、Kevin Beck、Surajit Chaudhuri、Kitman Cheung、Leslie Cranston、Yuri Deigin、Chris Eaton、Scott Fadden、Lee Goddard、Peter Haas、Scott Hayes、Lilian Hobbs、John Hornibrook、Martin Hubel、John Kennedy、Eileen Lin、Guy Lohman、Wenbin Ma、Roman Melnyk、Mughees Minhas、Vivek Narasayya、Jack Raitto、Haider Rizvi、Peter Shum、Danny Zilio and Calisto Zuzarte。謝謝Linda Peterson和Rebekah Smith對(duì)手稿所做的幫助。我們還要感謝為本書提供了極有價(jià)值見解的校對(duì)人員,他們深入閱讀并給出了新的方向,使我們能更好地完成本書。感謝Mike Blaha、Philippe Bonnet、Philipe Carino和Patrick O’Neil。謝謝概念評(píng)審Bob Muller、Dorian Pyle、James Bean、Jim Gray和Michael Blaha。我們要感謝我們的妻子和孩子們,有了他們的支持,我們才有時(shí)間來(lái)做這個(gè)項(xiàng)目。我們經(jīng)常工作到凌晨。向全球社區(qū)的學(xué)生和數(shù)據(jù)庫(kù)設(shè)計(jì)人員致敬。你們的工作比一般人所了解的更為艱巨和復(fù)雜?,F(xiàn)代關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)每種可能的設(shè)計(jì)屬性都有其自身的復(fù)雜性,要解決這些問(wèn)題,作為真正的數(shù)據(jù)庫(kù)設(shè)計(jì)人員來(lái)說(shuō)是個(gè)很大的挑戰(zhàn),大家都知道對(duì)人類來(lái)說(shuō)這比較難。事實(shí)上,對(duì)任何有一定復(fù)雜關(guān)系的系統(tǒng),在數(shù)學(xué)上真正完全表達(dá)數(shù)據(jù)庫(kù)優(yōu)化設(shè)計(jì)是不可能的。在一次分析中我們發(fā)現(xiàn),一個(gè)普通的數(shù)據(jù)庫(kù)可能的設(shè)計(jì)選擇數(shù)目遠(yuǎn)遠(yuǎn)超過(guò)了宇宙中目前估計(jì)的原子數(shù)量(1081次方)幾個(gè)數(shù)量級(jí)!然而,盡管現(xiàn)代數(shù)據(jù)庫(kù)系統(tǒng)有很大的復(fù)雜性,但是也要設(shè)法加以研究、掌握并繼續(xù)進(jìn)行設(shè)計(jì)。毫不夸張地說(shuō),世界上的數(shù)據(jù)就在大家的手中。我們希望這本書成為您的寶貴工具。我們希望這本書能夠引領(lǐng)學(xué)生和數(shù)據(jù)庫(kù)設(shè)計(jì)人員提高,這是改進(jìn)世界數(shù)據(jù)管理基礎(chǔ)結(jié)構(gòu)的重要方法。工程師行業(yè)是一個(gè)偉大的職業(yè)。他們將主觀想象出來(lái)的事務(wù)通過(guò)科學(xué)手段在理論上進(jìn)行實(shí)現(xiàn),然后轉(zhuǎn)化為對(duì)石頭、金屬或能源的認(rèn)識(shí)。隨后,它給人們帶來(lái)了家園,提高了人們的生活水平,并增加了生活的舒適性。這是工程師的最高特權(quán)。 ——赫伯特?胡佛(Herbert Hoover 1874—1964) 大部分專家都同意,摧毀世界最有可能的方式是事故。這正是我們的用武之地,我們是計(jì)算機(jī)專家,能引發(fā)事故?!{森尼爾?伯倫斯坦(Nathaniel Borenstein 1957)
內(nèi)容概要
本書全面講述數(shù)據(jù)庫(kù)物理設(shè)計(jì)方案,主要包括物理數(shù)據(jù)庫(kù)設(shè)計(jì)概況,基本索引方法,查詢優(yōu)化和方案選擇,選擇索引,物化視圖選擇,無(wú)共享分區(qū),范圍分區(qū),多維群集,相互依賴的問(wèn)題,物理設(shè)計(jì)探索中的計(jì)數(shù)和數(shù)據(jù)抽樣,查詢執(zhí)行計(jì)劃和物理設(shè)計(jì),自動(dòng)化物理數(shù)據(jù)庫(kù)設(shè)計(jì),服務(wù)器資源和拓?fù)洌瑳Q策支持、數(shù)據(jù)倉(cāng)庫(kù)和OLAP系統(tǒng)中的物理設(shè)計(jì),逆規(guī)范化以及分布式數(shù)據(jù)分配等內(nèi)容。 本書適合作為高等院校計(jì)算機(jī)及相關(guān)專業(yè)的教材和教學(xué)參考書,也可作為相關(guān)開發(fā)人員的自學(xué)教材和參考手冊(cè)。
作者簡(jiǎn)介
作者:(美國(guó))萊特斯通(Sam Lightstone) (美國(guó))特里(Toby Teorey) (美國(guó))納多(Tom Nadeau) 譯者:吳驊 王學(xué)昌 韓潼瑜Sam Lightstone,是IBM的DB2產(chǎn)品開發(fā)團(tuán)隊(duì)研發(fā)經(jīng)理及高級(jí)技術(shù)人員,他的工作涉及 自主計(jì)算和關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)的許多方面。Sam Lightstone是DB2自主計(jì)算研發(fā)工作的 領(lǐng)導(dǎo)者和創(chuàng)始人之一,是自治數(shù)據(jù)庫(kù)系統(tǒng)方面IEEE數(shù)據(jù)工程組的主席,是自治和自主計(jì) 算方面IEEE計(jì)算機(jī)協(xié)會(huì)任務(wù)組的成員。2003年,他當(dāng)選為IBM技術(shù)研究院加拿大子公司 的杰出技術(shù)委員會(huì)委員。Sam Lightstone是IBM的發(fā)明大師,擁有超過(guò)25項(xiàng)專利和未決專 利,他所發(fā)表的成果涉及許多關(guān)于關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)自主計(jì)算的內(nèi)容,從1991年開始一直就 職于IBM。Toby Teorey是密歇根大學(xué)安娜堡分校電氣工程與計(jì)算機(jī)科學(xué)系名譽(yù)教授以及工程學(xué) 院學(xué)術(shù)項(xiàng)目主任。他先后獲得亞利桑那大學(xué)圖森分校電氣工程的理學(xué)學(xué)士、理學(xué)碩士學(xué)位 以及威斯康星大學(xué)麥迪遜分校的計(jì)算機(jī)科學(xué)博士學(xué)位,也一直是各種數(shù)據(jù)庫(kù)會(huì)議委員會(huì)的 項(xiàng)目委員會(huì)主席和成員。Tom Nadeau是阿拉丁軟件(aladdinsoftware.com)的創(chuàng)始人,研究方向是數(shù)據(jù)及文本 挖掘領(lǐng)域。他先后獲得密歇根大學(xué)安娜堡分校計(jì)算機(jī)科學(xué)理學(xué)學(xué)士、電氣工程和計(jì)算機(jī)科 學(xué)碩士、博士學(xué)位,其研究的技術(shù)領(lǐng)域包括數(shù)據(jù)倉(cāng)庫(kù)、OLAP、數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí),并于 2001年獲得IBM CASCON會(huì)議的最佳論文獎(jiǎng)。
書籍目錄
第1章 物理數(shù)據(jù)庫(kù)設(shè)計(jì)概況 1.1 動(dòng)機(jī)——數(shù)據(jù)增長(zhǎng)和與日俱增的物理數(shù)據(jù)庫(kù)設(shè)計(jì) 1.2 數(shù)據(jù)庫(kù)生命周期 1.3 物理設(shè)計(jì)的元素:索引、分區(qū)和群集 1.3.1 索引 1.3.2 物化視圖 1.3.3 分區(qū)和多維群集 1.3.4 物理數(shù)據(jù)庫(kù)設(shè)計(jì)的其他方法 1.4 物理設(shè)計(jì)為什么這么困難 1.5 文獻(xiàn)綜述第2章 基本索引方法第3章 查詢優(yōu)化和方案選擇第4章 選擇索引第5章 物化視圖選擇第6章 無(wú)共享分區(qū)第7章 范圍分區(qū)第8章 多維群集第9章 相互依賴的問(wèn)題第10章 物理設(shè)計(jì)探索中的計(jì)數(shù)和數(shù)據(jù)抽樣第11章 查詢執(zhí)行計(jì)劃和物理設(shè)計(jì)第12章 自動(dòng)化物理數(shù)據(jù)庫(kù)設(shè)計(jì)第13章 實(shí)質(zhì)探討:服務(wù)器資源和拓?fù)涞?4章 決策支持、數(shù)據(jù)倉(cāng)庫(kù)和OLAP系統(tǒng)中的物理設(shè)計(jì)第15章 逆規(guī)范化第16章 分布式數(shù)據(jù)分配附錄A 一個(gè)簡(jiǎn)單的性能模型數(shù)據(jù)庫(kù)附錄B Oracle Data Guard與DB2 HADR的數(shù)據(jù)庫(kù)災(zāi)難恢復(fù)技術(shù)比較參考書目
章節(jié)摘錄
第1章 物理數(shù)據(jù)庫(kù)設(shè)計(jì)概況我沒(méi)有丟棄我的想法,它已經(jīng)備份在了某一張磁盤上。——佚名在1974年密歇根州安阿伯市,美國(guó)計(jì)算機(jī)協(xié)會(huì)文件說(shuō)明與翻譯組(ACM SIGFIDE,現(xiàn)更名為:國(guó)際數(shù)據(jù)管理協(xié)會(huì),SIGMOD)舉辦的年會(huì)及其隨后的數(shù)據(jù)系統(tǒng)語(yǔ)言會(huì)議報(bào)告中,關(guān)系數(shù)據(jù)模型之父特德考得與網(wǎng)絡(luò)數(shù)據(jù)模型思想提出者查理貝克漢姆發(fā)生了激烈辯論。到底什么樣的邏輯模型才是最好的數(shù)據(jù)庫(kù)邏輯模型?將近30年各種學(xué)術(shù)期刊和商業(yè)雜志都充斥著這種辯論,直到2003年特德考得去世后,這種辯論才逐漸平息下來(lái)。盡管最終關(guān)系數(shù)據(jù)庫(kù)模型占據(jù)了上風(fēng),但由于最初的爭(zhēng)論,許多數(shù)據(jù)庫(kù)系統(tǒng)開始建立并支持這兩種數(shù)據(jù)庫(kù)模型,各種系統(tǒng)所使用的基礎(chǔ)物理數(shù)據(jù)庫(kù)結(jié)構(gòu)也隨之發(fā)展起來(lái)了。最初物理設(shè)計(jì)主要是系統(tǒng)能夠采用什么類型的索引,B+樹索引幾乎占據(jù)了所有系統(tǒng)場(chǎng)景。后來(lái),類似群集和分區(qū)的其他概念開始變得重要,但在20世紀(jì)70年代的爭(zhēng)論之后,這些方法與邏輯結(jié)構(gòu)的關(guān)系越來(lái)越少。邏輯數(shù)據(jù)庫(kù)設(shè)計(jì),更確切地說(shuō)是對(duì)于一個(gè)特定數(shù)據(jù)庫(kù)系統(tǒng)的邏輯設(shè)計(jì),大多數(shù)應(yīng)用程序設(shè)計(jì)人員和程序員已經(jīng)掌握了基本數(shù)據(jù)關(guān)系及概念定義。設(shè)計(jì)人員的邏輯設(shè)計(jì)工作可以利用并借助ERWin數(shù)據(jù)模型工具、Rational Rose UML建模或使用純手工方法實(shí)現(xiàn)。物理數(shù)據(jù)庫(kù)設(shè)計(jì)就是在您正在使用的計(jì)算機(jī)平臺(tái)上,實(shí)現(xiàn)高效的數(shù)據(jù)存儲(chǔ)、檢索機(jī)制,通常是數(shù)據(jù)庫(kù)管理員的工作,今天有一些廠家提供的工具可以幫助數(shù)據(jù)庫(kù)管理員設(shè)計(jì)一個(gè)非常高效的數(shù)據(jù)庫(kù)。本書將主要致力于關(guān)系數(shù)據(jù)庫(kù)的物理設(shè)計(jì)方法和流行工具介紹,書中例子也將采取常見的數(shù)據(jù)庫(kù)系統(tǒng)——Oracle、DB2(IBM)和SQL Server(Microsoft)來(lái)描述這些物理數(shù)據(jù)庫(kù)的設(shè)計(jì)概念。1.1 動(dòng)機(jī)——數(shù)據(jù)增長(zhǎng)和與日俱增的物理數(shù)據(jù)庫(kù)設(shè)計(jì)物理數(shù)據(jù)庫(kù)設(shè)計(jì)真的有那么重要嗎?答案是肯定的。一些計(jì)算機(jī)專家除了運(yùn)行自己正在運(yùn)行的商業(yè)外,很少去做其他的事情,更不要說(shuō)幫助客戶提升他們的表索引設(shè)計(jì)性能。這也同樣令人印象深刻,問(wèn)題查詢提升了50倍的效率。真正推動(dòng)物理數(shù)據(jù)庫(kù)設(shè)計(jì)的是數(shù)據(jù)卷,畢竟,一個(gè)數(shù)據(jù)庫(kù)只有幾行數(shù)據(jù),對(duì)于數(shù)據(jù)庫(kù)物理設(shè)計(jì)并不是什么問(wèn)題,執(zhí)行一個(gè)應(yīng)用程序存儲(chǔ)一個(gè)小數(shù)據(jù)庫(kù)不可能影響到基礎(chǔ)的數(shù)據(jù)庫(kù)物理設(shè)計(jì)。在特定的領(lǐng)域內(nèi),實(shí)際的索引選擇對(duì)一個(gè)有20多行數(shù)據(jù)的數(shù)據(jù)庫(kù)并不是很困難。然而,隨著數(shù)據(jù)卷的增長(zhǎng),位于數(shù)據(jù)存儲(chǔ)模式下的物理結(jié)構(gòu)就顯得非常重要了。物理數(shù)據(jù)庫(kù)設(shè)計(jì)實(shí)際上是被數(shù)據(jù)卷引發(fā)的。畢竟,一個(gè)只有幾行數(shù)據(jù)的數(shù)據(jù)庫(kù)對(duì)于物理數(shù)據(jù)庫(kù)設(shè)計(jì)實(shí)際上是沒(méi)有任何爭(zhēng)論的,訪問(wèn)小型數(shù)據(jù)的應(yīng)用程序性能不可能被基礎(chǔ)系統(tǒng)的物理設(shè)計(jì)深入影響。從實(shí)踐的觀點(diǎn)來(lái)看,索引選擇對(duì)于只有20行記錄的數(shù)據(jù)庫(kù)實(shí)際上并不重要。然而,隨著數(shù)據(jù)卷的增長(zhǎng),位于數(shù)據(jù)庫(kù)訪問(wèn)模式之下的物理結(jié)構(gòu)日漸重要。一些因素正在激發(fā)數(shù)據(jù)按照3種形式呈戲劇化增長(zhǎng),這3種形式是結(jié)構(gòu)化(如關(guān)系元組)、半結(jié)構(gòu)化(如XML)和非結(jié)構(gòu)化數(shù)據(jù)(如音頻、視頻等)。大多數(shù)數(shù)據(jù)增長(zhǎng)可以歸結(jié)于快速擴(kuò)展和無(wú)處不在的網(wǎng)絡(luò)計(jì)算機(jī)和終端,幾乎存在于每個(gè)家庭、商業(yè)機(jī)構(gòu)之中,存儲(chǔ)在工業(yè)世界中。此外,隨著個(gè)人快速使用移動(dòng)電話和PDA等可以連接網(wǎng)絡(luò)并用于共享數(shù)據(jù)的工具,數(shù)據(jù)卷開始進(jìn)一步跳躍式發(fā)展。在企業(yè)系統(tǒng)中,以10T測(cè)算的數(shù)據(jù)庫(kù)也開始變得很普通。隨著人類基因組的3億個(gè)堿基對(duì)的測(cè)繪工作,制藥公司正在研究覆蓋人類基因的以蛋白質(zhì)為基礎(chǔ)的基因工程網(wǎng)絡(luò),這將會(huì)在數(shù)據(jù)庫(kù)中產(chǎn)生幾拍(它)字節(jié)PB(1PB=1000T或1PB=1000000G)大小的分析數(shù)據(jù)。表1.1數(shù)據(jù)顯示的是伯克加州大學(xué)1999年展開的一項(xiàng)調(diào)查。從這個(gè)調(diào)查研究報(bào)告中,可以看到存儲(chǔ)在磁盤上的部門和企業(yè)數(shù)據(jù)正在以每年100%的速度快速增長(zhǎng)。事實(shí)上,沒(méi)有人能夠知道數(shù)據(jù)增長(zhǎng)模式將在哪里停止或數(shù)據(jù)增長(zhǎng)將何時(shí)停止。表1.1 全球性產(chǎn)品的原始內(nèi)容、存儲(chǔ)數(shù)據(jù)(以TB為單位)存 儲(chǔ) 介 質(zhì) 類 型 TB年(高) TB年(低) 增長(zhǎng)率%紙質(zhì) 書 8 1 2 報(bào)紙 25 2 -2 期刊雜志 12 1 2 官方文件 195 19 2 小計(jì) 240 23 2膠片 照片 410000 41000 5 影視 16 16 3 X光 17200 17200 2 小計(jì) 427216 58216 4光學(xué)介質(zhì) 音樂(lè)CD 58 6 3 數(shù)據(jù)CD 3 3 2 DVD 22 22 100 小計(jì) 83 31 70磁性介質(zhì) 攝像機(jī)磁帶 300000 300000 5 PC機(jī)磁盤驅(qū)動(dòng)器 766000 7660 100 部門級(jí)服務(wù)器 460000 161000 100 企業(yè)級(jí)服務(wù)器 167000 108550 100 小計(jì) 1693000 577210 55總計(jì) 2120539 635480 50資料來(lái)源:美國(guó)加州大學(xué)伯克利分校的研究,1999。另外,還有一些特殊事情的發(fā)生帶動(dòng)了數(shù)據(jù)量。這些事情悄無(wú)聲息地發(fā)生,沒(méi)有任何人干擾并提起它們,但變化還是可以定量和令人深思的。在2000年左右,存儲(chǔ)的價(jià)格下降了1個(gè)點(diǎn),在計(jì)算機(jī)磁盤上存儲(chǔ)數(shù)據(jù)開始變得比在紙張上存儲(chǔ)數(shù)據(jù)便宜(如圖1.1所示)。事實(shí)上,這大概是西方文明發(fā)展史上一次偉大的轉(zhuǎn)折點(diǎn)。羊皮紙、紙莎草和文件已經(jīng)記錄了過(guò)去的2000多年文明,突然間,這種文字記錄模式開始出現(xiàn)衰敗,現(xiàn)在電子文件不僅可以用來(lái)滿足分享和分析的樂(lè)趣,而且也更為經(jīng)濟(jì)。 圖1.1 存儲(chǔ)價(jià)格(來(lái)源:IBM的研究)劇烈增長(zhǎng)的數(shù)據(jù)模式已經(jīng)改變了應(yīng)用系統(tǒng)必須訪問(wèn)和處理的關(guān)系數(shù)據(jù)庫(kù)的數(shù)據(jù)量大小,但是快速增長(zhǎng)的數(shù)據(jù)模式并沒(méi)有改變完成操作的速度。事實(shí)上,在很大程度上,計(jì)算機(jī)定義的數(shù)據(jù)處理的執(zhí)行目標(biāo)要比人類定義的目標(biāo)更加合理,例如,一個(gè)人愿意等待完成事務(wù)的時(shí)間可以是等待自動(dòng)提款機(jī)的時(shí)間,也可以是每天晚上收盤和每天早晨開盤之間的幾個(gè)小時(shí)非高峰可用時(shí)間。這些限制因素主要取決于人類的期望,并且不依賴于所操作的數(shù)據(jù)卷。雖然數(shù)據(jù)卷和分析的復(fù)雜度在快速增長(zhǎng),作為人類的期望變化速度卻慢得多。一些緩解手段已經(jīng)被發(fā)現(xiàn),因?yàn)楸M管數(shù)據(jù)卷在不斷增長(zhǎng),但隨著現(xiàn)代數(shù)據(jù)服務(wù)器的計(jì)算能力的提升,數(shù)據(jù)卷的計(jì)算能力也在增長(zhǎng)。然而,固化服務(wù)器技術(shù)減少IT支出、增加數(shù)據(jù)處理能力的現(xiàn)象正在減輕,正是因?yàn)檫@個(gè)原因,隨著服務(wù)器處理能力的增加,數(shù)據(jù)服務(wù)器往往需要承擔(dān)更多的用途,而不是為了讓單一的任務(wù)執(zhí)行得更快。盡管按照摩爾定律,20世紀(jì)70年代中期以來(lái),CPU的處理能力每18個(gè)月增長(zhǎng)一倍,但磁盤讀寫速度也在按照一個(gè)比較適中的速度快速增加(請(qǐng)參見第13章關(guān)于摩爾定律的更加深入的討論)。最終,數(shù)據(jù)正在越來(lái)越多地用于檢測(cè)信息,而不僅僅是處理數(shù)據(jù),與其同時(shí),正在崛起的在線分析處理(OLAP)、數(shù)據(jù)挖掘和其他形式的商業(yè)智能計(jì)算,造成實(shí)際處理過(guò)程復(fù)雜性的劇增。這些因素誘發(fā)了物理數(shù)據(jù)庫(kù)設(shè)計(jì)復(fù)雜而精密的方法。為什么呢?通過(guò)利用設(shè)計(jì)技巧,設(shè)計(jì)人員能夠在某些場(chǎng)景中減少幾個(gè)數(shù)量級(jí)的業(yè)務(wù)處理時(shí)間。當(dāng)您等候在銀行取款機(jī)準(zhǔn)備提取您的現(xiàn)金,或等一個(gè)投資數(shù)百萬(wàn)美元的投資決策商業(yè)貿(mào)易分析結(jié)果時(shí),提升計(jì)算效率上千倍是真實(shí)且有價(jià)值的,也是非常有必要的。1.2 數(shù)據(jù)庫(kù)生命周期數(shù)據(jù)庫(kù)設(shè)計(jì)生命周期的基本步驟包括利用數(shù)據(jù)庫(kù)管理系統(tǒng)(DBMS)的具體表定義方法從用戶需求的概念模型設(shè)計(jì)概念模型和對(duì)物理數(shù)據(jù)庫(kù)的索引、分區(qū)、群集和具體選擇性進(jìn)行實(shí)際性能調(diào)優(yōu)。對(duì)于分布式數(shù)據(jù)庫(kù),物理數(shù)據(jù)庫(kù)設(shè)計(jì)還涉及分配計(jì)算機(jī)網(wǎng)絡(luò)數(shù)據(jù)。一旦設(shè)計(jì)完成,數(shù)據(jù)庫(kù)生命周期將在實(shí)現(xiàn)和維護(hù)中繼續(xù)延續(xù)。數(shù)據(jù)庫(kù)生命周期如圖1.2所示。物理數(shù)據(jù)庫(kù)設(shè)計(jì)被定義在整個(gè)數(shù)據(jù)庫(kù)生命周期的上下文中,用于顯示物理數(shù)據(jù)庫(kù)設(shè)計(jì)關(guān)系到其他設(shè)計(jì)步驟。
媒體關(guān)注與評(píng)論
我強(qiáng)烈推薦由Lightstone、Teorey以及Nadeau所撰寫的《物理數(shù)據(jù)庫(kù)設(shè)計(jì)》一書。本書涵蓋了諸多有關(guān)良好物理設(shè)計(jì)的內(nèi)容:如在使用索引、物化視圖的權(quán)衡以及物理數(shù)據(jù)布局等不同方法時(shí)的效果。與其他類似書籍所不同的是,本書并不是局限在某種特定的產(chǎn)品之上,而是那些被產(chǎn)品表面所遮蔽的更深層次的內(nèi)容。本書還涉及到交易密集型應(yīng)用程序(OLTP)以及數(shù)據(jù)倉(cāng)庫(kù)(OLAP)方面的內(nèi)容??傊?,本書十分值得期待。 ——Michael Blaha,OMT Associates,Inc。 這是一部物理數(shù)據(jù)庫(kù)設(shè)計(jì)方面的優(yōu)秀著作,她給予讀者務(wù)實(shí)的模型以及建議。為廣大的從業(yè)者以及學(xué)習(xí)者提供了豐富的信息,并通過(guò)DB2、Oracle以及SQL Server中的實(shí)例介紹相關(guān)分析模型以及實(shí)用的提示信息。 ——Jim Gray,Microsoft Research
編輯推薦
《物理數(shù)據(jù)庫(kù)設(shè)計(jì):索引、視圖和存儲(chǔ)技術(shù)》這是第一本全面講述數(shù)據(jù)庫(kù)物理設(shè)計(jì)的書籍。關(guān)系數(shù)據(jù)庫(kù)中所包含信息的迅速增加,使得數(shù)據(jù)庫(kù)、性能和可維護(hù)性變得不再簡(jiǎn)單,DBA比以往任何時(shí)候都要在更大壓力下去優(yōu)化數(shù)據(jù)庫(kù)結(jié)構(gòu)的系統(tǒng)性能和管理。《物理數(shù)據(jù)庫(kù)設(shè)計(jì)——索引、視圖和存儲(chǔ)技術(shù)》一書討論數(shù)據(jù)庫(kù)的物理結(jié)構(gòu)如何影響性能,包括具體的例子、向?qū)?、各種DBMS和配置的最好和最差的應(yīng)用實(shí)例;一些簡(jiǎn)單的內(nèi)容,如提高表的索引設(shè)計(jì)對(duì)性能有深遠(yuǎn)的影響;不同形式的數(shù)據(jù)庫(kù),如聯(lián)機(jī)事務(wù)處理(OLTP)、企業(yè)資源管理(ERP)、數(shù)據(jù)挖掘(DM)和管理資源計(jì)劃(MRP)等,這些數(shù)據(jù)庫(kù)都可以使用這本書中提供的方法改善性能。
圖書封面
圖書標(biāo)簽Tags
無(wú)
評(píng)論、評(píng)分、閱讀與下載
物理數(shù)據(jù)庫(kù)設(shè)計(jì) PDF格式下載