出版時間:2010-12 出版社:清華大學出版社 作者:(美)萊特斯通 等著 頁數(shù):283
Tag標簽:無
前言
IBM工程師E.F.Codd在1970年提出關(guān)系模型后,關(guān)系數(shù)據(jù)庫成為管理和查詢結(jié)構(gòu)化數(shù)據(jù)的事實標準。在過去的15年中,隨著Internet的興起,聯(lián)機事務(wù)處理、在線銀行業(yè)務(wù)、與不同系統(tǒng)連接的能力使數(shù)據(jù)量有大幅度的增長。容量在TB級以上的數(shù)據(jù)已經(jīng)很普遍。這一數(shù)據(jù)增長的同時,遵守摩爾定律的CPU性能急劇增長,磁盤技術(shù)的進步使磁盤存儲密度進一步提升?,F(xiàn)代數(shù)據(jù)庫經(jīng)常需要支持成千上萬的用戶同時訪問。數(shù)據(jù)庫系統(tǒng)的性能和可維護性大大取決于其物理設(shè)計。主要的數(shù)據(jù)庫廠商開發(fā)了一系列很好的物理特性和功能設(shè)計技術(shù)。當今的數(shù)據(jù)庫可以在內(nèi)存和磁盤上進行切片、切塊、正移,還可以以各種方式旋轉(zhuǎn)等。但是到目前為止,并沒有多少文章涉及“物理數(shù)據(jù)庫設(shè)計”。當然,也有過白皮書、一些個人觀點和一些產(chǎn)品的文章涉及這個問題,但并沒有把它作為一個整體來對待。數(shù)據(jù)庫設(shè)計人員在實際工作中遇到的困難也很少提及,“蠕變特性”的復雜性給行業(yè)帶來了不小的麻煩。因為這些原因,我們迫切需要關(guān)于物理數(shù)據(jù)庫設(shè)計的資料。我們編寫的這本新書面向廣大的用戶,包括數(shù)據(jù)庫系統(tǒng)的學生和數(shù)據(jù)庫領(lǐng)域的專業(yè)人士。在書中,我們引入物理數(shù)據(jù)庫設(shè)計的主要概念,包括索引(B+、哈希、位圖)、物化視圖(延遲和實時)、范圍分區(qū)、散列(哈希)分區(qū)、無共享設(shè)計、多維群集、服務(wù)器拓撲、數(shù)據(jù)分布和基礎(chǔ)物理子系統(tǒng)(NUMA、SMP、MPP、SAN、NAS、RAID設(shè)備)等。為符合編寫這本書的目標人群——學生和數(shù)據(jù)庫專業(yè)人員,我們把重點放在實際的問題和解決方案上。在每一個細分市場和使用關(guān)系數(shù)據(jù)庫系統(tǒng)的各個方面,有關(guān)物理數(shù)據(jù)庫設(shè)計的關(guān)鍵問題似乎無處不在,如聯(lián)機事務(wù)處理(OLTP)、數(shù)據(jù)挖掘(DM)、多維聯(lián)機分析處理(MOLAP)、企業(yè)資源規(guī)劃(ERP)、管理資源計劃(MRP)、數(shù)據(jù)庫管理員(DBA)團隊設(shè)計和管理的所有內(nèi)部企業(yè)系統(tǒng)以及開發(fā)過程中的獨立軟件提供商的應(yīng)用程序(ISVA)。我們希望對物理數(shù)據(jù)庫設(shè)計、使用范例、產(chǎn)品的特定語法和最優(yōu)方法的關(guān)注,能使本書成為數(shù)據(jù)庫資料的一個很好的補充。文章結(jié)構(gòu)第1章是物理數(shù)據(jù)庫設(shè)計的概述以及如何適應(yīng)數(shù)據(jù)庫的生命周期。第2章介紹了業(yè)界目前用得較多的索引方法和B+樹索引的基本原理,并介紹了簡單索引和復合索引的變化,還對不同方法的性能測試加以比較。第3章主要從數(shù)據(jù)庫專家的角度介紹了查詢優(yōu)化的基礎(chǔ)和查詢執(zhí)行計劃選擇等需要了解的數(shù)據(jù)庫設(shè)計背景知識。第4~8章討論物理數(shù)據(jù)庫設(shè)計所需要的個別重要的設(shè)計決策。第4章介紹了如何完成索引選擇的具體內(nèi)容,以及在選擇和連接操作中索引策略的替代方案。第5章介紹了如何為獨立關(guān)系數(shù)據(jù)庫選擇物化視圖,以及如何在數(shù)據(jù)倉庫中的數(shù)據(jù)庫集合設(shè)置星型模型,用了幾個例子說明物化視圖選擇中所涉及的折中方案。第6章介紹了如何執(zhí)行無共享分區(qū)來分步解決龐大而且需要復雜計算的數(shù)據(jù)庫問題,并說明了無共享分區(qū)、物化視圖復制以及索引之間的關(guān)系。第7章專門討論范圍分區(qū),將大表分成多個較小的表來保存一定范圍內(nèi)的數(shù)據(jù)和索引,方便尋址。第8章討論了群集數(shù)據(jù)的優(yōu)點,以及在擴展到多維數(shù)據(jù)時這種技術(shù)是多么的有效。這樣可以使系統(tǒng)在同一時間內(nèi)群集多維數(shù)據(jù),而不用復制數(shù)據(jù)。第9章討論物理設(shè)計決策的整合問題。物理設(shè)計決策由每個決策如何影響其他決策來決定,并指導設(shè)計人員使用這些組件來優(yōu)化設(shè)計。第10章的重點是計數(shù)和抽樣數(shù)據(jù),以協(xié)助改善獨立查詢設(shè)計的方法、物化視圖的選擇、群集和分區(qū)等。第11章通過對一些比較有用的工具的描述來講述查詢執(zhí)行計劃,這些工具允許用戶了解查詢執(zhí)行計劃,以及設(shè)計數(shù)據(jù)庫時選擇的方法,如索引選擇和物化視圖等。第12章詳細說明了自動化物理設(shè)計決策的重要性,主要的關(guān)系數(shù)據(jù)庫如DB2、SQLServer和Oracle提供的自動化設(shè)計支持,討論了如何使用這些工具更快速地設(shè)計高效率的數(shù)據(jù)庫。第13章提出數(shù)據(jù)庫設(shè)計人員需要了解的一些系統(tǒng)問題,如多處理器服務(wù)器、磁盤系統(tǒng)、網(wǎng)絡(luò)拓撲、災(zāi)難恢復技術(shù)和內(nèi)存管理等。第14章討論了物理設(shè)計如何支持數(shù)據(jù)倉庫和使用OLAP技術(shù)進行有效的信息檢索。第15章定義了什么是逆規(guī)范化,并且說明規(guī)范化程度和數(shù)據(jù)庫性能之間的權(quán)衡。第16章是分布式數(shù)據(jù)之間分配策略的基礎(chǔ)知識,包括由于數(shù)據(jù)復制影響的快速查詢響應(yīng)時間和多個數(shù)據(jù)副本更新時間成本的權(quán)衡。附錄A簡要介紹了一個簡單的運算性能模型,用來評估和比較單一數(shù)據(jù)庫的不同物理設(shè)計的策略。該模型闡明了幾個章節(jié)中所講述的物理設(shè)計方法——權(quán)衡分析和設(shè)計決策。附錄B包含了兩個商業(yè)化災(zāi)難恢復技術(shù)的比較,分別為IBM的高可用性災(zāi)難恢復和Oracle的Data Guard。每一章都有數(shù)據(jù)庫設(shè)計人員的提示和獨特見解,對讀者了解每一章的設(shè)計方法很有幫助。接下來是參考書目匯總,使讀者能夠選擇相應(yīng)的物理設(shè)計主題進行進一步的了解。使用范例邏輯設(shè)計和物理設(shè)計之間的主要區(qū)別之一,是物理設(shè)計的基本特點和數(shù)據(jù)庫服務(wù)器的物理屬性(軟件和硬件)的關(guān)系越來越緊密。雖然邏輯設(shè)計可以抽象地進行,有些產(chǎn)品和組件相對獨立,可以用來實現(xiàn)所做的設(shè)計,但也不能說是物理設(shè)計。因此,在本書中,我們仔細選擇了一些例子,包括關(guān)于物理數(shù)據(jù)庫設(shè)計的數(shù)據(jù)庫服務(wù)器產(chǎn)品中的部分主要產(chǎn)品,如DB2forzOSV8.1、DB29(Linux、UNIX和Windows)、Oracle10g、SQLServer2005、InformixDataserver和NCRTeradata的產(chǎn)品。我們認為,這包括了行業(yè)內(nèi)流行的大部分數(shù)據(jù)庫。一些比較流行的數(shù)據(jù)庫如MySQL和Sybase則沒有加以介紹,只是為了更簡單地說明問題。 文獻綜述和書目與之前的邏輯數(shù)據(jù)庫設(shè)計書籍《數(shù)據(jù)庫建模與設(shè)計:邏輯設(shè)計》(《DatabaseModelingandDesign:LogicalDesign,4th》)一樣,本書在每章的最后都有文獻綜述。章節(jié)當中所涉及的材料有論文和相關(guān)參考,具體有兩種形式: 與本章討論的物理數(shù)據(jù)庫設(shè)計概念有關(guān)、原創(chuàng)的具有突破性想法、對數(shù)據(jù)庫設(shè)計發(fā)展有重大影響的論文。關(guān)于最新研究和突破性想法的主要論文。除每一章后面的文獻綜述外,本書的最后有個更全面的參考書目表。反饋與勘誤表如果您有任何意見或建議,我們希望能夠收到您的來信,這對我們得到反饋和改進或者更正這本書的內(nèi)容十分有幫助。不知道有人會注意到database這幾個字母都是用左手打出來的嗎?現(xiàn)在標準鍵盤的布局設(shè)計是為了使兩只手的負擔能夠均等。因此,按照這樣設(shè)計數(shù)據(jù)庫不僅僅是不合理的,并且比它看起來要困難得多?!m然這是一句俏皮話,但您可以想象作者寫這本書時,要用左手打上百次的database ,如果您使用“設(shè)計數(shù)據(jù)庫(designing databases)”來代替“編寫數(shù)據(jù)庫(writing about databases)”,那么對來自全球性社區(qū)的數(shù)據(jù)庫設(shè)計人才會更有說服力。致謝如同做其他事一樣,作者周圍會有許多人幫忙審閱、編輯、出版,最后才會出版這樣一本書。我們在這里特別感謝公司里的同事和為這本書做出貢獻的合作伙伴,他們是Sanjay Agarwal、Eric Alton、Hermann Baer、Kevin Beck、Surajit Chaudhuri、Kitman Cheung、Leslie Cranston、Yuri Deigin、Chris Eaton、Scott Fadden、Lee Goddard、Peter Haas、Scott Hayes、Lilian Hobbs、John Hornibrook、Martin Hubel、John Kennedy、Eileen Lin、Guy Lohman、Wenbin Ma、Roman Melnyk、Mughees Minhas、Vivek Narasayya、Jack Raitto、Haider Rizvi、Peter Shum、Danny Zilio and Calisto Zuzarte。謝謝Linda Peterson和Rebekah Smith對手稿所做的幫助。我們還要感謝為本書提供了極有價值見解的校對人員,他們深入閱讀并給出了新的方向,使我們能更好地完成本書。感謝Mike Blaha、Philippe Bonnet、Philipe Carino和Patrick O’Neil。謝謝概念評審Bob Muller、Dorian Pyle、James Bean、Jim Gray和Michael Blaha。我們要感謝我們的妻子和孩子們,有了他們的支持,我們才有時間來做這個項目。我們經(jīng)常工作到凌晨。向全球社區(qū)的學生和數(shù)據(jù)庫設(shè)計人員致敬。你們的工作比一般人所了解的更為艱巨和復雜。現(xiàn)代關(guān)系數(shù)據(jù)庫系統(tǒng)每種可能的設(shè)計屬性都有其自身的復雜性,要解決這些問題,作為真正的數(shù)據(jù)庫設(shè)計人員來說是個很大的挑戰(zhàn),大家都知道對人類來說這比較難。事實上,對任何有一定復雜關(guān)系的系統(tǒng),在數(shù)學上真正完全表達數(shù)據(jù)庫優(yōu)化設(shè)計是不可能的。在一次分析中我們發(fā)現(xiàn),一個普通的數(shù)據(jù)庫可能的設(shè)計選擇數(shù)目遠遠超過了宇宙中目前估計的原子數(shù)量(1081次方)幾個數(shù)量級!然而,盡管現(xiàn)代數(shù)據(jù)庫系統(tǒng)有很大的復雜性,但是也要設(shè)法加以研究、掌握并繼續(xù)進行設(shè)計。毫不夸張地說,世界上的數(shù)據(jù)就在大家的手中。我們希望這本書成為您的寶貴工具。我們希望這本書能夠引領(lǐng)學生和數(shù)據(jù)庫設(shè)計人員提高,這是改進世界數(shù)據(jù)管理基礎(chǔ)結(jié)構(gòu)的重要方法。工程師行業(yè)是一個偉大的職業(yè)。他們將主觀想象出來的事務(wù)通過科學手段在理論上進行實現(xiàn),然后轉(zhuǎn)化為對石頭、金屬或能源的認識。隨后,它給人們帶來了家園,提高了人們的生活水平,并增加了生活的舒適性。這是工程師的最高特權(quán)。 ——赫伯特?胡佛(Herbert Hoover 1874—1964) 大部分專家都同意,摧毀世界最有可能的方式是事故。這正是我們的用武之地,我們是計算機專家,能引發(fā)事故?!{森尼爾?伯倫斯坦(Nathaniel Borenstein 1957)
內(nèi)容概要
本書全面講述數(shù)據(jù)庫物理設(shè)計方案,主要包括物理數(shù)據(jù)庫設(shè)計概況,基本索引方法,查詢優(yōu)化和方案選擇,選擇索引,物化視圖選擇,無共享分區(qū),范圍分區(qū),多維群集,相互依賴的問題,物理設(shè)計探索中的計數(shù)和數(shù)據(jù)抽樣,查詢執(zhí)行計劃和物理設(shè)計,自動化物理數(shù)據(jù)庫設(shè)計,服務(wù)器資源和拓撲,決策支持、數(shù)據(jù)倉庫和OLAP系統(tǒng)中的物理設(shè)計,逆規(guī)范化以及分布式數(shù)據(jù)分配等內(nèi)容。 本書適合作為高等院校計算機及相關(guān)專業(yè)的教材和教學參考書,也可作為相關(guān)開發(fā)人員的自學教材和參考手冊。
作者簡介
作者:(美國)萊特斯通(Sam Lightstone) (美國)特里(Toby Teorey) (美國)納多(Tom Nadeau) 譯者:吳驊 王學昌 韓潼瑜Sam Lightstone,是IBM的DB2產(chǎn)品開發(fā)團隊研發(fā)經(jīng)理及高級技術(shù)人員,他的工作涉及 自主計算和關(guān)系數(shù)據(jù)庫管理系統(tǒng)的許多方面。Sam Lightstone是DB2自主計算研發(fā)工作的 領(lǐng)導者和創(chuàng)始人之一,是自治數(shù)據(jù)庫系統(tǒng)方面IEEE數(shù)據(jù)工程組的主席,是自治和自主計 算方面IEEE計算機協(xié)會任務(wù)組的成員。2003年,他當選為IBM技術(shù)研究院加拿大子公司 的杰出技術(shù)委員會委員。Sam Lightstone是IBM的發(fā)明大師,擁有超過25項專利和未決專 利,他所發(fā)表的成果涉及許多關(guān)于關(guān)系數(shù)據(jù)庫系統(tǒng)自主計算的內(nèi)容,從1991年開始一直就 職于IBM。Toby Teorey是密歇根大學安娜堡分校電氣工程與計算機科學系名譽教授以及工程學 院學術(shù)項目主任。他先后獲得亞利桑那大學圖森分校電氣工程的理學學士、理學碩士學位 以及威斯康星大學麥迪遜分校的計算機科學博士學位,也一直是各種數(shù)據(jù)庫會議委員會的 項目委員會主席和成員。Tom Nadeau是阿拉丁軟件(aladdinsoftware.com)的創(chuàng)始人,研究方向是數(shù)據(jù)及文本 挖掘領(lǐng)域。他先后獲得密歇根大學安娜堡分校計算機科學理學學士、電氣工程和計算機科 學碩士、博士學位,其研究的技術(shù)領(lǐng)域包括數(shù)據(jù)倉庫、OLAP、數(shù)據(jù)挖掘和機器學習,并于 2001年獲得IBM CASCON會議的最佳論文獎。
書籍目錄
第1章 物理數(shù)據(jù)庫設(shè)計概況 1.1 動機——數(shù)據(jù)增長和與日俱增的物理數(shù)據(jù)庫設(shè)計 1.2 數(shù)據(jù)庫生命周期 1.3 物理設(shè)計的元素:索引、分區(qū)和群集 1.3.1 索引 1.3.2 物化視圖 1.3.3 分區(qū)和多維群集 1.3.4 物理數(shù)據(jù)庫設(shè)計的其他方法 1.4 物理設(shè)計為什么這么困難 1.5 文獻綜述第2章 基本索引方法第3章 查詢優(yōu)化和方案選擇第4章 選擇索引第5章 物化視圖選擇第6章 無共享分區(qū)第7章 范圍分區(qū)第8章 多維群集第9章 相互依賴的問題第10章 物理設(shè)計探索中的計數(shù)和數(shù)據(jù)抽樣第11章 查詢執(zhí)行計劃和物理設(shè)計第12章 自動化物理數(shù)據(jù)庫設(shè)計第13章 實質(zhì)探討:服務(wù)器資源和拓撲第14章 決策支持、數(shù)據(jù)倉庫和OLAP系統(tǒng)中的物理設(shè)計第15章 逆規(guī)范化第16章 分布式數(shù)據(jù)分配附錄A 一個簡單的性能模型數(shù)據(jù)庫附錄B Oracle Data Guard與DB2 HADR的數(shù)據(jù)庫災(zāi)難恢復技術(shù)比較參考書目
章節(jié)摘錄
第1章 物理數(shù)據(jù)庫設(shè)計概況我沒有丟棄我的想法,它已經(jīng)備份在了某一張磁盤上?!?974年密歇根州安阿伯市,美國計算機協(xié)會文件說明與翻譯組(ACM SIGFIDE,現(xiàn)更名為:國際數(shù)據(jù)管理協(xié)會,SIGMOD)舉辦的年會及其隨后的數(shù)據(jù)系統(tǒng)語言會議報告中,關(guān)系數(shù)據(jù)模型之父特德考得與網(wǎng)絡(luò)數(shù)據(jù)模型思想提出者查理貝克漢姆發(fā)生了激烈辯論。到底什么樣的邏輯模型才是最好的數(shù)據(jù)庫邏輯模型?將近30年各種學術(shù)期刊和商業(yè)雜志都充斥著這種辯論,直到2003年特德考得去世后,這種辯論才逐漸平息下來。盡管最終關(guān)系數(shù)據(jù)庫模型占據(jù)了上風,但由于最初的爭論,許多數(shù)據(jù)庫系統(tǒng)開始建立并支持這兩種數(shù)據(jù)庫模型,各種系統(tǒng)所使用的基礎(chǔ)物理數(shù)據(jù)庫結(jié)構(gòu)也隨之發(fā)展起來了。最初物理設(shè)計主要是系統(tǒng)能夠采用什么類型的索引,B+樹索引幾乎占據(jù)了所有系統(tǒng)場景。后來,類似群集和分區(qū)的其他概念開始變得重要,但在20世紀70年代的爭論之后,這些方法與邏輯結(jié)構(gòu)的關(guān)系越來越少。邏輯數(shù)據(jù)庫設(shè)計,更確切地說是對于一個特定數(shù)據(jù)庫系統(tǒng)的邏輯設(shè)計,大多數(shù)應(yīng)用程序設(shè)計人員和程序員已經(jīng)掌握了基本數(shù)據(jù)關(guān)系及概念定義。設(shè)計人員的邏輯設(shè)計工作可以利用并借助ERWin數(shù)據(jù)模型工具、Rational Rose UML建模或使用純手工方法實現(xiàn)。物理數(shù)據(jù)庫設(shè)計就是在您正在使用的計算機平臺上,實現(xiàn)高效的數(shù)據(jù)存儲、檢索機制,通常是數(shù)據(jù)庫管理員的工作,今天有一些廠家提供的工具可以幫助數(shù)據(jù)庫管理員設(shè)計一個非常高效的數(shù)據(jù)庫。本書將主要致力于關(guān)系數(shù)據(jù)庫的物理設(shè)計方法和流行工具介紹,書中例子也將采取常見的數(shù)據(jù)庫系統(tǒng)——Oracle、DB2(IBM)和SQL Server(Microsoft)來描述這些物理數(shù)據(jù)庫的設(shè)計概念。1.1 動機——數(shù)據(jù)增長和與日俱增的物理數(shù)據(jù)庫設(shè)計物理數(shù)據(jù)庫設(shè)計真的有那么重要嗎?答案是肯定的。一些計算機專家除了運行自己正在運行的商業(yè)外,很少去做其他的事情,更不要說幫助客戶提升他們的表索引設(shè)計性能。這也同樣令人印象深刻,問題查詢提升了50倍的效率。真正推動物理數(shù)據(jù)庫設(shè)計的是數(shù)據(jù)卷,畢竟,一個數(shù)據(jù)庫只有幾行數(shù)據(jù),對于數(shù)據(jù)庫物理設(shè)計并不是什么問題,執(zhí)行一個應(yīng)用程序存儲一個小數(shù)據(jù)庫不可能影響到基礎(chǔ)的數(shù)據(jù)庫物理設(shè)計。在特定的領(lǐng)域內(nèi),實際的索引選擇對一個有20多行數(shù)據(jù)的數(shù)據(jù)庫并不是很困難。然而,隨著數(shù)據(jù)卷的增長,位于數(shù)據(jù)存儲模式下的物理結(jié)構(gòu)就顯得非常重要了。物理數(shù)據(jù)庫設(shè)計實際上是被數(shù)據(jù)卷引發(fā)的。畢竟,一個只有幾行數(shù)據(jù)的數(shù)據(jù)庫對于物理數(shù)據(jù)庫設(shè)計實際上是沒有任何爭論的,訪問小型數(shù)據(jù)的應(yīng)用程序性能不可能被基礎(chǔ)系統(tǒng)的物理設(shè)計深入影響。從實踐的觀點來看,索引選擇對于只有20行記錄的數(shù)據(jù)庫實際上并不重要。然而,隨著數(shù)據(jù)卷的增長,位于數(shù)據(jù)庫訪問模式之下的物理結(jié)構(gòu)日漸重要。一些因素正在激發(fā)數(shù)據(jù)按照3種形式呈戲劇化增長,這3種形式是結(jié)構(gòu)化(如關(guān)系元組)、半結(jié)構(gòu)化(如XML)和非結(jié)構(gòu)化數(shù)據(jù)(如音頻、視頻等)。大多數(shù)數(shù)據(jù)增長可以歸結(jié)于快速擴展和無處不在的網(wǎng)絡(luò)計算機和終端,幾乎存在于每個家庭、商業(yè)機構(gòu)之中,存儲在工業(yè)世界中。此外,隨著個人快速使用移動電話和PDA等可以連接網(wǎng)絡(luò)并用于共享數(shù)據(jù)的工具,數(shù)據(jù)卷開始進一步跳躍式發(fā)展。在企業(yè)系統(tǒng)中,以10T測算的數(shù)據(jù)庫也開始變得很普通。隨著人類基因組的3億個堿基對的測繪工作,制藥公司正在研究覆蓋人類基因的以蛋白質(zhì)為基礎(chǔ)的基因工程網(wǎng)絡(luò),這將會在數(shù)據(jù)庫中產(chǎn)生幾拍(它)字節(jié)PB(1PB=1000T或1PB=1000000G)大小的分析數(shù)據(jù)。表1.1數(shù)據(jù)顯示的是伯克加州大學1999年展開的一項調(diào)查。從這個調(diào)查研究報告中,可以看到存儲在磁盤上的部門和企業(yè)數(shù)據(jù)正在以每年100%的速度快速增長。事實上,沒有人能夠知道數(shù)據(jù)增長模式將在哪里停止或數(shù)據(jù)增長將何時停止。表1.1 全球性產(chǎn)品的原始內(nèi)容、存儲數(shù)據(jù)(以TB為單位)存 儲 介 質(zhì) 類 型 TB年(高) TB年(低) 增長率%紙質(zhì) 書 8 1 2 報紙 25 2 -2 期刊雜志 12 1 2 官方文件 195 19 2 小計 240 23 2膠片 照片 410000 41000 5 影視 16 16 3 X光 17200 17200 2 小計 427216 58216 4光學介質(zhì) 音樂CD 58 6 3 數(shù)據(jù)CD 3 3 2 DVD 22 22 100 小計 83 31 70磁性介質(zhì) 攝像機磁帶 300000 300000 5 PC機磁盤驅(qū)動器 766000 7660 100 部門級服務(wù)器 460000 161000 100 企業(yè)級服務(wù)器 167000 108550 100 小計 1693000 577210 55總計 2120539 635480 50資料來源:美國加州大學伯克利分校的研究,1999。另外,還有一些特殊事情的發(fā)生帶動了數(shù)據(jù)量。這些事情悄無聲息地發(fā)生,沒有任何人干擾并提起它們,但變化還是可以定量和令人深思的。在2000年左右,存儲的價格下降了1個點,在計算機磁盤上存儲數(shù)據(jù)開始變得比在紙張上存儲數(shù)據(jù)便宜(如圖1.1所示)。事實上,這大概是西方文明發(fā)展史上一次偉大的轉(zhuǎn)折點。羊皮紙、紙莎草和文件已經(jīng)記錄了過去的2000多年文明,突然間,這種文字記錄模式開始出現(xiàn)衰敗,現(xiàn)在電子文件不僅可以用來滿足分享和分析的樂趣,而且也更為經(jīng)濟。 圖1.1 存儲價格(來源:IBM的研究)劇烈增長的數(shù)據(jù)模式已經(jīng)改變了應(yīng)用系統(tǒng)必須訪問和處理的關(guān)系數(shù)據(jù)庫的數(shù)據(jù)量大小,但是快速增長的數(shù)據(jù)模式并沒有改變完成操作的速度。事實上,在很大程度上,計算機定義的數(shù)據(jù)處理的執(zhí)行目標要比人類定義的目標更加合理,例如,一個人愿意等待完成事務(wù)的時間可以是等待自動提款機的時間,也可以是每天晚上收盤和每天早晨開盤之間的幾個小時非高峰可用時間。這些限制因素主要取決于人類的期望,并且不依賴于所操作的數(shù)據(jù)卷。雖然數(shù)據(jù)卷和分析的復雜度在快速增長,作為人類的期望變化速度卻慢得多。一些緩解手段已經(jīng)被發(fā)現(xiàn),因為盡管數(shù)據(jù)卷在不斷增長,但隨著現(xiàn)代數(shù)據(jù)服務(wù)器的計算能力的提升,數(shù)據(jù)卷的計算能力也在增長。然而,固化服務(wù)器技術(shù)減少IT支出、增加數(shù)據(jù)處理能力的現(xiàn)象正在減輕,正是因為這個原因,隨著服務(wù)器處理能力的增加,數(shù)據(jù)服務(wù)器往往需要承擔更多的用途,而不是為了讓單一的任務(wù)執(zhí)行得更快。盡管按照摩爾定律,20世紀70年代中期以來,CPU的處理能力每18個月增長一倍,但磁盤讀寫速度也在按照一個比較適中的速度快速增加(請參見第13章關(guān)于摩爾定律的更加深入的討論)。最終,數(shù)據(jù)正在越來越多地用于檢測信息,而不僅僅是處理數(shù)據(jù),與其同時,正在崛起的在線分析處理(OLAP)、數(shù)據(jù)挖掘和其他形式的商業(yè)智能計算,造成實際處理過程復雜性的劇增。這些因素誘發(fā)了物理數(shù)據(jù)庫設(shè)計復雜而精密的方法。為什么呢?通過利用設(shè)計技巧,設(shè)計人員能夠在某些場景中減少幾個數(shù)量級的業(yè)務(wù)處理時間。當您等候在銀行取款機準備提取您的現(xiàn)金,或等一個投資數(shù)百萬美元的投資決策商業(yè)貿(mào)易分析結(jié)果時,提升計算效率上千倍是真實且有價值的,也是非常有必要的。1.2 數(shù)據(jù)庫生命周期數(shù)據(jù)庫設(shè)計生命周期的基本步驟包括利用數(shù)據(jù)庫管理系統(tǒng)(DBMS)的具體表定義方法從用戶需求的概念模型設(shè)計概念模型和對物理數(shù)據(jù)庫的索引、分區(qū)、群集和具體選擇性進行實際性能調(diào)優(yōu)。對于分布式數(shù)據(jù)庫,物理數(shù)據(jù)庫設(shè)計還涉及分配計算機網(wǎng)絡(luò)數(shù)據(jù)。一旦設(shè)計完成,數(shù)據(jù)庫生命周期將在實現(xiàn)和維護中繼續(xù)延續(xù)。數(shù)據(jù)庫生命周期如圖1.2所示。物理數(shù)據(jù)庫設(shè)計被定義在整個數(shù)據(jù)庫生命周期的上下文中,用于顯示物理數(shù)據(jù)庫設(shè)計關(guān)系到其他設(shè)計步驟。
媒體關(guān)注與評論
我強烈推薦由Lightstone、Teorey以及Nadeau所撰寫的《物理數(shù)據(jù)庫設(shè)計》一書。本書涵蓋了諸多有關(guān)良好物理設(shè)計的內(nèi)容:如在使用索引、物化視圖的權(quán)衡以及物理數(shù)據(jù)布局等不同方法時的效果。與其他類似書籍所不同的是,本書并不是局限在某種特定的產(chǎn)品之上,而是那些被產(chǎn)品表面所遮蔽的更深層次的內(nèi)容。本書還涉及到交易密集型應(yīng)用程序(OLTP)以及數(shù)據(jù)倉庫(OLAP)方面的內(nèi)容。總之,本書十分值得期待。 ——Michael Blaha,OMT Associates,Inc。 這是一部物理數(shù)據(jù)庫設(shè)計方面的優(yōu)秀著作,她給予讀者務(wù)實的模型以及建議。為廣大的從業(yè)者以及學習者提供了豐富的信息,并通過DB2、Oracle以及SQL Server中的實例介紹相關(guān)分析模型以及實用的提示信息。 ——Jim Gray,Microsoft Research
編輯推薦
《物理數(shù)據(jù)庫設(shè)計:索引、視圖和存儲技術(shù)》這是第一本全面講述數(shù)據(jù)庫物理設(shè)計的書籍。關(guān)系數(shù)據(jù)庫中所包含信息的迅速增加,使得數(shù)據(jù)庫、性能和可維護性變得不再簡單,DBA比以往任何時候都要在更大壓力下去優(yōu)化數(shù)據(jù)庫結(jié)構(gòu)的系統(tǒng)性能和管理?!段锢頂?shù)據(jù)庫設(shè)計——索引、視圖和存儲技術(shù)》一書討論數(shù)據(jù)庫的物理結(jié)構(gòu)如何影響性能,包括具體的例子、向?qū)?、各種DBMS和配置的最好和最差的應(yīng)用實例;一些簡單的內(nèi)容,如提高表的索引設(shè)計對性能有深遠的影響;不同形式的數(shù)據(jù)庫,如聯(lián)機事務(wù)處理(OLTP)、企業(yè)資源管理(ERP)、數(shù)據(jù)挖掘(DM)和管理資源計劃(MRP)等,這些數(shù)據(jù)庫都可以使用這本書中提供的方法改善性能。
圖書封面
圖書標簽Tags
無
評論、評分、閱讀與下載