數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的原理及應(yīng)用

出版時間:2008-2  出版社:高等教育  作者:李志剛  頁數(shù):340  

前言

隨著計算方法和信息技術(shù)的不斷發(fā)展,大量數(shù)據(jù)的產(chǎn)生和收集導(dǎo)致信息爆炸?,F(xiàn)代社會的競爭趨勢要求對這些數(shù)據(jù)進(jìn)行實時的和深層次的分析。雖然現(xiàn)在已經(jīng)出現(xiàn)更強(qiáng)大的存儲系統(tǒng)和檢索系統(tǒng),但是使用者發(fā)現(xiàn)在分析所擁有的信息方面變得越來越困難。數(shù)據(jù)倉庫提供了容納大量信息的場所,但它只有和數(shù)據(jù)挖掘技術(shù)相結(jié)合才能最終解決用戶的困惑,使用戶能夠從繁雜的數(shù)據(jù)中找出真正有價值的信息和知識。數(shù)據(jù)倉庫可以加強(qiáng)企業(yè)對信息的管理能力,數(shù)據(jù)挖掘可以改善企業(yè)的經(jīng)營狀況,使企業(yè)的決策制定過程更加科學(xué)化和快速,為企業(yè)帶來巨大的收益,增強(qiáng)企業(yè)的競爭優(yōu)勢。數(shù)據(jù)倉庫和數(shù)據(jù)挖掘是20世紀(jì)90年代中期興起的決策支持新技術(shù),它們是基于大規(guī)模數(shù)據(jù)庫的決策支持系統(tǒng)的核心。數(shù)據(jù)倉庫是區(qū)別于數(shù)據(jù)庫的一種新型數(shù)據(jù)存儲形式,它是面向主題的、集成的、不可更新的、隨時間不斷變化的數(shù)據(jù)集合,用以支持經(jīng)營管理中的決策制定。數(shù)據(jù)挖掘是從數(shù)據(jù)庫中發(fā)現(xiàn)知識的核心技術(shù),它從大量的數(shù)據(jù)中提取隱含的、人所未知的、可信而有效的知識。數(shù)據(jù)挖掘能夠?qū)?shù)據(jù)進(jìn)行再分析,以期獲得更加深入的了解。它具有預(yù)測功能,可以通過已有數(shù)據(jù)預(yù)測發(fā)展趨勢。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)相結(jié)合,與現(xiàn)代的管理決策方法相結(jié)合,就能夠使數(shù)據(jù)倉庫在組織機(jī)構(gòu)的經(jīng)營管理決策中發(fā)揮巨大的作用。我國數(shù)據(jù)挖掘技術(shù)的研究始于20世紀(jì)90年代,經(jīng)過十幾年的發(fā)展,這一領(lǐng)域目前正處于蓬勃發(fā)展時期。但是由于數(shù)據(jù)倉庫、數(shù)據(jù)挖掘技術(shù)都是數(shù)據(jù)處理與分析領(lǐng)域出現(xiàn)的新技術(shù),大部分人把目光投向基于這兩項技術(shù)的基礎(chǔ)理論的研究,特別是具體技術(shù)和算法的實現(xiàn),而忽略對數(shù)據(jù)倉庫、數(shù)據(jù)挖掘理論與實踐相結(jié)合的應(yīng)用研究。因此,筆者在結(jié)合科研項目的基礎(chǔ)上,對數(shù)據(jù)倉庫、數(shù)據(jù)挖掘技術(shù)進(jìn)行較系統(tǒng)的研究,并將研究成果應(yīng)用于財經(jīng)、證券投資等領(lǐng)域;同時筆者在研究過程中不斷地學(xué)習(xí),既對原有的理論和實踐進(jìn)行總結(jié),又不斷地將所學(xué)到的知識運用到實踐中去,豐富了原有的理論。本書詳細(xì)闡述數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的基本原理,系統(tǒng)而全面地介紹數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的概念、作用、算法以及應(yīng)用領(lǐng)域、相關(guān)學(xué)科和發(fā)展趨勢,并著重討論數(shù)據(jù)倉庫和數(shù)據(jù)挖掘在企業(yè)管理中的應(yīng)用及構(gòu)建策略?;赟QL Senrer 2005介紹數(shù)據(jù)倉庫與數(shù)據(jù)挖掘工具的操作和應(yīng)用,并結(jié)合具體實例,闡述企業(yè)數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的實施過程。

內(nèi)容概要

  《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的原理及應(yīng)用》詳細(xì)闡述數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的基本原理,系統(tǒng)而全面地介紹數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的概念、作用、算法以及應(yīng)用領(lǐng)域、相關(guān)學(xué)科和發(fā)展趨勢,并著重討論數(shù)據(jù)倉庫和數(shù)據(jù)挖掘在企業(yè)管理中的應(yīng)用及構(gòu)建策略?;赟QL Server 2005介紹數(shù)據(jù)倉庫與數(shù)據(jù)挖掘工具的操作和應(yīng)用,并結(jié)合具體實例,闡述企業(yè)數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的實施過程。最后,以證券行業(yè)為對象提供一個數(shù)據(jù)挖掘的開發(fā)實例?!稊?shù)據(jù)倉庫與數(shù)據(jù)挖掘的原理及應(yīng)用》的指導(dǎo)思想是在系統(tǒng)闡述基本知識和基本理論的基礎(chǔ)上,強(qiáng)調(diào)實際應(yīng)用能力的培養(yǎng),充分體現(xiàn)數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)作為解決實際問題的方法和工具的特點?!稊?shù)據(jù)倉庫與數(shù)據(jù)挖掘的原理及應(yīng)用》既可以作為信息系統(tǒng)、電子商務(wù)、管理科學(xué)與工程、計算機(jī)應(yīng)用、軟件工程等專業(yè)的本科高年級和研究生教材,又可以作為從事競爭情報、信息管理、知識管理、戰(zhàn)略管理和軟科學(xué)的研究人員的參考資料。

書籍目錄

第1章 數(shù)據(jù)倉庫概述本章主要內(nèi)容1.1 從數(shù)據(jù)庫到數(shù)據(jù)倉庫1.1.1 決策支持技術(shù)與數(shù)據(jù)庫技術(shù)的發(fā)展1.1.2 數(shù)據(jù)倉庫與數(shù)據(jù)庫的區(qū)別1.2 數(shù)據(jù)倉庫的概念與特點1.2.1 數(shù)據(jù)倉庫概念1.2.2 面向主題1.2.3 數(shù)據(jù)的集成性1.2.4 數(shù)據(jù)的非易失性1.2.5 數(shù)據(jù)因時而變的特點1.3 數(shù)據(jù)倉庫中的關(guān)鍵概念1.3.1 外部數(shù)據(jù)源1.3.2 數(shù)據(jù)抽取1.3.3 數(shù)據(jù)清洗1.3.4 數(shù)據(jù)轉(zhuǎn)換1.3.5 數(shù)據(jù)加載1.3.6 元數(shù)據(jù)1.3.7 數(shù)據(jù)集市1.3.8 數(shù)據(jù)粒度1.4 數(shù)據(jù)倉庫的數(shù)據(jù)組織1.4.1 數(shù)據(jù)倉庫的數(shù)據(jù)組織結(jié)構(gòu)1.4.2 數(shù)據(jù)粒度與數(shù)據(jù)分割1.4.3 數(shù)據(jù)倉庫的數(shù)據(jù)組織形式1.4.4 數(shù)據(jù)倉庫的數(shù)據(jù)追加與清理1.5 數(shù)據(jù)倉庫與數(shù)據(jù)集市的關(guān)系1.5.1 數(shù)據(jù)集市的類型1.5.2 數(shù)據(jù)集市與數(shù)據(jù)倉庫的區(qū)別1.5.3 數(shù)據(jù)集市的特點1.6 數(shù)據(jù)倉庫體系結(jié)構(gòu)1.6.1 數(shù)據(jù)倉庫系統(tǒng)的層次結(jié)構(gòu)1.6.2 數(shù)據(jù)倉庫的構(gòu)造模式1.7 操作數(shù)據(jù)存儲ODS1.7.1 操作數(shù)據(jù)存儲ODS的概念1.7.2 操作數(shù)據(jù)存儲ODS的應(yīng)用1.7.3 DB-ODS-DW三層體系結(jié)構(gòu)1.7.4 ODS/DW、ODS/DB之比較習(xí)題一第2章 聯(lián)機(jī)分析處理本章主要內(nèi)容2.1 聯(lián)機(jī)分析處理的概念2.1.1 OLAP的定義2.1.2 OLAF的相關(guān)基本概念2.1.3 OLAP與OLTP的關(guān)系及比較2.1.4 OLAP準(zhǔn)則2.2 OLAP多維數(shù)據(jù)分析2.2.1 OLAP基本分析動作2.2.2 廣義OLAP功能2.2.3 多維數(shù)據(jù)分析實例2.3 OLAP數(shù)據(jù)組織2.3.1 多維數(shù)據(jù)組織2.3.2 關(guān)系數(shù)據(jù)組織2.3.3 兩種數(shù)據(jù)組織的比較2.3.4 HOLAP2.4 OLAP的體系結(jié)構(gòu)與展現(xiàn)方式2.4.1 OLAP體系結(jié)構(gòu)2.4.2 OLAP前端展現(xiàn)方式2.4.3 OLAP結(jié)果的展現(xiàn)方法2.5 OLAP工具及評價2.5.1 OracleOLAP工具2.5.2 OLAP服務(wù)器和工具的評價指標(biāo)2.5.3 OLAP的局限性習(xí)題二第3章 數(shù)據(jù)倉庫設(shè)計本章主要內(nèi)容3.1 倉庫中數(shù)據(jù)模型概述3.1.1 數(shù)據(jù)模型的概念3.1.2 數(shù)據(jù)倉庫模型的構(gòu)建原則3.1.3 企業(yè)數(shù)據(jù)模型3.2 概念模型設(shè)計3.2.1 企業(yè)模型的建立3.2.2 數(shù)據(jù)模型的規(guī)范化3.2.3 常見的概念模型3.3 邏輯模型設(shè)計3.3.1 概念模型到邏輯模型的轉(zhuǎn)換3.3.2 數(shù)據(jù)表的規(guī)范化與分割3.3.3 維度表的設(shè)計3.3.4 事實表的設(shè)計3.3.5 數(shù)據(jù)集市的設(shè)計3.4 物理模型設(shè)計3.4.1 定義數(shù)據(jù)存儲結(jié)構(gòu)3.4.2 索引策略3.4.3 存儲分配優(yōu)化3.4.4 數(shù)據(jù)加載設(shè)計3.4.5 物理模型的設(shè)計對數(shù)據(jù)倉庫性能的影響3.5 元數(shù)據(jù)模型3.5.1 元數(shù)據(jù)的類型3.5.2 元數(shù)據(jù)的作用3.5.3 元數(shù)據(jù)的收集與維護(hù)3.5.4 元數(shù)據(jù)的使用3.6 粒度模型3.6.1 粒度的劃分3.6.2 粒度級別的確定習(xí)題三第4章數(shù)據(jù)倉庫的規(guī)劃與開發(fā)本章主要內(nèi)容4.1 數(shù)據(jù)倉庫的投資分析4.1.1 建立數(shù)據(jù)倉庫的必要性4.1.2 數(shù)據(jù)倉庫的投資回報分析與風(fēng)險分析4.2 數(shù)據(jù)倉庫的開發(fā)方法4.2.1 瀑布式開發(fā)4.2.2 螺旋式開發(fā)4.3 數(shù)據(jù)倉庫的建立過程4.3.1 數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫的過程與建立數(shù)據(jù)倉庫的步驟4.3.2 需求分析4.3.3 數(shù)據(jù)路線4.3.4 技術(shù)路線4.3.5 應(yīng)用路線4.3.6 數(shù)據(jù)倉庫部署4.3.7 運行維護(hù)4.4 數(shù)據(jù)倉庫的維護(hù)4.4.1 數(shù)據(jù)周期4.4.2 參照完整性4.4.3 數(shù)據(jù)環(huán)境信息4.4.4 數(shù)據(jù)備份與恢復(fù)4.5 提高數(shù)據(jù)倉庫性能4.5.1 提高I/0性能4.5.2 縮小查詢范圍4.5.3 采取并行優(yōu)化技術(shù)4.5.4 選擇適當(dāng)?shù)某跏蓟瘏?shù)4.6 數(shù)據(jù)倉庫的安全性4.6.1 安全類型4.6.2 安全方法4.7 分布式數(shù)據(jù)倉庫4.7.1 分布式數(shù)據(jù)倉庫的優(yōu)點4.7.2 分布式數(shù)據(jù)倉庫的模型建立與數(shù)據(jù)劃分4.7.3 分布式數(shù)據(jù)倉庫的建設(shè)策略4.7.4 分布式數(shù)據(jù)倉庫的技術(shù)缺陷習(xí)題四第5章數(shù)據(jù)倉庫的工具本章主要內(nèi)容5.1 數(shù)據(jù)倉庫工具的選擇5.1.1 數(shù)據(jù)倉庫工具的組成5.1.2 數(shù)據(jù)倉庫工具應(yīng)具備的主要功能5.1.3 數(shù)據(jù)倉庫的發(fā)展趨勢5.1.4 選取數(shù)據(jù)倉庫工具的方法5.2 常用數(shù)據(jù)倉庫產(chǎn)品簡介5.2.1 Oracle9i5.2.2 NCRTeraData第6章 數(shù)據(jù)挖掘概述第7章 數(shù)據(jù)挖掘的算法第8章 數(shù)據(jù)挖掘新技術(shù)第9章 數(shù)據(jù)挖掘的工具及其應(yīng)用第10章 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的綜合應(yīng)用第11章 基于數(shù)據(jù)挖掘的上市公司財務(wù)危機(jī)預(yù)警應(yīng)用實例參考文獻(xiàn)

章節(jié)摘錄

插圖:在決策過程中經(jīng)常用到外部數(shù)據(jù),這些數(shù)據(jù)通常也是非結(jié)構(gòu)化的。在事務(wù)處理系統(tǒng)中,由于未能對外部數(shù)據(jù)進(jìn)行統(tǒng)一管理,用到這些數(shù)據(jù)的DSS應(yīng)用必須對其白行集成。(3)數(shù)據(jù)動態(tài)集成問題由于每次分析處理時都進(jìn)行數(shù)據(jù)集成的開銷太大,某些應(yīng)用僅在開始時對所需數(shù)據(jù)進(jìn)行集成,以后就一直以這部分?jǐn)?shù)據(jù)作為分析處理的基礎(chǔ),不再與數(shù)據(jù)源發(fā)生聯(lián)系,這種方式的集成是靜態(tài)集成。但是,數(shù)據(jù)源中的數(shù)據(jù)如果在數(shù)據(jù)集成后發(fā)生變化,這些改變未能反映給決策者,這將導(dǎo)致決策者使用過時的數(shù)據(jù)。對于決策者而言,雖然并不要求實時準(zhǔn)確地知道系統(tǒng)內(nèi)的任何數(shù)據(jù)變化,但也不希望所分析的是很久以前的數(shù)據(jù)。因此,集成數(shù)據(jù)必須以一定的周期(如24小時)進(jìn)行刷新,我們稱其為動態(tài)集成。顯然,事務(wù)處理系統(tǒng)并不具備動態(tài)集成的能力。(4)歷史數(shù)據(jù)問題事務(wù)處理通常只需要當(dāng)前數(shù)據(jù),在數(shù)據(jù)庫中一般也只存儲短期數(shù)據(jù),且不同數(shù)據(jù)的保存期限也不一樣。即使有一些歷史數(shù)據(jù)保存下來了,也被束之高閣,未能得到充分利用。但對于決策分析而言,歷史數(shù)據(jù)是相當(dāng)重要的,許多分析方法必須以大量的歷史數(shù)據(jù)為依托。不對歷史數(shù)據(jù)進(jìn)行詳細(xì)分析,是難以把握企業(yè)的發(fā)展趨勢的。(5)數(shù)據(jù)的綜合問題在事務(wù)處理系統(tǒng)中積累了大量的細(xì)節(jié)數(shù)據(jù),一般而言,DSS并不對這些細(xì)節(jié)數(shù)據(jù)進(jìn)行分析。這主要存在兩個原因,一是細(xì)節(jié)數(shù)據(jù)的數(shù)據(jù)量太大,會嚴(yán)重影響分析數(shù)據(jù)的效率;二是過多的細(xì)節(jié)數(shù)據(jù)不利于分析人員將注意力集中在有用的信息上。因此,在進(jìn)行分析之前,往往需要對細(xì)節(jié)數(shù)據(jù)進(jìn)行不同程度的綜合。而事務(wù)處理系統(tǒng)不具備這種綜合能力,根據(jù)規(guī)范化理論,這種綜合數(shù)據(jù)的過程還往往因為會產(chǎn)生數(shù)據(jù)冗余而被加以限制。市場商業(yè)經(jīng)營模式的改變以及市場競爭日趨激烈都要求捕獲和分析事務(wù)級的業(yè)務(wù)數(shù)據(jù)。建立在事務(wù)處理環(huán)境上的分析系統(tǒng)無法達(dá)到這一要求。要提高分析數(shù)據(jù)和做出決策的效率和有效性,分析型處理及其數(shù)據(jù)必須與操作型處理及其數(shù)據(jù)相分離,必須把分析型數(shù)據(jù)從事務(wù)處理環(huán)境中提取出來,按照DSS處理的需要重新組織,建立單獨的分析處理環(huán)境,數(shù)據(jù)倉庫正是為了構(gòu)建這種新的分析處理環(huán)境而出現(xiàn)的一種數(shù)據(jù)存儲和組織技術(shù)。表1.2 是以數(shù)據(jù)庫為代表的事務(wù)處理環(huán)境與以數(shù)據(jù)倉庫為代表的分析處理環(huán)境的對比。

編輯推薦

《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的原理及應(yīng)用》的目的旨在向讀者系統(tǒng)闡述數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的基本原理、方法和實用工具,介紹國內(nèi)外的最新研究成果。全書共有11章,第1章介紹數(shù)據(jù)倉庫的基本概念和知識;第2章介紹聯(lián)機(jī)分析處理的基本理論;第3章介紹數(shù)據(jù)倉庫的設(shè)計思想、方法和技巧;第4章介紹數(shù)據(jù)倉庫的規(guī)劃與開發(fā);第5章介紹各種數(shù)據(jù)倉庫工具的基本功能及SQL Server 2005數(shù)據(jù)倉庫工具的應(yīng)用;第6章介紹數(shù)據(jù)挖掘的概念和相關(guān)知識;第7章介紹數(shù)據(jù)挖掘的算法;第8章介紹文本挖掘、Web挖掘等數(shù)據(jù)挖掘新技術(shù);第9章介紹數(shù)據(jù)挖掘的工具及其應(yīng)用;第10章介紹數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的綜合應(yīng)用;第11章介紹基于數(shù)據(jù)挖掘的上市公司財務(wù)危機(jī)預(yù)警應(yīng)用實例,使讀者能結(jié)合具體應(yīng)用進(jìn)行上機(jī)操作,消化和理解所學(xué)的知識。

圖書封面

評論、評分、閱讀與下載


    數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的原理及應(yīng)用 PDF格式下載


用戶評論 (總計1條)

 
 

  •   還算可以~~應(yīng)該正版的
 

250萬本中文圖書簡介、評論、評分,PDF格式免費下載。 第一圖書網(wǎng) 手機(jī)版

京ICP備13047387號-7