數(shù)據倉庫與數(shù)據挖掘的原理及應用

出版時間:2008-2  出版社:高等教育  作者:李志剛  頁數(shù):340  

前言

隨著計算方法和信息技術的不斷發(fā)展,大量數(shù)據的產生和收集導致信息爆炸?,F(xiàn)代社會的競爭趨勢要求對這些數(shù)據進行實時的和深層次的分析。雖然現(xiàn)在已經出現(xiàn)更強大的存儲系統(tǒng)和檢索系統(tǒng),但是使用者發(fā)現(xiàn)在分析所擁有的信息方面變得越來越困難。數(shù)據倉庫提供了容納大量信息的場所,但它只有和數(shù)據挖掘技術相結合才能最終解決用戶的困惑,使用戶能夠從繁雜的數(shù)據中找出真正有價值的信息和知識。數(shù)據倉庫可以加強企業(yè)對信息的管理能力,數(shù)據挖掘可以改善企業(yè)的經營狀況,使企業(yè)的決策制定過程更加科學化和快速,為企業(yè)帶來巨大的收益,增強企業(yè)的競爭優(yōu)勢。數(shù)據倉庫和數(shù)據挖掘是20世紀90年代中期興起的決策支持新技術,它們是基于大規(guī)模數(shù)據庫的決策支持系統(tǒng)的核心。數(shù)據倉庫是區(qū)別于數(shù)據庫的一種新型數(shù)據存儲形式,它是面向主題的、集成的、不可更新的、隨時間不斷變化的數(shù)據集合,用以支持經營管理中的決策制定。數(shù)據挖掘是從數(shù)據庫中發(fā)現(xiàn)知識的核心技術,它從大量的數(shù)據中提取隱含的、人所未知的、可信而有效的知識。數(shù)據挖掘能夠對數(shù)據進行再分析,以期獲得更加深入的了解。它具有預測功能,可以通過已有數(shù)據預測發(fā)展趨勢。數(shù)據倉庫與數(shù)據挖掘技術相結合,與現(xiàn)代的管理決策方法相結合,就能夠使數(shù)據倉庫在組織機構的經營管理決策中發(fā)揮巨大的作用。我國數(shù)據挖掘技術的研究始于20世紀90年代,經過十幾年的發(fā)展,這一領域目前正處于蓬勃發(fā)展時期。但是由于數(shù)據倉庫、數(shù)據挖掘技術都是數(shù)據處理與分析領域出現(xiàn)的新技術,大部分人把目光投向基于這兩項技術的基礎理論的研究,特別是具體技術和算法的實現(xiàn),而忽略對數(shù)據倉庫、數(shù)據挖掘理論與實踐相結合的應用研究。因此,筆者在結合科研項目的基礎上,對數(shù)據倉庫、數(shù)據挖掘技術進行較系統(tǒng)的研究,并將研究成果應用于財經、證券投資等領域;同時筆者在研究過程中不斷地學習,既對原有的理論和實踐進行總結,又不斷地將所學到的知識運用到實踐中去,豐富了原有的理論。本書詳細闡述數(shù)據倉庫與數(shù)據挖掘的基本原理,系統(tǒng)而全面地介紹數(shù)據倉庫與數(shù)據挖掘的概念、作用、算法以及應用領域、相關學科和發(fā)展趨勢,并著重討論數(shù)據倉庫和數(shù)據挖掘在企業(yè)管理中的應用及構建策略?;赟QL Senrer 2005介紹數(shù)據倉庫與數(shù)據挖掘工具的操作和應用,并結合具體實例,闡述企業(yè)數(shù)據倉庫和數(shù)據挖掘的實施過程。

內容概要

  《數(shù)據倉庫與數(shù)據挖掘的原理及應用》詳細闡述數(shù)據倉庫與數(shù)據挖掘的基本原理,系統(tǒng)而全面地介紹數(shù)據倉庫與數(shù)據挖掘的概念、作用、算法以及應用領域、相關學科和發(fā)展趨勢,并著重討論數(shù)據倉庫和數(shù)據挖掘在企業(yè)管理中的應用及構建策略?;赟QL Server 2005介紹數(shù)據倉庫與數(shù)據挖掘工具的操作和應用,并結合具體實例,闡述企業(yè)數(shù)據倉庫和數(shù)據挖掘的實施過程。最后,以證券行業(yè)為對象提供一個數(shù)據挖掘的開發(fā)實例。《數(shù)據倉庫與數(shù)據挖掘的原理及應用》的指導思想是在系統(tǒng)闡述基本知識和基本理論的基礎上,強調實際應用能力的培養(yǎng),充分體現(xiàn)數(shù)據倉庫和數(shù)據挖掘技術作為解決實際問題的方法和工具的特點。《數(shù)據倉庫與數(shù)據挖掘的原理及應用》既可以作為信息系統(tǒng)、電子商務、管理科學與工程、計算機應用、軟件工程等專業(yè)的本科高年級和研究生教材,又可以作為從事競爭情報、信息管理、知識管理、戰(zhàn)略管理和軟科學的研究人員的參考資料。

書籍目錄

第1章 數(shù)據倉庫概述本章主要內容1.1 從數(shù)據庫到數(shù)據倉庫1.1.1 決策支持技術與數(shù)據庫技術的發(fā)展1.1.2 數(shù)據倉庫與數(shù)據庫的區(qū)別1.2 數(shù)據倉庫的概念與特點1.2.1 數(shù)據倉庫概念1.2.2 面向主題1.2.3 數(shù)據的集成性1.2.4 數(shù)據的非易失性1.2.5 數(shù)據因時而變的特點1.3 數(shù)據倉庫中的關鍵概念1.3.1 外部數(shù)據源1.3.2 數(shù)據抽取1.3.3 數(shù)據清洗1.3.4 數(shù)據轉換1.3.5 數(shù)據加載1.3.6 元數(shù)據1.3.7 數(shù)據集市1.3.8 數(shù)據粒度1.4 數(shù)據倉庫的數(shù)據組織1.4.1 數(shù)據倉庫的數(shù)據組織結構1.4.2 數(shù)據粒度與數(shù)據分割1.4.3 數(shù)據倉庫的數(shù)據組織形式1.4.4 數(shù)據倉庫的數(shù)據追加與清理1.5 數(shù)據倉庫與數(shù)據集市的關系1.5.1 數(shù)據集市的類型1.5.2 數(shù)據集市與數(shù)據倉庫的區(qū)別1.5.3 數(shù)據集市的特點1.6 數(shù)據倉庫體系結構1.6.1 數(shù)據倉庫系統(tǒng)的層次結構1.6.2 數(shù)據倉庫的構造模式1.7 操作數(shù)據存儲ODS1.7.1 操作數(shù)據存儲ODS的概念1.7.2 操作數(shù)據存儲ODS的應用1.7.3 DB-ODS-DW三層體系結構1.7.4 ODS/DW、ODS/DB之比較習題一第2章 聯(lián)機分析處理本章主要內容2.1 聯(lián)機分析處理的概念2.1.1 OLAP的定義2.1.2 OLAF的相關基本概念2.1.3 OLAP與OLTP的關系及比較2.1.4 OLAP準則2.2 OLAP多維數(shù)據分析2.2.1 OLAP基本分析動作2.2.2 廣義OLAP功能2.2.3 多維數(shù)據分析實例2.3 OLAP數(shù)據組織2.3.1 多維數(shù)據組織2.3.2 關系數(shù)據組織2.3.3 兩種數(shù)據組織的比較2.3.4 HOLAP2.4 OLAP的體系結構與展現(xiàn)方式2.4.1 OLAP體系結構2.4.2 OLAP前端展現(xiàn)方式2.4.3 OLAP結果的展現(xiàn)方法2.5 OLAP工具及評價2.5.1 OracleOLAP工具2.5.2 OLAP服務器和工具的評價指標2.5.3 OLAP的局限性習題二第3章 數(shù)據倉庫設計本章主要內容3.1 倉庫中數(shù)據模型概述3.1.1 數(shù)據模型的概念3.1.2 數(shù)據倉庫模型的構建原則3.1.3 企業(yè)數(shù)據模型3.2 概念模型設計3.2.1 企業(yè)模型的建立3.2.2 數(shù)據模型的規(guī)范化3.2.3 常見的概念模型3.3 邏輯模型設計3.3.1 概念模型到邏輯模型的轉換3.3.2 數(shù)據表的規(guī)范化與分割3.3.3 維度表的設計3.3.4 事實表的設計3.3.5 數(shù)據集市的設計3.4 物理模型設計3.4.1 定義數(shù)據存儲結構3.4.2 索引策略3.4.3 存儲分配優(yōu)化3.4.4 數(shù)據加載設計3.4.5 物理模型的設計對數(shù)據倉庫性能的影響3.5 元數(shù)據模型3.5.1 元數(shù)據的類型3.5.2 元數(shù)據的作用3.5.3 元數(shù)據的收集與維護3.5.4 元數(shù)據的使用3.6 粒度模型3.6.1 粒度的劃分3.6.2 粒度級別的確定習題三第4章數(shù)據倉庫的規(guī)劃與開發(fā)本章主要內容4.1 數(shù)據倉庫的投資分析4.1.1 建立數(shù)據倉庫的必要性4.1.2 數(shù)據倉庫的投資回報分析與風險分析4.2 數(shù)據倉庫的開發(fā)方法4.2.1 瀑布式開發(fā)4.2.2 螺旋式開發(fā)4.3 數(shù)據倉庫的建立過程4.3.1 數(shù)據進入數(shù)據倉庫的過程與建立數(shù)據倉庫的步驟4.3.2 需求分析4.3.3 數(shù)據路線4.3.4 技術路線4.3.5 應用路線4.3.6 數(shù)據倉庫部署4.3.7 運行維護4.4 數(shù)據倉庫的維護4.4.1 數(shù)據周期4.4.2 參照完整性4.4.3 數(shù)據環(huán)境信息4.4.4 數(shù)據備份與恢復4.5 提高數(shù)據倉庫性能4.5.1 提高I/0性能4.5.2 縮小查詢范圍4.5.3 采取并行優(yōu)化技術4.5.4 選擇適當?shù)某跏蓟瘏?shù)4.6 數(shù)據倉庫的安全性4.6.1 安全類型4.6.2 安全方法4.7 分布式數(shù)據倉庫4.7.1 分布式數(shù)據倉庫的優(yōu)點4.7.2 分布式數(shù)據倉庫的模型建立與數(shù)據劃分4.7.3 分布式數(shù)據倉庫的建設策略4.7.4 分布式數(shù)據倉庫的技術缺陷習題四第5章數(shù)據倉庫的工具本章主要內容5.1 數(shù)據倉庫工具的選擇5.1.1 數(shù)據倉庫工具的組成5.1.2 數(shù)據倉庫工具應具備的主要功能5.1.3 數(shù)據倉庫的發(fā)展趨勢5.1.4 選取數(shù)據倉庫工具的方法5.2 常用數(shù)據倉庫產品簡介5.2.1 Oracle9i5.2.2 NCRTeraData第6章 數(shù)據挖掘概述第7章 數(shù)據挖掘的算法第8章 數(shù)據挖掘新技術第9章 數(shù)據挖掘的工具及其應用第10章 數(shù)據倉庫與數(shù)據挖掘的綜合應用第11章 基于數(shù)據挖掘的上市公司財務危機預警應用實例參考文獻

章節(jié)摘錄

插圖:在決策過程中經常用到外部數(shù)據,這些數(shù)據通常也是非結構化的。在事務處理系統(tǒng)中,由于未能對外部數(shù)據進行統(tǒng)一管理,用到這些數(shù)據的DSS應用必須對其白行集成。(3)數(shù)據動態(tài)集成問題由于每次分析處理時都進行數(shù)據集成的開銷太大,某些應用僅在開始時對所需數(shù)據進行集成,以后就一直以這部分數(shù)據作為分析處理的基礎,不再與數(shù)據源發(fā)生聯(lián)系,這種方式的集成是靜態(tài)集成。但是,數(shù)據源中的數(shù)據如果在數(shù)據集成后發(fā)生變化,這些改變未能反映給決策者,這將導致決策者使用過時的數(shù)據。對于決策者而言,雖然并不要求實時準確地知道系統(tǒng)內的任何數(shù)據變化,但也不希望所分析的是很久以前的數(shù)據。因此,集成數(shù)據必須以一定的周期(如24小時)進行刷新,我們稱其為動態(tài)集成。顯然,事務處理系統(tǒng)并不具備動態(tài)集成的能力。(4)歷史數(shù)據問題事務處理通常只需要當前數(shù)據,在數(shù)據庫中一般也只存儲短期數(shù)據,且不同數(shù)據的保存期限也不一樣。即使有一些歷史數(shù)據保存下來了,也被束之高閣,未能得到充分利用。但對于決策分析而言,歷史數(shù)據是相當重要的,許多分析方法必須以大量的歷史數(shù)據為依托。不對歷史數(shù)據進行詳細分析,是難以把握企業(yè)的發(fā)展趨勢的。(5)數(shù)據的綜合問題在事務處理系統(tǒng)中積累了大量的細節(jié)數(shù)據,一般而言,DSS并不對這些細節(jié)數(shù)據進行分析。這主要存在兩個原因,一是細節(jié)數(shù)據的數(shù)據量太大,會嚴重影響分析數(shù)據的效率;二是過多的細節(jié)數(shù)據不利于分析人員將注意力集中在有用的信息上。因此,在進行分析之前,往往需要對細節(jié)數(shù)據進行不同程度的綜合。而事務處理系統(tǒng)不具備這種綜合能力,根據規(guī)范化理論,這種綜合數(shù)據的過程還往往因為會產生數(shù)據冗余而被加以限制。市場商業(yè)經營模式的改變以及市場競爭日趨激烈都要求捕獲和分析事務級的業(yè)務數(shù)據。建立在事務處理環(huán)境上的分析系統(tǒng)無法達到這一要求。要提高分析數(shù)據和做出決策的效率和有效性,分析型處理及其數(shù)據必須與操作型處理及其數(shù)據相分離,必須把分析型數(shù)據從事務處理環(huán)境中提取出來,按照DSS處理的需要重新組織,建立單獨的分析處理環(huán)境,數(shù)據倉庫正是為了構建這種新的分析處理環(huán)境而出現(xiàn)的一種數(shù)據存儲和組織技術。表1.2 是以數(shù)據庫為代表的事務處理環(huán)境與以數(shù)據倉庫為代表的分析處理環(huán)境的對比。

編輯推薦

《數(shù)據倉庫與數(shù)據挖掘的原理及應用》的目的旨在向讀者系統(tǒng)闡述數(shù)據倉庫與數(shù)據挖掘的基本原理、方法和實用工具,介紹國內外的最新研究成果。全書共有11章,第1章介紹數(shù)據倉庫的基本概念和知識;第2章介紹聯(lián)機分析處理的基本理論;第3章介紹數(shù)據倉庫的設計思想、方法和技巧;第4章介紹數(shù)據倉庫的規(guī)劃與開發(fā);第5章介紹各種數(shù)據倉庫工具的基本功能及SQL Server 2005數(shù)據倉庫工具的應用;第6章介紹數(shù)據挖掘的概念和相關知識;第7章介紹數(shù)據挖掘的算法;第8章介紹文本挖掘、Web挖掘等數(shù)據挖掘新技術;第9章介紹數(shù)據挖掘的工具及其應用;第10章介紹數(shù)據倉庫與數(shù)據挖掘的綜合應用;第11章介紹基于數(shù)據挖掘的上市公司財務危機預警應用實例,使讀者能結合具體應用進行上機操作,消化和理解所學的知識。

圖書封面

評論、評分、閱讀與下載


    數(shù)據倉庫與數(shù)據挖掘的原理及應用 PDF格式下載


用戶評論 (總計1條)

 
 

  •   還算可以~~應該正版的
 

250萬本中文圖書簡介、評論、評分,PDF格式免費下載。 第一圖書網 手機版

京ICP備13047387號-7