出版時間:2012-12 出版社:清華大學出版社 作者:孫水華,趙釗林,劉建華 編著 頁數(shù):274 字數(shù):424000
內(nèi)容概要
《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)》主要介紹數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)的基本概念、相關(guān)技術(shù)和應(yīng)用案例及方法。全書共分為9章,主要內(nèi)容包括:
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的概念和體系結(jié)構(gòu)、數(shù)據(jù)倉庫開發(fā)模型、etl技術(shù)、olap技術(shù)、商務(wù)智能系統(tǒng)、數(shù)據(jù)預處理技術(shù)、數(shù)據(jù)挖掘技術(shù)、數(shù)據(jù)倉庫開發(fā)實例、報表設(shè)計等內(nèi)容。本書各章節(jié)的案例均使用microsoft
sql server
2005進行操作實踐講解。通過對具體實例的學習和實踐,使讀者掌握數(shù)據(jù)倉庫和數(shù)據(jù)挖掘中必要的知識點,達到學以致用的目的。
《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)》適合作為高等院校本科學生的教材,也可供企業(yè)信息化管理人員、技術(shù)人員以及軟件開發(fā)人員閱讀參考。
書籍目錄
第1章 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概述
1.1 數(shù)據(jù)倉庫的產(chǎn)生與發(fā)展
1.1.1 數(shù)據(jù)倉庫的產(chǎn)生
1.1.2 數(shù)據(jù)倉庫的發(fā)展
1.1.3 數(shù)據(jù)倉庫的研究與開發(fā)現(xiàn)狀
1.1.4 數(shù)據(jù)倉庫的作用
1.2 數(shù)據(jù)倉庫的基本概念
1.2.1 數(shù)據(jù)倉庫的定義與基本特性
1.2.2 數(shù)據(jù)倉庫與數(shù)據(jù)庫的區(qū)別
1.2.3 數(shù)據(jù)倉庫數(shù)據(jù)的組織架構(gòu)
1.3 數(shù)據(jù)倉庫的體系結(jié)構(gòu)
1.3.1 虛擬的數(shù)據(jù)倉庫體系結(jié)構(gòu)
1.3.2 單獨的數(shù)據(jù)倉庫體系結(jié)構(gòu)
1.3.3 單獨的數(shù)據(jù)集市體系結(jié)構(gòu)
1.3.4 分布式數(shù)據(jù)倉庫結(jié)構(gòu)
1.4 數(shù)據(jù)倉庫的相關(guān)概念
1.4.1 數(shù)據(jù)源
1.4.2 數(shù)據(jù)的存儲層
1.4.3 olap服務(wù)器
1.4.4 前端工具
1.5 數(shù)據(jù)挖掘技術(shù)概述
1.5.1 數(shù)據(jù)挖掘技術(shù)產(chǎn)生的背景
1.5.2 數(shù)據(jù)挖掘的基本概念
1.5.3 數(shù)據(jù)挖掘的對象
1.5.4 數(shù)據(jù)挖掘功能
1.5.5 數(shù)據(jù)挖掘與傳統(tǒng)分析方法的區(qū)別
1.5.6 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的關(guān)系
1.5.7 數(shù)據(jù)挖掘的發(fā)展趨勢
1.6 數(shù)據(jù)挖掘過程
1.6.1 fayyad過程模型
1.6.2 crisp-dm過程模型
1.6.3 其他數(shù)據(jù)挖掘過程模型
1.7 常用的數(shù)據(jù)挖掘技術(shù)
1.8 小結(jié)
1.9 習題
第2章 數(shù)據(jù)倉庫開發(fā)模型
2.1 數(shù)據(jù)倉庫開發(fā)模型概述
2.2 數(shù)據(jù)倉庫的概念模型
2.2.1 企業(yè)模型的建立
2.2.2 規(guī)范的數(shù)據(jù)模型
2.2.3 常見的概念模型
2.3 數(shù)據(jù)倉庫的邏輯模型
2.3.1 事實表模型設(shè)計
2.3.2 維度表模型設(shè)計
2.4 數(shù)據(jù)倉庫的物理模型
2.4.1 物理模型的設(shè)計要點
2.4.2 數(shù)據(jù)倉庫物理模型的存儲結(jié)構(gòu)
2.4.3 數(shù)據(jù)倉庫物理模型的索引構(gòu)建
2.4.4 數(shù)據(jù)倉庫物理模型的優(yōu)化問題
2.5 數(shù)據(jù)倉庫的元數(shù)據(jù)模型
2.5.1 元數(shù)據(jù)的類型
2.5.2 元數(shù)據(jù)的作用
2.5.3 元數(shù)據(jù)的收集與維護
2.5.4 元數(shù)據(jù)的使用
2.5.5 元數(shù)據(jù)管理模型
2.6 數(shù)據(jù)倉庫的粒度和聚集模型
2.6.1 數(shù)據(jù)倉庫粒度模型
2.6.2 數(shù)據(jù)倉庫聚集模型與數(shù)據(jù)分割
2.7 小結(jié)
2.8 習題
第3章 etl技術(shù)
3.1 etl相關(guān)概念
3.1.1 數(shù)據(jù)理解
3.1.2 數(shù)據(jù)抽取
3.1.3 數(shù)據(jù)清洗
3.1.4 數(shù)據(jù)轉(zhuǎn)換
3.1.5 數(shù)據(jù)加載
3.2 etl過程建模
3.2.1 etl系統(tǒng)面臨的挑戰(zhàn)
3.2.2 etl過程描述
3.2.3 etl概念模型
3.2.4 etl邏輯模型
3.3 etl增量抽取機制
3.4 etl過程數(shù)據(jù)質(zhì)量控制
3.4.1 數(shù)據(jù)質(zhì)量問題分類
3.4.2 數(shù)據(jù)質(zhì)量控制技術(shù)
3.5 etl并行處理技術(shù)
3.6 小結(jié)
3.7 習題
第4章 olap技術(shù)
4.1 olap概述
4.1.1 olap的定義
4.1.2 數(shù)據(jù)倉庫與數(shù)據(jù)分析的關(guān)系
4.1.3 多維分析的基本概念
4.1.4 olap的多維數(shù)據(jù)分析
4.1.5 olap與oltp的比較
4.2 多維數(shù)據(jù)庫及其存儲
4.2.1 多維數(shù)據(jù)庫
4.2.2 多維數(shù)據(jù)庫的數(shù)據(jù)存儲
4.2.3 多維數(shù)據(jù)庫與數(shù)據(jù)倉庫
4.3 olap的類型
4.3.1 多維olap
4.3.2 關(guān)系olap
4.3.3 混合型olap
4.3.4 molap與rolap的比較
4.4 olap的體系結(jié)構(gòu)
4.5 olap中的索引技術(shù)
4.5.1 b-tree索引
4.5.2 位圖索引
4.5.3 位圖索引的擴展--標識符索引
4.5.4 索引性能比較
4.5.5 索引的選擇
4.6 olap的評價標準
4.6.1 olap的衡量標準
4.6.2 olap服務(wù)器和工具的評價標準
4.7 olap的前端展現(xiàn)
4.7.1 olap工具
4.7.2 olap結(jié)果的展現(xiàn)方法
4.8 小結(jié)
4.9 習題
第5章 商務(wù)智能系統(tǒng)
5.1 商務(wù)智能概述
5.1.1 商務(wù)智能的概念
5.1.2 商務(wù)智能的發(fā)展歷程
5.1.3 商務(wù)智能的商業(yè)效益
5.2 商務(wù)智能系統(tǒng)架構(gòu)
5.2.1 商務(wù)智能系統(tǒng)的核心技術(shù)
5.2.1 商務(wù)智能的體系結(jié)構(gòu)
5.3 商務(wù)智能系統(tǒng)的功能
5.4 商務(wù)智能系統(tǒng)的應(yīng)用
5.4.1 商務(wù)智能系統(tǒng)特點
5.4.2 我國商務(wù)智能系統(tǒng)應(yīng)用現(xiàn)狀分析
5.5 小結(jié)
5.6 習題
第6章 數(shù)據(jù)預處理技術(shù)
6.1 數(shù)據(jù)預處理概述
6.1.1 數(shù)據(jù)預處理的必要性
6.1.2 數(shù)據(jù)預處理的基本方法
6.1.3 數(shù)據(jù)預處理的研究現(xiàn)狀
6.2 數(shù)據(jù)清理
6.2.1 填充缺失值
6.2.2 光滑噪聲數(shù)據(jù)
6.2.3 數(shù)據(jù)清理過程
6.3 數(shù)據(jù)集成
6.4 數(shù)據(jù)變換
6.5 數(shù)據(jù)歸約
6.5.1 數(shù)據(jù)立方體聚集
6.5.2 屬性子集選擇
6.5.3 維度歸約
6.5.4 數(shù)值歸約
6.5.5 數(shù)據(jù)離散化與概念分層
6.6 小結(jié)
6.7 習題
第7章 數(shù)據(jù)挖掘技術(shù)
7.1 概念描述
7.1.1 概念描述的生成過程
7.1.2 概念分層與數(shù)據(jù)泛化
7.1.3 概念分層方法
7.1.4 數(shù)據(jù)泛化方法
7.1.5 泛化的表示
7.1.6 屬性相關(guān)分析
7.1.7 區(qū)別性描述
7.2 關(guān)聯(lián)規(guī)則
7.2.1 關(guān)聯(lián)規(guī)則相關(guān)概念
7.2.2 關(guān)聯(lián)規(guī)則挖掘步驟
7.2.3 關(guān)聯(lián)規(guī)則分類
7.2.4 關(guān)聯(lián)規(guī)則的算法
7.3 數(shù)據(jù)分類
7.3.1 數(shù)據(jù)分類的基本步驟與評價準則
7.3.2 決策樹
7.3.3 貝葉斯分類
7.3.4 神經(jīng)網(wǎng)絡(luò)方法
7.3.5 近鄰分類方法
7.4 數(shù)據(jù)聚類
7.4.1 聚類分析概述
7.4.2 聚類算法的分類及其典型算法
7.4.3 聚類分析中的相似度度量方法
7.4.4 聚類分析中的聚類準則函數(shù)
7.4.5 k-means聚類算法
7.5 遺傳算法
7.5.1 遺傳算法的基本術(shù)語
7.5.2 遺傳算法的執(zhí)行過程
7.5.3 遺傳算法應(yīng)用舉例
7.5.4 遺傳算法的基本要素
7.5.5 遺傳算法的特點及應(yīng)用領(lǐng)域
7.6 粗糙集
7.6.1 粗糙集理論的相關(guān)概念
7.6.2 粗糙集的應(yīng)用舉例
7.6.3 粗糙集理論研究的對象及特點
7.7 小結(jié)
7.8 習題
第8章 數(shù)據(jù)倉庫開發(fā)實例
8.1 sql server 2005所提供的數(shù)據(jù)倉庫功能
8.1.1 sql server 2005 integration services
8.1.2 sql server 2005 analysis services
8.1.3 sql server 2005 dw工具
8.2 福馬特商店銷售分析數(shù)據(jù)倉庫系統(tǒng)的分析與設(shè)計
8.3 數(shù)據(jù)倉庫的實現(xiàn)
8.3.1 sql server的數(shù)據(jù)倉庫創(chuàng)建
8.3.2 olap的實施
8.3.3 數(shù)據(jù)倉庫中的數(shù)據(jù)挖掘
8.4 數(shù)據(jù)倉庫的應(yīng)用與管理
8.4.1 數(shù)據(jù)倉庫的用戶
8.4.2 數(shù)據(jù)倉庫應(yīng)用案例
8.4.3 數(shù)據(jù)倉庫的運行技術(shù)管理
8.4.4 數(shù)據(jù)倉庫應(yīng)用中的法律問題
8.4.5 數(shù)據(jù)倉庫的成本與效益分析
8.5 小結(jié)
8.6 習題
第9章 報表設(shè)計
9.1 報表概述
9.1.1 報表結(jié)構(gòu)
9.1.2 傳遞報表
9.1.3 report server功能結(jié)構(gòu)
9.1.4 report services的組成部分
9.2 報表向?qū)е谱鲌蟊?br />9.2.1 向?qū)е谱鲌蟊?br />9.2.2 報表設(shè)計器
9.2.3 部署報表
9.3 編輯制作報表
9.3.1 新建報表項目
9.3.2 新建數(shù)據(jù)集
9.3.3 報表格式設(shè)計
9.3.4 分組
9.3.5 鉆取功能
9.3.6 文檔結(jié)構(gòu)圖
9.4 矩陣式報表
9.4.1 數(shù)據(jù)集建立
9.4.2 矩陣布局
9.4.3 矩形布局
9.4.4 折疊結(jié)構(gòu)
9.5 統(tǒng)計圖表
9.5.1 圖表元素
9.5.2 柱形圖
9.5.3 折線圖
9.5.4 餅圖
9.5.5 圓環(huán)圖
9.6 主體的多列
9.7 小結(jié)
9.8 實驗
參考文獻
章節(jié)摘錄
版權(quán)頁: 插圖: 4.復雜類型數(shù)據(jù)庫 復雜類型的數(shù)據(jù)庫是指非單純文本的數(shù)據(jù)庫或能夠表示動態(tài)的序列數(shù)據(jù)的數(shù)據(jù)庫,主要有如下幾類。 (1)空間數(shù)據(jù)庫。主要指存儲空間信息的數(shù)據(jù)庫,其中數(shù)據(jù)可能以光柵格式提供,也可能用矢量圖形數(shù)據(jù)表示。例如,地理信息數(shù)據(jù)庫、衛(wèi)星圖像數(shù)據(jù)庫、城市地下管道、下水道及各類地下建筑分布數(shù)據(jù)庫等。對空間數(shù)據(jù)庫的挖掘可以為城市規(guī)劃、生態(tài)規(guī)劃、道路修建提供決策支持。 (2)時序數(shù)據(jù)庫。主要用于存放與時間相關(guān)的數(shù)據(jù),它可用來反映隨時間變化的即時數(shù)據(jù)或不同時間發(fā)生的不同事件。例如,連續(xù)的存放即時的股票交易信息、衛(wèi)星軌道信息等。對時序數(shù)據(jù)的挖掘可以發(fā)現(xiàn)事件的發(fā)展趨勢、事物的演變過程和隱藏特征,這些信息將對事件的計劃、決策和預警是非常有用的。 (3)多媒體數(shù)據(jù)庫。用于存放圖像、聲音和視頻信息的數(shù)據(jù)庫。由于多媒體技術(shù)的發(fā)展,以及相關(guān)研究(如可視化信息檢索、虛擬現(xiàn)實技術(shù))的成就,多媒體數(shù)據(jù)庫也逐漸普及,并應(yīng)用于許多重要研究領(lǐng)域。目前,多媒體數(shù)據(jù)的挖掘主要放在對圖像數(shù)據(jù)的檢索與匹配上,隨著研究的深入將會拓展到對聲音、視頻信息的挖掘處理。 1.5.4數(shù)據(jù)挖掘功能 如果以數(shù)據(jù)挖掘任務(wù)為標準來劃分,數(shù)據(jù)挖掘功能有如下的幾類:概念描述、關(guān)聯(lián)分析、分類和預測、聚類分析、孤立點分析、演變分析等。 1.概念描述 概念描述(concept description)指的是對某種對象的內(nèi)涵特征進行概括,概括就是概念描述的本質(zhì)。一般情況下,對一個數(shù)據(jù)集,其包含大量數(shù)據(jù),做一個總體狀態(tài)的概述就是一個概念。例如,將某一公司所有賣出的汽車的基本情況進行概述與總結(jié),就會了解到所有汽車基本情況的一個整體概念。 傳統(tǒng)的也是最簡單的數(shù)據(jù)總結(jié)方法是計算出數(shù)據(jù)庫的各個字段上的求各值、平均值、方差值等統(tǒng)計值,或者用直方圖、餅狀圖等圖形方式表示。而數(shù)據(jù)挖掘中的概念描述主要關(guān)心從數(shù)據(jù)泛化的角度來討論數(shù)據(jù)總結(jié)。數(shù)據(jù)泛化是一種把數(shù)據(jù)庫中的有關(guān)數(shù)據(jù)從低層次抽象到高層次上的過程。由于數(shù)據(jù)庫上的數(shù)據(jù)或?qū)ο笏男畔⒖偸亲钤?、基本的信息(這是為了不遺漏任何可能有用的數(shù)據(jù)信息),人們有時希望能從較高層次的視圖上處理或瀏覽數(shù)據(jù),因此,需要對數(shù)據(jù)進行不同層次上的泛化以適應(yīng)各種查詢要求。 描述可以分為特征性的描述與區(qū)別性的描述。前者描述某類對象的共同特征,生成一個類的特征性描述,該描述只涉及該類對象中所有個體的共性。其輸出可以采用多種形式,包括餅圖、柱狀圖、曲線、多維數(shù)據(jù)立方體、含交叉表的多維表,且描述結(jié)果也可以用概化關(guān)系或規(guī)則形式表示。后者描述異類對象之間的區(qū)別,將目標類對象的一般特性與一個或多個對比類對象的一般特性比較,而這種比較必須具備可比性的兩個或多個類之間進行的。數(shù)據(jù)區(qū)分的輸出類似于數(shù)據(jù)特征化,但它應(yīng)該包括比較度量,幫助區(qū)分目標類和對比類。
編輯推薦
《高等院校信息管理與信息系統(tǒng)專業(yè)系列教材:數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)》適合作為高等院校本科學生的教材,也可供企業(yè)信息化管理人員、技術(shù)人員以及軟件開發(fā)人員閱讀參考。
圖書封面
評論、評分、閱讀與下載
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù) PDF格式下載