出版時(shí)間:2012-12 出版社:清華大學(xué)出版社 作者:孫水華,趙釗林,劉建華 編著 頁數(shù):274 字?jǐn)?shù):424000
內(nèi)容概要
《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)》主要介紹數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)的基本概念、相關(guān)技術(shù)和應(yīng)用案例及方法。全書共分為9章,主要內(nèi)容包括:
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的概念和體系結(jié)構(gòu)、數(shù)據(jù)倉庫開發(fā)模型、etl技術(shù)、olap技術(shù)、商務(wù)智能系統(tǒng)、數(shù)據(jù)預(yù)處理技術(shù)、數(shù)據(jù)挖掘技術(shù)、數(shù)據(jù)倉庫開發(fā)實(shí)例、報(bào)表設(shè)計(jì)等內(nèi)容。本書各章節(jié)的案例均使用microsoft
sql server
2005進(jìn)行操作實(shí)踐講解。通過對具體實(shí)例的學(xué)習(xí)和實(shí)踐,使讀者掌握數(shù)據(jù)倉庫和數(shù)據(jù)挖掘中必要的知識點(diǎn),達(dá)到學(xué)以致用的目的。
《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)》適合作為高等院校本科學(xué)生的教材,也可供企業(yè)信息化管理人員、技術(shù)人員以及軟件開發(fā)人員閱讀參考。
書籍目錄
第1章 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概述
1.1 數(shù)據(jù)倉庫的產(chǎn)生與發(fā)展
1.1.1 數(shù)據(jù)倉庫的產(chǎn)生
1.1.2 數(shù)據(jù)倉庫的發(fā)展
1.1.3 數(shù)據(jù)倉庫的研究與開發(fā)現(xiàn)狀
1.1.4 數(shù)據(jù)倉庫的作用
1.2 數(shù)據(jù)倉庫的基本概念
1.2.1 數(shù)據(jù)倉庫的定義與基本特性
1.2.2 數(shù)據(jù)倉庫與數(shù)據(jù)庫的區(qū)別
1.2.3 數(shù)據(jù)倉庫數(shù)據(jù)的組織架構(gòu)
1.3 數(shù)據(jù)倉庫的體系結(jié)構(gòu)
1.3.1 虛擬的數(shù)據(jù)倉庫體系結(jié)構(gòu)
1.3.2 單獨(dú)的數(shù)據(jù)倉庫體系結(jié)構(gòu)
1.3.3 單獨(dú)的數(shù)據(jù)集市體系結(jié)構(gòu)
1.3.4 分布式數(shù)據(jù)倉庫結(jié)構(gòu)
1.4 數(shù)據(jù)倉庫的相關(guān)概念
1.4.1 數(shù)據(jù)源
1.4.2 數(shù)據(jù)的存儲層
1.4.3 olap服務(wù)器
1.4.4 前端工具
1.5 數(shù)據(jù)挖掘技術(shù)概述
1.5.1 數(shù)據(jù)挖掘技術(shù)產(chǎn)生的背景
1.5.2 數(shù)據(jù)挖掘的基本概念
1.5.3 數(shù)據(jù)挖掘的對象
1.5.4 數(shù)據(jù)挖掘功能
1.5.5 數(shù)據(jù)挖掘與傳統(tǒng)分析方法的區(qū)別
1.5.6 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的關(guān)系
1.5.7 數(shù)據(jù)挖掘的發(fā)展趨勢
1.6 數(shù)據(jù)挖掘過程
1.6.1 fayyad過程模型
1.6.2 crisp-dm過程模型
1.6.3 其他數(shù)據(jù)挖掘過程模型
1.7 常用的數(shù)據(jù)挖掘技術(shù)
1.8 小結(jié)
1.9 習(xí)題
第2章 數(shù)據(jù)倉庫開發(fā)模型
2.1 數(shù)據(jù)倉庫開發(fā)模型概述
2.2 數(shù)據(jù)倉庫的概念模型
2.2.1 企業(yè)模型的建立
2.2.2 規(guī)范的數(shù)據(jù)模型
2.2.3 常見的概念模型
2.3 數(shù)據(jù)倉庫的邏輯模型
2.3.1 事實(shí)表模型設(shè)計(jì)
2.3.2 維度表模型設(shè)計(jì)
2.4 數(shù)據(jù)倉庫的物理模型
2.4.1 物理模型的設(shè)計(jì)要點(diǎn)
2.4.2 數(shù)據(jù)倉庫物理模型的存儲結(jié)構(gòu)
2.4.3 數(shù)據(jù)倉庫物理模型的索引構(gòu)建
2.4.4 數(shù)據(jù)倉庫物理模型的優(yōu)化問題
2.5 數(shù)據(jù)倉庫的元數(shù)據(jù)模型
2.5.1 元數(shù)據(jù)的類型
2.5.2 元數(shù)據(jù)的作用
2.5.3 元數(shù)據(jù)的收集與維護(hù)
2.5.4 元數(shù)據(jù)的使用
2.5.5 元數(shù)據(jù)管理模型
2.6 數(shù)據(jù)倉庫的粒度和聚集模型
2.6.1 數(shù)據(jù)倉庫粒度模型
2.6.2 數(shù)據(jù)倉庫聚集模型與數(shù)據(jù)分割
2.7 小結(jié)
2.8 習(xí)題
第3章 etl技術(shù)
3.1 etl相關(guān)概念
3.1.1 數(shù)據(jù)理解
3.1.2 數(shù)據(jù)抽取
3.1.3 數(shù)據(jù)清洗
3.1.4 數(shù)據(jù)轉(zhuǎn)換
3.1.5 數(shù)據(jù)加載
3.2 etl過程建模
3.2.1 etl系統(tǒng)面臨的挑戰(zhàn)
3.2.2 etl過程描述
3.2.3 etl概念模型
3.2.4 etl邏輯模型
3.3 etl增量抽取機(jī)制
3.4 etl過程數(shù)據(jù)質(zhì)量控制
3.4.1 數(shù)據(jù)質(zhì)量問題分類
3.4.2 數(shù)據(jù)質(zhì)量控制技術(shù)
3.5 etl并行處理技術(shù)
3.6 小結(jié)
3.7 習(xí)題
第4章 olap技術(shù)
4.1 olap概述
4.1.1 olap的定義
4.1.2 數(shù)據(jù)倉庫與數(shù)據(jù)分析的關(guān)系
4.1.3 多維分析的基本概念
4.1.4 olap的多維數(shù)據(jù)分析
4.1.5 olap與oltp的比較
4.2 多維數(shù)據(jù)庫及其存儲
4.2.1 多維數(shù)據(jù)庫
4.2.2 多維數(shù)據(jù)庫的數(shù)據(jù)存儲
4.2.3 多維數(shù)據(jù)庫與數(shù)據(jù)倉庫
4.3 olap的類型
4.3.1 多維olap
4.3.2 關(guān)系olap
4.3.3 混合型olap
4.3.4 molap與rolap的比較
4.4 olap的體系結(jié)構(gòu)
4.5 olap中的索引技術(shù)
4.5.1 b-tree索引
4.5.2 位圖索引
4.5.3 位圖索引的擴(kuò)展--標(biāo)識符索引
4.5.4 索引性能比較
4.5.5 索引的選擇
4.6 olap的評價(jià)標(biāo)準(zhǔn)
4.6.1 olap的衡量標(biāo)準(zhǔn)
4.6.2 olap服務(wù)器和工具的評價(jià)標(biāo)準(zhǔn)
4.7 olap的前端展現(xiàn)
4.7.1 olap工具
4.7.2 olap結(jié)果的展現(xiàn)方法
4.8 小結(jié)
4.9 習(xí)題
第5章 商務(wù)智能系統(tǒng)
5.1 商務(wù)智能概述
5.1.1 商務(wù)智能的概念
5.1.2 商務(wù)智能的發(fā)展歷程
5.1.3 商務(wù)智能的商業(yè)效益
5.2 商務(wù)智能系統(tǒng)架構(gòu)
5.2.1 商務(wù)智能系統(tǒng)的核心技術(shù)
5.2.1 商務(wù)智能的體系結(jié)構(gòu)
5.3 商務(wù)智能系統(tǒng)的功能
5.4 商務(wù)智能系統(tǒng)的應(yīng)用
5.4.1 商務(wù)智能系統(tǒng)特點(diǎn)
5.4.2 我國商務(wù)智能系統(tǒng)應(yīng)用現(xiàn)狀分析
5.5 小結(jié)
5.6 習(xí)題
第6章 數(shù)據(jù)預(yù)處理技術(shù)
6.1 數(shù)據(jù)預(yù)處理概述
6.1.1 數(shù)據(jù)預(yù)處理的必要性
6.1.2 數(shù)據(jù)預(yù)處理的基本方法
6.1.3 數(shù)據(jù)預(yù)處理的研究現(xiàn)狀
6.2 數(shù)據(jù)清理
6.2.1 填充缺失值
6.2.2 光滑噪聲數(shù)據(jù)
6.2.3 數(shù)據(jù)清理過程
6.3 數(shù)據(jù)集成
6.4 數(shù)據(jù)變換
6.5 數(shù)據(jù)歸約
6.5.1 數(shù)據(jù)立方體聚集
6.5.2 屬性子集選擇
6.5.3 維度歸約
6.5.4 數(shù)值歸約
6.5.5 數(shù)據(jù)離散化與概念分層
6.6 小結(jié)
6.7 習(xí)題
第7章 數(shù)據(jù)挖掘技術(shù)
7.1 概念描述
7.1.1 概念描述的生成過程
7.1.2 概念分層與數(shù)據(jù)泛化
7.1.3 概念分層方法
7.1.4 數(shù)據(jù)泛化方法
7.1.5 泛化的表示
7.1.6 屬性相關(guān)分析
7.1.7 區(qū)別性描述
7.2 關(guān)聯(lián)規(guī)則
7.2.1 關(guān)聯(lián)規(guī)則相關(guān)概念
7.2.2 關(guān)聯(lián)規(guī)則挖掘步驟
7.2.3 關(guān)聯(lián)規(guī)則分類
7.2.4 關(guān)聯(lián)規(guī)則的算法
7.3 數(shù)據(jù)分類
7.3.1 數(shù)據(jù)分類的基本步驟與評價(jià)準(zhǔn)則
7.3.2 決策樹
7.3.3 貝葉斯分類
7.3.4 神經(jīng)網(wǎng)絡(luò)方法
7.3.5 近鄰分類方法
7.4 數(shù)據(jù)聚類
7.4.1 聚類分析概述
7.4.2 聚類算法的分類及其典型算法
7.4.3 聚類分析中的相似度度量方法
7.4.4 聚類分析中的聚類準(zhǔn)則函數(shù)
7.4.5 k-means聚類算法
7.5 遺傳算法
7.5.1 遺傳算法的基本術(shù)語
7.5.2 遺傳算法的執(zhí)行過程
7.5.3 遺傳算法應(yīng)用舉例
7.5.4 遺傳算法的基本要素
7.5.5 遺傳算法的特點(diǎn)及應(yīng)用領(lǐng)域
7.6 粗糙集
7.6.1 粗糙集理論的相關(guān)概念
7.6.2 粗糙集的應(yīng)用舉例
7.6.3 粗糙集理論研究的對象及特點(diǎn)
7.7 小結(jié)
7.8 習(xí)題
第8章 數(shù)據(jù)倉庫開發(fā)實(shí)例
8.1 sql server 2005所提供的數(shù)據(jù)倉庫功能
8.1.1 sql server 2005 integration services
8.1.2 sql server 2005 analysis services
8.1.3 sql server 2005 dw工具
8.2 福馬特商店銷售分析數(shù)據(jù)倉庫系統(tǒng)的分析與設(shè)計(jì)
8.3 數(shù)據(jù)倉庫的實(shí)現(xiàn)
8.3.1 sql server的數(shù)據(jù)倉庫創(chuàng)建
8.3.2 olap的實(shí)施
8.3.3 數(shù)據(jù)倉庫中的數(shù)據(jù)挖掘
8.4 數(shù)據(jù)倉庫的應(yīng)用與管理
8.4.1 數(shù)據(jù)倉庫的用戶
8.4.2 數(shù)據(jù)倉庫應(yīng)用案例
8.4.3 數(shù)據(jù)倉庫的運(yùn)行技術(shù)管理
8.4.4 數(shù)據(jù)倉庫應(yīng)用中的法律問題
8.4.5 數(shù)據(jù)倉庫的成本與效益分析
8.5 小結(jié)
8.6 習(xí)題
第9章 報(bào)表設(shè)計(jì)
9.1 報(bào)表概述
9.1.1 報(bào)表結(jié)構(gòu)
9.1.2 傳遞報(bào)表
9.1.3 report server功能結(jié)構(gòu)
9.1.4 report services的組成部分
9.2 報(bào)表向?qū)е谱鲌?bào)表
9.2.1 向?qū)е谱鲌?bào)表
9.2.2 報(bào)表設(shè)計(jì)器
9.2.3 部署報(bào)表
9.3 編輯制作報(bào)表
9.3.1 新建報(bào)表項(xiàng)目
9.3.2 新建數(shù)據(jù)集
9.3.3 報(bào)表格式設(shè)計(jì)
9.3.4 分組
9.3.5 鉆取功能
9.3.6 文檔結(jié)構(gòu)圖
9.4 矩陣式報(bào)表
9.4.1 數(shù)據(jù)集建立
9.4.2 矩陣布局
9.4.3 矩形布局
9.4.4 折疊結(jié)構(gòu)
9.5 統(tǒng)計(jì)圖表
9.5.1 圖表元素
9.5.2 柱形圖
9.5.3 折線圖
9.5.4 餅圖
9.5.5 圓環(huán)圖
9.6 主體的多列
9.7 小結(jié)
9.8 實(shí)驗(yàn)
參考文獻(xiàn)
章節(jié)摘錄
版權(quán)頁: 插圖: 4.復(fù)雜類型數(shù)據(jù)庫 復(fù)雜類型的數(shù)據(jù)庫是指非單純文本的數(shù)據(jù)庫或能夠表示動態(tài)的序列數(shù)據(jù)的數(shù)據(jù)庫,主要有如下幾類。 (1)空間數(shù)據(jù)庫。主要指存儲空間信息的數(shù)據(jù)庫,其中數(shù)據(jù)可能以光柵格式提供,也可能用矢量圖形數(shù)據(jù)表示。例如,地理信息數(shù)據(jù)庫、衛(wèi)星圖像數(shù)據(jù)庫、城市地下管道、下水道及各類地下建筑分布數(shù)據(jù)庫等。對空間數(shù)據(jù)庫的挖掘可以為城市規(guī)劃、生態(tài)規(guī)劃、道路修建提供決策支持。 (2)時(shí)序數(shù)據(jù)庫。主要用于存放與時(shí)間相關(guān)的數(shù)據(jù),它可用來反映隨時(shí)間變化的即時(shí)數(shù)據(jù)或不同時(shí)間發(fā)生的不同事件。例如,連續(xù)的存放即時(shí)的股票交易信息、衛(wèi)星軌道信息等。對時(shí)序數(shù)據(jù)的挖掘可以發(fā)現(xiàn)事件的發(fā)展趨勢、事物的演變過程和隱藏特征,這些信息將對事件的計(jì)劃、決策和預(yù)警是非常有用的。 (3)多媒體數(shù)據(jù)庫。用于存放圖像、聲音和視頻信息的數(shù)據(jù)庫。由于多媒體技術(shù)的發(fā)展,以及相關(guān)研究(如可視化信息檢索、虛擬現(xiàn)實(shí)技術(shù))的成就,多媒體數(shù)據(jù)庫也逐漸普及,并應(yīng)用于許多重要研究領(lǐng)域。目前,多媒體數(shù)據(jù)的挖掘主要放在對圖像數(shù)據(jù)的檢索與匹配上,隨著研究的深入將會拓展到對聲音、視頻信息的挖掘處理。 1.5.4數(shù)據(jù)挖掘功能 如果以數(shù)據(jù)挖掘任務(wù)為標(biāo)準(zhǔn)來劃分,數(shù)據(jù)挖掘功能有如下的幾類:概念描述、關(guān)聯(lián)分析、分類和預(yù)測、聚類分析、孤立點(diǎn)分析、演變分析等。 1.概念描述 概念描述(concept description)指的是對某種對象的內(nèi)涵特征進(jìn)行概括,概括就是概念描述的本質(zhì)。一般情況下,對一個(gè)數(shù)據(jù)集,其包含大量數(shù)據(jù),做一個(gè)總體狀態(tài)的概述就是一個(gè)概念。例如,將某一公司所有賣出的汽車的基本情況進(jìn)行概述與總結(jié),就會了解到所有汽車基本情況的一個(gè)整體概念。 傳統(tǒng)的也是最簡單的數(shù)據(jù)總結(jié)方法是計(jì)算出數(shù)據(jù)庫的各個(gè)字段上的求各值、平均值、方差值等統(tǒng)計(jì)值,或者用直方圖、餅狀圖等圖形方式表示。而數(shù)據(jù)挖掘中的概念描述主要關(guān)心從數(shù)據(jù)泛化的角度來討論數(shù)據(jù)總結(jié)。數(shù)據(jù)泛化是一種把數(shù)據(jù)庫中的有關(guān)數(shù)據(jù)從低層次抽象到高層次上的過程。由于數(shù)據(jù)庫上的數(shù)據(jù)或?qū)ο笏男畔⒖偸亲钤?、基本的信息(這是為了不遺漏任何可能有用的數(shù)據(jù)信息),人們有時(shí)希望能從較高層次的視圖上處理或?yàn)g覽數(shù)據(jù),因此,需要對數(shù)據(jù)進(jìn)行不同層次上的泛化以適應(yīng)各種查詢要求。 描述可以分為特征性的描述與區(qū)別性的描述。前者描述某類對象的共同特征,生成一個(gè)類的特征性描述,該描述只涉及該類對象中所有個(gè)體的共性。其輸出可以采用多種形式,包括餅圖、柱狀圖、曲線、多維數(shù)據(jù)立方體、含交叉表的多維表,且描述結(jié)果也可以用概化關(guān)系或規(guī)則形式表示。后者描述異類對象之間的區(qū)別,將目標(biāo)類對象的一般特性與一個(gè)或多個(gè)對比類對象的一般特性比較,而這種比較必須具備可比性的兩個(gè)或多個(gè)類之間進(jìn)行的。數(shù)據(jù)區(qū)分的輸出類似于數(shù)據(jù)特征化,但它應(yīng)該包括比較度量,幫助區(qū)分目標(biāo)類和對比類。
編輯推薦
《高等院校信息管理與信息系統(tǒng)專業(yè)系列教材:數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)》適合作為高等院校本科學(xué)生的教材,也可供企業(yè)信息化管理人員、技術(shù)人員以及軟件開發(fā)人員閱讀參考。
圖書封面
評論、評分、閱讀與下載
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù) PDF格式下載