出版時(shí)間:2007-3 出版社:機(jī)械工業(yè) 作者:(加)Jiawei Han;Micheline Kamber 頁(yè)數(shù):488 譯者:范明,孟小峰
Tag標(biāo)簽:無(wú)
內(nèi)容概要
本書(shū)全面地講述數(shù)據(jù)挖掘領(lǐng)域的重要知識(shí)和技術(shù)創(chuàng)新。在第1版內(nèi)容相當(dāng)全面的基礎(chǔ)上,第2版展示了該領(lǐng)域的最新研究成果,例如挖掘流、時(shí)序和序列數(shù)據(jù)以及挖掘時(shí)間空間、多媒體、文本和Web數(shù)據(jù)。本書(shū)可作為數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)領(lǐng)域的教師、研究人員和開(kāi)發(fā)人員的一本必讀書(shū)。
本書(shū)第1版曾是受讀者歡迎的數(shù)據(jù)挖掘?qū)V?,是一本可讀性極佳的教材。第2版充實(shí)了數(shù)據(jù)挖掘領(lǐng)域研究新進(jìn)展的題材,增加了講述最新的數(shù)據(jù)挖掘方法的若干章節(jié)。本書(shū)適合作為高等院校計(jì)算機(jī)及相關(guān)專業(yè)高年級(jí)本科生的選修課教材,特別適合作為研究生的專業(yè)課教材。
作者簡(jiǎn)介
Jiawei
Han,伊利諾伊大學(xué)厄巴納-尚佩恩分校計(jì)算機(jī)科學(xué)系教授。由于在數(shù)據(jù)挖掘和數(shù)據(jù)庫(kù)系統(tǒng)領(lǐng)域卓有成效的研究工作,他曾多次獲得各種榮譽(yù)和獎(jiǎng)勵(lì),其中包括2004年ACM
SIGKDD頒發(fā)的創(chuàng)新獎(jiǎng)。同時(shí),他還是ACM《Transactions on Knowledge Discovery from
Data》的主編,以及IEE
書(shū)籍目錄
出版者的話
專家指導(dǎo)委員會(huì)
中文版序
譯者序
序
前言
第1章 引言
1.1 什么激發(fā)了數(shù)據(jù)挖掘,為什么它是重要的
1.2 什么是數(shù)據(jù)挖掘
1.3 對(duì)何種數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘
1.3.1 關(guān)系數(shù)據(jù)庫(kù)
1.3.2 數(shù)據(jù)倉(cāng)庫(kù)
1.3.3 事務(wù)數(shù)據(jù)庫(kù)
1.3.4 高級(jí)數(shù)據(jù)和信息系統(tǒng)與高級(jí)應(yīng)用
1.4 數(shù)據(jù)挖掘功能—可以挖掘什么類型的模式
1.4.1 概念/類描述:特征化和區(qū)分
1.4.2 挖掘頻繁模式、關(guān)聯(lián)和相關(guān)
1.4.3 分類和預(yù)測(cè)
1.4.4 聚類分析
1.4.5 離群點(diǎn)分析
1.4.6 演變分析
1.5 所有模式都是有趣的嗎
1.6 數(shù)據(jù)挖掘系統(tǒng)的分類
1.7 數(shù)據(jù)挖掘任務(wù)原語(yǔ)
1.8 數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫(kù)系統(tǒng)或數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的集成
1.9 數(shù)據(jù)挖掘的主要問(wèn)題
1.10 小結(jié)
習(xí)題
文獻(xiàn)注釋
第2章 數(shù)據(jù)預(yù)處理
2.1 為什么要預(yù)處理數(shù)據(jù)
2.2 描述性數(shù)據(jù)匯總
2.2.1 度量數(shù)據(jù)的中心趨勢(shì)
2.2.2 度量數(shù)據(jù)的離散程度
2.2.3 基本描述數(shù)據(jù)匯總的圖形顯示
2.3 數(shù)據(jù)清理
2.3.1 缺失值
2.3.2 噪聲數(shù)據(jù)
2.3.3 數(shù)據(jù)清理作為一個(gè)過(guò)程
2.4 數(shù)據(jù)集成和變換
2.4.1 數(shù)據(jù)集成
2.4.2 數(shù)據(jù)變換
2.5 數(shù)據(jù)歸約
2.5.1 數(shù)據(jù)立方體聚集
2.5.2 屬性子集選擇
2.5.3 維度歸約
2.5.4 數(shù)值歸約
2.6 數(shù)據(jù)離散化和概念分層產(chǎn)生
2.6.1 數(shù)值數(shù)據(jù)的離散化和概念分層產(chǎn)生
2.6.2 分類數(shù)據(jù)的概念分層產(chǎn)生
2.7 小結(jié)
習(xí)題
文獻(xiàn)注釋
第3章 數(shù)據(jù)倉(cāng)庫(kù)與OLAP技術(shù)概述
3.1 什么是數(shù)據(jù)倉(cāng)庫(kù)
3.1.1 操作數(shù)據(jù)庫(kù)系統(tǒng)與數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別
3.1.2 為什么需要分離的數(shù)據(jù)倉(cāng)庫(kù)
3.2 多維數(shù)據(jù)模型
3.2.1 由表和電子數(shù)據(jù)表到數(shù)據(jù)立方體
3.2.2 星形、雪花形和事實(shí)星座形模式:多維數(shù)據(jù)庫(kù)模式
3.2.3 定義星形、雪花形和事實(shí)星座形模式的例子
3.2.4 度量的分類和計(jì)算
3.2.5 概念分層
3.2.6 多維數(shù)據(jù)模型中的OLAP操作
3.2.7 查詢多維數(shù)據(jù)庫(kù)的星形網(wǎng)查詢模型
3.3 數(shù)據(jù)倉(cāng)庫(kù)的系統(tǒng)結(jié)構(gòu)
3.3.1 數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)和構(gòu)造步驟
3.3.2 三層數(shù)據(jù)倉(cāng)庫(kù)的系統(tǒng)結(jié)構(gòu)
3.3.3 數(shù)據(jù)倉(cāng)庫(kù)后端工具和實(shí)用程序
3.3.4 元數(shù)據(jù)儲(chǔ)存庫(kù)
3.3.5 OLAP服務(wù)器類型:ROLAP、MOLAP與HOLAP
3.4 數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn)
3.4.1 數(shù)據(jù)立方體的有效計(jì)算
3.4.2 索引OLAP數(shù)據(jù)
3.4.3 OLAP查詢的有效處理
3.5 從數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)挖掘
3.5.1 數(shù)據(jù)倉(cāng)庫(kù)的使用
3.5.2 由聯(lián)機(jī)分析處理到聯(lián)機(jī)分析挖掘
3.6 小結(jié)
習(xí)題
文獻(xiàn)注釋
第4章 數(shù)據(jù)立方體計(jì)算與數(shù)據(jù)泛化
4.1 數(shù)據(jù)立方體計(jì)算的有效方法
4.1.1 不同類型立方體物化的路線圖
4.1.2 完全立方體計(jì)算的多路數(shù)組聚集
4.1.3 BUC:從頂點(diǎn)方體向下計(jì)算冰山立方體
4.1.4 Star-Cubing:使用動(dòng)態(tài)星形樹(shù)結(jié)構(gòu)計(jì)算冰山立方體
4.1.5 為快速高維OLAP預(yù)計(jì)算殼片段
4.1.6 計(jì)算具有復(fù)雜冰山條件的立方體
4.2 數(shù)據(jù)立方體和OLAP技術(shù)的進(jìn)一步發(fā)展
4.2.1 數(shù)據(jù)立方體的發(fā)現(xiàn)驅(qū)動(dòng)的探查
4.2.2 在多粒度的復(fù)雜聚集:多特征立方體
4.2.3 數(shù)據(jù)立方體中被約束的梯度分析
4.3 面向?qū)傩缘臍w納—另一種數(shù)據(jù)泛化和概念描述方法
4.3.1 數(shù)據(jù)特征化的面向?qū)傩缘臍w納
4.3.2 面向?qū)傩詺w納的有效實(shí)現(xiàn)
4.3.3 導(dǎo)出泛化的表示
4.3.4 挖掘類比較:區(qū)分不同的類
4.3.5 類描述:特征化和比較的表示
4.4 小結(jié)
習(xí)題
文獻(xiàn)注釋
第5章 挖掘頻繁模式、關(guān)聯(lián)和相關(guān)
5.1 基本概念和路線圖
5.1.1 購(gòu)物籃分析:引發(fā)性例子
5.1.2 頻繁項(xiàng)集、閉項(xiàng)集和關(guān)聯(lián)規(guī)則
5.1.3 頻繁模式挖掘:路線圖
5.2 有效的和可伸縮的頻繁項(xiàng)集挖掘方法
5.2.1 Apriori算法:使用候選產(chǎn)生發(fā)現(xiàn)頻繁項(xiàng)集
5.2.2 由頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則
5.2.3 提高Apriori算法的效率
5.2.4 不候選產(chǎn)生挖掘頻繁項(xiàng)集
5.2.5 使用垂直數(shù)據(jù)格式挖掘頻繁項(xiàng)集
5.2.6 挖掘閉頻繁項(xiàng)集
5.3 挖掘各種類型的關(guān)聯(lián)規(guī)則
5.3.1 挖掘多層關(guān)聯(lián)規(guī)則
5.3.2 從關(guān)系數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)挖掘多維關(guān)聯(lián)規(guī)則
5.4 由關(guān)聯(lián)挖掘到相關(guān)分析
5.4.1 強(qiáng)關(guān)聯(lián)規(guī)則不一定有趣:一個(gè)例子
5.4.2 從關(guān)聯(lián)分析到相關(guān)分析
5.5 基于約束的關(guān)聯(lián)挖掘
5.5.1 關(guān)聯(lián)規(guī)則的元規(guī)則制導(dǎo)挖掘
5.5.2 約束推進(jìn):規(guī)則約束制導(dǎo)的挖掘
5.6 小結(jié)
習(xí)題
文獻(xiàn)注釋
第6章 分類和預(yù)測(cè)
6.1 什么是分類,什么是預(yù)測(cè)
6.2 關(guān)于分類和預(yù)測(cè)的問(wèn)題
6.2.1 為分類和預(yù)測(cè)準(zhǔn)備數(shù)據(jù)
6.2.2 比較分類和預(yù)測(cè)方法
6.3 用決策樹(shù)歸納分類
6.3.1 決策樹(shù)歸納
6.3.2 屬性選擇度量
6.3.3 樹(shù)剪枝
6.3.4 可伸縮性與決策樹(shù)歸納
6.4 貝葉斯分類
6.4.1 貝葉斯定理
6.4.2 樸素貝葉斯分類
6.4.3 貝葉斯信念網(wǎng)絡(luò)
6.4.4 訓(xùn)練貝葉斯信念網(wǎng)絡(luò)
6.5 基于規(guī)則的分類
6.5.1 使用IF-THEN規(guī)則分類
6.5.2 從決策樹(shù)提取規(guī)則
6.5.3 使用順序覆蓋算法的規(guī)則歸納
6.6 用后向傳播分類
6.6.1 多層前饋神經(jīng)網(wǎng)絡(luò)
6.6.2 定義網(wǎng)絡(luò)拓?fù)?br /> 6.6.3 后向傳播
6.6.4 黑盒內(nèi)部:后向傳播和可解釋性
6.7 支持向量機(jī)
6.7.1 數(shù)據(jù)線性可分的情況
6.7.2 數(shù)據(jù)非線性可分的情況
6.8 關(guān)聯(lián)分類:基于關(guān)聯(lián)規(guī)則分析的分類
6.9 惰性學(xué)習(xí)法(或從近鄰學(xué)習(xí))
6.9.1 k最近鄰分類法
6.9.2 基于案例的推理
6.10 其他分類方法
6.10.1 遺傳算法
6.10.2 粗糙集方法
6.10.3 模糊集方法
6.11 預(yù)測(cè)
6.11.1 線性回歸
6.11.2 非線性回歸
6.11.3 其他基于回歸的方法
6.12 準(zhǔn)確率和誤差的度量
6.12.1 分類器準(zhǔn)確率度量
6.12.2 預(yù)測(cè)器誤差度量
6.13 評(píng)估分類器或預(yù)測(cè)器的準(zhǔn)確率
6.13.1 保持方法和隨機(jī)子抽樣
6.13.2 交叉確認(rèn)
6.13.3 自助法
6.14 系綜方法—提高準(zhǔn)確率
6.14.1 裝袋
6.14.2 提升
6.15 模型選擇
6.15.1 估計(jì)置信區(qū)間
6.15.2 ROC 曲線
6.16 小結(jié)
習(xí)題
文獻(xiàn)注釋
第7章 聚類分析
7.1 什么是聚類分析
7.2 聚類分析中的數(shù)據(jù)類型
7.2.1 區(qū)間標(biāo)度變量
7.2.2 二元變量
7.2.3 分類、序數(shù)和比例標(biāo)度變量
7.2.4 混合類型的變量
7.2.5 向量對(duì)象
7.3 主要聚類方法的分類
7.4 劃分方法
7.4.1 典型的劃分方法:k均值和k中心點(diǎn)
7.4.2 大型數(shù)據(jù)庫(kù)的劃分方法:從k中心點(diǎn)到CLARANS
7.5 層次方法
7.5.1 凝聚和分裂層次聚類
7.5.2 BIRCH:利用層次方法的平衡迭代歸約和聚類
7.5.3 ROCK:分類屬性的層次聚類算法
7.5.4 Chameleon:利用動(dòng)態(tài)建模的層次聚類算法
7.6 基于密度的方法
7.6.1 DBSCAN:一種基于高密度連通區(qū)域的基于密度的聚類方法
7.6.2 OPTICS:通過(guò)點(diǎn)排序識(shí)別聚類結(jié)構(gòu)
7.6.3 DENCLUE:基于密度分布函數(shù)的聚類
7.7 基于網(wǎng)格的方法
7.7.1 STING:統(tǒng)計(jì)信息網(wǎng)格
7.7.2 WaveCluster:利用小波變換聚類
7.8 基于模型的聚類方法
7.8.1 期望最大化方法
7.8.2 概念聚類
7.8.3 神經(jīng)網(wǎng)絡(luò)方法
7.9 聚類高維數(shù)據(jù)
7.9.1 CLIQUE:維增長(zhǎng)子空間聚類方法
7.9.2 PROCLUS:維歸約子空間聚類方法
7.9.3 基于頻繁模式的聚類方法
7.10 基于約束的聚類分析
7.10.1 含有障礙物的對(duì)象聚類
7.10.2 用戶約束的聚類分析
7.10.3 半監(jiān)督聚類分析
7.11 離群點(diǎn)分析
7.11.1 基于統(tǒng)計(jì)分布的離群點(diǎn)檢測(cè)
7.11.2 基于距離的離群點(diǎn)檢測(cè)
7.11.3 基于密度的局部離群點(diǎn)檢測(cè)
7.11.4 基于偏差的離群點(diǎn)檢測(cè)
7.12 小結(jié)
習(xí)題
文獻(xiàn)注釋
第8章 挖掘流、時(shí)間序列和序列數(shù)據(jù)
8.1 挖掘數(shù)據(jù)流
8.1.1 流數(shù)據(jù)處理方法和流數(shù)據(jù)系統(tǒng)
8.1.2 流OLAP和流數(shù)據(jù)立方體
8.1.3 數(shù)據(jù)流中的頻繁模式挖掘
8.1.4 動(dòng)態(tài)數(shù)據(jù)流的分類
8.1.5 聚類演變數(shù)據(jù)流
8.2 時(shí)間序列數(shù)據(jù)挖掘
8.2.1 趨勢(shì)分析
8.2.2 時(shí)間序列分析中的相似性搜索
8.3 挖掘事務(wù)數(shù)據(jù)庫(kù)中的序列模式
8.3.1 序列模式挖掘:概念和原語(yǔ)
8.3.2 挖掘序列模式的可伸縮方法
8.3.3 基于約束的序列模式挖掘
8.3.4 時(shí)間相關(guān)序列數(shù)據(jù)的周期性分析
8.4 挖掘生物學(xué)數(shù)據(jù)中的序列模式
8.4.1 生物學(xué)序列比對(duì)
8.4.2 生物學(xué)序列分析的隱馬爾可夫模型
8.5 小結(jié)
習(xí)題
文獻(xiàn)注釋
第9章 圖挖掘、社會(huì)網(wǎng)絡(luò)分析和多關(guān)系數(shù)據(jù)挖掘
9.1 圖挖掘
9.1.1 挖掘頻繁子圖的方法
9.1.2 挖掘變體和約束子結(jié)構(gòu)的模式
9.1.3 應(yīng)用:圖索引、相似性搜索、分類和聚類
9.2 社會(huì)網(wǎng)絡(luò)分析
9.2.1 什么是社會(huì)網(wǎng)絡(luò)
9.2.2 社會(huì)網(wǎng)絡(luò)的特征
9.2.3 鏈接挖掘:任務(wù)和挑戰(zhàn)
9.2.4 挖掘社會(huì)網(wǎng)絡(luò)
9.3 多關(guān)系數(shù)據(jù)挖掘
9.3.1 什么是多關(guān)系數(shù)據(jù)挖掘
9.3.2 多關(guān)系分類的ILP方法
9.3.3 元組ID傳播
9.3.4 利用元組ID傳播進(jìn)行多關(guān)系分類
9.3.5 用戶指導(dǎo)的多關(guān)系聚類
9.4 小結(jié)
習(xí)題
文獻(xiàn)注釋
第10章 挖掘?qū)ο蟆⒖臻g、多媒體、文本和Web數(shù)據(jù)
10.1 復(fù)雜數(shù)據(jù)對(duì)象的多維分析和描述性挖掘
10.1.1 結(jié)構(gòu)化數(shù)據(jù)的泛化
10.1.2 空間和多媒體數(shù)據(jù)泛化中的聚集和近似
10.1.3 對(duì)象標(biāo)識(shí)和類/子類層次的泛化
10.1.4 類復(fù)合層次泛化
10.1.5 對(duì)象立方體的構(gòu)造與挖掘
10.1.6 用分治法對(duì)規(guī)劃數(shù)據(jù)庫(kù)進(jìn)行基于泛化的挖掘
10.2 空間數(shù)據(jù)挖掘
10.2.1 空間數(shù)據(jù)立方體構(gòu)造和空間OLAP
10.2.2 挖掘空間關(guān)聯(lián)和并置模式
10.2.3 空間聚類方法
10.2.4 空間分類和空間趨勢(shì)分析
10.2.5 挖掘光柵數(shù)據(jù)庫(kù)
10.3 多媒體數(shù)據(jù)挖掘
10.3.1 多媒體數(shù)據(jù)的相似性搜索
10.3.2 多媒體數(shù)據(jù)的多維分析
10.3.3 多媒體數(shù)據(jù)的分類和預(yù)測(cè)分析
10.3.4 挖掘多媒體數(shù)據(jù)中的關(guān)聯(lián)
10.3.5 音頻和視頻數(shù)據(jù)挖掘
10.4 文本挖掘
10.4.1 文本數(shù)據(jù)分析和信息檢索
10.4.2 文本的維度歸約
10.4.3 文本挖掘方法
10.5 挖掘萬(wàn)維網(wǎng)
10.5.1 挖掘Web頁(yè)面布局結(jié)構(gòu)
10.5.2 挖掘Web鏈接結(jié)構(gòu)識(shí)別權(quán)威Web頁(yè)面
10.5.3 挖掘Web上的多媒體數(shù)據(jù)
10.5.4 Web文檔的自動(dòng)分類
10.5.5 Web使用挖掘
10.6 小結(jié)
習(xí)題
文獻(xiàn)注釋
第11章 數(shù)據(jù)挖掘的應(yīng)用和發(fā)展趨勢(shì)
11.1 數(shù)據(jù)挖掘的應(yīng)用
11.1.1 金融數(shù)據(jù)分析的數(shù)據(jù)挖掘
11.1.2 零售業(yè)的數(shù)據(jù)挖掘
11.1.3 電信業(yè)的數(shù)據(jù)挖掘
11.1.4 生物學(xué)數(shù)據(jù)分析的數(shù)據(jù)挖掘
11.1.5 其他科技應(yīng)用的數(shù)據(jù)挖掘
11.1.6 入侵檢測(cè)的數(shù)據(jù)挖掘
11.2 數(shù)據(jù)挖掘系統(tǒng)產(chǎn)品和研究原型
11.2.1 如何選擇數(shù)據(jù)挖掘系統(tǒng)
11.2.2 商用數(shù)據(jù)挖掘系統(tǒng)的實(shí)例
11.3 數(shù)據(jù)挖掘的其他主題
11.3.1 數(shù)據(jù)挖掘的理論基礎(chǔ)
11.3.2 統(tǒng)計(jì)學(xué)數(shù)據(jù)挖掘
11.3.3 可視數(shù)據(jù)和音頻數(shù)據(jù)挖掘
11.3.4 數(shù)據(jù)挖掘和協(xié)同過(guò)濾
11.4 數(shù)據(jù)挖掘的社會(huì)影響
11.4.1 無(wú)處不在和無(wú)形的數(shù)據(jù)挖掘
11.4.2 數(shù)據(jù)挖掘、隱私和數(shù)據(jù)安全
11.5 數(shù)據(jù)挖掘的發(fā)展趨勢(shì)
11.6 小結(jié)
習(xí)題
文獻(xiàn)注釋
附錄 微軟用于數(shù)據(jù)挖掘的OLE DB簡(jiǎn)介
A.1 模型創(chuàng)建
A.2 模型訓(xùn)練
A.3 模型預(yù)測(cè)和瀏覽
索引
圖書(shū)封面
圖書(shū)標(biāo)簽Tags
無(wú)
評(píng)論、評(píng)分、閱讀與下載
數(shù)據(jù)挖掘概念與技術(shù) PDF格式下載
250萬(wàn)本中文圖書(shū)簡(jiǎn)介、評(píng)論、評(píng)分,PDF格式免費(fèi)下載。 第一圖書(shū)網(wǎng) 手機(jī)版