出版時(shí)間:2006-5 出版社:人民郵電出版社 作者:Pang-Ning Tan, Michael Steinbach 頁數(shù):422 譯者:范明 范宏建
Tag標(biāo)簽:無
內(nèi)容概要
《數(shù)據(jù)挖掘?qū)д摗啡娼榻B了數(shù)據(jù)挖掘的理論和方法,將重點(diǎn)放在如何用數(shù)據(jù)挖掘知識解決各種實(shí)際問題,涉及學(xué)科領(lǐng)域眾多,適用面廣。包含大量的圖表、綜合示例和豐富的習(xí)題,并且使用示例,關(guān)鍵算法的簡潔描述和習(xí)題,盡可能直接聚焦于數(shù)據(jù)挖掘的主要概念?!稊?shù)據(jù)挖掘?qū)д摗泛w五個(gè)主題:數(shù)據(jù)、分類、關(guān)聯(lián)分析、聚類和異常檢測。除異常檢測外,每個(gè)主題都包含兩章:前面一章講述基本概念、代表性算法和評估技術(shù),后面一章較深入地討論高級概念和算法。目的是使讀者在透徹地理解數(shù)據(jù)挖掘基礎(chǔ)的同時(shí),還能了解更多重要的高級主題。此外,書中還提供了大量示例、I虱表和習(xí)題。
作者簡介
Pang-Ning Tan,現(xiàn)為密歇根州立大學(xué)計(jì)算機(jī)與工程系助理教授,主要教授數(shù)據(jù)挖掘、數(shù)據(jù)庫系統(tǒng)等課程。此前,他曾是明尼蘇達(dá)大學(xué)美國陸軍高性能計(jì)算研究中心副研究員(2002-2003)。
書籍目錄
第1章 緒論 11.1 什么是數(shù)據(jù)挖掘 21.2 引發(fā)數(shù)據(jù)挖掘的挑戰(zhàn) 21.3 數(shù)據(jù)挖掘的起源 31.4 數(shù)據(jù)挖掘任務(wù) 41.5 本書的內(nèi)容與組織 7文獻(xiàn)注釋 7參考文獻(xiàn) 8習(xí)題 10第2章 數(shù)據(jù) 132.1 數(shù)據(jù)類型 142.1.1 屬性與度量 152.1.2 數(shù)據(jù)集的類型 182.2 數(shù)據(jù)質(zhì)量 222.2.1 測量和數(shù)據(jù)收集問題 222.2.2 關(guān)于應(yīng)用的問題 262.3 數(shù)據(jù)預(yù)處理 272.3.1 聚集 272.3.2 抽樣 282.3.3 維歸約 302.3.4 特征子集選擇 312.3.5 特征創(chuàng)建 332.3.6 離散化和二元化 342.3.7 變量變換 382.4 相似性和相異性的度量 382.4.1 基礎(chǔ) 392.4.2 簡單屬性之間的相似度和相異度 402.4.3 數(shù)據(jù)對象之間的相異度 412.4.4 數(shù)據(jù)對象之間的相似度 432.4.5 鄰近性度量的例子 432.4.6 鄰近度計(jì)算問題 482.4.7 選取正確的鄰近性度量 50文獻(xiàn)注釋 50參考文獻(xiàn) 52習(xí)題 53第3章 探索數(shù)據(jù) 593.1 鳶尾花數(shù)據(jù)集 593.2 匯總統(tǒng)計(jì) 603.2.1 頻率和眾數(shù) 603.2.2 百分位數(shù) 613.2.3 位置度量:均值和中位數(shù) 613.2.4 散布度量:極差和方差 623.2.5 多元匯總統(tǒng)計(jì) 633.2.6 匯總數(shù)據(jù)的其他方法 643.3 可視化 643.3.1 可視化的動(dòng)機(jī) 643.3.2 一般概念 653.3.3 技術(shù) 673.3.4 可視化高維數(shù)據(jù) 753.3.5 注意事項(xiàng) 793.4 OLAP和多維數(shù)據(jù)分析 793.4.1 用多維數(shù)組表示鳶尾花數(shù)據(jù) 803.4.2 多維數(shù)據(jù):一般情況 813.4.3 分析多維數(shù)據(jù) 823.4.4 關(guān)于多維數(shù)據(jù)分析的最后評述 84文獻(xiàn)注釋 84參考文獻(xiàn) 85習(xí)題 86第4章 分類:基本概念、決策樹與模型評估 894.1 預(yù)備知識 894.2 解決分類問題的一般方法 904.3 決策樹歸納 924.3.1 決策樹的工作原理 924.3.2 如何建立決策樹 934.3.3 表示屬性測試條件的方法 954.3.4 選擇最佳劃分的度量 964.3.5 決策樹歸納算法 1014.3.6 例子:Web 機(jī)器人檢測 1024.3.7 決策樹歸納的特點(diǎn) 1034.4 模型的過分?jǐn)M合 1064.4.1 噪聲導(dǎo)致的過分?jǐn)M合 1074.4.2 缺乏代表性樣本導(dǎo)致的過分?jǐn)M合 1094.4.3 過分?jǐn)M合與多重比較過程 1094.4.4 泛化誤差估計(jì) 1104.4.5 處理決策樹歸納中的過分?jǐn)M合 1134.5 評估分類器的性能 1144.5.1 保持方法 1144.5.2 隨機(jī)二次抽樣 1154.5.3 交叉驗(yàn)證 1154.5.4 自助法 1154.6 比較分類器的方法 1164.6.1 估計(jì)準(zhǔn)確度的置信區(qū)間 1164.6.2 比較兩個(gè)模型的性能 1174.6.3 比較兩種分類法的性能 118文獻(xiàn)注釋 118參考文獻(xiàn) 120習(xí)題 122第5章 分類:其他技術(shù) 1275.1 基于規(guī)則的分類器 1275.1.1 基于規(guī)則的分類器的工作原理 1285.1.2 規(guī)則的排序方案 1295.1.3 如何建立基于規(guī)則的分類器 1305.1.4 規(guī)則提取的直接方法 1305.1.5 規(guī)則提取的間接方法 1355.1.6 基于規(guī)則的分類器的特征 1365.2 最近鄰分類器 1375.2.1 算法 1385.2.2 最近鄰分類器的特征 1385.3 貝葉斯分類器 1395.3.1 貝葉斯定理 1395.3.2 貝葉斯定理在分類中的應(yīng)用 1405.3.3 樸素貝葉斯分類器 1415.3.4 貝葉斯誤差率 1455.3.5 貝葉斯信念網(wǎng)絡(luò) 1475.4 人工神經(jīng)網(wǎng)絡(luò)(ANN) 1505.4.1 感知器 1515.4.2 多層人工神經(jīng)網(wǎng)絡(luò) 1535.4.3 人工神經(jīng)網(wǎng)絡(luò)的特點(diǎn) 1555.5 支持向量機(jī) 1565.5.1 最大邊緣超平面 1565.5.2 線性支持向量機(jī):可分情況 1575.5.3 線性支持向量機(jī):不可分情況 1625.5.4 非線性支持向量機(jī) 1645.5.5 支持向量機(jī)的特征 1685.6 組合方法 1685.6.1 組合方法的基本原理 1685.6.2 構(gòu)建組合分類器的方法 1695.6.3 偏倚—方差分解 1715.6.4 裝袋 1735.6.5 提升 1755.6.6 隨機(jī)森林 1785.6.7 組合方法的實(shí)驗(yàn)比較 1795.7 不平衡類問題 1805.7.1 可選度量 1805.7.2 接受者操作特征曲線 1825.7.3 代價(jià)敏感學(xué)習(xí) 1845.7.4 基于抽樣的方法 1865.8 多類問題 187文獻(xiàn)注釋 189參考文獻(xiàn) 190習(xí)題 193第6章 關(guān)聯(lián)分析:基本概念和算法 2016.1 問題定義 2026.2 頻繁項(xiàng)集的產(chǎn)生 2046.2.1 先驗(yàn)原理 2056.2.2 Apriori算法的頻繁項(xiàng)集產(chǎn)生 2066.2.3 候選的產(chǎn)生與剪枝 2086.2.4 支持度計(jì)數(shù) 2106.2.5 計(jì)算復(fù)雜度 2136.3 規(guī)則產(chǎn)生 2156.3.1 基于置信度的剪枝 2156.3.2 Apriori算法中規(guī)則的產(chǎn)生 2156.3.3 例:美國國會投票記錄 2176.4 頻繁項(xiàng)集的緊湊表示 2176.4.1 最大頻繁項(xiàng)集 2176.4.2 頻繁閉項(xiàng)集 2196.5 產(chǎn)生頻繁項(xiàng)集的其他方法 2216.6 FP增長算法 2236.6.1 FP樹表示法 2246.6.2 FP增長算法的頻繁項(xiàng)集產(chǎn)生 2256.7 關(guān)聯(lián)模式的評估 2286.7.1 興趣度的客觀度量 2286.7.2 多個(gè)二元變量的度量 2356.7.3 辛普森悖論 2366.8 傾斜支持度分布的影響 237文獻(xiàn)注釋 240參考文獻(xiàn) 244習(xí)題 250第7章 關(guān)聯(lián)分析:高級概念 2597.1 處理分類屬性 2597.2 處理連續(xù)屬性 2617.2.1 基于離散化的方法 2617.2.2 基于統(tǒng)計(jì)學(xué)的方法 2637.2.3 非離散化方法 2657.3 處理概念分層 2667.4 序列模式 2677.4.1 問題描述 2677.4.2 序列模式發(fā)現(xiàn) 2697.4.3 時(shí)限約束 2717.4.4 可選計(jì)數(shù)方案 2747.5 子圖模式 2757.5.1 圖與子圖 2767.5.2 頻繁子圖挖掘 2777.5.3 類Apriori方法 2787.5.4 候選產(chǎn)生 2797.5.5 候選剪枝 2827.5.6 支持度計(jì)數(shù) 2857.6 非頻繁模式 2857.6.1 負(fù)模式 2857.6.2 負(fù)相關(guān)模式 2867.6.3 非頻繁模式、負(fù)模式和負(fù)相關(guān)模式比較 2877.6.4 挖掘有趣的非頻繁模式的技術(shù) 2887.6.5 基于挖掘負(fù)模式的技術(shù) 2887.6.6 基于支持度期望的技術(shù) 290文獻(xiàn)注釋 292參考文獻(xiàn) 293習(xí)題 295第8章 聚類分析:基本概念和算法 3058.1 概述 3068.1.1 什么是聚類分析 3068.1.2 不同的聚類類型 3078.1.3 不同的簇類型 3088.2 K均值 3108.2.1 基本K均值算法 3108.2.2 K均值:附加的問題 3158.2.3 二分K均值 3168.2.4 K均值和不同的簇類型 3178.2.5 優(yōu)點(diǎn)與缺點(diǎn) 3188.2.6 K均值作為優(yōu)化問題 3198.3 凝聚層次聚類 3208.3.1 基本凝聚層次聚類算法 3218.3.2 特殊技術(shù) 3228.3.3 簇鄰近度的Lance-Williams公式 3258.3.4 層次聚類的主要問題 3268.3.5 優(yōu)點(diǎn)與缺點(diǎn) 3278.4 DBSCAN 3278.4.1 傳統(tǒng)的密度:基于中心的方法 3278.4.2 DBSCAN算法 3288.4.3 優(yōu)點(diǎn)與缺點(diǎn) 3298.5 簇評估 3308.5.1 概述 3328.5.2 非監(jiān)督簇評估:使用凝聚度和分離度 3328.5.3 非監(jiān)督簇評估:使用鄰近度矩陣 3368.5.4 層次聚類的非監(jiān)督評估 3388.5.5 確定正確的簇個(gè)數(shù) 3398.5.6 聚類趨勢 3398.5.7 簇有效性的監(jiān)督度量 3408.5.8 評估簇有效性度量的顯著性 343文獻(xiàn)注釋 344參考文獻(xiàn) 345習(xí)題 347第9章 聚類分析:附加的問題與算法 3559.1 數(shù)據(jù)、簇和聚類算法的特性 3559.1.1 例子:比較K均值和DBSCAN 3559.1.2 數(shù)據(jù)特性 3569.1.3 簇特性 3579.1.4 聚類算法的一般特性 3589.2 基于原型的聚類 3599.2.1 模糊聚類 3599.2.2 使用混合模型的聚類 3629.2.3 自組織映射 3699.3 基于密度的聚類 3729.3.1 基于網(wǎng)格的聚類 3729.3.2 子空間聚類 3749.3.3 DENCLUE:基于密度聚類的一種基于核的方案 3779.4 基于圖的聚類 3799.4.1 稀疏化 3799.4.2 最小生成樹聚類 3809.4.3 OPOSSUM:使用METIS的稀疏相似度最優(yōu)劃分 3819.4.4 Chameleon:使用動(dòng)態(tài)建模的層次聚類 3819.4.5 共享最近鄰相似度 3859.4.6 Jarvis-Patrick聚類算法 3879.4.7 SNN密度 3889.4.8 基于SNN密度的聚類 3899.5 可伸縮的聚類算法 3909.5.1 可伸縮:一般問題和方法 3919.5.2 BIRCH 3929.5.3 CURE 3939.6 使用哪種聚類算法 395文獻(xiàn)注釋 397參考文獻(xiàn) 398習(xí)題 400第10章 異常檢測 40310.1 預(yù)備知識 40410.1.1 異常的成因 40410.1.2 異常檢測方法 40410.1.3 類標(biāo)號的使用 40510.1.4 問題 40510.2 統(tǒng)計(jì)方法 40610.2.1 檢測一元正態(tài)分布中的離群點(diǎn) 40710.2.2 多元正態(tài)分布的離群點(diǎn) 40810.2.3 異常檢測的混合模型方法 41010.2.4 優(yōu)點(diǎn)與缺點(diǎn) 41110.3 基于鄰近度的離群點(diǎn)檢測 41110.4 基于密度的離群點(diǎn)檢測 41210.4.1 使用相對密度的離群點(diǎn)檢測 41310.4.2 優(yōu)點(diǎn)與缺點(diǎn) 41410.5 基于聚類的技術(shù) 41410.5.1 評估對象屬于簇的程度 41510.5.2 離群點(diǎn)對初始聚類的影響 41610.5.3 使用簇的個(gè)數(shù) 41610.5.4 優(yōu)點(diǎn)與缺點(diǎn) 416文獻(xiàn)注釋 417參考文獻(xiàn) 418習(xí)題 420
圖書封面
圖書標(biāo)簽Tags
無
評論、評分、閱讀與下載