出版時間:2008-4 出版社:清華大學(xué)出版社有限公司 作者:胡可云 編 頁數(shù):248 字?jǐn)?shù):399000
Tag標(biāo)簽:無
內(nèi)容概要
本書從數(shù)據(jù)挖掘理論與數(shù)據(jù)挖掘應(yīng)用過程兩方面介紹了數(shù)據(jù)挖掘的最新成果。在理論部分,本書介紹了數(shù)據(jù)挖掘技術(shù)所涉及的基本概念、主流技術(shù)和最新成果;在應(yīng)用部分,本書結(jié)合具體的實例系統(tǒng)論述了商業(yè)理解、數(shù)據(jù)預(yù)處理、建模、模型部署等整個數(shù)據(jù)挖掘流程。 本書既可以作為大學(xué)本科生和研究生的補(bǔ)充教材,也可以作為企業(yè)實施數(shù)據(jù)挖掘和商務(wù)智能的實戰(zhàn)指導(dǎo);既可以作為初次接觸數(shù)據(jù)挖掘技術(shù)的入門讀物,也可以作為高級研究人員的參考書。
書籍目錄
第1章 導(dǎo)論 1.1 數(shù)據(jù)挖掘概述 1.1.1 數(shù)據(jù)挖掘的背景 1.1.2 數(shù)據(jù)挖掘的定義 1.1.3 數(shù)據(jù)挖掘的應(yīng)用 1.2 數(shù)據(jù)挖掘的一般過程 1.2.1 數(shù)據(jù)挖掘中的數(shù)據(jù)集 1.2.2 數(shù)據(jù)挖掘的任務(wù) 1.2.3 數(shù)據(jù)挖掘過程 1.3 數(shù)據(jù)挖掘的一般方法 1.3.1 分類預(yù)測型方法 1.3.2 描述型方法 1.3.3 文本/Web挖掘方法理論篇 第2章 分類方法 2.1 決策樹 2.1.1 決策樹基本概念 2.1.2 決策樹構(gòu)造過程 2.1.3 決策樹的擴(kuò)展 2.2 前饋神經(jīng)網(wǎng)絡(luò) 2.2.1 基本概念 2.2.2 BP訓(xùn)練過程 2.2.3 RBF網(wǎng)絡(luò) 2.3 基于規(guī)則的方法 2.3.1 AQ算法 2.3.2 C45rules 2.3.3 RIPPER 2.4 支持向量機(jī) 2.4.1 核函數(shù) 2.4.2 線性可分模式下的最優(yōu)超平面 2.4.3 線性不可分模式下的最優(yōu)超平面 2.4.4 支持向量機(jī) 2.5 貝葉斯分類 2.5.1 貝葉斯理論和極大后驗假設(shè) 2.5.2 貝葉斯網(wǎng)絡(luò)和貝葉斯分類器 2.5.3 幾種常見的貝葉斯分類器模型 2.5.4 貝葉斯分類器應(yīng)用舉例 2.6 粗糙集方法 2.6.1 粗糙集概念 2.6.2 粗糙集基本算法 2.6.3 粗糙集方法的擴(kuò)展 2.7 其他分類方法 2.7.1 回歸分析 2.7.2 k-最近鄰分類方法 2.7.3 組合學(xué)習(xí)方法 第3章 聚類方法 3.1 聚類方法概述 3.1.1 聚類分析中的常見數(shù)據(jù)類型 3.1.2 對聚類算法的一些典型要求 3.1.3 主要的聚類方法 3.2 劃分聚類 3.2.1 k-均值算法 3.2.2 二分k-均值聚類方法 3.2.3 k-中心點算法 3.3 層次聚類 3.3.1 凝聚的和分裂的層次聚類 3.3.2 BIRCH算法 3.3.3 CuRE算法 3.3.4 ROCK算法 3.3.5 Chameleon 3.4 基于密度的聚類 3.4.1 DBSCAN算法 3.4.2 OPTICS算法 3.5 Kohonen聚類 3.5.1 自組織神經(jīng)網(wǎng)絡(luò) 3.5.2 Kohonen自組織映射 3.6 孤立點分析 3.6.1 基于統(tǒng)計的孤立點檢測 3.6.2 基于距離的孤立點檢測 3.6.3 基于偏離的孤立點檢測方法 3.7 概念格 3.7.1 基本概念 3.7.2 概念格的建造 3.7.3 規(guī)則提取 第4章 關(guān)聯(lián)分析 4.1 基本概念與挖掘過程 4.1.1 基本概念 4.1.2 關(guān)聯(lián)規(guī)則挖掘過程 4.2 頻繁項集挖掘算法 4.2.1 Apriori算法 4.2.2 Apriori算法的改進(jìn) 4.2.3 FP_Growth算法 4.3 關(guān)聯(lián)規(guī)則生成算法 4.4 頻繁閉項集挖掘 4.5 關(guān)聯(lián)規(guī)則的擴(kuò)展 4.5.1 多層次關(guān)聯(lián)規(guī)則 4.5.2 多維關(guān)聯(lián)規(guī)則 4.5.3 定量關(guān)聯(lián)規(guī)則 4.5.4 加權(quán)關(guān)聯(lián)規(guī)則 4.5.5 序列模式分析 第5章 文本與Web挖掘 5.1 文本挖掘 5.1.1 文本預(yù)處理 5.1.2 文本檢索 5.1.3 文本分類 5.1.4 文本聚類 5.1.5 文本摘要 5.2 Web挖掘 5.2.1 概述 5.2.2 Web內(nèi)容挖掘 5.2.3 Web結(jié)構(gòu)挖掘 5.2.4 Web使用挖掘應(yīng)用篇 第6章 業(yè)務(wù)理解 6.1 需求分析 6.1.1 需求分析的內(nèi)容 6.1.2 需求分析的方法 6.1.3 需求分析的結(jié)果 6.1.4 需求分析的注意事項 6.2 實例:客戶細(xì)分項目的需求分析 6.2.1 客戶細(xì)分項目的內(nèi)容 6.2.2 分析方法 6.2.3 分析結(jié)果 第7章 數(shù)據(jù)預(yù)處理 7.1 數(shù)據(jù)理解 7.2 數(shù)據(jù)準(zhǔn)備 7.2.1 數(shù)據(jù)整理與合并 7.2.2 數(shù)據(jù)抽樣 7.2.3 訓(xùn)練集和測試集的劃分方法 7.2.4 類標(biāo)簽的確定 7.3 數(shù)據(jù)描述 7.3.1 單變量描述方法 7.3.2 多變量描述方法 7.4 數(shù)據(jù)清理 7.4.1 缺值處理 7.4.2 探測異常點與噪聲清除 7.5 變量變換與合成 7.5.1 連續(xù)變量歸一化 7.5.2 離散變量的數(shù)值化 7.5.3 連續(xù)變量離散化 7.5.4 變量變換 7.5.5 變量合成 7.6 變量選擇 7.6.1 概述 7.6.2 包裝方法 7.6.3 過濾方法 7.6.4 主成分及因子分析 7.7 一些算法對預(yù)處理的要求 7.8 實例:客戶流失項目的數(shù)據(jù)預(yù)處理 7.8.1 數(shù)據(jù)理解和數(shù)據(jù)準(zhǔn)備 7.8.2 數(shù)據(jù)描述和清理 7.8.3 數(shù)據(jù)變換與選擇 第8章 建模 8.1 算法選擇 8.2 模型參數(shù)調(diào)整 8.3 模型評估和性能比較 8.3.1 分類模型的評估方法 8.3.2 聚類模型的評估方法 8.4 模型導(dǎo)出 8.5 實例客戶流失項目的建模 8.5.1 算法選擇 8.5.2 參數(shù)調(diào)整 8.5.3 性能評估 8.5.4 模型導(dǎo)出 第9章 模型部署與維護(hù) 9.1 模型部署 9.2 模型維護(hù) 9.3 客戶流失項目的模型部署與維護(hù)附錄A 主要數(shù)據(jù)挖掘軟件簡介 A1 SAS Enterprise Miner A1.1 概述 A1.2 數(shù)據(jù)挖掘過程及模塊 A2 SPSS Clementine A2.1 概述 A2.2 數(shù)據(jù)挖掘過程及模塊 A3 IBM Intelligent Miner A3.1 概述 A3.2 數(shù)據(jù)挖掘過程及模塊 A4 其他常見數(shù)據(jù)挖掘工具參考文獻(xiàn)
章節(jié)摘錄
第6章 業(yè)務(wù)理解 數(shù)據(jù)挖掘過程并不是一個純技術(shù)的過程,而是一個業(yè)務(wù)和技術(shù)相結(jié)合過程,或者說技術(shù)為業(yè)務(wù)服務(wù)的過程。片面地追求技術(shù)指標(biāo)往往使得項目失敗。數(shù)據(jù)挖掘算法相當(dāng)于一個工具,如何使用這個工具非常重要。工具先進(jìn)不見得就能得出好的項目結(jié)果,就如同有一架世界頂級的鋼琴擺在面前,不是誰都能彈出最動聽的曲子一樣。而有些人則能在一架不起眼的鋼琴上彈奏出優(yōu)美的旋律?! ≡跀?shù)據(jù)挖掘過程中,對業(yè)務(wù)的理解很大程度決定了最終結(jié)果的成敗,在實際項目中,有很多這樣的例子。例如,在一個預(yù)測移動用戶流失的項目中,如果只是簡單地追求預(yù)測的高準(zhǔn)確率,而不考慮項目的目的是為了挽留這些用戶,那么很可能的結(jié)果就是很高的預(yù)測準(zhǔn)確率,但是在去找這些用戶的時候,發(fā)現(xiàn)都已經(jīng)無法聯(lián)系了——模型確實很準(zhǔn)確,找到了已流失的用戶,但對客戶來說毫無幫助?! ∫虼耍趩右粋€數(shù)據(jù)挖掘過程時,首先要做的是對業(yè)務(wù)進(jìn)行理解,確定客戶的需求是什么,要達(dá)到什么樣的業(yè)務(wù)目標(biāo);再根據(jù)客戶的業(yè)務(wù)目標(biāo)制定數(shù)據(jù)挖掘的目標(biāo);然后根據(jù)對目標(biāo)的理解收集相關(guān)的數(shù)據(jù)和進(jìn)行數(shù)據(jù)處理?! ?.1 需求分析 需求分析的目的是熟悉相關(guān)業(yè)務(wù),明確希望通過數(shù)據(jù)挖掘達(dá)到的業(yè)務(wù)目標(biāo)。只有熟悉了相關(guān)業(yè)務(wù),才能深刻地理解數(shù)據(jù)的含義,確定項目的范圍,把業(yè)務(wù)問題正確地轉(zhuǎn)換為定義良好的數(shù)據(jù)挖掘過程?! ?.1.1 需求分析的內(nèi)容 1. 相關(guān)業(yè)務(wù) 相關(guān)業(yè)務(wù)包括組織結(jié)構(gòu)、業(yè)務(wù)流程及存在問題。數(shù)據(jù)挖掘系統(tǒng)需要能解決實際的業(yè)務(wù)問題,才能保證它的成功。需要確定誰是數(shù)據(jù)挖掘結(jié)果的最終用戶,現(xiàn)有的業(yè)務(wù)流程是怎樣的,存在一些什么問題,數(shù)據(jù)挖掘如何改進(jìn)業(yè)務(wù)流程,要達(dá)到什么樣的目標(biāo)。 注意業(yè)務(wù)目標(biāo)和數(shù)據(jù)挖掘目標(biāo)是不同的。業(yè)務(wù)目標(biāo)是從業(yè)務(wù)角度對數(shù)據(jù)挖掘過程要獲得的目標(biāo)的描述。例如,發(fā)現(xiàn)客戶流失的模式,并利用該模式進(jìn)行營銷活動。數(shù)據(jù)挖掘目標(biāo)是從數(shù)據(jù)挖掘角度對數(shù)據(jù)挖掘過程要獲得的目標(biāo)的描述。例如,以60%的準(zhǔn)確率預(yù)測將要流失的客戶。 在業(yè)務(wù)分析過程中,需要注意哪些因素對業(yè)務(wù)問題的影響是最重要的。在建模過程中,一組好的變量(代表關(guān)鍵因素)可能對模型的最終效果起決定性作用。
編輯推薦
《高等學(xué)校計算機(jī)科學(xué)與技術(shù)教材?數(shù)據(jù)挖掘理論與應(yīng)用》由清華大學(xué)出版社出版。原理與技術(shù)的完美結(jié)合,教學(xué)與科研的最新成果,語言精煉,實例豐富,可操作性強(qiáng),實用性突出。數(shù)據(jù)挖掘是一門面向應(yīng)用的新興學(xué)科分支,在過去的幾年中,在許多領(lǐng)域的應(yīng)用取得了成功。特別是在計算機(jī)應(yīng)用起步較早、積累了大量數(shù)據(jù)的行業(yè),如電信、銀行、零售、科學(xué)研究等。當(dāng)然,數(shù)據(jù)挖掘的應(yīng)用范圍遠(yuǎn)不止于此。數(shù)據(jù)挖掘的應(yīng)用范圍極其廣泛,限制數(shù)據(jù)挖掘應(yīng)用范圍的只是可用的數(shù)據(jù)和人們的想像力。 雖然現(xiàn)在很多人都認(rèn)識到了數(shù)據(jù)挖掘的作用,然而在實際的數(shù)據(jù)挖掘?qū)嵺`中,人們往往會陷入過分強(qiáng)調(diào)理論或輕視業(yè)務(wù)的誤區(qū)。事實上,正確的數(shù)據(jù)挖掘過程和數(shù)據(jù)挖掘理論的運用對實踐的數(shù)據(jù)挖掘項目的成功同等重要?!陡叩葘W(xué)校計算機(jī)科學(xué)與技術(shù)教材?數(shù)據(jù)挖掘理論與應(yīng)用》編寫的目的,是既完整地介紹數(shù)據(jù)挖掘常用的算法,又對數(shù)據(jù)挖掘的應(yīng)用過程進(jìn)行詳細(xì)的介紹,使讀者能夠掌握整個數(shù)據(jù)挖掘過程的各個方面,從而更好地進(jìn)行數(shù)據(jù)挖掘?qū)嵺`。
圖書封面
圖書標(biāo)簽Tags
無
評論、評分、閱讀與下載
數(shù)據(jù)挖掘理論與應(yīng)用 PDF格式下載