數(shù)據(jù)挖掘教程

出版時間:2005-5-1  出版社:清華大學(xué)出版社  作者:郭崇慧,田鳳占,鄧納姆  頁數(shù):280  譯者:郭崇慧,田鳳占  
Tag標(biāo)簽:無  

內(nèi)容概要

  本書全面系統(tǒng)地介紹了各種數(shù)據(jù)挖掘的基本概念、方法和算法。全書由四部分構(gòu)成:第一部分是導(dǎo)論,全面介紹了數(shù)據(jù)挖掘的背景信息、相關(guān)概念及其所使用的主要技術(shù);第二部分是核心算法,系統(tǒng)深入地描述了用于分類、聚類和關(guān)聯(lián)規(guī)則的常用算法;第三部分是高級課題,主要介紹了Web挖掘、空間數(shù)據(jù)挖掘、時序數(shù)據(jù)和序列數(shù)據(jù)挖掘;第四部分是附錄,介紹了目前市場上流行的一些數(shù)據(jù)挖掘工具產(chǎn)品。書中對每種算法不僅進(jìn)行了詳盡的解釋,還給出了算例及偽碼。每章后的練習(xí)和參考文獻(xiàn)為讀者提供了進(jìn)一步思考相關(guān)問題的線索?! ”緯m宜作為計算機專業(yè)高年級本科生、研究生教材,也可作為相關(guān)領(lǐng)域研究人員的參考書。

作者簡介

  Margaret H.Dunham 在俄亥俄州牛津市的邁阿密大學(xué)獲得了數(shù)學(xué)學(xué)士和數(shù)學(xué)碩士學(xué)位,在Southern Methodist大學(xué)獲得了計算機科學(xué)博士學(xué)位。Dunham教授的研究興趣包括主存數(shù)據(jù)庫、數(shù)據(jù)挖掘、時序數(shù)據(jù)庫以及移動計算。她目前是IEEE Transactions on Knowledge and Data Engineering 雜志的副主編。她在數(shù)據(jù)庫并發(fā)控制和恢復(fù)、數(shù)據(jù)庫機、主存數(shù)據(jù)庫以及移動計算等研究領(lǐng)域發(fā)表了大量學(xué)術(shù)論文。

書籍目錄

第1部分 導(dǎo)論第1章 概述1.1 基本數(shù)據(jù)挖掘任務(wù)1.1.1 分類1.1.2 回歸1.1.3 時間序列分析1.1.4 預(yù)測1.1.5 聚類1.1.6 匯總1.1.7 關(guān)聯(lián)規(guī)則1.1.8 序列發(fā)現(xiàn)1.2 數(shù)據(jù)挖掘與數(shù)據(jù)庫中的知識發(fā)現(xiàn)1.2.1 數(shù)據(jù)挖掘的發(fā)展1.3 數(shù)據(jù)挖掘問題1.4 數(shù)據(jù)挖掘度量1.5 數(shù)據(jù)挖掘的社會影響1.6 從數(shù)據(jù)庫觀點看數(shù)據(jù)挖掘1.7 數(shù)據(jù)挖掘的未來發(fā)展1.8 練習(xí)1.9 參考文獻(xiàn)注釋第2章 相關(guān)概念2.1 數(shù)據(jù)庫/OLTP系統(tǒng)2.2 模糊集和模糊邏輯2.3 信息檢索2.4 決策支持系統(tǒng)2.5 維數(shù)據(jù)建模2.5.1 多維模式2.5.2 索引2.6 數(shù)據(jù)倉儲2.7 OLAP2.8 Web搜索引擎2.9 統(tǒng)計學(xué)2.10 機器學(xué)習(xí)2.11 模式匹配2.12 小結(jié)2.13 練習(xí)2.14 參考文獻(xiàn)注釋第3章 數(shù)據(jù)挖掘技術(shù)3.1 引言3.2 數(shù)據(jù)挖掘的統(tǒng)計方法3.2.1 點估計3.2.2 基于匯總的模型3.2.3 貝葉斯定理3.2.4 假設(shè)檢驗3.2.5 回歸和相關(guān)3.3 相似性度量3.4 決策樹3.5 神經(jīng)網(wǎng)絡(luò)3.5.1 激勵函數(shù)3.6 遺傳算法3.7 練習(xí)3.8 參考文獻(xiàn)注釋第2部分 核心課題第4章 分類4.1 引言4.1.1 分類中的問題4.2 基于統(tǒng)計的算法4.2.1 回歸4.2.2 貝葉斯分類4.3 基于距離的算法4.3.1 簡單方法4.3.2 K最近鄰4.4 基于決策樹的算法4.4.1 ID34.4.2 C4.5 和C5.04.4.3 CART4.4.4 可伸縮的決策樹技術(shù)4.5 基于神經(jīng)網(wǎng)絡(luò)的算法4.5.1 傳播4.5.2 神經(jīng)網(wǎng)絡(luò)有指導(dǎo)學(xué)習(xí)4.5.3 徑向基函數(shù)網(wǎng)絡(luò)4.5.4 感知器4.6 基于規(guī)則的算法4.6.1 從決策樹生成規(guī)則4.6.2 從神經(jīng)網(wǎng)絡(luò)生成規(guī)則4.6.3 不用決策樹或神經(jīng)網(wǎng)絡(luò)生成規(guī)則4.7 組合技術(shù)4.8 小結(jié)4.9 練習(xí)4.10 參考文獻(xiàn)注釋第5章 聚類5.1 引言5.2 相似性和距離度量5.3 異常點5.4 層次算法5.4.1 凝聚算法5.4.2 分裂聚類5.5 劃分算法5.5.1 最小生成樹5.5.2 平方誤差聚類算法5.5.3 K均值聚類5.5.4 最近鄰算法5.5.5 PAM算法5.5.6 結(jié)合能量算法5.5.7 基于遺傳算法的聚類5.5.8 基于神經(jīng)網(wǎng)絡(luò)的聚類5.6 大型數(shù)據(jù)庫聚類5.6.1 BIRCH5.6.2 DBSCAN5.6.3 CURE算法5.7 對類別屬性進(jìn)行聚類5.8 比較5.9 練習(xí)5.10 參考文獻(xiàn)注釋第6章 關(guān)聯(lián)規(guī)則6.1 引言6.2 大項目集6.3 基本算法6.3.1 Apriori算法6.3.2 抽樣算法6.3.3 劃分6.4 并行和分布式算法6.4.1 數(shù)據(jù)并行6.4.2 任務(wù)并行6.5 方法比較6.6 增量規(guī)則6.7 高級關(guān)聯(lián)規(guī)則技術(shù)6.7.1 泛化關(guān)聯(lián)規(guī)則6.7.2 多層關(guān)聯(lián)規(guī)則6.7.3 數(shù)量關(guān)聯(lián)規(guī)則6.7.4 使用多個最小支持度6.7.5 相關(guān)規(guī)則6.8 度量規(guī)則的質(zhì)量6.9 練習(xí)6.10 參考文獻(xiàn)注釋第3部分 高級課題第7章 Web挖掘7.1 引言7.2 Web內(nèi)容挖掘7.2.1 爬蟲7.2.2 Harvest系統(tǒng)7.2.3 虛擬Web視圖7.2.4 個性化7.3 Web結(jié)構(gòu)挖掘7.3.1 PageRank7.3.2 Clever7.4 Web使用挖掘7.4.1 預(yù)處理7.4.2 數(shù)據(jù)結(jié)構(gòu)7.4.3 模式發(fā)現(xiàn)7.4.4 模式分析7.5 練習(xí)7.6 參考文獻(xiàn)注釋第8章 空間數(shù)據(jù)挖掘8.1 引言8.2 空間數(shù)據(jù)概述8.2.1 空間查詢8.2.2 空間數(shù)據(jù)結(jié)構(gòu)8.2.3 主題地圖8.2.4 圖像數(shù)據(jù)庫8.3 空間數(shù)據(jù)挖掘原語8.4 一般化和特殊化8.4.1 漸進(jìn)求精8.4.2 一般化8.4.3 最近鄰8.4.4 STING8.5 空間規(guī)則8.5.1 空間關(guān)聯(lián)規(guī)則8.6 空間分類算法8.6.1 對ID3的擴展8.6.2 空間決策樹8.7 空間聚類算法8.7.1 對CLARANS的擴展8.7.2 SD(CLARANS)8.7.3 DBCLASD8.7.4 BANG8.7.5 WaveCluster8.7.6 近似8.8 練習(xí)8.9 參考文獻(xiàn)注釋第9章 時序數(shù)據(jù)挖掘9.1 引言9.2 時序事件建模9.3 時間序列9.3.1 時間序列分析9.3.2 趨勢分析9.3.3 變換9.3.4 相似性9.3.5 預(yù)測9.4 模式檢測9.4.1 串匹配9.5 時序序列9.5.1 AprioriAll9.5.2 SPADE9.5.3 一般化9.5.4 特征抽取9.6 時序關(guān)聯(lián)規(guī)則9.6.1 事務(wù)間關(guān)聯(lián)規(guī)則9.6.2 情節(jié)規(guī)則9.6.3 趨勢依賴9.6.4 序列關(guān)聯(lián)規(guī)則9.6.5 日歷關(guān)聯(lián)規(guī)則9.7 練習(xí)9.8 參考文獻(xiàn)注釋附錄A 數(shù)據(jù)挖掘產(chǎn)品A.1 參考文獻(xiàn)注釋附錄B 參考文獻(xiàn)詞匯表

媒體關(guān)注與評論

  數(shù)據(jù)挖掘技術(shù)是多學(xué)科交叉的新興技術(shù),它是隨著數(shù)據(jù)的大量積累以及市場競爭對信息與知識的迫切需求而產(chǎn)生和發(fā)展起來的,并逐漸成為人們關(guān)注的熱點。人們希望通過數(shù)據(jù)挖掘技術(shù)找到蘊藏在數(shù)據(jù)中的有用信息,進(jìn)而找到尚未發(fā)現(xiàn)的知識,為商業(yè)競爭、企業(yè)生產(chǎn)和管理、政府部門決策以及科學(xué)探索等提供信息與知識,這種所謂隱藏在數(shù)據(jù)中的信息與知識是人的先驗知識和經(jīng)驗無法確定的,對于幫助人們作出適當(dāng)決策是很有價值的?! ?shù)據(jù)挖掘技術(shù)是在統(tǒng)計學(xué)、人工智能(特別是機器學(xué)習(xí))和數(shù)據(jù)庫技術(shù)等多種技術(shù)的基礎(chǔ)上發(fā)展起來的。數(shù)據(jù)挖掘強調(diào)的是大數(shù)據(jù)量和算法的可伸縮性,它是一門很接近實用的學(xué)科,一出現(xiàn)就被許多部門所應(yīng)用。由于它的實用性和商業(yè)效益,近年來人們研究出許多數(shù)據(jù)挖掘的新方法,并開發(fā)了許多數(shù)據(jù)挖掘的新產(chǎn)品。  本書從數(shù)據(jù)庫的角度對數(shù)據(jù)挖掘的基本方法和算法進(jìn)行了系統(tǒng)的介紹。全書共分三部分: 第1部分包括第1~3章,介紹數(shù)據(jù)挖掘的發(fā)展和基本概念;第2部分包括第4~6章,介紹最基本的數(shù)據(jù)挖掘方法,這部分也是全書的重點;第3部分包括第7~9章,介紹了近年來出現(xiàn)的較新的數(shù)據(jù)挖掘方法和領(lǐng)域。每章最后兩節(jié)均為練習(xí)和參考文獻(xiàn)注釋。一部分練習(xí)用于檢驗學(xué)生掌握書中所述概念和知識的情況,另一部分練習(xí)提出需要進(jìn)一步研究和思考的問題。每章的參考文獻(xiàn)注釋則較詳細(xì)地說明了該章涉及的方法與算法的發(fā)展歷程和狀況,作者花費了很大精力查閱和收集這方面的資料?! ”緯m合作為計算機專業(yè)研究生及高年級本科生教材。作為教科書,書中的內(nèi)容有一定的深度和廣度,對許多方法和算法都作了引導(dǎo)性的敘述。但作為一本基礎(chǔ)性的教科書,它不可能包括太廣的內(nèi)容,對近年來發(fā)展較快的一些新方法,如粗糙集、貝葉斯網(wǎng)絡(luò)和支持向量機等,書中并未深入敘述。要想更深入地掌握一些方法和提出改進(jìn)建議,還需要查閱書中給出的參考文獻(xiàn)和一些方法的最新進(jìn)展。本書還可作為相關(guān)領(lǐng)域科技人員的參考書。

編輯推薦

  《數(shù)據(jù)挖掘教程》適宜作為計算機專業(yè)高年級本科生、研究生教材,也可作為相關(guān)領(lǐng)域研究人員的參考書。

圖書封面

圖書標(biāo)簽Tags

評論、評分、閱讀與下載


    數(shù)據(jù)挖掘教程 PDF格式下載


用戶評論 (總計0條)

 
 

 

250萬本中文圖書簡介、評論、評分,PDF格式免費下載。 第一圖書網(wǎng) 手機版

京ICP備13047387號-7