出版時(shí)間:2011-4 出版社:清華大學(xué) 作者:熊平 頁數(shù):237
Tag標(biāo)簽:無
內(nèi)容概要
《數(shù)據(jù)挖掘算法與Clementine實(shí)踐》主要介紹了幾種最成熟的數(shù)據(jù)挖掘方法,并針對(duì)每種方法,介紹了應(yīng)用最廣泛的幾種實(shí)現(xiàn)算法。書中以Clementine
12.0為平臺(tái),用實(shí)例介紹了每種算法的具體應(yīng)用。全書各章分別介紹了數(shù)據(jù)挖掘和Clementine軟件、決策樹分類方法(包括ID3、C4.5、C5.0、CART等算法)、聚類分析方法(包括K-Means算法和TwoStep算法)、關(guān)聯(lián)規(guī)則挖掘方法(包括Apriori算法、CARMA算法和序列模式挖掘算法)、數(shù)據(jù)篩選算法(包括特征選擇算法和異常檢測(cè)算法)、回歸分析方法(包括線性回歸算法和二項(xiàng)Logistic回歸)、神經(jīng)網(wǎng)絡(luò)構(gòu)建方法(包括多層感知器網(wǎng)絡(luò)、RBF網(wǎng)絡(luò)以及Kohonen網(wǎng)絡(luò)的構(gòu)建算法)、時(shí)間序列分析方法(包括指數(shù)平滑法和ARIMA模型構(gòu)建方法)。
書籍目錄
第1章 數(shù)據(jù)挖掘概述
1.1 數(shù)據(jù)挖掘簡介
1.2 數(shù)據(jù)挖掘過程
1.3 數(shù)據(jù)挖掘方法
1.4 數(shù)據(jù)挖掘工具及軟件
第2章 clementine概述
2.1 clementine簡介
2.2 clementine基本操作
第3章 決策樹
3.1 分類與決策樹概述
3.2 id3、c4.5與c5.0
3.3 cart
第4章 聚類分析
4.1 聚類分析概述
4.2 k-means算法
4.3 twostep算法
第5章 關(guān)聯(lián)規(guī)則
5.1 關(guān)聯(lián)規(guī)則概述
5.2 apriori算法
5.3 carma算法
5.4 序列模式
第6章 數(shù)據(jù)篩選
6.1 特征選擇
6.2 異常檢測(cè)
第7章 統(tǒng)計(jì)模型
7.1 線性回歸
7.2 項(xiàng)logistic回歸
第8章 神經(jīng)網(wǎng)絡(luò)
8.1 神經(jīng)網(wǎng)絡(luò)原理
8.2 多層感知器與rbf網(wǎng)絡(luò)
8.3 kohonen網(wǎng)絡(luò)
第9章 時(shí)間序列分析與預(yù)測(cè)
9.1 時(shí)間序列概述
9.2 指數(shù)平滑法
9.3 arima模型
參考文獻(xiàn)
章節(jié)摘錄
版權(quán)頁:插圖:統(tǒng)計(jì)方法COBWEB-是一個(gè)常用的且簡單的增量式概念聚類方法。它的輸入對(duì)象是采用符號(hào)量(屬性一值)對(duì)來加以描述的。采用分類樹的形式來創(chuàng)建一個(gè)層次聚類。CLASSIT是COBWEB的另一個(gè)版本。它可以對(duì)連續(xù)取值屬性進(jìn)行增量式聚類。它為每個(gè)節(jié)點(diǎn)中的每個(gè)屬性保存相應(yīng)的連續(xù)正態(tài)分布(均值與方差);并利用一個(gè)改進(jìn)的分類能力描述方法,即不像COBWEB那樣計(jì)算離散屬性(取值)和而是對(duì)連續(xù)屬性求積分。但是CLASSIT方法也存在與COBWEB類似的問題。因此它們都不適合對(duì)大數(shù)據(jù)庫進(jìn)行聚類處理。傳統(tǒng)的聚類算法已經(jīng)比較成功地解決了低維數(shù)據(jù)的聚類問題。但是由于實(shí)際應(yīng)用中數(shù)據(jù)的復(fù)雜性,在處理許多問題時(shí),現(xiàn)有的算法經(jīng)常失效,特別是對(duì)于高維數(shù)據(jù)和大型數(shù)據(jù)的情況。因?yàn)閭鹘y(tǒng)聚類方法在高維數(shù)據(jù)集中進(jìn)行聚類時(shí),主要遇到兩個(gè)問題。首先,高維數(shù)據(jù)集中存在大量無關(guān)的屬性使得在所有維中存在簇的可能性幾乎為零。另外,高維空間中數(shù)據(jù)較低維空間中數(shù)據(jù)分布要稀疏,其中數(shù)據(jù)間距離幾乎相等是普遍現(xiàn)象,而傳統(tǒng)聚類方法是基于距離進(jìn)行聚類的,因此在高維空間中無法基于距離來構(gòu)建簇。高維聚類分析已成為聚類分析的一個(gè)重要研究方向。同時(shí)高維數(shù)據(jù)聚類也是聚類技術(shù)的難點(diǎn)。隨著技術(shù)的進(jìn)步使得數(shù)據(jù)收集變得越來越容易,導(dǎo)致數(shù)據(jù)庫規(guī)模越來越大、復(fù)雜性越來越高,如各種類型的貿(mào)易交易數(shù)據(jù)、Web文檔、基因表達(dá)數(shù)據(jù)等,它們的維度(屬性)通常可以達(dá)到成百上千維,甚至更高。但是,受“維度效應(yīng)”的影響,許多在低維數(shù)據(jù)空間表現(xiàn)良好的聚類方法運(yùn)用在高維空間上往往無法獲得好的聚類效果。高維數(shù)據(jù)聚類分析是聚類分析中一個(gè)非常活躍的領(lǐng)域,同時(shí)它也是一個(gè)具有挑戰(zhàn)性的工作。
編輯推薦
《數(shù)據(jù)挖掘算法與Clementine實(shí)踐》是由清華大學(xué)出版社出版的。
圖書封面
圖書標(biāo)簽Tags
無
評(píng)論、評(píng)分、閱讀與下載
數(shù)據(jù)挖掘算法與Clementine實(shí)踐 PDF格式下載