數(shù)據(jù)挖掘算法與Clementine實(shí)踐

出版時(shí)間:2011-4  出版社:清華大學(xué)  作者:熊平  頁數(shù):237  
Tag標(biāo)簽:無  

內(nèi)容概要

  《數(shù)據(jù)挖掘算法與Clementine實(shí)踐》主要介紹了幾種最成熟的數(shù)據(jù)挖掘方法,并針對(duì)每種方法,介紹了應(yīng)用最廣泛的幾種實(shí)現(xiàn)算法。書中以Clementine
12.0為平臺(tái),用實(shí)例介紹了每種算法的具體應(yīng)用。全書各章分別介紹了數(shù)據(jù)挖掘和Clementine軟件、決策樹分類方法(包括ID3、C4.5、C5.0、CART等算法)、聚類分析方法(包括K-Means算法和TwoStep算法)、關(guān)聯(lián)規(guī)則挖掘方法(包括Apriori算法、CARMA算法和序列模式挖掘算法)、數(shù)據(jù)篩選算法(包括特征選擇算法和異常檢測(cè)算法)、回歸分析方法(包括線性回歸算法和二項(xiàng)Logistic回歸)、神經(jīng)網(wǎng)絡(luò)構(gòu)建方法(包括多層感知器網(wǎng)絡(luò)、RBF網(wǎng)絡(luò)以及Kohonen網(wǎng)絡(luò)的構(gòu)建算法)、時(shí)間序列分析方法(包括指數(shù)平滑法和ARIMA模型構(gòu)建方法)。
  

書籍目錄

第1章 數(shù)據(jù)挖掘概述
1.1 數(shù)據(jù)挖掘簡介
1.2 數(shù)據(jù)挖掘過程
1.3 數(shù)據(jù)挖掘方法
1.4 數(shù)據(jù)挖掘工具及軟件
第2章 clementine概述
2.1 clementine簡介
2.2 clementine基本操作
第3章 決策樹
3.1 分類與決策樹概述
3.2 id3、c4.5與c5.0
3.3 cart
第4章 聚類分析
4.1 聚類分析概述
4.2 k-means算法
4.3 twostep算法
第5章 關(guān)聯(lián)規(guī)則
5.1 關(guān)聯(lián)規(guī)則概述
5.2 apriori算法
5.3 carma算法
5.4 序列模式
第6章 數(shù)據(jù)篩選
6.1 特征選擇
6.2 異常檢測(cè)
第7章 統(tǒng)計(jì)模型
7.1 線性回歸
7.2 項(xiàng)logistic回歸
第8章 神經(jīng)網(wǎng)絡(luò)
8.1 神經(jīng)網(wǎng)絡(luò)原理
8.2 多層感知器與rbf網(wǎng)絡(luò)
8.3 kohonen網(wǎng)絡(luò)
第9章 時(shí)間序列分析與預(yù)測(cè)
9.1 時(shí)間序列概述
9.2 指數(shù)平滑法
9.3 arima模型
參考文獻(xiàn)

章節(jié)摘錄

版權(quán)頁:插圖:統(tǒng)計(jì)方法COBWEB-是一個(gè)常用的且簡單的增量式概念聚類方法。它的輸入對(duì)象是采用符號(hào)量(屬性一值)對(duì)來加以描述的。采用分類樹的形式來創(chuàng)建一個(gè)層次聚類。CLASSIT是COBWEB的另一個(gè)版本。它可以對(duì)連續(xù)取值屬性進(jìn)行增量式聚類。它為每個(gè)節(jié)點(diǎn)中的每個(gè)屬性保存相應(yīng)的連續(xù)正態(tài)分布(均值與方差);并利用一個(gè)改進(jìn)的分類能力描述方法,即不像COBWEB那樣計(jì)算離散屬性(取值)和而是對(duì)連續(xù)屬性求積分。但是CLASSIT方法也存在與COBWEB類似的問題。因此它們都不適合對(duì)大數(shù)據(jù)庫進(jìn)行聚類處理。傳統(tǒng)的聚類算法已經(jīng)比較成功地解決了低維數(shù)據(jù)的聚類問題。但是由于實(shí)際應(yīng)用中數(shù)據(jù)的復(fù)雜性,在處理許多問題時(shí),現(xiàn)有的算法經(jīng)常失效,特別是對(duì)于高維數(shù)據(jù)和大型數(shù)據(jù)的情況。因?yàn)閭鹘y(tǒng)聚類方法在高維數(shù)據(jù)集中進(jìn)行聚類時(shí),主要遇到兩個(gè)問題。首先,高維數(shù)據(jù)集中存在大量無關(guān)的屬性使得在所有維中存在簇的可能性幾乎為零。另外,高維空間中數(shù)據(jù)較低維空間中數(shù)據(jù)分布要稀疏,其中數(shù)據(jù)間距離幾乎相等是普遍現(xiàn)象,而傳統(tǒng)聚類方法是基于距離進(jìn)行聚類的,因此在高維空間中無法基于距離來構(gòu)建簇。高維聚類分析已成為聚類分析的一個(gè)重要研究方向。同時(shí)高維數(shù)據(jù)聚類也是聚類技術(shù)的難點(diǎn)。隨著技術(shù)的進(jìn)步使得數(shù)據(jù)收集變得越來越容易,導(dǎo)致數(shù)據(jù)庫規(guī)模越來越大、復(fù)雜性越來越高,如各種類型的貿(mào)易交易數(shù)據(jù)、Web文檔、基因表達(dá)數(shù)據(jù)等,它們的維度(屬性)通常可以達(dá)到成百上千維,甚至更高。但是,受“維度效應(yīng)”的影響,許多在低維數(shù)據(jù)空間表現(xiàn)良好的聚類方法運(yùn)用在高維空間上往往無法獲得好的聚類效果。高維數(shù)據(jù)聚類分析是聚類分析中一個(gè)非常活躍的領(lǐng)域,同時(shí)它也是一個(gè)具有挑戰(zhàn)性的工作。

編輯推薦

《數(shù)據(jù)挖掘算法與Clementine實(shí)踐》是由清華大學(xué)出版社出版的。

圖書封面

圖書標(biāo)簽Tags

評(píng)論、評(píng)分、閱讀與下載


    數(shù)據(jù)挖掘算法與Clementine實(shí)踐 PDF格式下載


用戶評(píng)論 (總計(jì)24條)

 
 

  •   講解使用Clementine工具進(jìn)行數(shù)據(jù)挖掘的算法。很好
  •   內(nèi)容比較新穎,難得有很多實(shí)驗(yàn)數(shù)據(jù)可以提供
  •   基礎(chǔ)且實(shí)用,書不錯(cuò),可以用于基礎(chǔ)的學(xué)習(xí)
  •   看起來不錯(cuò),例子挺多
  •   老公評(píng)價(jià)挺高的。
  •   速度較快,比較滿意!
  •   大概翻閱一下,感覺還行
  •   沒來及看,總體還行。
  •   內(nèi)容尚可,但是有些地方寫的不是很詳細(xì)。
  •   紙張一般,正在看
  •   這書主要是講如何使用cleantime工具的,算法講解一般
  •   內(nèi)容感覺很一般,有點(diǎn)小失望!
  •   入門教材,物有所值,值得初級(jí)人員入手
  •   沒有全部看完,但是感覺還可以。
  •   還行吧,好久沒看到了,被老師拿走就沒還我
  •   書的內(nèi)容跟網(wǎng)上的差不多,是正版!
  •   案例偏簡單,適合快速入門。
  •   配送速度很OK,書的內(nèi)容頁基本滿意,圍繞幾個(gè)主要的數(shù)據(jù)挖掘算法以clementine為工具簡單介紹了應(yīng)用,但是感覺內(nèi)容太簡單,書的質(zhì)量比較一般
  •   中午剛收到書,內(nèi)容還沒看,但是書的封面很臟,書左上角白色區(qū)域有很大一片黑色污漬,黑有一個(gè)戳穿的小孔,書左下角的粘合處有很深的擠壓凹進(jìn)去的痕跡,總之對(duì)書很不滿意,影響心情。由于書是急著用所以沒有申請(qǐng)推過。真的懷疑這些書是不是實(shí)體店里因?yàn)橛需Υ娩N售不出去的才拿到網(wǎng)上用相對(duì)便宜價(jià)格處理掉。
  •   有例子,實(shí)用,沒那么虛
  •   還算可以,就是紙質(zhì)太差,也有點(diǎn)失望
  •   雖然書中很多內(nèi)容出自Clementine12.0的用戶手冊(cè),但是很有針對(duì)性。書中的例子也很詳細(xì),算法和軟件上手的內(nèi)容很適合入門者。值得推薦。
  •   操作講解比較詳細(xì),結(jié)果分析也還行。只是案例相對(duì)簡單,缺乏深度
  •     因?yàn)橹耙恢庇肧PSS做數(shù)據(jù)分析,現(xiàn)在計(jì)劃用Clementine做一下數(shù)據(jù)挖掘。所以買了這本書讀了一下,內(nèi)容介紹的比較清晰和易于理解。不足之處是書太薄了,不夠詳細(xì)(比如很多指標(biāo)的含義)。作為一本入門書,我覺得足夠了。
 

250萬本中文圖書簡介、評(píng)論、評(píng)分,PDF格式免費(fèi)下載。 第一圖書網(wǎng) 手機(jī)版

京ICP備13047387號(hào)-7