數(shù)據(jù)挖掘?qū)嶒?統(tǒng)計實驗教材系列

出版時間:2011-9  出版社:孔志周、肖百龍、 許滌龍 中國統(tǒng)計出版社 (2011-09出版)  作者:孔志周,肖百龍 著  頁數(shù):235  

內(nèi)容概要

  《統(tǒng)計實驗教材系列:數(shù)據(jù)挖掘?qū)嶒灐纷鳛椤稊?shù)據(jù)挖掘》課程的實驗教材,其編寫的目的在于,在講授數(shù)據(jù)挖掘基礎(chǔ)理論和基本方法的同時,一方面,通過前十一個實用性實驗項目,使學(xué)生加深對數(shù)據(jù)挖掘內(nèi)涵的理解,學(xué)會利用SAS/EM進(jìn)行數(shù)據(jù)挖掘的技能;另一方面,通過最后一個研究性實驗項目,學(xué)習(xí)數(shù)據(jù)挖掘研究的思路,認(rèn)識數(shù)據(jù)挖掘研究的迫切性,增強(qiáng)學(xué)生的基本研究技能,為學(xué)生工作或研究生階段打下基礎(chǔ),提高運(yùn)用數(shù)據(jù)挖掘相關(guān)理論進(jìn)行理論分析與解決實際問題的能力。

書籍目錄

項目1數(shù)據(jù)挖掘流程 1.1 實驗?zāi)康?1.2實驗原理 1.3實驗數(shù)據(jù) 1.4實驗過程 1.5實驗小結(jié) 1.6練習(xí)實驗 項目2缺失值與噪聲處理 2.1實驗?zāi)康?2.2 實驗原理 2.3實驗數(shù)據(jù) 2.4實驗過程 2.5 實驗小結(jié) 2.6練習(xí)實驗 項目3數(shù)據(jù)集成與變換 3.1 實驗?zāi)康?3.2實驗原理 3.3實驗數(shù)據(jù) 3.4實驗過程 3.5 實驗小結(jié) 3.6練習(xí)實驗 項目4數(shù)據(jù)歸約 4.1 實驗?zāi)康?4.2 實驗原理 4.3實驗數(shù)據(jù) 4.4實驗過程 4.5實驗小結(jié) 4.6練習(xí)實驗 項目5數(shù)據(jù)離散化與數(shù)據(jù)概化 5.1 實驗?zāi)康?5.2 實驗原理 5.3實驗數(shù)據(jù) 5.4實驗過程 5.5實驗小結(jié) 5.6練習(xí)實驗 項目6決策樹與決策規(guī)則 6.1 實驗?zāi)康?6.2實驗原理 6.3實驗數(shù)據(jù) 6.4 實驗過程 6.5實驗小結(jié) 6.6練習(xí)實驗 項目7人工神經(jīng)網(wǎng)絡(luò) 7.1 實驗?zāi)康?7.2實驗原理 7.3 實驗數(shù)據(jù) 7.4實驗過程 7.5實驗小結(jié) 7.6 練習(xí)實驗 項目8聚類與異常值的發(fā)現(xiàn) 8.1 實驗?zāi)康?8.2 實驗原理 8.3實驗數(shù)據(jù) 8.4實驗過程 8.5實驗小結(jié) 8.6練習(xí)實驗 項目9購物籃分析 9.1實驗?zāi)康?9.2實驗原理 9.3實驗數(shù)據(jù) 9.4實驗過程 9.5 實驗小結(jié) 9.6 練習(xí)實驗 項目l0時間序列分析 10.1 實驗?zāi)康?10.2實驗原理 10.3實驗數(shù)據(jù) 10。4實驗過程 10.5實驗小結(jié) 10.6練習(xí)實驗 項目11 Boostin9與Bagging 11.1 實驗?zāi)康?11.2實驗原理 11.3實驗數(shù)據(jù) 11.4實驗過程 11.5實驗小結(jié) 11.6練習(xí)實驗 項目12 基于模糊積分的分類綜合實驗及其拓展 12.1 實驗?zāi)康?12.2實驗原理 12.3實驗數(shù)據(jù) 12.4實驗過程 12.5實驗小結(jié) 12.6練習(xí)實驗 參考文獻(xiàn)

章節(jié)摘錄

版權(quán)頁:   插圖:   聚類分析是一種流行的數(shù)據(jù)離散化方法。通過將屬性的值劃分成簇或組,聚類算法可以用來離散化數(shù)值屬性。聚類考慮屬性的分布以及數(shù)據(jù)點的鄰近性,因此可以產(chǎn)生高質(zhì)量的離散化結(jié)果。每一個簇形成概念分層的一個節(jié)點,而所有的節(jié)點在同一個概念層。每一個簇可以進(jìn)一步分成若干個子簇,形成較低的概念層。簇也可以聚集在一起,以形成分層結(jié)構(gòu)中較高的概念層。 (6)通過直觀劃分離散化 許多用戶希望看到數(shù)值區(qū)域被劃分為相對一致的、易于閱讀的、看上去直觀或“自然”的區(qū)間。3—4—5規(guī)則可以用于將數(shù)值數(shù)據(jù)劃分成相對一致和“自然”的區(qū)間。一般地,該規(guī)則根據(jù)最高有效位的取值范圍,遞歸地和逐層地將給定的數(shù)據(jù)區(qū)域劃分為3、4或5個相對等寬的區(qū)間。該規(guī)則可以遞歸地用于每個區(qū)間,為給定的數(shù)值屬性創(chuàng)建概念分層。由于在數(shù)據(jù)集中可能包含特別大的正或負(fù)的離群值,最高層分段簡單地按最小或最大值可能導(dǎo)致扭曲的結(jié)果。這樣,頂層離散化可以根據(jù)代表給定數(shù)據(jù)大多數(shù)的數(shù)據(jù)區(qū)間(例如,第5個百分位數(shù)到第95個百分位數(shù))進(jìn)行。越出頂層分段的特別高和特別低的值將用類似的方法形成單獨的區(qū)間。 5.2.2離散數(shù)據(jù)的概化 離散數(shù)據(jù)具有有限個(但可能很多)不同值,值之間無序,例如地理位置、工作分類和商品類型。有很多方法產(chǎn)生分類數(shù)據(jù)的概念分層。 (1)由用戶或?qū)<以谀J郊夛@式地說明屬性的部分序:通常,分類屬性或維的概念分層涉及一組屬性。用戶或?qū)<以谀J郊壨ㄟ^說明屬性的部分序或全序,可以很容易地定義概念分層。 (2)通過顯式數(shù)據(jù)分組說明分層結(jié)構(gòu)的一部分:這基本上是人工地定義概念分層結(jié)構(gòu)的一部分。在大型數(shù)據(jù)庫中,通過顯式的值枚舉定義整個概念分層是不現(xiàn)實的。然而,對于一小部分中間層數(shù)據(jù),可以很容易地顯式說明分組。 (3)說明屬性集但不說明它們的偏序:用戶可以說明一個屬性集形成概念分層,但并不顯式地說明它們的偏序。然后,系統(tǒng)可以嘗試自動地產(chǎn)生屬性的序,構(gòu)造有意義的概念分層。由于一個較高層的概念通常包含若干從屬的較低層概念,定義在高概念層的屬性與定義在較低概念層的屬性相比,通常包含較少數(shù)目的不同值。根據(jù)這一事實,可以根據(jù)給定屬性集中每個屬性不同值的個數(shù)自動地產(chǎn)生概念分層。具有最多個不同值的屬性放在分層結(jié)構(gòu)的最底層。

編輯推薦

《全國統(tǒng)計教材編審委員會"十一五"規(guī)劃教材?統(tǒng)計實驗教材系列:數(shù)據(jù)挖掘?qū)嶒灐房勺鳛楦叩仍盒=y(tǒng)計、財經(jīng)、管理等專業(yè)的本科生學(xué)習(xí)《數(shù)據(jù)挖掘》課程的實驗教材,也可以作為相關(guān)專業(yè)的研究生和廣大科技工作者學(xué)習(xí)該課程的參考用書。

圖書封面

評論、評分、閱讀與下載


    數(shù)據(jù)挖掘?qū)嶒?統(tǒng)計實驗教材系列 PDF格式下載


用戶評論 (總計0條)

 
 

 

250萬本中文圖書簡介、評論、評分,PDF格式免費(fèi)下載。 第一圖書網(wǎng) 手機(jī)版

京ICP備13047387號-7