出版時間:2006-3 出版社:機(jī)械工業(yè)出版社 作者:Ian H.Witten,Eibe Frank 頁數(shù):362 譯者:董琳,邱泉,于曉峰
Tag標(biāo)簽:無
內(nèi)容概要
本書介紹數(shù)據(jù)挖掘的基本理論與實(shí)踐方法。主要內(nèi)容包括:各種模型(決策樹,關(guān)聯(lián)規(guī)則、線性模型、聚類、貝葉斯網(wǎng)以及神經(jīng)網(wǎng)絡(luò))以及在實(shí)踐中的運(yùn)用,所存任缺陷的分析。安全地清理數(shù)據(jù)集、建立以及評估模型的預(yù)測質(zhì)量的方法,并且提供了一個公開的數(shù)據(jù)挖掘工作平臺Weka。Weka系統(tǒng)擁有進(jìn)行數(shù)據(jù)挖掘仟務(wù)的圖形用戶界面,有助于理解模型,是一個實(shí)用并且深受歡迎的工具。 本書邏輯嚴(yán)密、內(nèi)容翔實(shí)、極富實(shí)踐性,適合作為高等學(xué)校本科生或研究生的教材,也可供相關(guān)技術(shù)人員參考。
作者簡介
Ian H.Witten,新西蘭懷卡托大學(xué)計算機(jī)科學(xué)系教授,ACM和新西蘭皇(IFIP)頒發(fā)的Namur獎項(xiàng)。他的著作包括《Managing Gigabytes:Compressing and Indexing Documents and Images》、《How to Build a Digital Library》以及眾多的期刊和學(xué)會文章。
書籍目錄
出版者的話專家指導(dǎo)委員會譯者序中文版前言序前言第一部分 機(jī)器學(xué)習(xí)工具與技術(shù) 第1章 緒論 1.l 數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí) l.2 簡單的例子:天氣問題和其他 l.3 應(yīng)用領(lǐng)域- 1.4 機(jī)器學(xué)習(xí)和統(tǒng)計學(xué) 1.5 用于搜索的概括 l.6 數(shù)據(jù)挖掘和道德 1.7 補(bǔ)允讀物 第2章 輸入概念、實(shí)例和屬性 2.1 概念 2.2 樣本 2.3 屬性 2.4 輸入準(zhǔn)備 2.5 補(bǔ)充讀物 第3章 輸出:知識表達(dá) 3.1 決策表 3.2 決策樹 3.3 分類規(guī)則 3.4 關(guān)聯(lián)規(guī)則 3.5 包含例外的規(guī)則 3.6 包含關(guān)系的規(guī)則 3.7 數(shù)值預(yù)測樹 3.8 基于實(shí)例的表達(dá) 3.9 聚類 3.10 補(bǔ)充讀物 第4章 算法基本方法 4.1 推斷基本規(guī)則 4.2 統(tǒng)計建模 4.3 分治法:創(chuàng)建決策樹 4.4 覆蓋算法:建立規(guī)則 4.5 挖掘關(guān)聯(lián)規(guī)州 4.6 線性模型 4.7 基于實(shí)例的學(xué)習(xí) 4.8 聚類 4.9 補(bǔ)充讀物 第5章 可信度:評估機(jī)器學(xué)習(xí)結(jié)果 5.1 訓(xùn)練和測試 5.2 預(yù)測性能 5.3 交叉驗(yàn)證 5.4 其他估計法 5.5 可信度:評估機(jī)器學(xué)習(xí)結(jié)果 5.6 預(yù)測概率 5.7 計算成本 5.8 評估數(shù)值預(yù)測 5.9 最短描述長度原理 5.10 聚類方法中應(yīng)用MDL原理 5.1l 補(bǔ)充讀物 第6章 實(shí)現(xiàn):真正的機(jī)器學(xué)習(xí)方案 …… 第7章 轉(zhuǎn)換:處理輸入和輸出 第8章 繼續(xù)擴(kuò)展和應(yīng)用 第9章 Weka簡介 第10章 Explorer界面 第1l章 Knowledge Flow界面 第12章 Experimenter界面 第13章 命令行界面 第14章 嵌入式機(jī)器學(xué)習(xí) 第15章 編寫新學(xué)習(xí)方案參考文獻(xiàn)索引
章節(jié)摘錄
第7章 轉(zhuǎn)換:處理輸入和輸出 在前一章中我們考察了大量的機(jī)器學(xué)習(xí)方法:決策樹、決策規(guī)則、線性模型、基于實(shí)例的方案、數(shù)值預(yù)測技術(shù)、聚類算法以及貝葉斯網(wǎng)絡(luò)。所有這些方法都是合理、成熟的技術(shù),可用于解決實(shí)際的數(shù)據(jù)挖掘問題?! 〉浅晒Φ臄?shù)據(jù)挖掘遠(yuǎn)不只是牽涉到選擇某種學(xué)習(xí)算法并應(yīng)用于數(shù)據(jù)。許多學(xué)習(xí)算法要用到各種不同的參數(shù),需要選擇合適的參數(shù)值。在多數(shù)情況下,選擇適當(dāng)?shù)膮?shù)可以使所獲結(jié)果得到顯著改善,而合適的選擇則是要視手頭的具體數(shù)據(jù)而定的。例如,決策樹可以選擇修剪或不修剪,選擇前者又需要選擇修剪參數(shù)。在基于實(shí)例的k最近鄰學(xué)習(xí)方法中,則需要選擇k值。更為常見的,則是需要從現(xiàn)有的方案中選擇學(xué)習(xí)方法本身。在所有情況下,合適的選擇是由數(shù)據(jù)而決定的?! ≡跀?shù)據(jù)上試用幾種不同的方法,并使用幾種不同的參數(shù)值,然后觀測哪種情況結(jié)果最好,是個誘人的方法。不過要當(dāng)心!最佳選擇并不一定是在訓(xùn)練數(shù)據(jù)上獲得最好結(jié)果的那個。我們曾反復(fù)提醒要注意過度擬合問題,過度擬合是指一個學(xué)習(xí)模型與用于建模的某個具體訓(xùn)練數(shù)據(jù)集太過匹配。假設(shè)在訓(xùn)練數(shù)據(jù)上所表現(xiàn)的正確性能代表模型將來應(yīng)用于實(shí)踐中的新數(shù)據(jù)上的性能水準(zhǔn),這個想法是不正確的?! ∷业氖窃诘?章中已經(jīng)討論了對于這個問題的解決方法。有兩種較好的方法可用來估計一個學(xué)習(xí)方法的預(yù)期真實(shí)性能表現(xiàn):在數(shù)據(jù)源充足的情況下,使用一個與訓(xùn)練數(shù)據(jù)集分離的大數(shù)據(jù)集;在數(shù)據(jù)較少的情況下則使用交叉驗(yàn)證法(第5.3節(jié))。在后一種情況下,在實(shí)踐中的典型應(yīng)用方法是單次的10折交叉驗(yàn)證,當(dāng)然要得到更為可靠的估計需要將整個過程重復(fù)10次。一旦為學(xué)習(xí)方法選定了合適的參數(shù),就可以使用整個訓(xùn)練集(即所有訓(xùn)練實(shí)例)來生成將要應(yīng)用于新數(shù)據(jù)的最終學(xué)習(xí)模型。 注意在調(diào)整過程中使用所選的參數(shù)值得到的性能表現(xiàn)并不是對最終模型性能的一個可靠估計,因?yàn)樽罱K模型對于調(diào)整中使用的數(shù)據(jù)有過度擬合的傾向。要確定它的性能究竟如何,需要另外一個大的數(shù)據(jù)集,這個數(shù)據(jù)集須與學(xué)習(xí)過程和調(diào)整過程中所使用的數(shù)據(jù)隔離開來。在進(jìn)行交叉驗(yàn)證時也是如此,參數(shù)調(diào)整過程需要一個“內(nèi)部”交叉驗(yàn)證,誤差估計還需要一個“外部”交叉驗(yàn)證。采用10折交叉驗(yàn)證法將使學(xué)習(xí)方法運(yùn)行100次??偠灾?,當(dāng)評估一個學(xué)習(xí)方案的性能時,所進(jìn)行的任何參數(shù)調(diào)整過程都應(yīng)被看作是訓(xùn)練過程的一部分?! ‘?dāng)把機(jī)器學(xué)習(xí)技術(shù)應(yīng)用于實(shí)際的數(shù)據(jù)挖掘問題時,還有其他一些重要程序可以大大提高成功率,這正是本章的主題。它們形成了一種(操縱)數(shù)據(jù)的技術(shù),將輸入數(shù)據(jù)設(shè)計成一種能適合所選學(xué)習(xí)方案的形式,將輸出模型設(shè)計得更為有效。你可以把它們看成是能應(yīng)用于實(shí)際的數(shù)據(jù)挖掘問題以提高成功幾率的一些訣竅。有時奏效,有時無效。根據(jù)目前的技術(shù)發(fā)展水平來看,很難預(yù)言它們是否有用。在這種以嘗試和誤差率作為最為可靠的指導(dǎo)的領(lǐng)域中,特別重要的恐怕就是靈活運(yùn)用并且理解這些訣竅了?! ?/pre>編輯推薦
正如所有受到商業(yè)注目的新興技術(shù)一樣,數(shù)據(jù)挖掘的運(yùn)用也是極其多樣化的。言過其實(shí)的報導(dǎo)聲稱可以建立算法,在數(shù)據(jù)的海洋里發(fā)現(xiàn)秘密。但事實(shí)上機(jī)器學(xué)習(xí)中沒有魔術(shù),沒有隱藏的力量,沒有煉金術(shù)。有的只是一些可以將有用的信息從原始數(shù)據(jù)中提煉出來的清晰明了的實(shí)用技術(shù)。《數(shù)據(jù)挖掘?qū)嵱脵C(jī)器學(xué)習(xí)技術(shù)》(原書第2版)敘述了這些技術(shù)并展示了它們是如何工作的?! 稊?shù)據(jù)挖掘?qū)嵱脵C(jī)器學(xué)習(xí)技術(shù)》(原書第2版)對1999年的初版做了重大的改動。雖說核心概念沒有變化,但《數(shù)據(jù)挖掘?qū)嵱脵C(jī)器學(xué)習(xí)技術(shù)》(原書第2版)做了更新,反映出過去五年的變化?!稊?shù)據(jù)挖掘?qū)嵱脵C(jī)器學(xué)習(xí)技術(shù)》(原書第2版)提供了機(jī)器學(xué)習(xí)理論概念的完整基礎(chǔ),此外還對實(shí)際工作中應(yīng)用的相關(guān)工具和技術(shù)提了一些建議?! 稊?shù)據(jù)挖掘?qū)嵱脵C(jī)器學(xué)習(xí)技術(shù)》(原書第2版)邏輯嚴(yán)密、內(nèi)容翔實(shí)、極富實(shí)踐性,適合作為高等學(xué)校本科生或研究生的教材,也可供相關(guān)技術(shù)人員參考。圖書封面
圖書標(biāo)簽Tags
無評論、評分、閱讀與下載
- 還沒讀過(27)
- 勉強(qiáng)可看(201)
- 一般般(343)
- 內(nèi)容豐富(1422)
- 強(qiáng)力推薦(116)
數(shù)據(jù)挖掘?qū)嵱脵C(jī)器學(xué)習(xí)技術(shù) PDF格式下載