數(shù)據(jù)挖掘?qū)嵱脵C(jī)器學(xué)習(xí)技術(shù)

出版時(shí)間:2006-3  出版社:機(jī)械工業(yè)出版社  作者:Ian H.Witten,Eibe Frank  頁數(shù):362  譯者:董琳,邱泉,于曉峰  
Tag標(biāo)簽:無  

內(nèi)容概要

本書介紹數(shù)據(jù)挖掘的基本理論與實(shí)踐方法。主要內(nèi)容包括:各種模型(決策樹,關(guān)聯(lián)規(guī)則、線性模型、聚類、貝葉斯網(wǎng)以及神經(jīng)網(wǎng)絡(luò))以及在實(shí)踐中的運(yùn)用,所存任缺陷的分析。安全地清理數(shù)據(jù)集、建立以及評估模型的預(yù)測質(zhì)量的方法,并且提供了一個(gè)公開的數(shù)據(jù)挖掘工作平臺Weka。Weka系統(tǒng)擁有進(jìn)行數(shù)據(jù)挖掘仟務(wù)的圖形用戶界面,有助于理解模型,是一個(gè)實(shí)用并且深受歡迎的工具。    本書邏輯嚴(yán)密、內(nèi)容翔實(shí)、極富實(shí)踐性,適合作為高等學(xué)校本科生或研究生的教材,也可供相關(guān)技術(shù)人員參考。

作者簡介

Ian H.Witten,新西蘭懷卡托大學(xué)計(jì)算機(jī)科學(xué)系教授,ACM和新西蘭皇(IFIP)頒發(fā)的Namur獎項(xiàng)。他的著作包括《Managing Gigabytes:Compressing and Indexing Documents and Images》、《How to Build a Digital Library》以及眾多的期刊和學(xué)會文章。

書籍目錄

出版者的話專家指導(dǎo)委員會譯者序中文版前言序前言第一部分  機(jī)器學(xué)習(xí)工具與技術(shù)  第1章  緒論    1.l  數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)     l.2  簡單的例子:天氣問題和其他    l.3  應(yīng)用領(lǐng)域-    1.4  機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)    1.5  用于搜索的概括    l.6  數(shù)據(jù)挖掘和道德    1.7  補(bǔ)允讀物  第2章  輸入概念、實(shí)例和屬性    2.1  概念    2.2  樣本    2.3  屬性      2.4  輸入準(zhǔn)備    2.5  補(bǔ)充讀物  第3章  輸出:知識表達(dá)    3.1  決策表    3.2  決策樹    3.3  分類規(guī)則    3.4  關(guān)聯(lián)規(guī)則    3.5  包含例外的規(guī)則    3.6  包含關(guān)系的規(guī)則    3.7  數(shù)值預(yù)測樹    3.8  基于實(shí)例的表達(dá)    3.9  聚類    3.10  補(bǔ)充讀物  第4章  算法基本方法    4.1  推斷基本規(guī)則    4.2  統(tǒng)計(jì)建模    4.3  分治法:創(chuàng)建決策樹    4.4  覆蓋算法:建立規(guī)則    4.5  挖掘關(guān)聯(lián)規(guī)州    4.6  線性模型    4.7  基于實(shí)例的學(xué)習(xí)    4.8  聚類    4.9  補(bǔ)充讀物  第5章  可信度:評估機(jī)器學(xué)習(xí)結(jié)果    5.1  訓(xùn)練和測試    5.2  預(yù)測性能    5.3  交叉驗(yàn)證    5.4  其他估計(jì)法    5.5  可信度:評估機(jī)器學(xué)習(xí)結(jié)果    5.6  預(yù)測概率    5.7  計(jì)算成本    5.8  評估數(shù)值預(yù)測    5.9  最短描述長度原理    5.10  聚類方法中應(yīng)用MDL原理    5.1l  補(bǔ)充讀物  第6章  實(shí)現(xiàn):真正的機(jī)器學(xué)習(xí)方案    ……  第7章  轉(zhuǎn)換:處理輸入和輸出  第8章  繼續(xù)擴(kuò)展和應(yīng)用  第9章  Weka簡介  第10章  Explorer界面  第1l章  Knowledge Flow界面  第12章  Experimenter界面  第13章  命令行界面  第14章  嵌入式機(jī)器學(xué)習(xí)   第15章  編寫新學(xué)習(xí)方案參考文獻(xiàn)索引

章節(jié)摘錄

  第7章 轉(zhuǎn)換:處理輸入和輸出  在前一章中我們考察了大量的機(jī)器學(xué)習(xí)方法:決策樹、決策規(guī)則、線性模型、基于實(shí)例的方案、數(shù)值預(yù)測技術(shù)、聚類算法以及貝葉斯網(wǎng)絡(luò)。所有這些方法都是合理、成熟的技術(shù),可用于解決實(shí)際的數(shù)據(jù)挖掘問題?! 〉浅晒Φ臄?shù)據(jù)挖掘遠(yuǎn)不只是牽涉到選擇某種學(xué)習(xí)算法并應(yīng)用于數(shù)據(jù)。許多學(xué)習(xí)算法要用到各種不同的參數(shù),需要選擇合適的參數(shù)值。在多數(shù)情況下,選擇適當(dāng)?shù)膮?shù)可以使所獲結(jié)果得到顯著改善,而合適的選擇則是要視手頭的具體數(shù)據(jù)而定的。例如,決策樹可以選擇修剪或不修剪,選擇前者又需要選擇修剪參數(shù)。在基于實(shí)例的k最近鄰學(xué)習(xí)方法中,則需要選擇k值。更為常見的,則是需要從現(xiàn)有的方案中選擇學(xué)習(xí)方法本身。在所有情況下,合適的選擇是由數(shù)據(jù)而決定的。  在數(shù)據(jù)上試用幾種不同的方法,并使用幾種不同的參數(shù)值,然后觀測哪種情況結(jié)果最好,是個(gè)誘人的方法。不過要當(dāng)心!最佳選擇并不一定是在訓(xùn)練數(shù)據(jù)上獲得最好結(jié)果的那個(gè)。我們曾反復(fù)提醒要注意過度擬合問題,過度擬合是指一個(gè)學(xué)習(xí)模型與用于建模的某個(gè)具體訓(xùn)練數(shù)據(jù)集太過匹配。假設(shè)在訓(xùn)練數(shù)據(jù)上所表現(xiàn)的正確性能代表模型將來應(yīng)用于實(shí)踐中的新數(shù)據(jù)上的性能水準(zhǔn),這個(gè)想法是不正確的?! ∷业氖窃诘?章中已經(jīng)討論了對于這個(gè)問題的解決方法。有兩種較好的方法可用來估計(jì)一個(gè)學(xué)習(xí)方法的預(yù)期真實(shí)性能表現(xiàn):在數(shù)據(jù)源充足的情況下,使用一個(gè)與訓(xùn)練數(shù)據(jù)集分離的大數(shù)據(jù)集;在數(shù)據(jù)較少的情況下則使用交叉驗(yàn)證法(第5.3節(jié))。在后一種情況下,在實(shí)踐中的典型應(yīng)用方法是單次的10折交叉驗(yàn)證,當(dāng)然要得到更為可靠的估計(jì)需要將整個(gè)過程重復(fù)10次。一旦為學(xué)習(xí)方法選定了合適的參數(shù),就可以使用整個(gè)訓(xùn)練集(即所有訓(xùn)練實(shí)例)來生成將要應(yīng)用于新數(shù)據(jù)的最終學(xué)習(xí)模型?! ∽⒁庠谡{(diào)整過程中使用所選的參數(shù)值得到的性能表現(xiàn)并不是對最終模型性能的一個(gè)可靠估計(jì),因?yàn)樽罱K模型對于調(diào)整中使用的數(shù)據(jù)有過度擬合的傾向。要確定它的性能究竟如何,需要另外一個(gè)大的數(shù)據(jù)集,這個(gè)數(shù)據(jù)集須與學(xué)習(xí)過程和調(diào)整過程中所使用的數(shù)據(jù)隔離開來。在進(jìn)行交叉驗(yàn)證時(shí)也是如此,參數(shù)調(diào)整過程需要一個(gè)“內(nèi)部”交叉驗(yàn)證,誤差估計(jì)還需要一個(gè)“外部”交叉驗(yàn)證。采用10折交叉驗(yàn)證法將使學(xué)習(xí)方法運(yùn)行100次。總而言之,當(dāng)評估一個(gè)學(xué)習(xí)方案的性能時(shí),所進(jìn)行的任何參數(shù)調(diào)整過程都應(yīng)被看作是訓(xùn)練過程的一部分?! ‘?dāng)把機(jī)器學(xué)習(xí)技術(shù)應(yīng)用于實(shí)際的數(shù)據(jù)挖掘問題時(shí),還有其他一些重要程序可以大大提高成功率,這正是本章的主題。它們形成了一種(操縱)數(shù)據(jù)的技術(shù),將輸入數(shù)據(jù)設(shè)計(jì)成一種能適合所選學(xué)習(xí)方案的形式,將輸出模型設(shè)計(jì)得更為有效。你可以把它們看成是能應(yīng)用于實(shí)際的數(shù)據(jù)挖掘問題以提高成功幾率的一些訣竅。有時(shí)奏效,有時(shí)無效。根據(jù)目前的技術(shù)發(fā)展水平來看,很難預(yù)言它們是否有用。在這種以嘗試和誤差率作為最為可靠的指導(dǎo)的領(lǐng)域中,特別重要的恐怕就是靈活運(yùn)用并且理解這些訣竅了。  ……

編輯推薦

正如所有受到商業(yè)注目的新興技術(shù)一樣,數(shù)據(jù)挖掘的運(yùn)用也是極其多樣化的。言過其實(shí)的報(bào)導(dǎo)聲稱可以建立算法,在數(shù)據(jù)的海洋里發(fā)現(xiàn)秘密。但事實(shí)上機(jī)器學(xué)習(xí)中沒有魔術(shù),沒有隱藏的力量,沒有煉金術(shù)。有的只是一些可以將有用的信息從原始數(shù)據(jù)中提煉出來的清晰明了的實(shí)用技術(shù)?!稊?shù)據(jù)挖掘?qū)嵱脵C(jī)器學(xué)習(xí)技術(shù)》(原書第2版)敘述了這些技術(shù)并展示了它們是如何工作的?!  稊?shù)據(jù)挖掘?qū)嵱脵C(jī)器學(xué)習(xí)技術(shù)》(原書第2版)對1999年的初版做了重大的改動。雖說核心概念沒有變化,但《數(shù)據(jù)挖掘?qū)嵱脵C(jī)器學(xué)習(xí)技術(shù)》(原書第2版)做了更新,反映出過去五年的變化?!稊?shù)據(jù)挖掘?qū)嵱脵C(jī)器學(xué)習(xí)技術(shù)》(原書第2版)提供了機(jī)器學(xué)習(xí)理論概念的完整基礎(chǔ),此外還對實(shí)際工作中應(yīng)用的相關(guān)工具和技術(shù)提了一些建議?!  稊?shù)據(jù)挖掘?qū)嵱脵C(jī)器學(xué)習(xí)技術(shù)》(原書第2版)邏輯嚴(yán)密、內(nèi)容翔實(shí)、極富實(shí)踐性,適合作為高等學(xué)校本科生或研究生的教材,也可供相關(guān)技術(shù)人員參考。

圖書封面

圖書標(biāo)簽Tags

評論、評分、閱讀與下載


    數(shù)據(jù)挖掘?qū)嵱脵C(jī)器學(xué)習(xí)技術(shù) PDF格式下載


用戶評論 (總計(jì)90條)

 
 

  •   這本書涵蓋了機(jī)器學(xué)習(xí)的大部分內(nèi)容,淺顯易懂,實(shí)例豐富,還有weka平臺可以使用。適合入門級別的朋友們
  •   這是一本數(shù)據(jù)挖掘的入門書,難度適中,很適合初級者學(xué)習(xí)和進(jìn)步!非常值得推薦!!
  •   數(shù)據(jù)挖掘方面挺經(jīng)典的書!
  •   學(xué)習(xí)數(shù)據(jù)挖掘的經(jīng)典叢書,很不錯(cuò)
  •   對學(xué)習(xí)數(shù)據(jù)挖掘很有幫助,看到了第五章已獲益匪淺。正是需要的好東西。感謝作者和譯者,感謝當(dāng)當(dāng)。
  •   這本書是很不錯(cuò)的 對數(shù)據(jù)挖掘的研究有一定的知道價(jià)值
  •   學(xué)數(shù)據(jù)挖掘必看的,不用多說了吧
  •   this book offer a lot help in how to use weka.
  •   一本不錯(cuò)的書,理論結(jié)合實(shí)際應(yīng)用,對機(jī)器學(xué)習(xí)的原理進(jìn)行了系統(tǒng)全面的介紹,非常實(shí)用。
  •   大數(shù)據(jù)真是大坑,加油吧
  •   很實(shí)用的一本書,舉得例子也比較多,很好,書的質(zhì)量更好
  •   書質(zhì)量不錯(cuò)。。。,看了一部分了,比較容易理解,適合入門
  •   剛收到書,跳著翻閱了一會,內(nèi)容是挺不錯(cuò)的,讓人舍不得放下。遺憾的是紙張?zhí)?,就像D版一樣(機(jī)械工業(yè)出版社的都給我這樣的感覺),還有不少錯(cuò)別字。不過工具書嘛,無所謂了,內(nèi)容才是最重要的。
  •   適合入門,只是想了解下機(jī)器學(xué)習(xí)
  •   特地買的技術(shù)性教材,除掉理論部分,還有實(shí)際使用的知識,有用
  •   不錯(cuò)!質(zhì)量挺好的
  •   應(yīng)該會用的上,方法很多
  •   書已經(jīng)收到,還沒有看,經(jīng)典書,必須得看。
  •   書很不錯(cuò),同學(xué)一起買的!就是快遞慢了點(diǎn)!
  •   相當(dāng)不錯(cuò)的書,經(jīng)典,不解釋
  •   還沒仔細(xì)開始看,但是應(yīng)該是不錯(cuò)的書哦
  •   書不錯(cuò),寫得比較簡單易懂,但是翻譯有點(diǎn)繁瑣。
  •   書不錯(cuò),在實(shí)際中能使用
  •   書不錯(cuò),配送一般
  •   這本書我在別的地方買不到。只能在這里買。很好很給力。
  •   這是一本數(shù)據(jù)挖掘的入門書,難度適中,很適合初級者學(xué)習(xí)。
  •   還沒讀來呵呵以后再看吧
  •   要好好學(xué)!
  •   還可以,入門級別
  •   到手后感覺很好,正在看
  •   給兒子買的,他說不錯(cuò)。
  •   中文版 很好
  •   這本書雖然標(biāo)題是Data Mining,但是核心內(nèi)容還是機(jī)器學(xué)習(xí)。我理解“數(shù)據(jù)挖掘”主要指的還是KDD,即基于數(shù)據(jù)庫的知識發(fā)現(xiàn)。在這個(gè)領(lǐng)域,基本的方法是聚類和關(guān)聯(lián)規(guī)則發(fā)現(xiàn);而在機(jī)器學(xué)習(xí)領(lǐng)域,主要研究的是分類。      這本書的內(nèi)容主要是分類,也有一部分聚類的內(nèi)容,關(guān)聯(lián)規(guī)則發(fā)現(xiàn)基本上沒有講。但它對分類講的很詳細(xì),主要的思想都涉及到了,體系整理很好。它對相關(guān)的知識,如分類算法的性能估計(jì),如何在分類中結(jié)合成本考慮等也做了詳細(xì)的介紹。因此,認(rèn)真讀讀這本書對于學(xué)好用好分類是很有幫助的。      它的第二部分介紹了Weka這個(gè)機(jī)器學(xué)習(xí)框架的使用。用好這個(gè)框架能夠幫助簡化機(jī)器學(xué)習(xí)算法研究中的一些輔助工作,作用還是很大的。      因此,推薦對機(jī)器學(xué)習(xí),特別是分類有興趣的同志們看看這本書。
  •   書挺基礎(chǔ),介紹了開源的數(shù)據(jù)挖掘工具WEKA!!
  •   內(nèi)容不錯(cuò),適合數(shù)據(jù)挖掘的入門書籍。
  •   此書粗度一遍,收獲很多,對于想了解數(shù)據(jù)挖掘,并想動手操作的同志來說,是非常值得一讀的書,當(dāng)然畢竟是翻譯的,有些感覺比較晦澀..但還是可以接受的。
    推薦一下!
  •   結(jié)合英文版一起看會理解的更深刻一些。主要涉及機(jī)器學(xué)習(xí),結(jié)合weka一起講解。
  •   后面Weka的講解還算可以,但是前面算法介紹的太粗略了
  •   書無論是包裝還是內(nèi)容都還是不錯(cuò)的,值得學(xué)習(xí)的人買來好好學(xué)習(xí)一下
  •   書印刷質(zhì)量很好,速度還可以
  •   翻譯的不錯(cuò),很實(shí)用。翻譯的也很準(zhǔn)確
  •   翻譯的還可以,個(gè)人認(rèn)為個(gè)別詞還可以翻譯的更容易理解些,作為學(xué)習(xí)材料已經(jīng)很棒啦!
  •   挺基礎(chǔ)的,適合初學(xué)者,國外的書比國內(nèi)的好很多
  •   這本書快遞很快很及時(shí),內(nèi)容看完之后追加吧~
  •   涉及知識點(diǎn)廣泛 但介紹并不是很詳細(xì) 需要借助其他教材
  •   我的寫字臺上持續(xù)擺放這三本書,有時(shí)拖本書床上看,然而這本書、這幾本書都還是需要腦殼精密時(shí)讀比較好,本書也有參考價(jià)值,可以一讀。
  •   書挺好,就是計(jì)費(fèi)方式有點(diǎn)坑了。買本書,本來優(yōu)惠一點(diǎn),然后卻要付運(yùn)費(fèi)了,實(shí)際上在變相賺錢啊。
  •   外觀看上去很不錯(cuò),干凈整潔。偏重理論!
  •   非常好的書,就是有點(diǎn)艱澀難懂,到處都是抽象語言。
  •   還不錯(cuò),入門書;可以看看
  •   好好還好還好佛啊佛啊哈佛噢噢噢噢噢噢噢噢哦哦哦哦哦哦哦哦哦
  •   早就想買了,現(xiàn)在才狠下心來買它 呵呵
  •   到貨很慢
  •   很耐讀可惜轉(zhuǎn)行了,用不太著了
  •   書沒有仔細(xì)的看過,感覺講的比較理論化,入門的書應(yīng)該算,書的質(zhì)量是不錯(cuò)的
  •   紙張的質(zhì)量沒有想象中的好啊。。感覺不像正版呢。。。
  •   記得看網(wǎng)上流傳的英文原版電子書時(shí),曾試圖翻譯它,書買到后才發(fā)現(xiàn)內(nèi)容相當(dāng)?shù)纳睿瑳]有數(shù)學(xué)基礎(chǔ)讀懂它恐怕有困難?,F(xiàn)在已經(jīng)不敢看了,看不懂啊!
  •   翻譯實(shí)在不感恭維啊.有些術(shù)語都翻譯錯(cuò)了。ps:在譯者序中,雖然說"本書的翻譯"一定存在不少問題,還望各位讀者多多批評指教".但是沒留下聯(lián)系方式啊.
  •   當(dāng)年畢業(yè)設(shè)計(jì)時(shí)買的書,可是太專業(yè)了
  •   書發(fā)的很快,當(dāng)當(dāng)服務(wù)很好
  •   剛送到,封面磨損的厲害。書的右上角折了個(gè)印子。哎,要抓緊時(shí)間看了。
  •   數(shù)據(jù)挖掘?qū)嵱脵C(jī)器學(xué)習(xí)技術(shù)(原書第2版)中文翻譯不好
  •   數(shù)據(jù)挖掘這本書,被壓了兩個(gè)深深的凹痕,很不舒服
  •   為了學(xué)weka買的,但是遠(yuǎn)遠(yuǎn)達(dá)不到我希望的標(biāo)準(zhǔn)
  •   和我想象的不一樣,印刷質(zhì)量也不好,如果去書店看過肯定不會買
  •   這是一本經(jīng)典的書,但是徹底的被這堆無良無能的翻譯給毀了,翻譯水平這不能叫做差!??!英文原版+翻譯版。有些時(shí)候發(fā)現(xiàn)看英文比漢語好懂?。?!
  •   我看了一下實(shí)在看不下去,實(shí)在啰嗦,語言需要精簡,不能看標(biāo)題說是數(shù)據(jù)挖掘,學(xué)習(xí)技術(shù),標(biāo)題是牛但是書實(shí)在不怎么的。
  •   粗略的看了一下,主要分兩部分, 第一部分是數(shù)據(jù)挖掘的一些基礎(chǔ)知識和概念,第二部分著重介紹weka工具的使用
  •   這本書編寫的挺好的,印刷質(zhì)量也好,就是紙的顏色黑了點(diǎn),嘿嘿總體很很
  •   這本和數(shù)據(jù)挖掘?qū)嵱脵C(jī)器學(xué)習(xí)技術(shù)(原書第2版, 哪個(gè)更好?
  •   這書還是不錯(cuò)的,對一些算法的介紹都很清楚,算法也比較新。更重要的是介紹了一些weka的使用,這是很多地方都找不到的??上У氖?,對weka的介紹也還只是入門階段的介紹,如果要用weka編程的建議還是自己看weka的源碼。
  •   這是數(shù)據(jù)挖掘方面較不錯(cuò)的書,之前先買機(jī)器學(xué)習(xí)導(dǎo)論,可惜一直缺貨
  •   書的質(zhì)量沒的說,關(guān)鍵是內(nèi)容非常專業(yè)。。推薦一下。。
  •   不錯(cuò),雖然還沒看,不過好多人推薦,應(yīng)該不錯(cuò)
  •   好書啊,主要是內(nèi)容好
  •   還可以吧,也沒有仔細(xì)看
  •   亞馬遜的速度就是出奇的快!送貨速度沒得說。正版,全新,沒問題。
  •   非常不錯(cuò),正在看,為了使用weka
  •   滿意。書的質(zhì)量不錯(cuò)。
  •   如果要學(xué)洗數(shù)據(jù)挖掘,這本書質(zhì)量算是一般了!不建議買!
  •   教材內(nèi)容不錯(cuò),但是直至有點(diǎn)差吧。。。
  •   質(zhì)量還行,就是國內(nèi)翻譯水平實(shí)在不敢恭維
  •   適合入門看,里面算法將的不太細(xì),有關(guān)于weka使用介紹
  •   很好的學(xué)習(xí)入門書
  •   機(jī)器學(xué)習(xí)理論
  •   書很不錯(cuò),就是發(fā)貨太慢
  •   書質(zhì)量很好,速度也很快,很滿意
  •   經(jīng)典書籍大家都知道的。
  •   包裝得很好
  •     一會是查詢偏差,一會是搜索偏差~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
 

250萬本中文圖書簡介、評論、評分,PDF格式免費(fèi)下載。 第一圖書網(wǎng) 手機(jī)版

京ICP備13047387號-7