數(shù)據(jù)挖掘基礎(chǔ)教程

出版時(shí)間:2009-1  出版社:機(jī)械工業(yè)出版社  作者:(印度)西蒙(Soman.K.P)  頁(yè)數(shù):305  譯者:范明,牛常勇  
Tag標(biāo)簽:無(wú)  

前言

大規(guī)模數(shù)據(jù)集快速增長(zhǎng)的今天,數(shù)據(jù)挖掘應(yīng)成為一個(gè)新的學(xué)科。我們生活在這樣一個(gè)世界,即便是簡(jiǎn)單的日常任務(wù),如打電話、使用信用卡或購(gòu)買(mǎi)五金電器和雜貨,都會(huì)留下電子印記。諸如核物理和天體物理領(lǐng)域科學(xué)實(shí)驗(yàn)數(shù)量的增加導(dǎo)致每月可能產(chǎn)生幾PB (petabytes)規(guī)模的數(shù)據(jù)。近來(lái),生命科學(xué)正在成為數(shù)據(jù)驅(qū)動(dòng)的科學(xué)。廣泛用于商業(yè)和上述科學(xué)領(lǐng)域中的自動(dòng)數(shù)據(jù)收集設(shè)備每小時(shí)能夠產(chǎn)生幾TB(terabytes)規(guī)模的數(shù)據(jù),致使已有的推理方法過(guò)時(shí)。世界上最大的數(shù)據(jù)倉(cāng)庫(kù)——Walmart系統(tǒng)包含500 TB數(shù)據(jù)。它實(shí)在太大,以至于無(wú)法裝入任何計(jì)算機(jī)的內(nèi)存。數(shù)據(jù)挖掘技術(shù)的產(chǎn)生源自進(jìn)行數(shù)據(jù)處理業(yè)務(wù)的企業(yè)和進(jìn)行數(shù)據(jù)處理研究的科學(xué)家需要找到有效的模式來(lái)自動(dòng)處理海量數(shù)據(jù)。模式可以是簡(jiǎn)單的數(shù)據(jù)匯總、數(shù)據(jù)劃分或數(shù)據(jù)內(nèi)部的依賴模型。

內(nèi)容概要

本書(shū)全面介紹數(shù)據(jù)挖掘的原理、方法和算法。主要內(nèi)容包括數(shù)據(jù)挖掘的基本概念、數(shù)據(jù)挖掘算法的數(shù)據(jù)類型、輸入和輸出、決策樹(shù)、數(shù)據(jù)挖掘的預(yù)處理和后處理、關(guān)聯(lián)規(guī)則挖掘、分類和回歸算法、支持向量機(jī)、聚類分析及多維數(shù)據(jù)可視化。    本書(shū)講解深入淺出,并輔以大量實(shí)例,隨書(shū)光盤(pán)提供了大量數(shù)據(jù)集以及兩種廣泛使用的數(shù)據(jù)挖掘軟件——weka和ExcelMiner,便于讀者理解數(shù)據(jù)挖掘知識(shí)。    本書(shū)適合作為高等院校計(jì)算機(jī)及相關(guān)專業(yè)數(shù)據(jù)挖掘課程的教材,也可供廣大技術(shù)人員參考。

作者簡(jiǎn)介

作者:(印度)西蒙 (K.P.Soman) 譯者:范明 牛常勇

書(shū)籍目錄

出版者的話譯者序前言第1章  數(shù)據(jù)挖掘  1.1  引言  1.1.1 數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)  1.1.2 數(shù)據(jù)挖掘與數(shù)據(jù)分析  1.1.3 數(shù)據(jù)挖掘與統(tǒng)計(jì)學(xué)  1.1.4 數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)  1.2 數(shù)據(jù)挖掘——成功的例子  1.3 數(shù)據(jù)挖掘研究發(fā)展的主要原因  1.4 當(dāng)前研究成果  1.5 圖形模型和層次概率表示  1.6 新的應(yīng)用  1.7 影響數(shù)據(jù)挖掘的趨勢(shì)  1.8 研究挑戰(zhàn)  1.9 實(shí)驗(yàn)平臺(tái)和基礎(chǔ)設(shè)施  參考文獻(xiàn)第2章  從商務(wù)角度看數(shù)據(jù)挖掘  2.1  引言  2.2 從數(shù)據(jù)挖掘工具到解決方案  2.3 數(shù)據(jù)挖掘系統(tǒng)的演變  2.4 知識(shí)發(fā)現(xiàn)過(guò)程 2.5 數(shù)據(jù)挖掘支撐技術(shù)概述  2.5.1 數(shù)據(jù)挖掘:驗(yàn)證與發(fā)現(xiàn)  2.5.2 決策支持系統(tǒng)  2.5.3 OLAP    2.5.4 桌面DSS    2.5.5 數(shù)據(jù)倉(cāng)庫(kù)  2.5.6 數(shù)據(jù)挖掘過(guò)程 2.6 數(shù)據(jù)挖掘技術(shù) 參考文獻(xiàn)第3章  數(shù)據(jù)挖掘算法的數(shù)據(jù)類型、輸入和輸出 3.1  引言 3.2 實(shí)例和特征 3.3 特征(數(shù)據(jù))的不同類型 3.4 概念學(xué)習(xí)與概念描述 3.5 數(shù)據(jù)挖掘的輸出——知識(shí)表示    3.5.1 分類學(xué)習(xí)算法的知識(shí)輸出  3.5.2 聚類學(xué)習(xí)算法的輸出  3.5.3 關(guān)聯(lián)規(guī)則的輸出  3.5.4 用于數(shù)值預(yù)測(cè)的樹(shù)的輸出  3.5.5 基于實(shí)例的學(xué)習(xí)和知識(shí)表示 參考文獻(xiàn)第4章  決策樹(shù)——分類和回歸樹(shù) 4.1  引言 4.2 構(gòu)造分類樹(shù)  4.2.1 用于標(biāo)稱屬性的ID3算法    4.2.2 信息論和信息熵  4.2.3 構(gòu)造樹(shù)  4.2.4 高分支屬性  4.2.5 從ID3到C4.5  4.2.6 形象化地理解ID3和C4.5算法 4.3  CHAID    4.3.1  CHAID的數(shù)學(xué)工具  4.3.2  CHAID變量的類型  4.3.3  CHAID算法  4.3.4  CHAID算法描述  4.3.5 將CHAID用于氣象數(shù)據(jù)  4.3.6 單調(diào)變量的預(yù)測(cè)子級(jí)別合并 4.4 CART(分類和回歸樹(shù))    ……第5章 數(shù)據(jù)挖掘的預(yù)處理和后處理第6章 數(shù)據(jù)集第7章 關(guān)聯(lián)規(guī)則挖掘第8章 用開(kāi)源和商業(yè)軟件進(jìn)行機(jī)器學(xué)習(xí)第9章 分類和回歸算法第10章 支持向量機(jī)第11章 聚類分析第12章 多維數(shù)據(jù)可視化參考文獻(xiàn)附錄A SVM公式:安全可分的線性分類器附錄B 圖劃分的矩陣形式

章節(jié)摘錄

第1章 數(shù)據(jù)挖掘1.1 引言計(jì)算機(jī)科學(xué)家經(jīng)常提到摩爾定律:計(jì)算機(jī)的處理速度大約每18個(gè)月翻一番。但是很少有人知道計(jì)算機(jī)的存儲(chǔ)容量大約每9個(gè)月翻一番。(Goebel和Gruenwald 1999)。像理想氣體一樣,計(jì)算機(jī)的數(shù)據(jù)庫(kù)迅速膨脹,占滿了可用的存儲(chǔ)空間,導(dǎo)致數(shù)據(jù)庫(kù)中的大量數(shù)據(jù)成為未開(kāi)發(fā)利用的資源。這些數(shù)據(jù)就像一個(gè)金礦,可以從中提取信息。然后,利用數(shù)據(jù)挖掘技術(shù),可以將這些信息轉(zhuǎn)換成有價(jià)值的知識(shí)。很難說(shuō)清楚有多少存儲(chǔ)在全世界公司、學(xué)校、政府部門(mén)和其他機(jī)構(gòu)的大型數(shù)據(jù)庫(kù)中未使用的海量數(shù)據(jù)以及其當(dāng)前增長(zhǎng)率。據(jù)估計(jì),美國(guó)國(guó)會(huì)圖書(shū)館存儲(chǔ)的信息量高達(dá)3PB(Lesk1997)。Lesk估計(jì),全世界每年大約產(chǎn)生160TB信息。而且,他估計(jì)已售出的磁盤(pán)空間將超過(guò)十萬(wàn)TB。很快,計(jì)算機(jī)的數(shù)據(jù)存儲(chǔ)容量將超過(guò)人們使用該數(shù)據(jù)存儲(chǔ)和使用其中數(shù)據(jù)的能力。將海量數(shù)據(jù)轉(zhuǎn)換為知識(shí)的過(guò)程將變得價(jià)值無(wú)限。為此,在過(guò)去的10~15年中,一種稱作數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)(KDD)的過(guò)程逐步發(fā)展完善。數(shù)據(jù)挖掘算法就包含在KDD過(guò)程中。典型的數(shù)據(jù)庫(kù)用戶使用一種界面通過(guò)諸如SQL這樣的標(biāo)準(zhǔn)技術(shù)從數(shù)據(jù)庫(kù)中檢索數(shù)據(jù)。數(shù)據(jù)挖掘系統(tǒng)將這一過(guò)程向前推進(jìn)一步,支持用戶從數(shù)據(jù)中發(fā)現(xiàn)新的知識(shí)(Adriaans和Zantinge 1996)。按照計(jì)算機(jī)科學(xué)家的觀點(diǎn),數(shù)據(jù)挖掘是一個(gè)多學(xué)科交叉領(lǐng)域。諸如神經(jīng)網(wǎng)絡(luò)、遺傳算法、回歸、統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)和聚類分析等數(shù)據(jù)處理技術(shù)經(jīng)常出現(xiàn)在數(shù)據(jù)挖掘文獻(xiàn)中。許多研究者認(rèn)為數(shù)據(jù)挖掘還不是一個(gè)完善的學(xué)科,數(shù)據(jù)可擴(kuò)展性、與數(shù)據(jù)庫(kù)系統(tǒng)的兼容性,以及可用性和準(zhǔn)確性都有待改進(jìn)。

編輯推薦

《數(shù)據(jù)挖掘基礎(chǔ)教程》適合作為高等院校計(jì)算機(jī)及相關(guān)專業(yè)數(shù)據(jù)挖掘課程的教材,也可供廣大技術(shù)人員參考。

圖書(shū)封面

圖書(shū)標(biāo)簽Tags

無(wú)

評(píng)論、評(píng)分、閱讀與下載


    數(shù)據(jù)挖掘基礎(chǔ)教程 PDF格式下載


用戶評(píng)論 (總計(jì)29條)

 
 

  •   本書(shū)是我讀到過(guò)的最通俗易懂的數(shù)據(jù)挖掘的書(shū)籍,我個(gè)人感覺(jué)它將數(shù)據(jù)挖掘的最基本概念闡述的非常詳盡,是一本難得一見(jiàn)的好教材。淺顯易懂,事例結(jié)合實(shí)際結(jié)合的非常好。本書(shū)唯一的缺點(diǎn)是紙張質(zhì)量確實(shí)不怎么好,考慮到市場(chǎng)上在書(shū)店中購(gòu)買(mǎi)的書(shū)和當(dāng)當(dāng)網(wǎng)的紙張質(zhì)量是完全一樣的,也就是說(shuō)要買(mǎi)此書(shū)必面對(duì)紙張質(zhì)量問(wèn)題,故不作為當(dāng)當(dāng)網(wǎng)的書(shū)的缺點(diǎn)闡述。
  •   數(shù)據(jù)挖掘領(lǐng)域的經(jīng)典書(shū)目
  •   數(shù)據(jù)挖掘類的經(jīng)典書(shū)
  •   很好的一本入門(mén)書(shū),書(shū)中的每個(gè)算法都能吃透就可以進(jìn)階了
  •   光盤(pán)受損
  •   在圖書(shū)館借閱過(guò),不錯(cuò)。
  •   寫(xiě)得難懂,還是覺(jué)得那本厚的數(shù)據(jù)挖掘概念與技術(shù)
  •   適合入門(mén)級(jí)學(xué)習(xí),不夠深入
  •   就是書(shū)在運(yùn)輸過(guò)程中有褶皺。內(nèi)容還沒(méi)看,感覺(jué)還行。
  •   如題,紙?zhí)?,從一面能隱約看到另一面的字。光盤(pán)有劃痕。內(nèi)容正在看呢,不知道怎么樣
  •   內(nèi)容確實(shí)不錯(cuò),實(shí)踐性強(qiáng),實(shí)例很好。不過(guò)機(jī)工的紙張?zhí)盍?,還不如一般的作業(yè)本紙張。
  •   不是說(shuō)購(gòu)滿99減20的嗎?為什么沒(méi)有少也沒(méi)有禮券?。坑魫?。
  •   出書(shū)的人太不用心
  •   讀了一遍,感覺(jué)對(duì)于初學(xué)者來(lái)說(shuō),這本書(shū)還是不錯(cuò)的,尤其是有案例,深入淺出,便于理解。問(wèn)題是后面附盤(pán)里德軟件好像是印度的一個(gè)小軟件,功能非常簡(jiǎn)單,不實(shí)用。
  •   很淺顯的書(shū),沒(méi)有深入介紹。了解一下數(shù)據(jù)挖潛的發(fā)展歷史還行。主要是附的光盤(pán)沒(méi)有程序,書(shū)的介紹里說(shuō)有,我期待的有個(gè)能用的程序,但光盤(pán)沒(méi)給,就沒(méi)有價(jià)值了。
  •   包裝啊物流啊內(nèi)容啊都頗有亞馬遜風(fēng)格,挺滿意!尤其是書(shū)附的光盤(pán),非常有幫助!
  •   內(nèi)容比較基礎(chǔ)、比較適合入門(mén)級(jí)別。算法的東西占一半,需要認(rèn)真研讀。除了其中數(shù)據(jù)有些錯(cuò)誤之外唯一不滿的是,感覺(jué)整本書(shū)的結(jié)構(gòu)安排不是很準(zhǔn)確、全書(shū)的總結(jié)不是很到位。好多東西像是蜻蜓點(diǎn)水
  •   老師推薦買(mǎi)的,入門(mén)基礎(chǔ)教程,還不錯(cuò)!
  •   內(nèi)頁(yè)的紙質(zhì)一般般,內(nèi)容還沒(méi)看,不知道是否是好的指導(dǎo)書(shū)
  •   很喜歡,學(xué)校以后采取這種方式訂書(shū),我就會(huì)考慮網(wǎng)購(gòu),跟其他地方比起來(lái),這里可以貨到付款,商品齊全,價(jià)格優(yōu)惠,是買(mǎi)書(shū)的好選擇
  •   質(zhì)量很好!我很喜歡!價(jià)格也還可以!
  •   書(shū)的質(zhì)量沒(méi)問(wèn)題,包裝很好,光盤(pán)也沒(méi)有損壞是很入門(mén)的數(shù)據(jù)挖掘教程,很適合初學(xué)者,便于對(duì)整個(gè)方向有比較全面的了解
  •   數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的入門(mén)書(shū)籍是正版,紙張不錯(cuò),比想象的薄。呵呵
  •   東西是正版的,非常好
  •   等空了好好研究下
  •   通俗易懂,慢慢看會(huì)學(xué)到很多
  •   各種算法講得很詳細(xì),圖文對(duì)照,非常容易看懂。適合統(tǒng)計(jì)學(xué)沒(méi)認(rèn)真學(xué)過(guò)的人看。
  •     與傳統(tǒng)的數(shù)據(jù)分析相比,數(shù)據(jù)挖掘更強(qiáng)調(diào)模擬人的學(xué)習(xí)方式,教計(jì)算機(jī)自動(dòng)地識(shí)別有用的知識(shí)。
      
      當(dāng)然算法還是要人去設(shè)計(jì)出來(lái),機(jī)器只是去執(zhí)行人的算法,比如神經(jīng)網(wǎng)絡(luò)算法、聚類算法等。
      
      目前數(shù)據(jù)挖掘已經(jīng)有一些成熟的產(chǎn)品推出,對(duì)于個(gè)人學(xué)習(xí)者,可以通過(guò)開(kāi)源的weka來(lái)練習(xí)數(shù)據(jù)挖掘方法。
  •   Weka的全名是懷卡托智能分析環(huán)境(Waikato Environment for Knowledge Analysis)
    是waikato大學(xué)發(fā)起的開(kāi)源軟件吧
 

250萬(wàn)本中文圖書(shū)簡(jiǎn)介、評(píng)論、評(píng)分,PDF格式免費(fèi)下載。 第一圖書(shū)網(wǎng) 手機(jī)版

京ICP備13047387號(hào)-7