數(shù)據(jù)挖掘基礎教程

出版時間:2009-1  出版社:機械工業(yè)出版社  作者:(印度)西蒙(Soman.K.P)  頁數(shù):305  譯者:范明,牛常勇  
Tag標簽:無  

前言

大規(guī)模數(shù)據(jù)集快速增長的今天,數(shù)據(jù)挖掘應成為一個新的學科。我們生活在這樣一個世界,即便是簡單的日常任務,如打電話、使用信用卡或購買五金電器和雜貨,都會留下電子印記。諸如核物理和天體物理領域科學實驗數(shù)量的增加導致每月可能產(chǎn)生幾PB (petabytes)規(guī)模的數(shù)據(jù)。近來,生命科學正在成為數(shù)據(jù)驅動的科學。廣泛用于商業(yè)和上述科學領域中的自動數(shù)據(jù)收集設備每小時能夠產(chǎn)生幾TB(terabytes)規(guī)模的數(shù)據(jù),致使已有的推理方法過時。世界上最大的數(shù)據(jù)倉庫——Walmart系統(tǒng)包含500 TB數(shù)據(jù)。它實在太大,以至于無法裝入任何計算機的內(nèi)存。數(shù)據(jù)挖掘技術的產(chǎn)生源自進行數(shù)據(jù)處理業(yè)務的企業(yè)和進行數(shù)據(jù)處理研究的科學家需要找到有效的模式來自動處理海量數(shù)據(jù)。模式可以是簡單的數(shù)據(jù)匯總、數(shù)據(jù)劃分或數(shù)據(jù)內(nèi)部的依賴模型。

內(nèi)容概要

本書全面介紹數(shù)據(jù)挖掘的原理、方法和算法。主要內(nèi)容包括數(shù)據(jù)挖掘的基本概念、數(shù)據(jù)挖掘算法的數(shù)據(jù)類型、輸入和輸出、決策樹、數(shù)據(jù)挖掘的預處理和后處理、關聯(lián)規(guī)則挖掘、分類和回歸算法、支持向量機、聚類分析及多維數(shù)據(jù)可視化。    本書講解深入淺出,并輔以大量實例,隨書光盤提供了大量數(shù)據(jù)集以及兩種廣泛使用的數(shù)據(jù)挖掘軟件——weka和ExcelMiner,便于讀者理解數(shù)據(jù)挖掘知識。    本書適合作為高等院校計算機及相關專業(yè)數(shù)據(jù)挖掘課程的教材,也可供廣大技術人員參考。

作者簡介

作者:(印度)西蒙 (K.P.Soman) 譯者:范明 牛常勇

書籍目錄

出版者的話譯者序前言第1章  數(shù)據(jù)挖掘  1.1  引言  1.1.1 數(shù)據(jù)挖掘與知識發(fā)現(xiàn)  1.1.2 數(shù)據(jù)挖掘與數(shù)據(jù)分析  1.1.3 數(shù)據(jù)挖掘與統(tǒng)計學  1.1.4 數(shù)據(jù)挖掘與機器學習  1.2 數(shù)據(jù)挖掘——成功的例子  1.3 數(shù)據(jù)挖掘研究發(fā)展的主要原因  1.4 當前研究成果  1.5 圖形模型和層次概率表示  1.6 新的應用  1.7 影響數(shù)據(jù)挖掘的趨勢  1.8 研究挑戰(zhàn)  1.9 實驗平臺和基礎設施  參考文獻第2章  從商務角度看數(shù)據(jù)挖掘  2.1  引言  2.2 從數(shù)據(jù)挖掘工具到解決方案  2.3 數(shù)據(jù)挖掘系統(tǒng)的演變  2.4 知識發(fā)現(xiàn)過程 2.5 數(shù)據(jù)挖掘支撐技術概述  2.5.1 數(shù)據(jù)挖掘:驗證與發(fā)現(xiàn)  2.5.2 決策支持系統(tǒng)  2.5.3 OLAP    2.5.4 桌面DSS    2.5.5 數(shù)據(jù)倉庫  2.5.6 數(shù)據(jù)挖掘過程 2.6 數(shù)據(jù)挖掘技術 參考文獻第3章  數(shù)據(jù)挖掘算法的數(shù)據(jù)類型、輸入和輸出 3.1  引言 3.2 實例和特征 3.3 特征(數(shù)據(jù))的不同類型 3.4 概念學習與概念描述 3.5 數(shù)據(jù)挖掘的輸出——知識表示    3.5.1 分類學習算法的知識輸出  3.5.2 聚類學習算法的輸出  3.5.3 關聯(lián)規(guī)則的輸出  3.5.4 用于數(shù)值預測的樹的輸出  3.5.5 基于實例的學習和知識表示 參考文獻第4章  決策樹——分類和回歸樹 4.1  引言 4.2 構造分類樹  4.2.1 用于標稱屬性的ID3算法    4.2.2 信息論和信息熵  4.2.3 構造樹  4.2.4 高分支屬性  4.2.5 從ID3到C4.5  4.2.6 形象化地理解ID3和C4.5算法 4.3  CHAID    4.3.1  CHAID的數(shù)學工具  4.3.2  CHAID變量的類型  4.3.3  CHAID算法  4.3.4  CHAID算法描述  4.3.5 將CHAID用于氣象數(shù)據(jù)  4.3.6 單調(diào)變量的預測子級別合并 4.4 CART(分類和回歸樹)    ……第5章 數(shù)據(jù)挖掘的預處理和后處理第6章 數(shù)據(jù)集第7章 關聯(lián)規(guī)則挖掘第8章 用開源和商業(yè)軟件進行機器學習第9章 分類和回歸算法第10章 支持向量機第11章 聚類分析第12章 多維數(shù)據(jù)可視化參考文獻附錄A SVM公式:安全可分的線性分類器附錄B 圖劃分的矩陣形式

章節(jié)摘錄

第1章 數(shù)據(jù)挖掘1.1 引言計算機科學家經(jīng)常提到摩爾定律:計算機的處理速度大約每18個月翻一番。但是很少有人知道計算機的存儲容量大約每9個月翻一番。(Goebel和Gruenwald 1999)。像理想氣體一樣,計算機的數(shù)據(jù)庫迅速膨脹,占滿了可用的存儲空間,導致數(shù)據(jù)庫中的大量數(shù)據(jù)成為未開發(fā)利用的資源。這些數(shù)據(jù)就像一個金礦,可以從中提取信息。然后,利用數(shù)據(jù)挖掘技術,可以將這些信息轉換成有價值的知識。很難說清楚有多少存儲在全世界公司、學校、政府部門和其他機構的大型數(shù)據(jù)庫中未使用的海量數(shù)據(jù)以及其當前增長率。據(jù)估計,美國國會圖書館存儲的信息量高達3PB(Lesk1997)。Lesk估計,全世界每年大約產(chǎn)生160TB信息。而且,他估計已售出的磁盤空間將超過十萬TB。很快,計算機的數(shù)據(jù)存儲容量將超過人們使用該數(shù)據(jù)存儲和使用其中數(shù)據(jù)的能力。將海量數(shù)據(jù)轉換為知識的過程將變得價值無限。為此,在過去的10~15年中,一種稱作數(shù)據(jù)庫中知識發(fā)現(xiàn)(KDD)的過程逐步發(fā)展完善。數(shù)據(jù)挖掘算法就包含在KDD過程中。典型的數(shù)據(jù)庫用戶使用一種界面通過諸如SQL這樣的標準技術從數(shù)據(jù)庫中檢索數(shù)據(jù)。數(shù)據(jù)挖掘系統(tǒng)將這一過程向前推進一步,支持用戶從數(shù)據(jù)中發(fā)現(xiàn)新的知識(Adriaans和Zantinge 1996)。按照計算機科學家的觀點,數(shù)據(jù)挖掘是一個多學科交叉領域。諸如神經(jīng)網(wǎng)絡、遺傳算法、回歸、統(tǒng)計分析、機器學習和聚類分析等數(shù)據(jù)處理技術經(jīng)常出現(xiàn)在數(shù)據(jù)挖掘文獻中。許多研究者認為數(shù)據(jù)挖掘還不是一個完善的學科,數(shù)據(jù)可擴展性、與數(shù)據(jù)庫系統(tǒng)的兼容性,以及可用性和準確性都有待改進。

編輯推薦

《數(shù)據(jù)挖掘基礎教程》適合作為高等院校計算機及相關專業(yè)數(shù)據(jù)挖掘課程的教材,也可供廣大技術人員參考。

圖書封面

圖書標簽Tags

評論、評分、閱讀與下載


    數(shù)據(jù)挖掘基礎教程 PDF格式下載


用戶評論 (總計29條)

 
 

  •   本書是我讀到過的最通俗易懂的數(shù)據(jù)挖掘的書籍,我個人感覺它將數(shù)據(jù)挖掘的最基本概念闡述的非常詳盡,是一本難得一見的好教材。淺顯易懂,事例結合實際結合的非常好。本書唯一的缺點是紙張質(zhì)量確實不怎么好,考慮到市場上在書店中購買的書和當當網(wǎng)的紙張質(zhì)量是完全一樣的,也就是說要買此書必面對紙張質(zhì)量問題,故不作為當當網(wǎng)的書的缺點闡述。
  •   數(shù)據(jù)挖掘領域的經(jīng)典書目
  •   數(shù)據(jù)挖掘類的經(jīng)典書
  •   很好的一本入門書,書中的每個算法都能吃透就可以進階了
  •   光盤受損
  •   在圖書館借閱過,不錯。
  •   寫得難懂,還是覺得那本厚的數(shù)據(jù)挖掘概念與技術
  •   適合入門級學習,不夠深入
  •   就是書在運輸過程中有褶皺。內(nèi)容還沒看,感覺還行。
  •   如題,紙?zhí)?,從一面能隱約看到另一面的字。光盤有劃痕。內(nèi)容正在看呢,不知道怎么樣
  •   內(nèi)容確實不錯,實踐性強,實例很好。不過機工的紙張?zhí)盍耍€不如一般的作業(yè)本紙張。
  •   不是說購滿99減20的嗎?為什么沒有少也沒有禮券啊?郁悶。
  •   出書的人太不用心
  •   讀了一遍,感覺對于初學者來說,這本書還是不錯的,尤其是有案例,深入淺出,便于理解。問題是后面附盤里德軟件好像是印度的一個小軟件,功能非常簡單,不實用。
  •   很淺顯的書,沒有深入介紹。了解一下數(shù)據(jù)挖潛的發(fā)展歷史還行。主要是附的光盤沒有程序,書的介紹里說有,我期待的有個能用的程序,但光盤沒給,就沒有價值了。
  •   包裝啊物流啊內(nèi)容啊都頗有亞馬遜風格,挺滿意!尤其是書附的光盤,非常有幫助!
  •   內(nèi)容比較基礎、比較適合入門級別。算法的東西占一半,需要認真研讀。除了其中數(shù)據(jù)有些錯誤之外唯一不滿的是,感覺整本書的結構安排不是很準確、全書的總結不是很到位。好多東西像是蜻蜓點水
  •   老師推薦買的,入門基礎教程,還不錯!
  •   內(nèi)頁的紙質(zhì)一般般,內(nèi)容還沒看,不知道是否是好的指導書
  •   很喜歡,學校以后采取這種方式訂書,我就會考慮網(wǎng)購,跟其他地方比起來,這里可以貨到付款,商品齊全,價格優(yōu)惠,是買書的好選擇
  •   質(zhì)量很好!我很喜歡!價格也還可以!
  •   書的質(zhì)量沒問題,包裝很好,光盤也沒有損壞是很入門的數(shù)據(jù)挖掘教程,很適合初學者,便于對整個方向有比較全面的了解
  •   數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的入門書籍是正版,紙張不錯,比想象的薄。呵呵
  •   東西是正版的,非常好
  •   等空了好好研究下
  •   通俗易懂,慢慢看會學到很多
  •   各種算法講得很詳細,圖文對照,非常容易看懂。適合統(tǒng)計學沒認真學過的人看。
  •     與傳統(tǒng)的數(shù)據(jù)分析相比,數(shù)據(jù)挖掘更強調(diào)模擬人的學習方式,教計算機自動地識別有用的知識。
      
      當然算法還是要人去設計出來,機器只是去執(zhí)行人的算法,比如神經(jīng)網(wǎng)絡算法、聚類算法等。
      
      目前數(shù)據(jù)挖掘已經(jīng)有一些成熟的產(chǎn)品推出,對于個人學習者,可以通過開源的weka來練習數(shù)據(jù)挖掘方法。
  •   Weka的全名是懷卡托智能分析環(huán)境(Waikato Environment for Knowledge Analysis)
    是waikato大學發(fā)起的開源軟件吧
 

250萬本中文圖書簡介、評論、評分,PDF格式免費下載。 第一圖書網(wǎng) 手機版

京ICP備13047387號-7