出版時間:2009-1 出版社:機械工業(yè)出版社 作者:(印度)西蒙(Soman.K.P) 頁數(shù):305 譯者:范明,牛常勇
Tag標簽:無
前言
大規(guī)模數(shù)據(jù)集快速增長的今天,數(shù)據(jù)挖掘應成為一個新的學科。我們生活在這樣一個世界,即便是簡單的日常任務,如打電話、使用信用卡或購買五金電器和雜貨,都會留下電子印記。諸如核物理和天體物理領域科學實驗數(shù)量的增加導致每月可能產(chǎn)生幾PB (petabytes)規(guī)模的數(shù)據(jù)。近來,生命科學正在成為數(shù)據(jù)驅動的科學。廣泛用于商業(yè)和上述科學領域中的自動數(shù)據(jù)收集設備每小時能夠產(chǎn)生幾TB(terabytes)規(guī)模的數(shù)據(jù),致使已有的推理方法過時。世界上最大的數(shù)據(jù)倉庫——Walmart系統(tǒng)包含500 TB數(shù)據(jù)。它實在太大,以至于無法裝入任何計算機的內(nèi)存。數(shù)據(jù)挖掘技術的產(chǎn)生源自進行數(shù)據(jù)處理業(yè)務的企業(yè)和進行數(shù)據(jù)處理研究的科學家需要找到有效的模式來自動處理海量數(shù)據(jù)。模式可以是簡單的數(shù)據(jù)匯總、數(shù)據(jù)劃分或數(shù)據(jù)內(nèi)部的依賴模型。
內(nèi)容概要
本書全面介紹數(shù)據(jù)挖掘的原理、方法和算法。主要內(nèi)容包括數(shù)據(jù)挖掘的基本概念、數(shù)據(jù)挖掘算法的數(shù)據(jù)類型、輸入和輸出、決策樹、數(shù)據(jù)挖掘的預處理和后處理、關聯(lián)規(guī)則挖掘、分類和回歸算法、支持向量機、聚類分析及多維數(shù)據(jù)可視化。 本書講解深入淺出,并輔以大量實例,隨書光盤提供了大量數(shù)據(jù)集以及兩種廣泛使用的數(shù)據(jù)挖掘軟件——weka和ExcelMiner,便于讀者理解數(shù)據(jù)挖掘知識。 本書適合作為高等院校計算機及相關專業(yè)數(shù)據(jù)挖掘課程的教材,也可供廣大技術人員參考。
作者簡介
作者:(印度)西蒙 (K.P.Soman) 譯者:范明 牛常勇
書籍目錄
出版者的話譯者序前言第1章 數(shù)據(jù)挖掘 1.1 引言 1.1.1 數(shù)據(jù)挖掘與知識發(fā)現(xiàn) 1.1.2 數(shù)據(jù)挖掘與數(shù)據(jù)分析 1.1.3 數(shù)據(jù)挖掘與統(tǒng)計學 1.1.4 數(shù)據(jù)挖掘與機器學習 1.2 數(shù)據(jù)挖掘——成功的例子 1.3 數(shù)據(jù)挖掘研究發(fā)展的主要原因 1.4 當前研究成果 1.5 圖形模型和層次概率表示 1.6 新的應用 1.7 影響數(shù)據(jù)挖掘的趨勢 1.8 研究挑戰(zhàn) 1.9 實驗平臺和基礎設施 參考文獻第2章 從商務角度看數(shù)據(jù)挖掘 2.1 引言 2.2 從數(shù)據(jù)挖掘工具到解決方案 2.3 數(shù)據(jù)挖掘系統(tǒng)的演變 2.4 知識發(fā)現(xiàn)過程 2.5 數(shù)據(jù)挖掘支撐技術概述 2.5.1 數(shù)據(jù)挖掘:驗證與發(fā)現(xiàn) 2.5.2 決策支持系統(tǒng) 2.5.3 OLAP 2.5.4 桌面DSS 2.5.5 數(shù)據(jù)倉庫 2.5.6 數(shù)據(jù)挖掘過程 2.6 數(shù)據(jù)挖掘技術 參考文獻第3章 數(shù)據(jù)挖掘算法的數(shù)據(jù)類型、輸入和輸出 3.1 引言 3.2 實例和特征 3.3 特征(數(shù)據(jù))的不同類型 3.4 概念學習與概念描述 3.5 數(shù)據(jù)挖掘的輸出——知識表示 3.5.1 分類學習算法的知識輸出 3.5.2 聚類學習算法的輸出 3.5.3 關聯(lián)規(guī)則的輸出 3.5.4 用于數(shù)值預測的樹的輸出 3.5.5 基于實例的學習和知識表示 參考文獻第4章 決策樹——分類和回歸樹 4.1 引言 4.2 構造分類樹 4.2.1 用于標稱屬性的ID3算法 4.2.2 信息論和信息熵 4.2.3 構造樹 4.2.4 高分支屬性 4.2.5 從ID3到C4.5 4.2.6 形象化地理解ID3和C4.5算法 4.3 CHAID 4.3.1 CHAID的數(shù)學工具 4.3.2 CHAID變量的類型 4.3.3 CHAID算法 4.3.4 CHAID算法描述 4.3.5 將CHAID用于氣象數(shù)據(jù) 4.3.6 單調(diào)變量的預測子級別合并 4.4 CART(分類和回歸樹) ……第5章 數(shù)據(jù)挖掘的預處理和后處理第6章 數(shù)據(jù)集第7章 關聯(lián)規(guī)則挖掘第8章 用開源和商業(yè)軟件進行機器學習第9章 分類和回歸算法第10章 支持向量機第11章 聚類分析第12章 多維數(shù)據(jù)可視化參考文獻附錄A SVM公式:安全可分的線性分類器附錄B 圖劃分的矩陣形式
章節(jié)摘錄
第1章 數(shù)據(jù)挖掘1.1 引言計算機科學家經(jīng)常提到摩爾定律:計算機的處理速度大約每18個月翻一番。但是很少有人知道計算機的存儲容量大約每9個月翻一番。(Goebel和Gruenwald 1999)。像理想氣體一樣,計算機的數(shù)據(jù)庫迅速膨脹,占滿了可用的存儲空間,導致數(shù)據(jù)庫中的大量數(shù)據(jù)成為未開發(fā)利用的資源。這些數(shù)據(jù)就像一個金礦,可以從中提取信息。然后,利用數(shù)據(jù)挖掘技術,可以將這些信息轉換成有價值的知識。很難說清楚有多少存儲在全世界公司、學校、政府部門和其他機構的大型數(shù)據(jù)庫中未使用的海量數(shù)據(jù)以及其當前增長率。據(jù)估計,美國國會圖書館存儲的信息量高達3PB(Lesk1997)。Lesk估計,全世界每年大約產(chǎn)生160TB信息。而且,他估計已售出的磁盤空間將超過十萬TB。很快,計算機的數(shù)據(jù)存儲容量將超過人們使用該數(shù)據(jù)存儲和使用其中數(shù)據(jù)的能力。將海量數(shù)據(jù)轉換為知識的過程將變得價值無限。為此,在過去的10~15年中,一種稱作數(shù)據(jù)庫中知識發(fā)現(xiàn)(KDD)的過程逐步發(fā)展完善。數(shù)據(jù)挖掘算法就包含在KDD過程中。典型的數(shù)據(jù)庫用戶使用一種界面通過諸如SQL這樣的標準技術從數(shù)據(jù)庫中檢索數(shù)據(jù)。數(shù)據(jù)挖掘系統(tǒng)將這一過程向前推進一步,支持用戶從數(shù)據(jù)中發(fā)現(xiàn)新的知識(Adriaans和Zantinge 1996)。按照計算機科學家的觀點,數(shù)據(jù)挖掘是一個多學科交叉領域。諸如神經(jīng)網(wǎng)絡、遺傳算法、回歸、統(tǒng)計分析、機器學習和聚類分析等數(shù)據(jù)處理技術經(jīng)常出現(xiàn)在數(shù)據(jù)挖掘文獻中。許多研究者認為數(shù)據(jù)挖掘還不是一個完善的學科,數(shù)據(jù)可擴展性、與數(shù)據(jù)庫系統(tǒng)的兼容性,以及可用性和準確性都有待改進。
編輯推薦
《數(shù)據(jù)挖掘基礎教程》適合作為高等院校計算機及相關專業(yè)數(shù)據(jù)挖掘課程的教材,也可供廣大技術人員參考。
圖書封面
圖書標簽Tags
無
評論、評分、閱讀與下載