出版時(shí)間:2009-1 出版社:機(jī)械工業(yè)出版社 作者:(印度)西蒙(Soman.K.P) 頁(yè)數(shù):305 譯者:范明,牛常勇
Tag標(biāo)簽:無(wú)
前言
大規(guī)模數(shù)據(jù)集快速增長(zhǎng)的今天,數(shù)據(jù)挖掘應(yīng)成為一個(gè)新的學(xué)科。我們生活在這樣一個(gè)世界,即便是簡(jiǎn)單的日常任務(wù),如打電話、使用信用卡或購(gòu)買(mǎi)五金電器和雜貨,都會(huì)留下電子印記。諸如核物理和天體物理領(lǐng)域科學(xué)實(shí)驗(yàn)數(shù)量的增加導(dǎo)致每月可能產(chǎn)生幾PB (petabytes)規(guī)模的數(shù)據(jù)。近來(lái),生命科學(xué)正在成為數(shù)據(jù)驅(qū)動(dòng)的科學(xué)。廣泛用于商業(yè)和上述科學(xué)領(lǐng)域中的自動(dòng)數(shù)據(jù)收集設(shè)備每小時(shí)能夠產(chǎn)生幾TB(terabytes)規(guī)模的數(shù)據(jù),致使已有的推理方法過(guò)時(shí)。世界上最大的數(shù)據(jù)倉(cāng)庫(kù)——Walmart系統(tǒng)包含500 TB數(shù)據(jù)。它實(shí)在太大,以至于無(wú)法裝入任何計(jì)算機(jī)的內(nèi)存。數(shù)據(jù)挖掘技術(shù)的產(chǎn)生源自進(jìn)行數(shù)據(jù)處理業(yè)務(wù)的企業(yè)和進(jìn)行數(shù)據(jù)處理研究的科學(xué)家需要找到有效的模式來(lái)自動(dòng)處理海量數(shù)據(jù)。模式可以是簡(jiǎn)單的數(shù)據(jù)匯總、數(shù)據(jù)劃分或數(shù)據(jù)內(nèi)部的依賴模型。
內(nèi)容概要
本書(shū)全面介紹數(shù)據(jù)挖掘的原理、方法和算法。主要內(nèi)容包括數(shù)據(jù)挖掘的基本概念、數(shù)據(jù)挖掘算法的數(shù)據(jù)類型、輸入和輸出、決策樹(shù)、數(shù)據(jù)挖掘的預(yù)處理和后處理、關(guān)聯(lián)規(guī)則挖掘、分類和回歸算法、支持向量機(jī)、聚類分析及多維數(shù)據(jù)可視化。 本書(shū)講解深入淺出,并輔以大量實(shí)例,隨書(shū)光盤(pán)提供了大量數(shù)據(jù)集以及兩種廣泛使用的數(shù)據(jù)挖掘軟件——weka和ExcelMiner,便于讀者理解數(shù)據(jù)挖掘知識(shí)。 本書(shū)適合作為高等院校計(jì)算機(jī)及相關(guān)專業(yè)數(shù)據(jù)挖掘課程的教材,也可供廣大技術(shù)人員參考。
作者簡(jiǎn)介
作者:(印度)西蒙 (K.P.Soman) 譯者:范明 牛常勇
書(shū)籍目錄
出版者的話譯者序前言第1章 數(shù)據(jù)挖掘 1.1 引言 1.1.1 數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn) 1.1.2 數(shù)據(jù)挖掘與數(shù)據(jù)分析 1.1.3 數(shù)據(jù)挖掘與統(tǒng)計(jì)學(xué) 1.1.4 數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí) 1.2 數(shù)據(jù)挖掘——成功的例子 1.3 數(shù)據(jù)挖掘研究發(fā)展的主要原因 1.4 當(dāng)前研究成果 1.5 圖形模型和層次概率表示 1.6 新的應(yīng)用 1.7 影響數(shù)據(jù)挖掘的趨勢(shì) 1.8 研究挑戰(zhàn) 1.9 實(shí)驗(yàn)平臺(tái)和基礎(chǔ)設(shè)施 參考文獻(xiàn)第2章 從商務(wù)角度看數(shù)據(jù)挖掘 2.1 引言 2.2 從數(shù)據(jù)挖掘工具到解決方案 2.3 數(shù)據(jù)挖掘系統(tǒng)的演變 2.4 知識(shí)發(fā)現(xiàn)過(guò)程 2.5 數(shù)據(jù)挖掘支撐技術(shù)概述 2.5.1 數(shù)據(jù)挖掘:驗(yàn)證與發(fā)現(xiàn) 2.5.2 決策支持系統(tǒng) 2.5.3 OLAP 2.5.4 桌面DSS 2.5.5 數(shù)據(jù)倉(cāng)庫(kù) 2.5.6 數(shù)據(jù)挖掘過(guò)程 2.6 數(shù)據(jù)挖掘技術(shù) 參考文獻(xiàn)第3章 數(shù)據(jù)挖掘算法的數(shù)據(jù)類型、輸入和輸出 3.1 引言 3.2 實(shí)例和特征 3.3 特征(數(shù)據(jù))的不同類型 3.4 概念學(xué)習(xí)與概念描述 3.5 數(shù)據(jù)挖掘的輸出——知識(shí)表示 3.5.1 分類學(xué)習(xí)算法的知識(shí)輸出 3.5.2 聚類學(xué)習(xí)算法的輸出 3.5.3 關(guān)聯(lián)規(guī)則的輸出 3.5.4 用于數(shù)值預(yù)測(cè)的樹(shù)的輸出 3.5.5 基于實(shí)例的學(xué)習(xí)和知識(shí)表示 參考文獻(xiàn)第4章 決策樹(shù)——分類和回歸樹(shù) 4.1 引言 4.2 構(gòu)造分類樹(shù) 4.2.1 用于標(biāo)稱屬性的ID3算法 4.2.2 信息論和信息熵 4.2.3 構(gòu)造樹(shù) 4.2.4 高分支屬性 4.2.5 從ID3到C4.5 4.2.6 形象化地理解ID3和C4.5算法 4.3 CHAID 4.3.1 CHAID的數(shù)學(xué)工具 4.3.2 CHAID變量的類型 4.3.3 CHAID算法 4.3.4 CHAID算法描述 4.3.5 將CHAID用于氣象數(shù)據(jù) 4.3.6 單調(diào)變量的預(yù)測(cè)子級(jí)別合并 4.4 CART(分類和回歸樹(shù)) ……第5章 數(shù)據(jù)挖掘的預(yù)處理和后處理第6章 數(shù)據(jù)集第7章 關(guān)聯(lián)規(guī)則挖掘第8章 用開(kāi)源和商業(yè)軟件進(jìn)行機(jī)器學(xué)習(xí)第9章 分類和回歸算法第10章 支持向量機(jī)第11章 聚類分析第12章 多維數(shù)據(jù)可視化參考文獻(xiàn)附錄A SVM公式:安全可分的線性分類器附錄B 圖劃分的矩陣形式
章節(jié)摘錄
第1章 數(shù)據(jù)挖掘1.1 引言計(jì)算機(jī)科學(xué)家經(jīng)常提到摩爾定律:計(jì)算機(jī)的處理速度大約每18個(gè)月翻一番。但是很少有人知道計(jì)算機(jī)的存儲(chǔ)容量大約每9個(gè)月翻一番。(Goebel和Gruenwald 1999)。像理想氣體一樣,計(jì)算機(jī)的數(shù)據(jù)庫(kù)迅速膨脹,占滿了可用的存儲(chǔ)空間,導(dǎo)致數(shù)據(jù)庫(kù)中的大量數(shù)據(jù)成為未開(kāi)發(fā)利用的資源。這些數(shù)據(jù)就像一個(gè)金礦,可以從中提取信息。然后,利用數(shù)據(jù)挖掘技術(shù),可以將這些信息轉(zhuǎn)換成有價(jià)值的知識(shí)。很難說(shuō)清楚有多少存儲(chǔ)在全世界公司、學(xué)校、政府部門(mén)和其他機(jī)構(gòu)的大型數(shù)據(jù)庫(kù)中未使用的海量數(shù)據(jù)以及其當(dāng)前增長(zhǎng)率。據(jù)估計(jì),美國(guó)國(guó)會(huì)圖書(shū)館存儲(chǔ)的信息量高達(dá)3PB(Lesk1997)。Lesk估計(jì),全世界每年大約產(chǎn)生160TB信息。而且,他估計(jì)已售出的磁盤(pán)空間將超過(guò)十萬(wàn)TB。很快,計(jì)算機(jī)的數(shù)據(jù)存儲(chǔ)容量將超過(guò)人們使用該數(shù)據(jù)存儲(chǔ)和使用其中數(shù)據(jù)的能力。將海量數(shù)據(jù)轉(zhuǎn)換為知識(shí)的過(guò)程將變得價(jià)值無(wú)限。為此,在過(guò)去的10~15年中,一種稱作數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)(KDD)的過(guò)程逐步發(fā)展完善。數(shù)據(jù)挖掘算法就包含在KDD過(guò)程中。典型的數(shù)據(jù)庫(kù)用戶使用一種界面通過(guò)諸如SQL這樣的標(biāo)準(zhǔn)技術(shù)從數(shù)據(jù)庫(kù)中檢索數(shù)據(jù)。數(shù)據(jù)挖掘系統(tǒng)將這一過(guò)程向前推進(jìn)一步,支持用戶從數(shù)據(jù)中發(fā)現(xiàn)新的知識(shí)(Adriaans和Zantinge 1996)。按照計(jì)算機(jī)科學(xué)家的觀點(diǎn),數(shù)據(jù)挖掘是一個(gè)多學(xué)科交叉領(lǐng)域。諸如神經(jīng)網(wǎng)絡(luò)、遺傳算法、回歸、統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)和聚類分析等數(shù)據(jù)處理技術(shù)經(jīng)常出現(xiàn)在數(shù)據(jù)挖掘文獻(xiàn)中。許多研究者認(rèn)為數(shù)據(jù)挖掘還不是一個(gè)完善的學(xué)科,數(shù)據(jù)可擴(kuò)展性、與數(shù)據(jù)庫(kù)系統(tǒng)的兼容性,以及可用性和準(zhǔn)確性都有待改進(jìn)。
編輯推薦
《數(shù)據(jù)挖掘基礎(chǔ)教程》適合作為高等院校計(jì)算機(jī)及相關(guān)專業(yè)數(shù)據(jù)挖掘課程的教材,也可供廣大技術(shù)人員參考。
圖書(shū)封面
圖書(shū)標(biāo)簽Tags
無(wú)
評(píng)論、評(píng)分、閱讀與下載
數(shù)據(jù)挖掘基礎(chǔ)教程 PDF格式下載
250萬(wàn)本中文圖書(shū)簡(jiǎn)介、評(píng)論、評(píng)分,PDF格式免費(fèi)下載。 第一圖書(shū)網(wǎng) 手機(jī)版