出版時間:2010-12-10 出版社:人民郵電出版社 作者:Pang-Ning Tan,Michael Steinbach,Vipin Kumar 頁數(shù):463 譯者:范明,范宏建
Tag標(biāo)簽:無
前言
自從我和孟小峰等人翻譯J. Han和M. Kamber的《數(shù)據(jù)挖掘:概念與技術(shù)》以來,我們高興地看到數(shù)據(jù)挖掘的研究正在我國蓬勃開展。許多學(xué)者和研究人員都對這個新興的學(xué)科領(lǐng)域表現(xiàn)出了極大的興趣,他們之中不僅有來自數(shù)據(jù)庫領(lǐng)域的專家,而且不乏統(tǒng)計學(xué)、人工智能和模式識別、機器學(xué)習(xí)等領(lǐng)域的研究者。國內(nèi)的學(xué)者和研究者在數(shù)據(jù)挖掘方面的研究已經(jīng)取得了一些令人鼓舞的成果,并且正在逐漸與國際學(xué)術(shù)界同步。 數(shù)據(jù)挖掘的產(chǎn)生和發(fā)展一直是分析和理解數(shù)據(jù)的實際需求推動的。數(shù)據(jù)挖掘研究的進(jìn)展也正是在于一直重視與其他領(lǐng)域研究者的合作。數(shù)據(jù)挖掘從工業(yè)、農(nóng)業(yè)、醫(yī)療衛(wèi)生和商業(yè)的需求中獲得動力,從統(tǒng)計學(xué)、機器學(xué)習(xí)等領(lǐng)域的長期研究與發(fā)展中汲取營養(yǎng)。我們相信,只要有理解數(shù)據(jù)的需求,就有推動數(shù)據(jù)挖掘研究與應(yīng)用發(fā)展的動力;只要依靠多學(xué)科的團(tuán)隊,就能應(yīng)對新的數(shù)據(jù)分析任務(wù)帶來的挑戰(zhàn)。 P. Tan、M. Steinbach和V. Kumar編寫的這本《數(shù)據(jù)挖掘?qū)д摗肥抢^《數(shù)據(jù)挖掘:概念與技術(shù)》一書之后的另一本重要的數(shù)據(jù)挖掘著作。三位作者都從事數(shù)據(jù)挖掘研究多年,其中Vipin Kumar教授是數(shù)據(jù)挖掘和高性能計算領(lǐng)域的國際知名學(xué)者。本書原版在正式出版之前就已經(jīng)被斯坦福大學(xué)、得克薩斯大學(xué)奧斯汀分校等眾多名校采用。J. Han教授也高度評價該書:“這是一本全新數(shù)據(jù)挖掘的教材,值得大力推薦。它將成為我們的主要參考書。” 本書不需要讀者具備數(shù)據(jù)庫背景,只需要少量統(tǒng)計學(xué)或數(shù)學(xué)背景知識,而且取材涉及的學(xué)科和應(yīng)用領(lǐng)域較多,實用性強,因此適合的讀者面較廣。本書強調(diào)如何用數(shù)據(jù)挖掘知識解決各種實際問題,強調(diào)所挖掘的知識模式的評估。例如,就像我們能夠從天空中的白云想象出各種動物和物體一樣,每個聚類算法能夠從幾乎所有的數(shù)據(jù)集中發(fā)現(xiàn)聚類。如果數(shù)據(jù)集合中根本不存在自然的簇,所產(chǎn)生的聚類很難說具有實際意義。 全書共分10章。范明負(fù)責(zé)第1~8章的翻譯,范宏建負(fù)責(zé)第9章和第10章的翻譯。蔣宏杰、賈玉祥、許紅濤和溫箐笛也參加本書的最初翻譯工作。全書的譯文由范明負(fù)責(zé)統(tǒng)一定稿。在翻譯的過程中,對發(fā)現(xiàn)的錯誤進(jìn)行了更正,并得到原書作者的確認(rèn)。 感謝P. Tan、M. Steinbach和V. Kumar為中文版撰寫序言。感謝人民郵電出版社圖靈公司的編輯們,他們在第一時間內(nèi)引進(jìn)本書,并組織翻譯,使得中文版能夠如此之快地與讀者見面。
內(nèi)容概要
本書全面介紹了數(shù)據(jù)挖掘的理論和方法,旨在為讀者提供將數(shù)據(jù)挖掘應(yīng)用于實際問題所必需的知識。本書涵蓋五個主題:數(shù)據(jù)、分類、關(guān)聯(lián)分析、聚類和異常檢測。除異常檢測外,每個主題都包含兩章:前面一章講述基本概念、代表性算法和評估技術(shù),后面一章較深入地討論高級概念和算法。目的是使讀者在透徹地理解數(shù)據(jù)挖掘基礎(chǔ)的同時,還能了解更多重要的高級主題。此外,書中還提供了大量示例、圖表和習(xí)題?! ”緯m合作為相關(guān)專業(yè)高年級本科生和研究生數(shù)據(jù)挖掘課程的教材,同時也可作為數(shù)據(jù)挖掘研究和應(yīng)用開發(fā)人員的參考書。
作者簡介
陳封能(Pang-Ning Tan)現(xiàn)為密歇根州立大學(xué)計算機與工程系助理教授,主要教授數(shù)據(jù)挖掘、數(shù)據(jù)庫系統(tǒng)等課程。此前,他曾是明尼蘇達(dá)大學(xué)美國陸軍高性能計算研究中心副研究員(2002-2003)。
斯坦巴赫(Michael Steinbach)明尼蘇達(dá)大學(xué)計算機與工程系研究員,在讀博士。
庫瑪爾(Vipin Kumar)明尼蘇達(dá)大學(xué)計算機科學(xué)與工程系主任,曾任美國陸軍高性能計算研究中心主任。他擁有馬里蘭大學(xué)博士學(xué)位,是數(shù)據(jù)挖掘和高性能計算方面的國際權(quán)威,IEEE會士。
范明,鄭州大學(xué)信息工程學(xué)院教授,中國計算機學(xué)會數(shù)據(jù)庫專業(yè)委員會委員、人工智能與模式識別專業(yè)委員會委員,長期從事計算機軟件與理論教學(xué)和研究。先后發(fā)表論史40余篇。
范宏建 澳大利亞墨爾本大學(xué)計算機科學(xué)博士。先后在WWW、PAKDD、RSFDGrC、IEEE GrC和Australian AI等國際學(xué)術(shù)會議和IEEE Transactions on Knowledge and Data Engineering發(fā)表論文10余篇。目前是澳大利亞AUSTRAC的高級分析師。
書籍目錄
第1章 緒論 1.1 什么是數(shù)據(jù)挖掘 1.2 數(shù)據(jù)挖掘要解決的問題 1.3 數(shù)據(jù)挖掘的起源 1.4 數(shù)據(jù)挖掘任務(wù) 1.5 本書的內(nèi)容與組織 文獻(xiàn)注釋 參考文獻(xiàn) 習(xí)題 第2章 數(shù)據(jù) 2.1 數(shù)據(jù)類型 2.1.1 屬性與度量 2.1.2 數(shù)據(jù)集的類型 2.2 數(shù)據(jù)質(zhì)量 2.2.1 測量和數(shù)據(jù)收集問題 2.2.2 關(guān)于應(yīng)用的問題 2.3 數(shù)據(jù)預(yù)處理 2.3.1 聚集 2.3.2 抽樣 2.3.3 維歸約 2.3.4 特征子集選擇 2.3.5 特征創(chuàng)建 2.3.6 離散化和二元化 2.3.7 變量變換 2.4 相似性和相異性的度量 2.4.1 基礎(chǔ) 2.4.2 簡單屬性之間的相似度和相異度 2.4.3 數(shù)據(jù)對象之間的相異度 2.4.4 數(shù)據(jù)對象之間的相似度 2.4.5 鄰近性度量的例子 2.4.6 鄰近度計算問題 2.4.7 選取正確的鄰近性度量 文獻(xiàn)注釋 參考文獻(xiàn) 習(xí)題 第3章 探索數(shù)據(jù) 第4章 分類:基本概念、決策樹與模型評估 第5章 分類:其他技術(shù) 第6章 關(guān)聯(lián)分析:基本概念和算法 第7章 關(guān)聯(lián)分析:高級概念 第8章 聚類分析:基本概念和算法 第9章 聚類分析:其他問題與算法 第10章 異常檢測 文獻(xiàn)注釋 參考文獻(xiàn) 習(xí)題 附錄a 線性代數(shù) 附錄b 維歸約 附錄c 概率統(tǒng)計 附錄d 回歸 附錄e 優(yōu)化
章節(jié)摘錄
插圖:空間數(shù)據(jù)的重要例子是科學(xué)和工程數(shù)據(jù)集,其數(shù)據(jù)取自二維或三維網(wǎng)格上規(guī)則或不規(guī)則分布的點上的測量或模型輸出。例如,地球科學(xué)數(shù)據(jù)集記錄在各種分辨率(如每度)下經(jīng)緯度球面網(wǎng)格點(網(wǎng)格單元)上測量的溫度和氣壓(見圖2-4d)。另一個例子,在瓦斯氣流模擬中,可以針對模擬中的每個網(wǎng)格點記錄流速和方向。5.處理非記錄數(shù)據(jù)大部分?jǐn)?shù)據(jù)挖掘算法都是為記錄數(shù)據(jù)或其變體(如事務(wù)數(shù)據(jù)和數(shù)據(jù)矩陣)設(shè)計的。通過從數(shù)據(jù)對象中提取特征,并使用這些特征創(chuàng)建對應(yīng)于每個對象的記錄,針對記錄數(shù)據(jù)的技術(shù)也可以用于非記錄數(shù)據(jù)??紤]前面介紹的化學(xué)結(jié)構(gòu)數(shù)據(jù)。給定一個常見的子結(jié)構(gòu)集合,每個化合物都可以用一個具有二元屬性的記錄表示,這些二元屬性指出化合物是否包含特定的子結(jié)構(gòu)。這樣的表示實際上是事務(wù)數(shù)據(jù)集,其中事務(wù)是化合物,而項是子結(jié)構(gòu)。在某些情況下,容易用記錄形式表示數(shù)據(jù),但是這類表示并不能捕獲數(shù)據(jù)中的所有信息??紤]這樣的時間空間數(shù)據(jù),它由空間網(wǎng)格每一點上的時間序列組成。通常,這種數(shù)據(jù)存放在數(shù)據(jù)矩陣中,其中每行代表一個位置,而每列代表一個特定的時間點。然而,這種表示并不能明確地表示屬性之間存在的時間聯(lián)系以及對象之間存在的空間聯(lián)系。但并不是說這種表示不合適,而是說分析時必須考慮這些聯(lián)系。例如,在使用數(shù)據(jù)挖掘技術(shù)時,假定屬性之間在統(tǒng)計上是相互獨立的并不是一個好主意。
編輯推薦
《數(shù)據(jù)挖掘?qū)д?完整版)》是明尼蘇達(dá)大學(xué)和密歇根州立大學(xué)數(shù)據(jù)挖掘課程的教材,由于獨具特色,正式出版之前就已經(jīng)被斯坦福大學(xué)、得克薩斯大學(xué)奧斯汀分校等眾多名校采用?!稊?shù)據(jù)挖掘?qū)д?完整版)》與許多其他同類圖書不同,《數(shù)據(jù)挖掘?qū)д?完整版)》將重點放在如何用數(shù)據(jù)挖掘知識解決各種實際問題。只要求具備很少的預(yù)備知識——不需要數(shù)據(jù)庫背景,只需要很少的統(tǒng)計學(xué)或數(shù)學(xué)背景知識?!稊?shù)據(jù)挖掘?qū)д?完整版)》中包含大量的圖表、綜合示例和豐富的習(xí)題,并且使用示例、關(guān)鍵算法的簡潔描述和習(xí)題,盡可能直接聚焦于數(shù)據(jù)挖掘的主要概念。教輔內(nèi)容極為豐富,包括課程幻燈片、學(xué)生課題建議、數(shù)據(jù)挖掘資源(如數(shù)據(jù)挖掘算法和數(shù)據(jù)集)、聯(lián)機指南(使用實際的數(shù)據(jù)集和數(shù)據(jù)分析軟件,《數(shù)據(jù)挖掘?qū)д?完整版)》介紹的部分?jǐn)?shù)據(jù)挖掘技術(shù)提供例子講解)。
圖書封面
圖書標(biāo)簽Tags
無
評論、評分、閱讀與下載