數(shù)據(jù)挖掘

出版時間:2012-8  出版社:機械工業(yè)出版社  作者:(美)Jiawei Han,(加)Micheline Kamber,(加)Jian Pei  頁數(shù):468  譯者:范明,孟小峰  
Tag標簽:無  

前言

前言:    社會的計算機化顯著地增強了我們產(chǎn)生和收集數(shù)據(jù)的能力。大量數(shù)據(jù)從我們生活的每個角落涌出。存儲的或瞬態(tài)的數(shù)據(jù)的爆炸性增長已激起對新技術和自動工具的需求,以幫助我們智能地將海量數(shù)據(jù)轉換成有用的信息和知識。這導致稱做數(shù)據(jù)挖掘的一個計算機科學前沿學科的產(chǎn)生,這是一個充滿希望和欣欣向榮并具有廣泛應用的學科。數(shù)據(jù)挖掘通常又稱為數(shù)據(jù)中的知識發(fā)現(xiàn)(KDD),是自動地或方便地提取代表知識的模式;這些模式隱藏在大型數(shù)據(jù)庫、數(shù)據(jù)倉庫、Web、其他大量信息庫或數(shù)據(jù)流中。    本書考察知識發(fā)現(xiàn)和數(shù)據(jù)挖掘的基本概念和技術。作為一個多學科領域,數(shù)據(jù)挖掘從多個學科汲取營養(yǎng)。這些學科包括統(tǒng)計學、機器學習、模式識別、數(shù)據(jù)庫技術、信息檢索、網(wǎng)絡科學、知識庫系統(tǒng)、人工智能、高性能計算和數(shù)據(jù)可視化。我們提供發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中的模式的技術,關注可行性、有用性、有效性和可伸縮性問題。因此,本書不打算作為數(shù)據(jù)庫系統(tǒng)、機器學習、統(tǒng)計學或其他某領域的導論,盡管我們確實提供了這些領域的必要背景材料,以便讀者理解它們各自在數(shù)據(jù)挖掘中的作用。本書是對數(shù)據(jù)挖掘的全面介紹。對于計算科學的學生、應用開發(fā)人員、行業(yè)專業(yè)人員以及涉及以上列舉的學科的研究人員,本書應當是有用的。    數(shù)據(jù)挖掘出現(xiàn)于20世紀80年代后期,20世紀90年代有了突飛猛進的發(fā)展,并可望在新千年繼續(xù)繁榮。本書全面展示該領域,介紹有趣的數(shù)據(jù)挖掘技術和系統(tǒng),并討論數(shù)據(jù)挖掘的應用和研究方向。寫本書的重要動機是需要建立一個學習數(shù)據(jù)挖掘的有組織的框架——由于這個快速發(fā)展領域的多學科特點,這是一項具有挑戰(zhàn)性的任務。我們希望本書有助于具有不同背景和經(jīng)驗的人交換關于數(shù)據(jù)挖掘的見解,為進一步促進這個令人激動的、不斷發(fā)展的領域的成長做出貢獻。本書的組織    自本書第1版、第2版出版以來,數(shù)據(jù)挖掘領域已經(jīng)取得了重大進展,開發(fā)出了許多新的數(shù)據(jù)挖掘方法、系統(tǒng)和應用,特別是對于處理包括信息網(wǎng)絡、圖、復雜結構和數(shù)據(jù)流,以及文本、Web、多媒體、時間序列、時間空間數(shù)據(jù)在內(nèi)的新的數(shù)據(jù)類型。這種快速發(fā)展、新技術不斷涌現(xiàn)使得在一本書中涵蓋整個領域的廣泛內(nèi)容非常困難。因此,我們決定與其繼續(xù)擴大本書的涵蓋面,還不如讓本書以足夠的廣度和深度涵蓋該領域的核心內(nèi)容,而把復雜數(shù)據(jù)類型的處理留給另一本即將面世的書。    第3版對本書的前兩版做了全面修訂,加強和重新組織了全書的技術內(nèi)容,顯著地擴充和加強處理一般數(shù)據(jù)類型挖掘的核心技術。第2版中討論特定主題的章節(jié)(例如,數(shù)據(jù)預處理、頻繁模式挖掘、分類和聚類)在這一版都被擴充,每章都分成兩章。對于這些主題,一章囊括基本概念和技術,而另一章提供高級概念和方法。    第2版關于復雜數(shù)據(jù)類型的章節(jié)(例如,流數(shù)據(jù)、序列數(shù)據(jù)、圖結構數(shù)據(jù)、社會網(wǎng)絡數(shù)據(jù)和多重關系數(shù)據(jù),以及文本、Web、多媒體和時間空間數(shù)據(jù))現(xiàn)在保留給專門介紹數(shù)據(jù)挖掘的高級課題的新書。為了支持讀者學習這些高級課題,我們把第2版的相關章節(jié)的電子版放在本書的網(wǎng)站上,作為第3版的配套材料。    第3版各章的簡要內(nèi)容如下(重點介紹新的內(nèi)容):    第1章提供關于數(shù)據(jù)挖掘的多學科領域的導論。該章討論導致需要數(shù)據(jù)挖掘的數(shù)據(jù)庫技術的發(fā)展歷程和數(shù)據(jù)挖掘應用的重要性。該章考察挖掘的數(shù)據(jù)類型,包括關系的、事務的和數(shù)據(jù)倉庫數(shù)據(jù),以及復雜的數(shù)據(jù)類型,如時間序列、序列、數(shù)據(jù)流、時間空間數(shù)據(jù)、多媒體數(shù)據(jù)、文本數(shù)據(jù)、圖、社會網(wǎng)絡和Web數(shù)據(jù)。該章根據(jù)所挖掘的知識類型、所使用的技術以及目標應用的類型,對數(shù)據(jù)挖掘任務進行了一般分類。最后討論該領域的主要挑戰(zhàn)。    第2章介紹一般數(shù)據(jù)特征。該章首先討論數(shù)據(jù)對象和屬性類型,然后介紹基本統(tǒng)計數(shù)據(jù)描述的典型度量。該章概述各種類型數(shù)據(jù)的數(shù)據(jù)可視化技術。除了數(shù)值數(shù)據(jù)的可視化方法外,還介紹文本、標簽、圖和多維數(shù)據(jù)的可視化方法。第2章還介紹度量各種類型數(shù)據(jù)的相似性和相異性的方法。    第3章介紹數(shù)據(jù)預處理技術。該章首先介紹數(shù)據(jù)質量的概念,然后討論數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)歸約、數(shù)據(jù)變換和數(shù)據(jù)離散化的方法。    第4章和第5章是數(shù)據(jù)倉庫、OLAP(聯(lián)機分析處理)和數(shù)據(jù)立方體技術的引論。第4章介紹數(shù)據(jù)倉庫和OLAP的基本概念、建模、結構、一般實現(xiàn),以及數(shù)據(jù)倉庫和其他數(shù)據(jù)泛化的關系。第5章更深入地考察數(shù)據(jù)立方體技術,詳細地研究數(shù)據(jù)立方體的計算方法,包括Star-Cubing和高維OLAP方法。該章還討論數(shù)據(jù)立方體和OLAP技術的進一步研究,如抽樣立方體、排序立方體、預測立方體、用于復雜數(shù)據(jù)挖掘查詢的多特征立方體和發(fā)現(xiàn)驅動的數(shù)據(jù)立方體的探查。    第6章和第7章介紹挖掘大型數(shù)據(jù)集中的頻繁模式、關聯(lián)和相關性的方法。第6章介紹基本概念,如購物籃分析,還有條理地提供了許多頻繁項集挖掘技術。這些涵蓋從基本Apriori算法和它的變形,到改進性能的更高級的方法,包括頻繁模式增長方法,使用數(shù)據(jù)的垂直形式的頻繁模式挖掘,挖掘閉頻繁項集和極大頻繁項集。該章還討論模式評估方法并介紹挖掘相關模式的度量。第7章介紹高級模式挖掘方法。該章討論多層和多維空間中的模式挖掘,挖掘稀有和負模式,挖掘巨型模式和高維空間數(shù)據(jù),基于約束的模式挖掘和挖掘壓縮或近似模式。該章還介紹模式探查和應用的方法,包括頻繁模式的語義注解。    第8章和第9章介紹數(shù)據(jù)分類方法。由于分類方法的重要性和多樣性,內(nèi)容被劃分成兩章。第8章介紹分類的基本概念和方法,包括決策樹歸納、貝葉斯分類和基于規(guī)則的分類。該章還討論模型評估和選擇方法,以及提高分類準確率的方法,包括組合方法和處理不平衡數(shù)據(jù)。第9章討論分類的高級方法,包括貝葉斯信念網(wǎng)絡、后向傳播的神經(jīng)網(wǎng)絡技術、支持向量機、使用頻繁模式的分類、k-最鄰近分類、基于案例的推理、遺傳算法、粗糙集理論和模糊集方法。附加的主題包括多類分類、半監(jiān)督分類、主動學習和遷移學習。    聚類分析是第10章和第11章的主題。第10章介紹數(shù)據(jù)聚類的基本概念和方法,包括基本聚類分析方法的概述、劃分方法、層次方法、基于密度的方法和基于網(wǎng)格的方法。該章還介紹聚類評估方法。第11章討論聚類的高級方法,包括基于概率模型的聚類、聚類高維數(shù)據(jù)、聚類圖和網(wǎng)絡數(shù)據(jù),以及基于約束的聚類。    第12章專門討論離群點檢測。本章介紹離群點的基本概念和離群點分析,并從各種監(jiān)督力度(監(jiān)督的、半監(jiān)督的和無監(jiān)督的)以及方法角度(統(tǒng)計學方法、基于鄰近性的方法、基于聚類的方法和基于分類的方法)討論離群點檢測方法。該章還討論挖掘情境離群點和集體離群點,以及高維數(shù)據(jù)中的離群點檢測。    最后,在第13章我們討論數(shù)據(jù)挖掘的趨勢、應用和研究前沿。我們簡略地介紹挖掘復雜數(shù)據(jù)類型,包括挖掘序列數(shù)據(jù)(例如,時間序列、符號序列和生物學序列),挖掘圖和網(wǎng)絡,以及挖掘空間、多媒體、文本和Web數(shù)據(jù)。這些數(shù)據(jù)挖掘方法的深入討論留給正在撰寫的數(shù)據(jù)挖掘高級課題一書。然后,該章轉向討論其他數(shù)據(jù)挖掘方法學,包括統(tǒng)計學數(shù)據(jù)挖掘、數(shù)據(jù)挖掘基礎、可視和聽覺數(shù)據(jù)挖掘,以及數(shù)據(jù)挖掘的應用。討論數(shù)據(jù)挖掘在金融數(shù)據(jù)分析、零售和電信產(chǎn)業(yè)、科學與工程,以及入侵檢測和預防方面的應用。該章還討論數(shù)據(jù)挖掘與推薦系統(tǒng)的聯(lián)系。由于數(shù)據(jù)挖掘出現(xiàn)在我們?nèi)粘I畹姆椒矫婷?,所以我們討論?shù)據(jù)挖掘與社會,包括無處不在和無形的數(shù)據(jù)挖掘,以及隱私、安全和數(shù)據(jù)挖掘對社會的影響。我們用考察數(shù)據(jù)挖掘的發(fā)展趨勢結束本書。    書中楷體字用于強調(diào)定義的術語,而黑體字用于突出主要思想。    本書與其他數(shù)據(jù)挖掘教材相比具有一些顯著特點:它廣泛、深入地討論了數(shù)據(jù)挖掘原理。各章盡可能是自包含的,使得讀者可以按自己感興趣的次序閱讀。高級章節(jié)提供了更大的視野,感興趣的讀者可以選讀。本書提供了數(shù)據(jù)挖掘的所有主要方法,還提供了關于多維OLAP分析等數(shù)據(jù)挖掘的重要主題,這些主題在其他書中常常被忽略或很少提及。本書還維護了一個網(wǎng)站,其中包含大量在線資源,為教師、學生和該領域的專業(yè)人員提供支持。這些將在下面介紹。致教師    本書旨在提供數(shù)據(jù)挖掘領域的一個廣泛而深入的概覽,可以作為高年級本科生或一年級研究生的數(shù)據(jù)挖掘導論。除了講稿、教師指南和閱讀材料列表等教學資源之外,本書網(wǎng)站(www.cs.uiuc.edu/~hanj/bk3或www.booksite.mkp.com/datamining3e)還提供了一個樣本課程安排。    根據(jù)授課學時、學生的背景和你的興趣,你可以選取章節(jié)的子集,以不同的順序進行講授。例如,如果你只打算給學生講授數(shù)據(jù)挖掘入門導論,可以按照圖P.1的建議。注意,根據(jù)需要,必要時可以省略其中某些節(jié)或某些小節(jié)。圖P.1 入門導論課程的建議章節(jié)序列    根據(jù)學時和講授范圍,你可以有選擇地把更多的章節(jié)增加到這個基本序列中。例如,對高級分類方法更感興趣的教師可以首先增加“第9章 分類:高級方法”;對模式挖掘更感興趣的教師可以選擇包括“第7章 高級模式挖掘”;而對OLAP和數(shù)據(jù)立方體技術感興趣的教師可以增加“第4章 數(shù)據(jù)倉庫與聯(lián)機分析處理”和“第5章 數(shù)據(jù)立方體技術”。    或者,你可以選擇在兩個學期的系列課程中講授整本書,包括本書的所有章節(jié),時間允許的話,加上圖和網(wǎng)絡挖掘這樣的高級課題。這些高級課題可以從本書網(wǎng)站提供的配套材料選擇,輔以挑選的研究論文。    本書的每一章都可以用做自學材料,或者用做數(shù)據(jù)庫系統(tǒng)、機器學習、模式識別和數(shù)據(jù)智能分析等相關課程的專題。    每章后面都有一些習題,適合作為家庭作業(yè)。這些習題或者是用于測驗對內(nèi)容的掌握情況的小問題,或者是需要分析思考的大問題,或者是實現(xiàn)設計。有些習題也可以用做研究討論課題。每章后面的文獻注釋可以用來查找包含正文中提供的概念和方法的來源、相關課題的深入討論和可能的擴展的研究文獻。致學生    我們希望本書將激發(fā)你對年青,但正在快速發(fā)展的數(shù)據(jù)挖掘領域的興趣。我們試圖以清晰的方式提供材料,仔細地解釋所涵蓋的主題。每一章后面都附有一個小結,總結要點。全書包含了許多圖和解釋,以便使本書更加有趣和便于閱讀。盡管本書是作為教材編寫的,但是我們也試圖把它組織成一本有用的參考書或手冊,以有助于你今后在數(shù)據(jù)挖掘方面進行深入研究和求職。    為閱讀本書,你需要知道什么?    你應當具有關于統(tǒng)計學、數(shù)據(jù)庫系統(tǒng)和機器學習的概念和術語方面的知識。然而,我們盡力提供這些基礎知識的足夠背景,以便在讀者對這些領域不太熟悉或者記憶有些淡忘時,也能夠理解本書的討論。    你應當具有一些程序設計經(jīng)驗。特別是你應當能夠閱讀偽代碼,能夠理解像多維數(shù)組這樣的簡單數(shù)據(jù)結構。致專業(yè)人員    本書旨在涵蓋數(shù)據(jù)挖掘領域的廣泛主題。因此,本書是關于該主題的一本優(yōu)秀手冊。由于每一章的編寫都盡可能獨立,所以讀者可以關注自己最感興趣的課題。希望學習數(shù)據(jù)挖掘關鍵思想的應用程序員和信息服務管理人員可以使用本書。對于有興趣使用數(shù)據(jù)挖掘技術解決其業(yè)務問題的銀行、保險、醫(yī)藥和零售業(yè)的數(shù)據(jù)分析人員,本書也是有用的。此外,本書也可以作為數(shù)據(jù)挖掘領域的全面綜述,有助于研究人員提升數(shù)據(jù)挖掘技巧,擴展數(shù)據(jù)挖掘的應用范圍。    本書所提供的技術和算法是實用的,介紹的算法適合于發(fā)現(xiàn)隱藏在大型、現(xiàn)實數(shù)據(jù)集中的模式和知識,而不是挑選在小型“玩具”數(shù)據(jù)庫上運行良好的算法。本書提供的每個算法都用偽代碼解釋。偽代碼類似于程序設計語言C,但也精心加以策劃,使得不熟悉C或C++的程序員易于理解。如果你想實現(xiàn)算法,你會發(fā)現(xiàn)將我們的偽代碼轉換成選定的程序設計語言程序是一項非常簡單的任務。本書資源網(wǎng)站    本書網(wǎng)站的地址是www.cs.uiuc.edu/~hanj/bk3,另一個是Morgan Kaufmann出版社的網(wǎng)站www.booksite.mkp.com/datamining3e。這些網(wǎng)站為本書的讀者和對數(shù)據(jù)挖掘感興趣的人提供了一些附加材料,資源包括:    每章的幻燈片。提供了用微軟的PowerPoint制作的每章教案。    高級數(shù)據(jù)挖掘的配套章節(jié)。本書第2版的第8~10章涵蓋了挖掘復雜的數(shù)據(jù)類型,這超出了本書的主題,對這些高級主題感興趣的讀者可從網(wǎng)站上獲取。    教師手冊。本書習題的完整答案通過出版社的網(wǎng)站只向教師提供。    課程提綱和教學計劃。使用本書和幻燈片用于數(shù)據(jù)挖掘導論課程和高級教程的本科生和研究生,可以獲取這些資源。    帶超鏈接的輔助閱讀文獻列表。補充讀物的原創(chuàng)性文章按章組織。    到數(shù)據(jù)挖掘數(shù)據(jù)集和軟件的鏈接。我們將提供到數(shù)據(jù)挖掘數(shù)據(jù)集和某些包含有趣的數(shù)據(jù)挖掘軟件包的站點的鏈接,如到伊利諾伊大學厄巴納-尚佩恩分校IlliMine的鏈接(http://illimine.cs.uiuc.edu)。    作業(yè)、考試和課程設計樣本。一組作業(yè)、考試和課程設計樣本將在出版社的網(wǎng)站上向教師提供。    本書的插圖。這可能有助于你制作自己的課堂教學幻燈片。    本書目錄。PDF格式。    本書不同印次的勘誤表。歡迎讀者指出本書中的錯誤。一旦錯誤被證實,我們將更新勘誤表,并對你的貢獻致謝。    評論或建議請發(fā)往hanj@cs.uiuc.edu。我們很高興聽到你的建議。

內(nèi)容概要

  本書完整全面地講述數(shù)據(jù)挖掘的概念、方法、技術和最新研究進展。本書對前兩版做了全面修訂,加強和重新組織了全書的技術內(nèi)容,重點論述了數(shù)據(jù)預處理、頻繁模式挖掘、分類和聚類等的內(nèi)容,還全面講述了OLAP和離群點檢測,并研討了挖掘網(wǎng)絡、復雜數(shù)據(jù)類型以及重要應用領域。
本書是數(shù)據(jù)挖掘和知識發(fā)現(xiàn)領域內(nèi)的所有教師、研究人員、開發(fā)人員和用戶都必讀的參考書,是一本適用于數(shù)據(jù)分析、數(shù)據(jù)挖掘和知識發(fā)現(xiàn)課程的優(yōu)秀教材,可以用做高年級本科生或者一年級研究生的數(shù)據(jù)挖掘導論教材。

作者簡介

  Jiawei
Han(韓家煒),是伊利諾伊大學厄巴納-尚佩恩分校計算機科學系的Bliss教授。他因知識發(fā)現(xiàn)和數(shù)據(jù)挖掘研究方面的貢獻而獲得許多獎勵,包括ACM
SIGKDD創(chuàng)新獎(2004)、IEEE計算機學會技術成就獎(2005)和IEEE W.Wallace
McDowell獎(2009)。他是ACM和IEEE會士。他還擔任《ACM Transactions on Knowledge
Discovery from Data》的執(zhí)行主編(2006—2011)和許多雜志的編委,包括《IEEE Transactions
on Knowledge and Data Engineering》和《Data Mining Knowledge
Discovery》。
  Micheline
Kamber,由加拿大魁北克蒙特利爾Concordia大學獲計算機科學(人工智能專業(yè))碩士學位。她曾是NSERC學者,作為研究者在McGill大學、西蒙-弗雷澤大學和瑞士工作。她的數(shù)據(jù)挖掘背景和以易于理解的形式寫作的熱情使得本書更受專業(yè)人員、教師和學生的歡迎。
  Jian Pei(裴?。?,現(xiàn)在是西蒙-弗雷澤大學計算機科學學院教授。他在Jiawei
Han的指導下,于2002年獲西蒙-弗雷澤大學計算科學博士學位。他在數(shù)據(jù)挖掘、數(shù)據(jù)庫、Web搜索和信息檢索的主要學術論壇發(fā)表了大量文章,并積極服務于學術團體。他的文章被引用數(shù)千次,并獲多次榮譽獎。他是多種數(shù)據(jù)挖掘和數(shù)據(jù)分析雜志的助理編輯。

書籍目錄

出版者的話
中文版序
譯者序
譯者簡介
第3版序
第2版序
前言
致謝
作者簡介
第1章 引論
1.1 為什么進行數(shù)據(jù)挖掘
1.1.1 邁向信息時代
1.1.2 數(shù)據(jù)挖掘是信息技術的進化
1.2 什么是數(shù)據(jù)挖掘
1.3 可以挖掘什么類型的數(shù)據(jù)
1.3.1 數(shù)據(jù)庫數(shù)據(jù)
1.3.2 數(shù)據(jù)倉庫
1.3.3 事務數(shù)據(jù)
1.3.4 其他類型的數(shù)據(jù)
1.4 可以挖掘什么類型的模式
1.4.1 類/概念描述:特征化與區(qū)分
1.4.2 挖掘頻繁模式、關聯(lián)和相關性
1.4.3 用于預測分析的分類與回歸
1.4.4 聚類分析
1.4.5 離群點分析
1.4.6 所有模式都是有趣的嗎
1.5 使用什么技術
1.5.1 統(tǒng)計學
1.5.2 機器學習
1.5.3 數(shù)據(jù)庫系統(tǒng)與數(shù)據(jù)倉庫
1.5.4 信息檢索
1.6 面向什么類型的應用
1.6.1 商務智能
1.6.2 Web搜索引擎
1.7 數(shù)據(jù)挖掘的主要問題
1.7.1 挖掘方法
1.7.2 用戶界面
1.7.3 有效性和可伸縮性
1.7.4 數(shù)據(jù)庫類型的多樣性
1.7.5 數(shù)據(jù)挖掘與社會
1.8 小結
1.9 習題
1.10 文獻注釋
第2章 認識數(shù)據(jù)
2.1 數(shù)據(jù)對象與屬性類型
2.1.1 什么是屬性
2.1.2 標稱屬性
2.1.3 二元屬性
2.1.4 序數(shù)屬性
2.1.5 數(shù)值屬性
2.1.6 離散屬性與連續(xù)屬性
2.2 數(shù)據(jù)的基本統(tǒng)計描述
2.2.1 中心趨勢度量:均值、中位數(shù)和眾數(shù)
2.2.2 度量數(shù)據(jù)散布:極差、四分位數(shù)、方差、標準差和四分位數(shù)極差
2.2.3 數(shù)據(jù)的基本統(tǒng)計描述的圖形顯示
2.3 數(shù)據(jù)可視化
2.3.1 基于像素的可視化技術
2.3.2 幾何投影可視化技術
2.3.3 基于圖符的可視化技術
2.3.4 層次可視化技術
2.3.5 可視化復雜對象和關系
2.4 度量數(shù)據(jù)的相似性和相異性
2.4.1 數(shù)據(jù)矩陣與相異性矩陣
2.4.2 標稱屬性的鄰近性度量
2.4.3 二元屬性的鄰近性度量
2.4.4 數(shù)值屬性的相異性:閔可夫斯基距離
2.4.5 序數(shù)屬性的鄰近性度量
2.4.6 混合類型屬性的相異性
2.4.7 余弦相似性
2.5 小結
2.6 習題
2.7 文獻注釋
第3章 數(shù)據(jù)預處理
3.1 數(shù)據(jù)預處理:概述
3.1.1 數(shù)據(jù)質量:為什么要對數(shù)據(jù)預處理
3.1.2 數(shù)據(jù)預處理的主要任務
3.2 數(shù)據(jù)清理
3.2.1 缺失值
3.2.2 噪聲數(shù)據(jù)
3.2.3 數(shù)據(jù)清理作為一個過程
3.3 數(shù)據(jù)集成
3.3.1 實體識別問題
3.3.2 冗余和相關分析
3.3.3 元組重復
3.3.4 數(shù)據(jù)值沖突的檢測與處理
3.4 數(shù)據(jù)歸約
3.4.1 數(shù)據(jù)歸約策略概述
3.4.2 小波變換
3.4.3 主成分分析
3.4.4 屬性子集選擇
3.4.5 回歸和對數(shù)線性模型:參數(shù)化數(shù)據(jù)歸約
3.4.6 直方圖
3.4.7 聚類
3.4.8 抽樣
3.4.9 數(shù)據(jù)立方體聚集
3.5 數(shù)據(jù)變換與數(shù)據(jù)離散化
3.5.1 數(shù)據(jù)變換策略概述
3.5.2 通過規(guī)范化變換數(shù)據(jù)
3.5.3 通過分箱離散化
3.5.4 通過直方圖分析離散化
3.5.5 通過聚類、決策樹和相關分析離散化
3.5.6 標稱數(shù)據(jù)的概念分層產(chǎn)生
3.6 小結
3.7 習題
3.8 文獻注釋
第4章 數(shù)據(jù)倉庫與聯(lián)機分析處理
4.1 數(shù)據(jù)倉庫:基本概念
4.1.1 什么是數(shù)據(jù)倉庫
4.1.2 操作數(shù)據(jù)庫系統(tǒng)與數(shù)據(jù)倉庫的區(qū)別
4.1.3 為什么需要分離的數(shù)據(jù)倉庫
4.1.4 數(shù)據(jù)倉庫:一種多層體系結構
4.1.5 數(shù)據(jù)倉庫模型:企業(yè)倉庫、數(shù)據(jù)集市和虛擬倉庫
4.1.6 數(shù)據(jù)提取、變換和裝入
4.1.7 元數(shù)據(jù)庫
4.2 數(shù)據(jù)倉庫建模:數(shù)據(jù)立方體與OLAP
4.2.1 數(shù)據(jù)立方體:一種多維數(shù)據(jù)模型
4.2.2 星形、雪花形和事實星座:多維數(shù)據(jù)模型的模式
4.2.3 維:概念分層的作用
4.2.4 度量的分類和計算
4.2.5 典型的OLAP操作
4.2.6 查詢多維數(shù)據(jù)庫的星網(wǎng)查詢模型
4.3 數(shù)據(jù)倉庫的設計與使用
4.3.1 數(shù)據(jù)倉庫的設計的商務分析框架
4.3.2 數(shù)據(jù)倉庫的設計過程
4.3.3 數(shù)據(jù)倉庫用于信息處理
4.3.4 從聯(lián)機分析處理到多維數(shù)據(jù)挖掘
4.4 數(shù)據(jù)倉庫的實現(xiàn)
4.4.1 數(shù)據(jù)立方體的有效計算:概述
4.4.2 索引OLAP數(shù)據(jù):位圖索引和連接索引
4.4.3 OLAP查詢的有效處理
4.4.4 OLAP服務器結構:ROLAP、MOLAP、HOLAP的比較
4.5 數(shù)據(jù)泛化:面向屬性的歸納
4.5.1 數(shù)據(jù)特征的面向屬性的歸納
4.5.2 面向屬性歸納的有效實現(xiàn)
4.5.3 類比較的面向屬性歸納
4.6 小結
4.7 習題
4.8 文獻注釋
第5章 數(shù)據(jù)立方體技術
5.1 數(shù)據(jù)立方體計算:基本概念
5.1.1 立方體物化:完全立方體、冰山立方體、閉立方體和立方體外殼
5.1.2 數(shù)據(jù)立方體計算的一般策略
5.2 數(shù)據(jù)立方體計算方法
5.2.1 完全立方體計算的多路數(shù)組聚集
5.2.2 BUC:從頂點方體向下計算冰山立方體
5.2.3 Star-Cubing:使用動態(tài)星樹結構計算冰山立方體
5.2.4 為快速高維OLAP預計算殼片段
5.3 使用探索立方體技術處理高級查詢
5.3.1 抽樣立方體:樣本數(shù)據(jù)上基于OLAP的挖掘
5.3.2 排序立方體:top-k查詢的有效計算
5.4 數(shù)據(jù)立方體空間的多維數(shù)據(jù)分析
5.4.1 預測立方體:立方體空間的預測挖掘
5.4.2 多特征立方體:多粒度上的復雜聚集
5.4.3 基于異常的、發(fā)現(xiàn)驅動的立方體空間探查
5.5 小結
5.6 習題
5.7 文獻注釋
第6章 挖掘頻繁模式、關聯(lián)和相關性:基本概念和方法
6.1 基本概念
6.1.1 購物籃分析:一個誘發(fā)例子
6.1.2 頻繁項集、閉項集和關聯(lián)規(guī)則
6.2 頻繁項集挖掘方法
6.2.1 Apriori算法:通過限制候選產(chǎn)生發(fā)現(xiàn)頻繁項集
6.2.2 由頻繁項集產(chǎn)生關聯(lián)規(guī)則
6.2.3 提高Apriori算法的效率
6.2.4 挖掘頻繁項集的模式增長方法
6.2.5 使用垂直數(shù)據(jù)格式挖掘頻繁項集
6.2.6 挖掘閉模式和極大模式
6.3 哪些模式是有趣的:模式評估方法
6.3.1 強規(guī)則不一定是有趣的
6.3.2 從關聯(lián)分析到相關分析
6.3.3 模式評估度量比較
6.4 小結
6.5 習題
6.6 文獻注釋
第7章 高級模式挖掘
7.1 模式挖掘:一個路線圖
7.2 多層、多維空間中的模式挖掘
7.2.1 挖掘多層關聯(lián)規(guī)則
7.2.2 挖掘多維關聯(lián)規(guī)則
7.2.3 挖掘量化關聯(lián)規(guī)則
7.2.4 挖掘稀有模式和負模式
7.3 基于約束的頻繁模式挖掘
7.3.1 關聯(lián)規(guī)則的元規(guī)則制導挖掘
7.3.2 基于約束的模式產(chǎn)生:模式空間剪枝和數(shù)據(jù)空間剪枝
7.4 挖掘高維數(shù)據(jù)和巨型模式
7.5 挖掘壓縮或近似模式
7.5.1 通過模式聚類挖掘壓縮模式
7.5.2 提取感知冗余的top-k模式
7.6 模式探索與應用
7.6.1 頻繁模式的語義注解
7.6.2 模式挖掘的應用
7.7 小結
7.8 習題
7.9 文獻注釋
第8章 分類:基本概念
8.1 基本概念
8.1.1 什么是分類
8.1.2 分類的一般方法
8.2 決策樹歸納
8.2.1 決策樹歸納
8.2.2 屬性選擇度量
8.2.3 樹剪枝
8.2.4 可伸縮性與決策樹歸納
8.2.5 決策樹歸納的可視化挖掘
8.3 貝葉斯分類方法
8.3.1 貝葉斯定理
8.3.2 樸素貝葉斯分類
8.4 基于規(guī)則的分類
8.4.1 使用IF-THEN規(guī)則分類
8.4.2 由決策樹提取規(guī)則
8.4.3 使用順序覆蓋算法的規(guī)則歸納
8.5 模型評估與選擇
8.5.1 評估分類器性能的度量
8.5.2 保持方法和隨機二次抽樣
8.5.3 交叉驗證
8.5.4 自助法
8.5.5 使用統(tǒng)計顯著性檢驗選擇模型
8.5.6 基于成本效益和ROC曲線比較分類器
8.6 提高分類準確率的技術
8.6.1 組合分類方法簡介
8.6.2 裝袋
8.6.3 提升和AdaBoost
8.6.4 隨機森林
8.6.5 提高類不平衡數(shù)據(jù)的分類準確率
8.7 小結
8.8 習題
8.9 文獻注釋
第9章 分類:高級方法
9.1 貝葉斯信念網(wǎng)絡
9.1.1 概念和機制
9.1.2 訓練貝葉斯信念網(wǎng)絡
9.2 用后向傳播分類
9.2.1 多層前饋神經(jīng)網(wǎng)絡
9.2.2 定義網(wǎng)絡拓撲
9.2.3 后向傳播
9.2.4 黑盒內(nèi)部:后向傳播和可解釋性
9.3 支持向量機
9.3.1 數(shù)據(jù)線性可分的情況
9.3.2 數(shù)據(jù)非線性可分的情況
9.4 使用頻繁模式分類
9.4.1 關聯(lián)分類
9.4.2 基于有區(qū)別力的頻繁模式分類
9.5 惰性學習法(或從近鄰學習)
9.5.1 k-最近鄰分類
9.5.2 基于案例的推理
9.6 其他分類方法
9.6.1 遺傳算法
9.6.2 粗糙集方法
9.6.3 模糊集方法
9.7 關于分類的其他問題
9.7.1 多類分類
9.7.2 半監(jiān)督分類
9.7.3 主動學習
9.7.4 遷移學習
9.8 小結
9.9 習題
9.10 文獻注釋
第10章 聚類分析:基本概念和方法
10.1 聚類分析
10.1.1 什么是聚類分析
10.1.2 對聚類分析的要求
10.1.3 基本聚類方法概述
10.2 劃分方法
10.2.1 k-均值:一種基于形心的技術
10.2.2 k-中心點:一種基于代表對象的技術
10.3 層次方法
10.3.1 凝聚的與分裂的層次聚類
10.3.2 算法方法的距離度量
10.3.3 BIRCH:使用聚類特征樹的多階段聚類
10.3.4 Chameleon:使用動態(tài)建模的多階段層次聚類
10.3.5 概率層次聚類
10.4 基于密度的方法
10.4.1 DBSCAN:一種基于高密度連通區(qū)域的基于密度的聚類
10.4.2 OPTICS:通過點排序識別聚類結構
10.4.3 DENCLUE:基于密度分布函數(shù)的聚類
10.5 基于網(wǎng)格的方法
10.5.1 STING:統(tǒng)計信息網(wǎng)格
10.5.2 CLIQUE:一種類似于Apriori的子空間聚類方法
10.6 聚類評估
10.6.1 估計聚類趨勢
10.6.2 確定簇數(shù)
10.6.3 測定聚類質量
10.7 小結
10.8 習題
10.9 文獻注釋
第11章 高級聚類分析
11.1 基于概率模型的聚類
11.1.1 模糊簇
11.1.2 基于概率模型的聚類
11.1.3 期望最大化算法
11.2 聚類高維數(shù)據(jù)
11.2.1 聚類高維數(shù)據(jù):問題、挑戰(zhàn)和主要方法
11.2.2 子空間聚類方法
11.2.3 雙聚類
11.2.4 維歸約方法和譜聚類
11.3 聚類圖和網(wǎng)絡數(shù)據(jù)
11.3.1 應用與挑戰(zhàn)
11.3.2 相似性度量
11.3.3 圖聚類方法
11.4 具有約束的聚類
11.4.1 約束的分類
11.4.2 具有約束的聚類方法
11.5 小結
11.6 習題
11.7 文獻注釋
第12章 離群點檢測
12.1 離群點和離群點分析
12.1.1 什么是離群點
12.1.2 離群點的類型
12.1.3 離群點檢測的挑戰(zhàn)
12.2 離群點檢測方法
12.2.1 監(jiān)督、半監(jiān)督和無監(jiān)督方法
12.2.2 統(tǒng)計方法、基于鄰近性的方法和基于聚類的方法
12.3 統(tǒng)計學方法
12.3.1 參數(shù)方法
12.3.2 非參數(shù)方法
12.4 基于鄰近性的方法
12.4.1 基于距離的離群點檢測和嵌套循環(huán)方法
12.4.2 基于網(wǎng)格的方法
12.4.3 基于密度的離群點檢測
12.5 基于聚類的方法
12.6 基于分類的方法
12.7 挖掘情境離群點和集體離群點
12.7.1 把情境離群點檢測轉換成傳統(tǒng)的離群點檢測
12.7.2 關于情境對正常行為建模
12.7.3 挖掘集體離群點
12.8 高維數(shù)據(jù)中的離群點檢測
12.8.1 擴充的傳統(tǒng)離群點檢測
12.8.2 發(fā)現(xiàn)子空間中的離群點
12.8.3 高維離群點建模
12.9 小結
12.10 習題
12.11 文獻注釋
第13章 數(shù)據(jù)挖掘的發(fā)展趨勢和研究前沿
13.1 挖掘復雜的數(shù)據(jù)類型
13.1.1 挖掘序列數(shù)據(jù):時間序列、符號序列和生物學序列
13.1.2 挖掘圖和網(wǎng)絡
13.1.3 挖掘其他類型的數(shù)據(jù)
13.2 數(shù)據(jù)挖掘的其他方法
13.2.1 統(tǒng)計學數(shù)據(jù)挖掘
13.2.2 關于數(shù)據(jù)挖掘基礎的觀點
13.2.3 可視和聽覺數(shù)據(jù)挖掘
13.3 數(shù)據(jù)挖掘應用
13.3.1 金融數(shù)據(jù)分析的數(shù)據(jù)挖掘
13.3.2 零售和電信業(yè)的數(shù)據(jù)挖掘
13.3.3 科學與工程數(shù)據(jù)挖掘
13.3.4 入侵檢測和預防數(shù)據(jù)挖掘
13.3.5 數(shù)據(jù)挖掘與推薦系統(tǒng)
13.4 數(shù)據(jù)挖掘與社會
13.4.1 普適的和無形的數(shù)據(jù)挖掘
13.4.2 數(shù)據(jù)挖掘的隱私、安全和社會影響
13.5 數(shù)據(jù)挖掘的發(fā)展趨勢
13.6 小結
13.7 習題
13.8 文獻注釋
參考文獻
索引

章節(jié)摘錄

版權頁:   插圖:   第二種技術稱做廣義關系閾值控制,為廣義關系設置一個閾值。如果廣義關系中不同元組的個數(shù)超過該閾值,則應當進行進一步泛化;否則,不再進一步泛化。這樣的閾值也可以在數(shù)據(jù)挖掘系統(tǒng)中提供(通常取值范圍為10~30),或者由專家或用戶設置,并且允許調(diào)整。例如,如果用戶感到廣義關系太小,則他可以加大該閾值;這意味著下鉆。否則,為進一步泛化關系,他可以減小該閾值;這意味著上卷。 這兩種技術可以順序使用:首先使用屬性泛化閾值控制技術泛化每個屬性,然后使用關系閾值控制進一步壓縮廣義關系。無論使用哪種泛化控制技術,都應當允許用戶調(diào)整泛化閾值,以便得到有趣的概念描述。 在許多面向數(shù)據(jù)庫的歸納過程中,用戶感興趣的是在不同的抽象層得到數(shù)據(jù)的量化信息或統(tǒng)計信息。因此,在歸納過程中收集計數(shù)和其他聚集值是非常重要的。從概念上講,這可以通過采用如下辦法來實現(xiàn)。聚集函數(shù)count()與每個數(shù)據(jù)庫元組相關聯(lián)。對于初始工作關系的每個元組,它的值被初始化為1。通過刪除屬性和屬性泛化,初始關系中的元組可能被泛化,導致相同的元組分組。在這種情況下,形成一個組的所有相等元組應當合并成一個元組。

編輯推薦

  ·數(shù)據(jù)挖掘領域最具里程碑意義的經(jīng)典著作  ·完整全面闡述該領域的重要知識和技術創(chuàng)新海報:

圖書封面

圖書標簽Tags

評論、評分、閱讀與下載


    數(shù)據(jù)挖掘 PDF格式下載


用戶評論 (總計95條)

 
 

  •   本書完整全面地講述數(shù)據(jù)挖掘的概念、方法、技術和最新研究進展。本書對前兩版做了全面修訂,加強和重新組織了全書的技術內(nèi)容,重點論述了數(shù)據(jù)預處理、頻繁模式挖掘、分類和聚類等的內(nèi)容,還全面講述了OLAP和離群點檢測,并研討了挖掘網(wǎng)絡、復雜數(shù)據(jù)類型以及重要應用領域。
  •   如果你是研究數(shù)據(jù)挖掘方面的,這書就能給你很大的益處,我老公看過后覺得專業(yè)領域有了很大的領悟!推薦一下!
  •   看完大數(shù)據(jù)之后的延伸閱讀,剛看了幾十頁,還感覺不算太深奧,不過不知道數(shù)據(jù)挖掘究竟是屬于IT技術類還是屬于研究方法類,如果是屬于前者,對于我們這些讀經(jīng)管的人來說,或許太難,也或許“誤入歧途”?有點擔心自己走火入魔了,這個領域,適合非IT人士我們深入嗎?
  •   數(shù)據(jù)挖掘領域的經(jīng)典著作,值得仔細研讀。
  •   一般此書適合從事數(shù)據(jù)挖掘專業(yè)的相關人士閱讀,要有一定的概率論與數(shù)理統(tǒng)計基礎,大部分的讀者都應該是計算機專業(yè)或是數(shù)學專業(yè),經(jīng)濟類的讀起來可能稍微有些困難
  •   對于學習數(shù)據(jù)挖掘技術的學習很有指導意義,不錯會好好研讀的。
  •   最近需要學習數(shù)據(jù)挖掘方面的知識,這本看來是最權威的著作了。剛開始看,內(nèi)容很扎實,值得好好學。
  •   非常好,數(shù)據(jù)挖掘概念和技術都講的非常好。
  •   數(shù)據(jù)挖掘領域的經(jīng)典書籍
  •   相較于英語教材,簡練。相較于中文其他教材,講解詳細全面。難度較大,結合網(wǎng)絡視頻,可以全面學習數(shù)據(jù)挖掘,是一個很好的教材輔導書。
  •   看了本書的第2版的電子版,果斷出手買了!數(shù)據(jù)挖掘的經(jīng)典書籍,華章近年來出版的書籍質量很高??!
  •   數(shù)據(jù)挖掘這本書講的很詳細。這是最新版的,里面的內(nèi)容知識點什么的都很好,作為了解數(shù)據(jù)挖掘知識來說,是個不錯的選擇啊。書的質量也很好哦
  •   的確是相當經(jīng)典的一本書。數(shù)據(jù)挖掘的同學必讀哈
  •   近來繼續(xù)學習數(shù)據(jù)挖掘,一直擔心抽象看不懂。但這本書的概念很清晰,例子也很容易懂,很好的教材。
  •   非常好的一本數(shù)據(jù)挖掘經(jīng)典著作!
  •   本書實例很多,沒有過多的討論數(shù)學內(nèi)容,好書!希望能用好點的紙,太薄了!
  •   經(jīng)典教材,好書,寫的真不錯,非常滿意
  •   經(jīng)典教材,值得品味!
  •   經(jīng)典教材,慢慢學習
  •   這本書絕對是經(jīng)典,送貨也很快!
  •   經(jīng)典 也很容易讀懂
  •   據(jù)說是個經(jīng)典!抓緊讀呀
  •   做數(shù)據(jù)庫性能優(yōu)化的可以看看、
  •   包裝不錯,內(nèi)容也不錯,同學很推薦,據(jù)說是經(jīng)典
  •   很經(jīng)典,內(nèi)容不錯
  •   內(nèi)容很好,適合我,研究中
  •   方法獨特,提供了有效的方法論,適合市場人士作為專業(yè)進階書精細閱讀!
  •   非常經(jīng)典的書,幫了我不少的忙。值得大家深入學習。
  •   很經(jīng)典的書,可以看看!
  •   是正版書,經(jīng)典書,要好好看!
  •   這本書不錯,第一次送來時書脊斷了,申請換貨,把理由寫上就給我換了。
  •   很難的知識啊
  •   主要也是為了擴展一下思路,沒法在專業(yè)角度評價
  •   軟件工程的專業(yè)課,內(nèi)容詳實,值得一讀!
  •   速度快,第二天就到了,還有發(fā)票。
    淘寶天貓?zhí)?*了,老子買兩本書只給我發(fā)一本還不開發(fā)票
  •   書很專業(yè),很不錯
  •   確實是經(jīng)典,我只能說我學到了很多東西。
  •   經(jīng)典中的經(jīng)典呀,強烈推薦,徐徐漸進,紙張很好。
  •   很不錯 很經(jīng)典的書籍 推薦學習
  •   經(jīng)典中的經(jīng)典,很扎實的基礎。
  •   經(jīng)典好書,值得看看啦
  •   不錯,很喜歡,很經(jīng)典的書本
  •   和其他網(wǎng)商比較,當當?shù)臅€是比較便宜的。經(jīng)典的經(jīng)典。
  •   教材書,適合初學者看。
  •   很好,書是正版,不過書還沒看,,是教材來的
  •   書很好,上課的教材用的。
  •   很好很深奧,需要慢慢研究。
  •   講的有點深,自己數(shù)學基礎有點薄弱,還在研究
  •   有幫助 里面的理論及公式很有用 正在研究
  •   值得好好研究研究~
  •   即適合初學者也適合想要有所研究的人,寫的不錯,很詳盡,用問題的方式引導你去和作者一起思考
  •   正在看 很詳細 值得深入研究
  •   很好的一本書。推薦購買。對工作幫助很大,謝謝。
  •   剛剛拿到書,讀完再評吧。
  •   挺好的書,仔細讀
  •   書的內(nèi)容和包裝都挺好,就是學習起來的難度有點大。
  •   還沒有具體看,但是書給人的感覺還是不錯的,不過內(nèi)容應該也還可以的,是老師推薦的呢
  •   書內(nèi)容不怎么仔細看,看了目錄及各章介紹,應該不錯!郁悶的是剛買下書就降價了,當當怎么控制的價格???
  •   內(nèi)容很好,書的印刷也很好
  •   非常好的服務,下次還買!
  •   非常好,沒得說,專業(yè)大作。
  •   不錯的書,只是書最後幾頁紙有損壞,但不影響閱讀。
  •   寫得非常的實用,作為教材非常好。
  •   學校的教材用書,屬于入門級的圖書。含有基本的算法。
  •   將深奧的理論以通俗的語言作出闡述,可見作者和譯者功力了得,寫的不錯,譯的也行。
  •   活動的時候買的額,好劃算的說,第三版的最新喲
  •   內(nèi)容歸納的很好,很基礎,適合自學。
  •   內(nèi)容清楚條理
  •   書本質量不錯,內(nèi)容還沒看,希望有幫助!
  •   內(nèi)容挺好的,但是,翻譯垃圾死!剛看你了幾頁就發(fā)現(xiàn)翻譯的實在是太爛了:什么叫做"'胡須'擴展到它們"?什么叫做"文檔中集中的'主要主要'"?短短幾頁,這么多問題,我只能說買虧了.
  •   原版書是好書,可惜翻譯太差,技術類書的翻譯們能有點職業(yè)道德有點責任感嗎,中國人真想搞技術的人已經(jīng)越來越少了。
  •   內(nèi)容全面,總結較好,但是翻譯不好,語句比較啰嗦。
  •   數(shù)據(jù)挖掘領域的第一部經(jīng)典,可翻譯有些地方不盡如人意
  •   里面涉及很多的統(tǒng)計學的專業(yè)定義,公式等,一般人看不懂
  •   經(jīng)典書籍,就是翻譯的不是很好
  •   書的翻譯比較一般,好多看上去就感覺硬梆梆的?。?/li>
  •   這本書還是不錯的,很多學校用作教材,起點也比較低,適合入門,能對數(shù)據(jù)挖掘有較為廣泛的了解。
  •   好書,翻譯一般,建議看原版,如果要深入挖掘還要看別的,這本書就是入門
  •   這個一定要支持!學習數(shù)據(jù)挖掘必備啊!
  •   數(shù)據(jù)挖掘:概念與技術(原書第3版) 感覺還挺不錯
  •   讀研究生讓買的教材。
  •   全面而翔實的了解該領域的技術!
  •   因為是教材所以就買了,應該還不錯吧,老師推薦的
  •   這本書里面的內(nèi)容都比較新,適合現(xiàn)在的節(jié)奏
  •   書是不錯,但是很多內(nèi)容比較難懂,正在學習中
  •   暫時沒有看,但是黑皮書系列應該都不錯啦~
  •   研究生教材,可惜翻譯得太爛,繁瑣,總之看得一頭霧水,概念闡述的雜亂,公式混亂,看完了還不知道什么意思,例子也不通俗易懂。
  •   書完好,沒破損的,適合當教材,挺喜歡
  •   上課用的這個書當課本,內(nèi)容全面清晰,自己買到看了看,很好?。。〗?jīng)典教材
  •   發(fā)貨速度快,確定正版書。
  •   好書。書紙張好,當然內(nèi)容更重要,也很好!
  •   數(shù)據(jù)挖掘:概念與技術(原書第3版)
  •   主流技術
  •   書很全面,看起來很牛X的樣子
  •   補發(fā)評價
 

250萬本中文圖書簡介、評論、評分,PDF格式免費下載。 第一圖書網(wǎng) 手機版

京ICP備13047387號-7