出版時間:2006-4 出版社:機械工業(yè)出版社 作者:Jiawei Han 頁數(shù):770
Tag標(biāo)簽:無
前言
We are deluged by data——scientific data, medical data, demographic data, financial data, and marketing data. People have no time to look at this data. Human attention has become the precious resource. So, we must find ways to automatically analyze the data, to automatically classify it, to automatically summarize it, to automatically discover and characterize trends in it, and to automatically flag anomalies. This is one of the most active and exciting areas of the database research community. Researchers in areas includ- ing statistics, vis..
內(nèi)容概要
我們產(chǎn)生和收集數(shù)據(jù)的能力正在快速增長。除了大多數(shù)商業(yè)、科學(xué)和政府事務(wù)的日益計算機化會產(chǎn)生數(shù)據(jù)之外,數(shù)碼相機、發(fā)布工具和條碼的廣泛應(yīng)用也會產(chǎn)生數(shù)據(jù)。在數(shù)據(jù)收集方面,掃描的文體和圖像平臺、衛(wèi)星遙感系統(tǒng)和國際互聯(lián)網(wǎng)已經(jīng)使我們的生活被巨大的數(shù)據(jù)量所包圍。這種爆炸性的數(shù)據(jù)增長促使我們比以往更迫切地需要新技術(shù)和自動化工具來幫助我們將這些數(shù)據(jù)轉(zhuǎn)換為有用的信息和知識。 本書第1版曾被KDnuggets的讀者評選為最受歡迎的數(shù)據(jù)挖掘?qū)V?,是一本可讀性極佳的教材。它從數(shù)據(jù)庫角度全面系統(tǒng)地介紹了數(shù)據(jù)挖掘的基本概念、基本方法和基本技術(shù)以及數(shù)據(jù)挖掘的技術(shù)研究進展,重點關(guān)注其可行性、有用性、有效性和可伸縮性問題。但是,自第1版出版之后,數(shù)據(jù)挖掘領(lǐng)域的研究又取得了很大的進展,開發(fā)出了新的數(shù)據(jù)挖掘方法、系統(tǒng)和應(yīng)用。第2版在這一方面進行了加強,增加了多個章節(jié)講述最新的數(shù)據(jù)挖掘方法,以便能夠挖掘出復(fù)雜類型的數(shù)據(jù),包括流數(shù)據(jù)、序列數(shù)據(jù)、圖結(jié)構(gòu)數(shù)據(jù)、社群網(wǎng)絡(luò)數(shù)據(jù)和多重關(guān)系數(shù)據(jù)。 本書適合作為高等院校計算及相關(guān)專業(yè)高年級本科生的選修課教材,特別適合作為研究生的專業(yè)課教材,同時也可供從事數(shù)數(shù)據(jù)挖掘研究和應(yīng)用開發(fā)工作的相關(guān)人員作為必備的參考書。 本書主要特點是:全面實用地論述了從實際業(yè)務(wù)數(shù)據(jù)中抽取出的讀者需要知道的概念和技術(shù)。更新并結(jié)合了來自讀者的反饋、數(shù)據(jù)挖掘領(lǐng)域的技術(shù)變化以及統(tǒng)計和機器學(xué)習(xí)方面的更多資料。包含了許多算法和實際示例,全部以易于理解的偽代碼編寫,適用于實際的大規(guī)模數(shù)據(jù)挖掘項目。
作者簡介
韓家煒,伊利諾伊大學(xué)厄巴納一尚佩恩分校計算機科學(xué)系教授。由于在數(shù)據(jù)挖掘和數(shù)據(jù)庫系統(tǒng)領(lǐng)域卓有成效的研究工作,他曾多次獲得各種榮譽和獎勵,其中包括2004年ACM SIGKDD頒發(fā)的創(chuàng)新獎。同時,他還是《ACM Trarlsactiorls on Krlowledge Discovery fronl Data》雜志的主編,以
書籍目錄
Foreword vii Preface ix Chapter1 Introduction 1.1 What Motivated Data Mining? Why Is It Important? 1.2 So, What Is Data Mining? 1.3 Data Mining-On What Kind of Data? 1.3.1 Relational Databases 1.3.2 Data Warehouses 1.3.3 TransactionalDatabases 1.3.4 Advanced Data and Information Systems and Advanced Applications 1.4 Data Mining Functionalities---What Kinds of Patterns Can Be Mined? 1.4.1 Concept/Class Description: Characterization and Discrimination 1.4.2 Mining Frequent Patterns, Associations, and Correlations 1.4.3 Classification and Prediction 24 1.4.4 Cluster Analysis 1.4.5 Outlier Analysis 26 1.4.6 Evolution Analysis 1.5 Are All of the Patterns Interesting? 1.6 Classification of Data Mining Systems 1.7 Data Mining Task Primitives 1.8 Integration of a Data Mining System with a Database or Data Warehouse System 1.9 Major Issues in Data Mining 1.10 Summary Exercises Bibliographic Notes Chapter2 Data Preprocessing 2.1 Why Preprocess the Data? 2.2 Descriptive Data Summarization 2.2.1 Measuring the Central Tendency 2.2.2 Measuring the Dispersion of Data 2.2.3 Graphic Displays of Basic Descriptive Data Summaries 2.3 Data Cleaning 2.3.1 Missing Values 2.3.2 Noisy Data 2.3.3 Data Cleaning as a Process 2.4 Data Integration and Transformation 2.4.1 Data Integration 2.4.2 Data Transformation 2.5 Data Reduction 2.5.1 Data Cube Aggregation 2.5.2 Attribute Subset Selection 2.5.3 DimensionalityReduction 2.5.4 Numerosity Reduction 2.6 Data Discretization and Concept Hierarchy Generation 2.6.1 Discretization and Concept Hierarchy Generation for Numerical Data 2.6.2 Concept Hierarchy Generation for Categorical Data 2.7 Summary 97 Exercises 97 Bibliographic Notes Chapter3 Data Warehouse and OLAP Technology: An Overview 3.1 What Is a Data Warehouse? 3.1.1 Differences between Operational Database Systems and Data Warehouses 3.1.2 But, Why Have a Separate Data Warehouse? 3.2 A Multidimensional Data Model 3.2.1 From Tables and Spreadsheets to Data Cubes 3.2.2 Stars, Snowflakes, and Fact Constellations: Schemas for Multidimensional Databases 3.2.3 Examples for Defining Star, Snowflake, and Fact Constellation Schemas……Chapter4 Data Cube Computation and Data GeneralizationChapter5 Mining Frequent Patterns, Associations, and CorrelationsChapter6 Classification adn PredidctionChapter7 Cluster AnalysisChapter8 Mining Stream, Time-Series, and Sepuence DataChapter9 Graph Mining, Social Network Analysis, and MultirelationalChapter10 Mining Object, Spatial, Multimedia, Test, and Wed DataChapter11 Applications and Trends in Data MiningAn Introduction to Microsoft's OLE DB forBibliographyIndex
媒體關(guān)注與評論
一本面向中高級讀者的數(shù)據(jù)挖掘好書- 評 《數(shù)據(jù)挖掘:概念與技術(shù)》左榮國rongguo.zuo@gmail.com近幾年來,隨著信息技術(shù)的飛速發(fā)展,計算機領(lǐng)域積累了大量的數(shù)據(jù)。從元數(shù)據(jù)的角度考慮,這些數(shù)據(jù)僅僅是數(shù)據(jù),數(shù)據(jù)產(chǎn)生后,后續(xù)對元數(shù)據(jù)的再次利用卻很少。長此下去,這些數(shù)據(jù)慢慢就會變成沒有用的垃圾數(shù)據(jù)。人們越來越認(rèn)識到這個問題的嚴(yán)重性,由此逐漸產(chǎn)生了知識發(fā)現(xiàn)技術(shù),也就是數(shù)據(jù)挖掘的前身。知識發(fā)現(xiàn)源自于人工智能的機器學(xué)習(xí)領(lǐng)域其實質(zhì)是在一個已知狀態(tài)的數(shù)據(jù)集上,通過設(shè)定一定的學(xué)習(xí)算法,從數(shù)據(jù)集中獲取所謂的知識。而與此同時數(shù)據(jù)庫技術(shù)也已經(jīng)發(fā)展到一定的階段,并得到了廣泛應(yīng)用,各個企業(yè)都已經(jīng)積累了無數(shù)的數(shù)據(jù)資源,迫切需要有一種技術(shù)能夠幫助他們從數(shù)據(jù)中發(fā)掘出其內(nèi)在的規(guī)律。數(shù)據(jù)挖掘技術(shù)正好能滿足這一需求,它實質(zhì)上就是知識發(fā)現(xiàn)技術(shù)在數(shù)據(jù)庫領(lǐng)域中的應(yīng)用,其主要應(yīng)用領(lǐng)域涵蓋了商務(wù)管理、生產(chǎn)管理、市場分析、工程設(shè)計和科學(xué)探索等。因此,可以說數(shù)據(jù)挖掘是一個從數(shù)據(jù)到知識的過程。談到學(xué)習(xí)數(shù)據(jù)挖掘,《數(shù)據(jù)挖掘:概念與技術(shù)》就是一本全面而深入地介紹數(shù)據(jù)挖掘?qū)嵱眉夹g(shù)的經(jīng)典教材。本書作者美籍華人韓家煒教授有著豐富的理論和實際經(jīng)驗。在本書中,他從數(shù)據(jù)庫的角度針對數(shù)據(jù)挖掘是什么、數(shù)據(jù)挖掘能解決什么問題、數(shù)據(jù)挖掘的關(guān)鍵問題和數(shù)據(jù)挖掘涉及的相關(guān)技術(shù)等問題做了深入的分析,由淺入深地把讀者引入數(shù)據(jù)挖掘這個未知領(lǐng)域。首先,數(shù)據(jù)挖掘是什么。書中指出,數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中提取或挖掘知識的過程。用通俗的語言說,數(shù)據(jù)挖掘就像淘金者從石頭或沙子中尋找金子的過程。另外一個非常重要的同時也在本書中進行了詳細(xì)說明的是數(shù)據(jù)挖掘的對象(也就是大量數(shù)據(jù))在什么地方?書中指出,數(shù)據(jù)挖掘主要針對關(guān)系型數(shù)據(jù)庫、數(shù)據(jù)倉庫、高級數(shù)據(jù)庫等。對于數(shù)據(jù)庫開發(fā)人員,這些都是已經(jīng)比較熟悉的領(lǐng)域了。而本書中的數(shù)據(jù)挖掘主要針對的是數(shù)據(jù)庫系統(tǒng)。其次,數(shù)據(jù)挖掘能解決什么問題。挖掘來的數(shù)據(jù)是用來解決企業(yè)中的問題的,否則挖掘就沒有任何意義了。書中指出,數(shù)據(jù)挖掘可以被用來進行市場分析和管理、風(fēng)險分析和管理、缺陷分析和管理等。具體來講,比如對大學(xué)里的學(xué)生課程數(shù)據(jù),可以用數(shù)據(jù)挖掘的方式來獲得學(xué)生姓名、地址、狀態(tài)和相關(guān)課程等信息及其相互關(guān)系。再次,數(shù)據(jù)挖掘的關(guān)鍵問題。本書從數(shù)據(jù)挖掘方法和用戶交互、數(shù)據(jù)挖掘的性能以及不同數(shù)據(jù)庫類型的數(shù)據(jù)挖掘等多角度出發(fā),把數(shù)據(jù)挖掘做了非常透徹的分解,并對分解后的問題逐一解決。第四方面,數(shù)據(jù)挖掘涉及的技術(shù)。對于數(shù)據(jù)挖掘涉及的OLAP和數(shù)據(jù)倉庫、數(shù)據(jù)清理、數(shù)據(jù)集成和變換、數(shù)據(jù)簡化、數(shù)據(jù)挖掘查詢語言、數(shù)據(jù)庫支持的數(shù)據(jù)挖掘規(guī)則、數(shù)據(jù)挖掘分類和預(yù)測、數(shù)據(jù)聚合方法、對多媒體數(shù)據(jù)庫和萬維網(wǎng)的數(shù)據(jù)庫挖掘方法等技術(shù),本書作者都從理論和實踐的角度做了深入的剖析,讓讀者不僅知其然,而且還知其所以然。數(shù)據(jù)挖掘是可以由多個層面來提供支持的,包括數(shù)據(jù)庫層面、應(yīng)用程序?qū)用娴?。?dāng)前,包括Oracle、IBM、Sybase和Microsoft等在內(nèi)的多家數(shù)據(jù)庫提供商都從數(shù)據(jù)庫層面提供了數(shù)據(jù)挖掘的支持。對于應(yīng)用層面講,包括SAS、SPSS、COGNOS等軟件在內(nèi)的應(yīng)用程序都對數(shù)據(jù)挖掘提供了很好的支持。本書從理論和實際相結(jié)合的角度出發(fā),在書中提供了大量的理論、模型、算法和實際的應(yīng)用例子,包括多維數(shù)據(jù)模型、三層數(shù)據(jù)倉庫架構(gòu)、數(shù)據(jù)立方體的實際查詢例子等。借助本書,讀者可以理論聯(lián)系實際,把數(shù)據(jù)挖掘的應(yīng)用提高一個層次。另外,書中提供了大量的例子、習(xí)題以及一些基本概念的比較。如數(shù)據(jù)庫與數(shù)據(jù)倉庫的區(qū)別、用于數(shù)據(jù)挖掘的OLAP與數(shù)據(jù)倉庫技術(shù)等。所以,即使您對數(shù)據(jù)庫比較陌生,也能根據(jù)本書內(nèi)容的安排,循序漸進地領(lǐng)悟到數(shù)據(jù)挖掘的真諦。同時,您可以根據(jù)書中提供的習(xí)題,檢驗自己對書中內(nèi)容的理解。“實踐是檢驗真理的唯一標(biāo)準(zhǔn)”,書中提供的例子在實際開發(fā)應(yīng)用中都會用到,讓您不會為了讀書而讀書。總之,該書圖文并茂,理論聯(lián)系實際,非常適合作為從事數(shù)據(jù)挖掘研究和應(yīng)用開發(fā)工作的相關(guān)人員的參考書,也特別適合作為高年級本科生和研究生的專業(yè)課教材。
編輯推薦
《數(shù)據(jù)挖掘概念與技術(shù)》(英文版)(第2版)適合作為高等院校計算機及相關(guān)專業(yè)高年級本科生的選修課教材,特別適合作為研究生的專業(yè)課教材,同時也可供從事數(shù)據(jù)挖掘研究和應(yīng)用開發(fā)工作的相關(guān)人員作為必備的參考書。本書更新和改進了原本已十分豐富和全面的第1版內(nèi)容,并增添了新的重要課題,例如挖掘流數(shù)據(jù)、挖掘社群網(wǎng)絡(luò)和挖掘空間、多媒體和其他復(fù)雜數(shù)據(jù)。本書將是一本適用于數(shù)據(jù)挖掘和知識發(fā)現(xiàn)課程的優(yōu)秀教材?! 。璆regory Piatetsky-Shapiro, KDnuggets的總裁 本書第2版最完整、最全面地講述了數(shù)據(jù)挖掘領(lǐng)域的重要知識和技術(shù)創(chuàng)新。相比內(nèi)容已經(jīng)相當(dāng)全面的第1版,第2版展示了該領(lǐng)域的最新研究成果,例如挖掘流、時序數(shù)據(jù)和序列數(shù)據(jù)以及挖掘空間、多媒體、文本和Web數(shù)據(jù)。本書是數(shù)據(jù)挖掘和知識發(fā)現(xiàn)領(lǐng)域內(nèi)所有教師、研究人員、開發(fā)人員和用戶都必讀的一本書?! 。璈ans-Peter Kriegel, 德國慕尼黑大學(xué) 我們產(chǎn)生和收集數(shù)據(jù)的能力正在快速增長。除了大多數(shù)商業(yè)、科學(xué)和政府事務(wù)的日益計算機化會產(chǎn)生數(shù)據(jù)之外,數(shù)碼相機、發(fā)布工具和條碼的廣泛應(yīng)用也會產(chǎn)生數(shù)據(jù)。在數(shù)據(jù)收集方面,掃描的文本和圖像平臺、衛(wèi)星遙感系統(tǒng)和國際互聯(lián)網(wǎng)已經(jīng)使我們的生活被巨大的數(shù)據(jù)量所包圍。這種爆炸性的數(shù)據(jù)增長促使我們比以往更加迫切地需要新技術(shù)和自動化工具來幫助我們將這些數(shù)據(jù)轉(zhuǎn)換為有用的信息和知識。
圖書封面
圖書標(biāo)簽Tags
無
評論、評分、閱讀與下載