出版時(shí)間:2006-4 出版社:機(jī)械工業(yè)出版社 作者:Jiawei Han 頁(yè)數(shù):770
Tag標(biāo)簽:無(wú)
前言
We are deluged by data——scientific data, medical data, demographic data, financial data, and marketing data. People have no time to look at this data. Human attention has become the precious resource. So, we must find ways to automatically analyze the data, to automatically classify it, to automatically summarize it, to automatically discover and characterize trends in it, and to automatically flag anomalies. This is one of the most active and exciting areas of the database research community. Researchers in areas includ- ing statistics, vis..
內(nèi)容概要
我們產(chǎn)生和收集數(shù)據(jù)的能力正在快速增長(zhǎng)。除了大多數(shù)商業(yè)、科學(xué)和政府事務(wù)的日益計(jì)算機(jī)化會(huì)產(chǎn)生數(shù)據(jù)之外,數(shù)碼相機(jī)、發(fā)布工具和條碼的廣泛應(yīng)用也會(huì)產(chǎn)生數(shù)據(jù)。在數(shù)據(jù)收集方面,掃描的文體和圖像平臺(tái)、衛(wèi)星遙感系統(tǒng)和國(guó)際互聯(lián)網(wǎng)已經(jīng)使我們的生活被巨大的數(shù)據(jù)量所包圍。這種爆炸性的數(shù)據(jù)增長(zhǎng)促使我們比以往更迫切地需要新技術(shù)和自動(dòng)化工具來(lái)幫助我們將這些數(shù)據(jù)轉(zhuǎn)換為有用的信息和知識(shí)。 本書第1版曾被KDnuggets的讀者評(píng)選為最受歡迎的數(shù)據(jù)挖掘?qū)V?,是一本可讀性極佳的教材。它從數(shù)據(jù)庫(kù)角度全面系統(tǒng)地介紹了數(shù)據(jù)挖掘的基本概念、基本方法和基本技術(shù)以及數(shù)據(jù)挖掘的技術(shù)研究進(jìn)展,重點(diǎn)關(guān)注其可行性、有用性、有效性和可伸縮性問(wèn)題。但是,自第1版出版之后,數(shù)據(jù)挖掘領(lǐng)域的研究又取得了很大的進(jìn)展,開發(fā)出了新的數(shù)據(jù)挖掘方法、系統(tǒng)和應(yīng)用。第2版在這一方面進(jìn)行了加強(qiáng),增加了多個(gè)章節(jié)講述最新的數(shù)據(jù)挖掘方法,以便能夠挖掘出復(fù)雜類型的數(shù)據(jù),包括流數(shù)據(jù)、序列數(shù)據(jù)、圖結(jié)構(gòu)數(shù)據(jù)、社群網(wǎng)絡(luò)數(shù)據(jù)和多重關(guān)系數(shù)據(jù)。 本書適合作為高等院校計(jì)算及相關(guān)專業(yè)高年級(jí)本科生的選修課教材,特別適合作為研究生的專業(yè)課教材,同時(shí)也可供從事數(shù)數(shù)據(jù)挖掘研究和應(yīng)用開發(fā)工作的相關(guān)人員作為必備的參考書。 本書主要特點(diǎn)是:全面實(shí)用地論述了從實(shí)際業(yè)務(wù)數(shù)據(jù)中抽取出的讀者需要知道的概念和技術(shù)。更新并結(jié)合了來(lái)自讀者的反饋、數(shù)據(jù)挖掘領(lǐng)域的技術(shù)變化以及統(tǒng)計(jì)和機(jī)器學(xué)習(xí)方面的更多資料。包含了許多算法和實(shí)際示例,全部以易于理解的偽代碼編寫,適用于實(shí)際的大規(guī)模數(shù)據(jù)挖掘項(xiàng)目。
作者簡(jiǎn)介
韓家煒,伊利諾伊大學(xué)厄巴納一尚佩恩分校計(jì)算機(jī)科學(xué)系教授。由于在數(shù)據(jù)挖掘和數(shù)據(jù)庫(kù)系統(tǒng)領(lǐng)域卓有成效的研究工作,他曾多次獲得各種榮譽(yù)和獎(jiǎng)勵(lì),其中包括2004年ACM SIGKDD頒發(fā)的創(chuàng)新獎(jiǎng)。同時(shí),他還是《ACM Trarlsactiorls on Krlowledge Discovery fronl Data》雜志的主編,以
書籍目錄
Foreword vii Preface ix Chapter1 Introduction 1.1 What Motivated Data Mining? Why Is It Important? 1.2 So, What Is Data Mining? 1.3 Data Mining-On What Kind of Data? 1.3.1 Relational Databases 1.3.2 Data Warehouses 1.3.3 TransactionalDatabases 1.3.4 Advanced Data and Information Systems and Advanced Applications 1.4 Data Mining Functionalities---What Kinds of Patterns Can Be Mined? 1.4.1 Concept/Class Description: Characterization and Discrimination 1.4.2 Mining Frequent Patterns, Associations, and Correlations 1.4.3 Classification and Prediction 24 1.4.4 Cluster Analysis 1.4.5 Outlier Analysis 26 1.4.6 Evolution Analysis 1.5 Are All of the Patterns Interesting? 1.6 Classification of Data Mining Systems 1.7 Data Mining Task Primitives 1.8 Integration of a Data Mining System with a Database or Data Warehouse System 1.9 Major Issues in Data Mining 1.10 Summary Exercises Bibliographic Notes Chapter2 Data Preprocessing 2.1 Why Preprocess the Data? 2.2 Descriptive Data Summarization 2.2.1 Measuring the Central Tendency 2.2.2 Measuring the Dispersion of Data 2.2.3 Graphic Displays of Basic Descriptive Data Summaries 2.3 Data Cleaning 2.3.1 Missing Values 2.3.2 Noisy Data 2.3.3 Data Cleaning as a Process 2.4 Data Integration and Transformation 2.4.1 Data Integration 2.4.2 Data Transformation 2.5 Data Reduction 2.5.1 Data Cube Aggregation 2.5.2 Attribute Subset Selection 2.5.3 DimensionalityReduction 2.5.4 Numerosity Reduction 2.6 Data Discretization and Concept Hierarchy Generation 2.6.1 Discretization and Concept Hierarchy Generation for Numerical Data 2.6.2 Concept Hierarchy Generation for Categorical Data 2.7 Summary 97 Exercises 97 Bibliographic Notes Chapter3 Data Warehouse and OLAP Technology: An Overview 3.1 What Is a Data Warehouse? 3.1.1 Differences between Operational Database Systems and Data Warehouses 3.1.2 But, Why Have a Separate Data Warehouse? 3.2 A Multidimensional Data Model 3.2.1 From Tables and Spreadsheets to Data Cubes 3.2.2 Stars, Snowflakes, and Fact Constellations: Schemas for Multidimensional Databases 3.2.3 Examples for Defining Star, Snowflake, and Fact Constellation Schemas……Chapter4 Data Cube Computation and Data GeneralizationChapter5 Mining Frequent Patterns, Associations, and CorrelationsChapter6 Classification adn PredidctionChapter7 Cluster AnalysisChapter8 Mining Stream, Time-Series, and Sepuence DataChapter9 Graph Mining, Social Network Analysis, and MultirelationalChapter10 Mining Object, Spatial, Multimedia, Test, and Wed DataChapter11 Applications and Trends in Data MiningAn Introduction to Microsoft's OLE DB forBibliographyIndex
媒體關(guān)注與評(píng)論
一本面向中高級(jí)讀者的數(shù)據(jù)挖掘好書- 評(píng) 《數(shù)據(jù)挖掘:概念與技術(shù)》左榮國(guó)rongguo.zuo@gmail.com近幾年來(lái),隨著信息技術(shù)的飛速發(fā)展,計(jì)算機(jī)領(lǐng)域積累了大量的數(shù)據(jù)。從元數(shù)據(jù)的角度考慮,這些數(shù)據(jù)僅僅是數(shù)據(jù),數(shù)據(jù)產(chǎn)生后,后續(xù)對(duì)元數(shù)據(jù)的再次利用卻很少。長(zhǎng)此下去,這些數(shù)據(jù)慢慢就會(huì)變成沒有用的垃圾數(shù)據(jù)。人們?cè)絹?lái)越認(rèn)識(shí)到這個(gè)問(wèn)題的嚴(yán)重性,由此逐漸產(chǎn)生了知識(shí)發(fā)現(xiàn)技術(shù),也就是數(shù)據(jù)挖掘的前身。知識(shí)發(fā)現(xiàn)源自于人工智能的機(jī)器學(xué)習(xí)領(lǐng)域其實(shí)質(zhì)是在一個(gè)已知狀態(tài)的數(shù)據(jù)集上,通過(guò)設(shè)定一定的學(xué)習(xí)算法,從數(shù)據(jù)集中獲取所謂的知識(shí)。而與此同時(shí)數(shù)據(jù)庫(kù)技術(shù)也已經(jīng)發(fā)展到一定的階段,并得到了廣泛應(yīng)用,各個(gè)企業(yè)都已經(jīng)積累了無(wú)數(shù)的數(shù)據(jù)資源,迫切需要有一種技術(shù)能夠幫助他們從數(shù)據(jù)中發(fā)掘出其內(nèi)在的規(guī)律。數(shù)據(jù)挖掘技術(shù)正好能滿足這一需求,它實(shí)質(zhì)上就是知識(shí)發(fā)現(xiàn)技術(shù)在數(shù)據(jù)庫(kù)領(lǐng)域中的應(yīng)用,其主要應(yīng)用領(lǐng)域涵蓋了商務(wù)管理、生產(chǎn)管理、市場(chǎng)分析、工程設(shè)計(jì)和科學(xué)探索等。因此,可以說(shuō)數(shù)據(jù)挖掘是一個(gè)從數(shù)據(jù)到知識(shí)的過(guò)程。談到學(xué)習(xí)數(shù)據(jù)挖掘,《數(shù)據(jù)挖掘:概念與技術(shù)》就是一本全面而深入地介紹數(shù)據(jù)挖掘?qū)嵱眉夹g(shù)的經(jīng)典教材。本書作者美籍華人韓家煒教授有著豐富的理論和實(shí)際經(jīng)驗(yàn)。在本書中,他從數(shù)據(jù)庫(kù)的角度針對(duì)數(shù)據(jù)挖掘是什么、數(shù)據(jù)挖掘能解決什么問(wèn)題、數(shù)據(jù)挖掘的關(guān)鍵問(wèn)題和數(shù)據(jù)挖掘涉及的相關(guān)技術(shù)等問(wèn)題做了深入的分析,由淺入深地把讀者引入數(shù)據(jù)挖掘這個(gè)未知領(lǐng)域。首先,數(shù)據(jù)挖掘是什么。書中指出,數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中提取或挖掘知識(shí)的過(guò)程。用通俗的語(yǔ)言說(shuō),數(shù)據(jù)挖掘就像淘金者從石頭或沙子中尋找金子的過(guò)程。另外一個(gè)非常重要的同時(shí)也在本書中進(jìn)行了詳細(xì)說(shuō)明的是數(shù)據(jù)挖掘的對(duì)象(也就是大量數(shù)據(jù))在什么地方?書中指出,數(shù)據(jù)挖掘主要針對(duì)關(guān)系型數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、高級(jí)數(shù)據(jù)庫(kù)等。對(duì)于數(shù)據(jù)庫(kù)開發(fā)人員,這些都是已經(jīng)比較熟悉的領(lǐng)域了。而本書中的數(shù)據(jù)挖掘主要針對(duì)的是數(shù)據(jù)庫(kù)系統(tǒng)。其次,數(shù)據(jù)挖掘能解決什么問(wèn)題。挖掘來(lái)的數(shù)據(jù)是用來(lái)解決企業(yè)中的問(wèn)題的,否則挖掘就沒有任何意義了。書中指出,數(shù)據(jù)挖掘可以被用來(lái)進(jìn)行市場(chǎng)分析和管理、風(fēng)險(xiǎn)分析和管理、缺陷分析和管理等。具體來(lái)講,比如對(duì)大學(xué)里的學(xué)生課程數(shù)據(jù),可以用數(shù)據(jù)挖掘的方式來(lái)獲得學(xué)生姓名、地址、狀態(tài)和相關(guān)課程等信息及其相互關(guān)系。再次,數(shù)據(jù)挖掘的關(guān)鍵問(wèn)題。本書從數(shù)據(jù)挖掘方法和用戶交互、數(shù)據(jù)挖掘的性能以及不同數(shù)據(jù)庫(kù)類型的數(shù)據(jù)挖掘等多角度出發(fā),把數(shù)據(jù)挖掘做了非常透徹的分解,并對(duì)分解后的問(wèn)題逐一解決。第四方面,數(shù)據(jù)挖掘涉及的技術(shù)。對(duì)于數(shù)據(jù)挖掘涉及的OLAP和數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)清理、數(shù)據(jù)集成和變換、數(shù)據(jù)簡(jiǎn)化、數(shù)據(jù)挖掘查詢語(yǔ)言、數(shù)據(jù)庫(kù)支持的數(shù)據(jù)挖掘規(guī)則、數(shù)據(jù)挖掘分類和預(yù)測(cè)、數(shù)據(jù)聚合方法、對(duì)多媒體數(shù)據(jù)庫(kù)和萬(wàn)維網(wǎng)的數(shù)據(jù)庫(kù)挖掘方法等技術(shù),本書作者都從理論和實(shí)踐的角度做了深入的剖析,讓讀者不僅知其然,而且還知其所以然。數(shù)據(jù)挖掘是可以由多個(gè)層面來(lái)提供支持的,包括數(shù)據(jù)庫(kù)層面、應(yīng)用程序?qū)用娴?。?dāng)前,包括Oracle、IBM、Sybase和Microsoft等在內(nèi)的多家數(shù)據(jù)庫(kù)提供商都從數(shù)據(jù)庫(kù)層面提供了數(shù)據(jù)挖掘的支持。對(duì)于應(yīng)用層面講,包括SAS、SPSS、COGNOS等軟件在內(nèi)的應(yīng)用程序都對(duì)數(shù)據(jù)挖掘提供了很好的支持。本書從理論和實(shí)際相結(jié)合的角度出發(fā),在書中提供了大量的理論、模型、算法和實(shí)際的應(yīng)用例子,包括多維數(shù)據(jù)模型、三層數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)、數(shù)據(jù)立方體的實(shí)際查詢例子等。借助本書,讀者可以理論聯(lián)系實(shí)際,把數(shù)據(jù)挖掘的應(yīng)用提高一個(gè)層次。另外,書中提供了大量的例子、習(xí)題以及一些基本概念的比較。如數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別、用于數(shù)據(jù)挖掘的OLAP與數(shù)據(jù)倉(cāng)庫(kù)技術(shù)等。所以,即使您對(duì)數(shù)據(jù)庫(kù)比較陌生,也能根據(jù)本書內(nèi)容的安排,循序漸進(jìn)地領(lǐng)悟到數(shù)據(jù)挖掘的真諦。同時(shí),您可以根據(jù)書中提供的習(xí)題,檢驗(yàn)自己對(duì)書中內(nèi)容的理解?!皩?shí)踐是檢驗(yàn)真理的唯一標(biāo)準(zhǔn)”,書中提供的例子在實(shí)際開發(fā)應(yīng)用中都會(huì)用到,讓您不會(huì)為了讀書而讀書。總之,該書圖文并茂,理論聯(lián)系實(shí)際,非常適合作為從事數(shù)據(jù)挖掘研究和應(yīng)用開發(fā)工作的相關(guān)人員的參考書,也特別適合作為高年級(jí)本科生和研究生的專業(yè)課教材。
編輯推薦
《數(shù)據(jù)挖掘概念與技術(shù)》(英文版)(第2版)適合作為高等院校計(jì)算機(jī)及相關(guān)專業(yè)高年級(jí)本科生的選修課教材,特別適合作為研究生的專業(yè)課教材,同時(shí)也可供從事數(shù)據(jù)挖掘研究和應(yīng)用開發(fā)工作的相關(guān)人員作為必備的參考書。本書更新和改進(jìn)了原本已十分豐富和全面的第1版內(nèi)容,并增添了新的重要課題,例如挖掘流數(shù)據(jù)、挖掘社群網(wǎng)絡(luò)和挖掘空間、多媒體和其他復(fù)雜數(shù)據(jù)。本書將是一本適用于數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)課程的優(yōu)秀教材?! 。璆regory Piatetsky-Shapiro, KDnuggets的總裁 本書第2版最完整、最全面地講述了數(shù)據(jù)挖掘領(lǐng)域的重要知識(shí)和技術(shù)創(chuàng)新。相比內(nèi)容已經(jīng)相當(dāng)全面的第1版,第2版展示了該領(lǐng)域的最新研究成果,例如挖掘流、時(shí)序數(shù)據(jù)和序列數(shù)據(jù)以及挖掘空間、多媒體、文本和Web數(shù)據(jù)。本書是數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)領(lǐng)域內(nèi)所有教師、研究人員、開發(fā)人員和用戶都必讀的一本書。 ?。璈ans-Peter Kriegel, 德國(guó)慕尼黑大學(xué) 我們產(chǎn)生和收集數(shù)據(jù)的能力正在快速增長(zhǎng)。除了大多數(shù)商業(yè)、科學(xué)和政府事務(wù)的日益計(jì)算機(jī)化會(huì)產(chǎn)生數(shù)據(jù)之外,數(shù)碼相機(jī)、發(fā)布工具和條碼的廣泛應(yīng)用也會(huì)產(chǎn)生數(shù)據(jù)。在數(shù)據(jù)收集方面,掃描的文本和圖像平臺(tái)、衛(wèi)星遙感系統(tǒng)和國(guó)際互聯(lián)網(wǎng)已經(jīng)使我們的生活被巨大的數(shù)據(jù)量所包圍。這種爆炸性的數(shù)據(jù)增長(zhǎng)促使我們比以往更加迫切地需要新技術(shù)和自動(dòng)化工具來(lái)幫助我們將這些數(shù)據(jù)轉(zhuǎn)換為有用的信息和知識(shí)。
圖書封面
圖書標(biāo)簽Tags
無(wú)
評(píng)論、評(píng)分、閱讀與下載