數(shù)據(jù)挖掘

出版時間:2012-3  出版社:機械工業(yè)出版社  作者:(美)Jiawei Han,(加)Micheline Kamber,(加)Jian Pei  頁數(shù):703  
Tag標簽:無  

內(nèi)容概要

  當代商業(yè)和科學領(lǐng)域大量激增的數(shù)據(jù)量要求我們采用更加復雜和精細的工具來進行數(shù)據(jù)分析、處理和挖掘。盡管近年來數(shù)據(jù)挖掘技術(shù)取得的長足進展使得我們廣泛收集數(shù)據(jù)越來越容易,但技術(shù)的發(fā)展依然難以匹配爆炸性的數(shù)據(jù)增長以及隨之而來的大量數(shù)據(jù)處理需求,因此我們比以往更加迫切地需要新技術(shù)和自動化工具來幫助我們將這些數(shù)據(jù)轉(zhuǎn)換為有用的信息和知識。
  本書前版曾被KDnuggets的讀者評選為最受歡迎的數(shù)據(jù)挖掘?qū)V?,是一本可讀性極佳的教材。它從數(shù)據(jù)庫角度全面系統(tǒng)地介紹數(shù)據(jù)挖掘的概念、方法和技術(shù)以及技術(shù)研究進展,并重點關(guān)注近年來該領(lǐng)域重要和最新的課題——數(shù)據(jù)倉庫和數(shù)據(jù)立方體技術(shù),流數(shù)據(jù)挖掘,社會化網(wǎng)絡(luò)挖掘,空間、多媒體和其他復雜數(shù)據(jù)挖掘。每章都針對關(guān)鍵專題有單獨的指導,提供最佳算法,并對怎樣將技術(shù)運用到實際工作中給出了經(jīng)過實踐檢驗的實用型規(guī)則。如果你希望自己能熟練掌握和運用當今最有力的數(shù)據(jù)挖掘技術(shù),那這本書正是你需要閱讀和學習的寶貴資源。本書是數(shù)據(jù)挖掘和知識發(fā)現(xiàn)領(lǐng)域內(nèi)的所有教師、研究人員、開發(fā)人員和用戶都必讀的一本書。
  本書特點
  引入了許多算法和實現(xiàn)示例,全部以易于理解的偽代碼編寫,適用于實際的大規(guī)模數(shù)據(jù)挖掘項目。
  討論了一些高級主題,例如挖掘面向?qū)ο蟮年P(guān)系型數(shù)據(jù)庫、空間數(shù)據(jù)庫、多媒體數(shù)據(jù)庫、時間序列數(shù)據(jù)庫、文本數(shù)據(jù)庫、萬維網(wǎng)以及其他領(lǐng)域的應(yīng)用等。
  全面而實用地給出用于從海量數(shù)據(jù)中獲取盡可能多信息的概念和技術(shù)?! ?/pre>

作者簡介

  Jiawei Han(韓家煒) 伊利諾伊大學厄巴納-尚佩恩分校計算機科學系A(chǔ)bel
Bliss教授。由于在數(shù)據(jù)挖掘和數(shù)據(jù)庫系統(tǒng)領(lǐng)域卓有成效的研究工作,他曾多次獲得各種榮譽和獎勵,其中包括2004年ACM
SIGKDD頒發(fā)的最佳創(chuàng)新獎,2005年IEEE Computer Society 頒發(fā)的技術(shù)成就獎,2009年IEEE頒發(fā)的W.
Wallace McDowell獎。他是ACM和IEEE Fellow,同時還是《ACM Transactions on
Knowledge Discovery from Data》雜志的主編(2006-2011),以及《IEEE Transactions
on Knowledge and Data Engineering》和《Data Mining and Knowledge
Discovery》雜志的編委會成員。
  Micheline Kamber 擁有加拿大康考迪亞大學計算機科學碩士學位,她是NSERC
Scholar,現(xiàn)在加拿大麥吉爾大學、西蒙-弗雷澤大學及瑞士從事研究工作。
  Jian Pei(裴健) 目前是加拿大西蒙-弗雷澤大學計算機學院副教授。2002年,他在Jia wei
Han教授的指導下獲得西蒙-弗雷澤大學博士學位。

書籍目錄

Foreword to Second Edition
Preface
Acknowledgments
About the Authors
Chapter 1 Introduction
Chapter 2 Getting to Know Your Data
Chapter 3 Data Preprocessing
Chapter 4 Data Warehousing and Online Analytical
Processin
Chapter 5 Data Cube Technology
Chapter 6 Mining Frequent Patterns, Associations, and Correlations:
Basic Concepts and Methods
Chapter 7 Advanced Pattern Mining
Chapter 8 Classification: Basic Concepts
Chapter 9 Classification: Advanced Methods
Chapter 10 Cluster Analysis: Basic Concepts and I~ethods
Chapter 11 Advanced Cluster Analysis
Chapter 12 Outlier Detection
Chapter 13 Data Mining Trends and Research Frontiers
Bibliography
Index

章節(jié)摘錄

版權(quán)頁:插圖:

媒體關(guān)注與評論

 我們生活在數(shù)據(jù)洪流的時代。本書向我們展示了如何從這樣海量的數(shù)據(jù)中找到有用知識的方法和技術(shù)。最新的第3版顯著擴充了數(shù)據(jù)預(yù)處理、挖掘頻繁模式、分類和聚類這幾個核心章節(jié)的內(nèi)容;還全面講述了OLAP和離群點檢測,并研討了挖掘網(wǎng)絡(luò)、復雜數(shù)據(jù)類型以及重要應(yīng)用領(lǐng)域。本書將是一本適用于數(shù)據(jù)分析、數(shù)據(jù)挖掘和知識發(fā)現(xiàn)課程的優(yōu)秀教材。 —— Gregory Piatetsky-Shapiro, KDnuggets的總裁 Jiawei、Micheline和Jian的教材全景式地討論了數(shù)據(jù)挖掘的所有相關(guān)方法,從聚類和分類的經(jīng)典主題,到數(shù)據(jù)庫方法(關(guān)聯(lián)規(guī)則、數(shù)據(jù)立方體),到更新和更高級的主題(SVD/PCA、小波、支持向量機),等等??偟恼f來,這是一本既講述經(jīng)典數(shù)據(jù)挖掘方法又涵蓋大量當代數(shù)據(jù)挖掘技術(shù)的優(yōu)秀著作,既是教學相長的優(yōu)秀教材,又對專業(yè)人員具有很高的參考價值。 —— 摘自卡內(nèi)基-梅隆大學Christos Faloutsos教授為本書所作序言

編輯推薦

《數(shù)據(jù)挖掘:概念與技術(shù)(英文版?第3版)》最完整、最全面地講述了數(shù)據(jù)挖掘領(lǐng)域的重要知識和技術(shù)創(chuàng)新。相比內(nèi)容已經(jīng)相當全面的第1版,第2版展示了該領(lǐng)域的最新研究成果,例如挖掘流、時序數(shù)據(jù)和序列數(shù)據(jù)以及挖掘空間、多媒體、文本和IWeb數(shù)據(jù)?!稊?shù)據(jù)挖掘:概念與技術(shù)(英文版?第3版)》是數(shù)據(jù)挖掘和知識發(fā)現(xiàn)領(lǐng)域內(nèi)所有教師、研究人員、開發(fā)人員和用戶部必讀的一本書。

圖書封面

圖書標簽Tags

評論、評分、閱讀與下載


    數(shù)據(jù)挖掘 PDF格式下載


用戶評論 (總計68條)

 
 

  •   這本書在數(shù)據(jù)挖掘領(lǐng)域很經(jīng)典,對于了解數(shù)據(jù)挖掘的內(nèi)容十分有用!
  •   在計算機系旁聽了一學期《數(shù)據(jù)挖掘》課程,覺得受益匪淺。
    更重要的是,覺得這樣一個新興的交叉性學科,可以挖掘的地方太多了。
    比較了下老師的Publication List和自己專業(yè)某大牛的,覺得還是這個方向出文容易。
    于是果斷買下這本書細讀。
  •   本書是數(shù)據(jù)挖掘的經(jīng)典之作,有電子版了,希望能繼續(xù)研讀,所以購得紙版此書。
  •   此書是數(shù)據(jù)挖掘中比較基礎(chǔ)的一本,現(xiàn)在看書,有時需要要看英文原版,才不至于落后。正在研讀中……
  •   這本書是數(shù)據(jù)挖掘方面的經(jīng)典之作,不錯,是一本好書。
  •   數(shù)據(jù)挖掘方面書籍的經(jīng)典。
  •   邊學數(shù)據(jù)挖掘,同時還可以練練英語
  •   數(shù)據(jù)挖掘圣經(jīng)
  •   Jiawei Han's Data Mining:Concepts and Techniques is a greet book.And of course, it is genuine.
  •   英文版原著很好,比翻譯版更經(jīng)典
  •   全面,實用,經(jīng)典。
  •   經(jīng)典書,知道閱讀和學習
  •   英文版畢竟是原創(chuàng)作,可以通過中英對照著看,比較出不同來,且能夠通過對比加深理解
  •   先看了書的目錄 大致了解結(jié)構(gòu)和內(nèi)容安排 很清晰 不愧是經(jīng)典教材 好好研讀!
  •   老好的一本書了 外國人寫書比較好理解啊 呵呵
  •   內(nèi)容很全面,很好。英語學的不好的同學就不要買了。
  •   很好的書,內(nèi)容很全面,不過看起來比較吃力
  •   書自然是絕好的,英文版就是比中文版的好
  •   這本書還不錯,比翻譯過來的好多了
  •   本書非常好。
  •   推薦越讀下,不懂對照中文版,英語啊
  •   剛拿到書 開始學習
  •   很好,正版很給力。
  •   英文不好,還沒看完。感覺還行
  •   書不錯,送貨速度快。以后還會再來買的
  •   書質(zhì)量挺好的,物流速度也很快。
  •   很厚,紙質(zhì)很好,建議和中文版一起看
  •   數(shù)據(jù)挖掘方面的經(jīng)典
  •   因為在圖書館看過,就是感覺不是自己的書看得不方便,書還是很好的
  •   純英文,比較有挑戰(zhàn)性啊~
  •   書的質(zhì)量不錯,內(nèi)容也很好,講得非常細,也很明白
  •   書還可以,老師指定的,還不錯
  •   書很好,質(zhì)量也很好!
  •   質(zhì)量非常好,書的紙張很厚
  •   從了解概念開始。
  •   別人介紹的挺好的
  •   雖然是全英的,但是講的比較詳細,要有點耐心去看
  •   送貨,和包裝都很給力
  •   一共買了9本新書,估計是庫存不夠,但是也不能拿舊書充數(shù)啊
  •   經(jīng)典原版書庫·數(shù)據(jù)挖掘:概念與技術(shù)
  •   數(shù)據(jù)挖掘:概念與技術(shù)(英文版·第3版)
  •   包裝很好,全新的,不錯哈
  •   非常好的書?。。?!強烈推薦
  •   原版書!
  •   書很厚很專業(yè)
  •   這方面的經(jīng)典書籍
  •   韓老師的經(jīng)典書
  •     推薦幾個數(shù)據(jù)分析網(wǎng)站
      
       隨著數(shù)據(jù)的數(shù)量級增長,促進了數(shù)據(jù)分析的火熱。但很多數(shù)據(jù)分析從業(yè)人員卻感覺沒有很好的獲取行業(yè)資訊、技術(shù)交流的平臺,今天就推薦幾個經(jīng)常上的覺得很不錯的網(wǎng)站給大家。大數(shù)據(jù)時代已經(jīng)來臨,我們一起感受數(shù)據(jù)的力量吧!
      
      數(shù)據(jù)分析交流群推薦:165678692
      來源:corn整理
      
      
       1、商業(yè)數(shù)據(jù)分析論壇[dp論壇] http://www.datapanda.net/forum.php
      由一群熱愛數(shù)據(jù)行業(yè)的大學生在11年創(chuàng)立,內(nèi)容更新快,資源涵蓋面廣,從數(shù)據(jù)分析軟件學習,到數(shù)據(jù)資源分享等應(yīng)有盡有,通過幾年的發(fā)展,積累龐大的會員群,一起交流分享數(shù)據(jù)資訊。
      
      2、人大經(jīng)濟論壇-計量經(jīng)濟學與統(tǒng)計區(qū) http://www.pinggu.org/bbs/index.php?gid=148
      業(yè)內(nèi)人士都應(yīng)該去過的門戶,主要涉及計量經(jīng)濟學、統(tǒng)計學、數(shù)據(jù)挖掘、統(tǒng)計軟件、數(shù)據(jù)等經(jīng)濟學相關(guān)問題交流統(tǒng)計軟件交流
      
      3、中國統(tǒng)計論壇 http://bbs.i#cn
      屬于中國統(tǒng)計網(wǎng)的交流論壇,中國統(tǒng)計論壇-BBS.iTongji.CN 提供統(tǒng)計軟件,統(tǒng)計教程,統(tǒng)計年鑒,統(tǒng)計論文,統(tǒng)計資料下載,統(tǒng)計認證,培訓就業(yè)資訊,技術(shù)文章學習等的專業(yè)數(shù)據(jù)分析技術(shù)論壇。
      
      4、數(shù)據(jù)挖掘?qū)W習交流論壇 http://www.businessanalysis.cn/
      統(tǒng)計軟件CRM,Data Mining,Data analysis,SPSS,SAS,SAP ,數(shù)據(jù)挖掘?qū)W習交流論壇。
      
      5、數(shù)據(jù)分析論壇 http://www.spsschina.com/
      SPSS論壇,主要涉及數(shù)據(jù)分析,數(shù)據(jù)調(diào)查,市場調(diào)研,SPSS相關(guān)軟件交流的平臺。
      
      6、網(wǎng)站數(shù)據(jù)分析 http://webdataanalysis.net/
      通過網(wǎng)站分析與數(shù)據(jù)分析實現(xiàn)網(wǎng)站優(yōu)化,主要涉及網(wǎng)站分析的一些維度和分析模型,互聯(lián)網(wǎng)從業(yè)者可以去看看,類似的還有“網(wǎng)站分析在中國”、“網(wǎng)站分析二三事”等。
      
      7、數(shù)據(jù)分析 http://www.shujufenxi.com/
      數(shù)據(jù)分析網(wǎng)是中國行業(yè)數(shù)據(jù)的分析家,免費提供統(tǒng)計數(shù)據(jù)、分析軟件、數(shù)據(jù)分析方法學習資料,并代寫數(shù)據(jù)分析報告,致力為廣大數(shù)據(jù)分析愛好者提供信息咨詢服務(wù)。
      
      8、數(shù)據(jù)挖掘研究院 http://www.chinakdd.com/
      數(shù)據(jù)挖掘研究院,比較早的一個門戶,內(nèi)容比較豐富,但是欠系統(tǒng)性的整理,主要涉及一些工具的使用和算法的研究,有興趣的可以去找找看。
      
      9、S-PLUS、R統(tǒng)計論壇 http://www.magnsoftbi.com/forum/default.asp
      是北京宏能暢然數(shù)據(jù)應(yīng)用有限公司旗下的一個門戶,專注于數(shù)據(jù)分析、數(shù)據(jù)挖掘與商業(yè)智能應(yīng)用,S-PLUS和R軟件的技術(shù)交流平臺。
  •     作者是FP-Growth的發(fā)明人之一,本身實力不弱。但看了國內(nèi)外的一些評論后,覺得此書偏向文獻綜述的類型,適合當作參考手冊。
      
      
      亞馬遜地址:
      http://www.amazon.com/Data-Mining-Concepts-Techniques-Management/dp/0123814790/ref=cm_rdp_product
      
      
  •     這本書是準備跟隨浙江大學的課程學習而購買的課本,里面的知識比較全面。部分比較深入的知識由于課上沒有 講解,因此我也將它跳過了。因為這學期選修了數(shù)據(jù)挖掘的課,需要一個中文版的課本進行學習,選擇這本書還是不錯的。
      這本書很適合自學,因為是將理論與算法相結(jié)合講解的。如果想要自學,推薦配合浙江大學的課程進行學習
  •     原書很經(jīng)典,毋庸置疑,不做評論。
      主要是翻譯,兩個自稱教授博導的家伙能把英語翻譯成這樣,這是了不起啊!很多都是直譯,定語從句連句子的順序都不改一下?。?!難不成你們平時也這樣跟人講話?
      中國的學術(shù)界啊?。?!真人點踏實點行不?
      以后這兩位活寶( 范明, 孟小峰)的書定死是不買的了
  •     首先我承認我的E文不算太好。我最近在讀兩本E文原版的技術(shù)書籍,《分布式系統(tǒng)原理與范型》、《數(shù)據(jù)挖掘概念與技術(shù)》。都是E文書,但是前者作者是老外,后者作者是中國人,兩本書的風格明顯差異很大。
      
      《數(shù)據(jù)挖掘概念與技術(shù)》的大量專業(yè)詞匯給我很大的打擊,但是大量非專業(yè)詞匯我認為用的也不太好,這可能是中國人的通病吧,很多中國人寫的E文連老外看的時候也要查單詞,這應(yīng)該能反映出一些問題。相比之下《分布式系統(tǒng)原理與范型》用詞就很簡單,鮮見生僻單詞。
      
      除此之外,《數(shù)據(jù)挖掘概念與技術(shù)》的內(nèi)容組織也有待商榷,很多術(shù)語不管三七二十一先列出來,然后下面一條一條的解讀或者說這個內(nèi)容超出本書范圍或者說這個內(nèi)容稍后章節(jié)會講等等,這對讀者是很不友好的。相比之下,《分布式系統(tǒng)原理與范型》的內(nèi)容組織由淺入深、并伴隨著一些實例,讀起來就輕松明快。
  •     這個是數(shù)據(jù)挖掘方面的基礎(chǔ),國外的思維方式和咱們這個有點差異,所以覺得有點怪,但是大部分翻譯書籍都是這樣。而且范明是我的老師,在數(shù)據(jù)庫反方面造詣很深,待人很不錯。
  •     浙大的王燦老師的講課視頻:
      
      http://www.businessanalysis.cn/viewthread.php?tid=13320&extra=&page=1
      
      韓家煒自己的講課視頻:
      
      http://v.youku.com/v_playlist/ct250f1903290o1p0
  •     本書從內(nèi)容上看還是比較全面的,但是中文版的翻譯實在是差,基本上感覺沒有幾句話是讀了一次后可以理解的,建議讀英文版
  •     數(shù)據(jù)挖掘功能包括發(fā)現(xiàn)概念/類描述、關(guān)聯(lián)、分類、預(yù)測、聚類、趨勢分析、偏差分析和類似性分析。特征化和區(qū)分是數(shù)據(jù)匯總的形式。
      
      數(shù)據(jù)分類(data classification)是一個兩步過程:1)建立一個模型,描述預(yù)定的數(shù)據(jù)類集或概念集。通過分析由屬性描述的數(shù)據(jù)庫元組來構(gòu)造模型。2)使用模型進行分類。
      “預(yù)測和分類有何不同?”預(yù)測(prediction)是構(gòu)造和使用模型評估無標號樣本類,或評估給定樣本可能具有的屬性值或值區(qū)間。在這種觀點下,分類和回歸是兩類主要預(yù)測問題,其中分類是預(yù)測離散或標稱值,而回歸用于預(yù)測連續(xù)或有序值。然而,我們的觀點是:用預(yù)測法預(yù)測類標號為分類,用預(yù)測法預(yù)測連續(xù)值(例如使用回歸方法)為預(yù)測。這種觀點在數(shù)據(jù)挖掘界被廣泛接受。
      7.3用判斷樹歸納分類
      判斷樹(decision tree)是一個類似流程圖的樹結(jié)構(gòu),氣質(zhì)每個內(nèi)部節(jié)點表示在一個屬性上的測試,每個分支代表一個測試輸出,而每個樹葉節(jié)點代表類或者類分布。
      chp8 聚類分析
      將物理或抽象對象的集合分組成為由類似的對象組成的多個類的過程被稱為聚類。
      聚類的方法有:
      1)劃分方法 partitioning method
      2)層次方法hierarchical method
      3)基于密度的方法 density-based method
      4)基于網(wǎng)格的方法grid-based method
      5)基于模型的方法model-based method
      
  •   確實??!專業(yè)詞匯這么的多?。?!
  •   我也覺得不是很好讀,老喜歡把簡單的東西講的那么復雜,語言不夠簡練和易懂
  •   請問,對于data mining還有更好的入門書籍嗎?就是很經(jīng)典的教材,最好是英文的,現(xiàn)在我們正在上這門課,可是老師講的不是很好,我想找一些經(jīng)典教材看看,本來是在看這本,但是我也覺得很不好讀,打擊的我很沒信心,請樓主推薦一本好的教材。謝謝
  •   聽LZ這么一說,我不想買這本書了。我也有點刻板印象,感覺中國人寫書把簡單的東西搞復雜了。
  •   我現(xiàn)在也是在啃這本書的e文版,啃了前兩章,啃得我對自己的e文都沒信心了
  •   后者也是美國人,美國信息網(wǎng)絡(luò)學術(shù)研究中心主任,uiuc的正教授,只不過后者出生在中國
    這本書是數(shù)據(jù)挖掘領(lǐng)域最著名的入門書之一,美國人上課也是用這本書
  •   我很想研究一下數(shù)據(jù)挖掘和數(shù)據(jù)統(tǒng)計方面,您是否可以給我推薦幾本書?電子版更好了。呵呵。
  •   第一個視頻不太容易看到呢
    還需要人工驗證
  •   視頻里的內(nèi)容遠遠超過書的內(nèi)容。正好也說明書不夠細。
  •   看看韓的視頻, 感覺講課比書易理解
  •   第一個視頻,需要什么權(quán)限嗎 還是無效了
  •   。。視頻都沒了
 

250萬本中文圖書簡介、評論、評分,PDF格式免費下載。 第一圖書網(wǎng) 手機版

京ICP備13047387號-7