Web數(shù)據(jù)挖掘

出版時間：2009-2 出版社：人民郵電出版社作者：查凱萊巴蒂頁數(shù)：344
Tag標簽：無

前言

This book is about finding significant statistical patterns relating hypertext documents, topics, hyperlinks, and queries and using these patterns to connect users to information they seek. The Web has become a vast storehouse of knowledge。

內(nèi)容概要

本書是信息檢索領域的名著，深入講解了從大量非結(jié)構化Web數(shù)據(jù)中提取和產(chǎn)生知識的技術。書中首先論述了Web的基礎(包括Web信息采集機制、Web標引機制以及基于關鍵字或基于相似性搜索機制)，然后系統(tǒng)地描述了Web挖掘的基礎知識，著重介紹基于超文本的機器學習和數(shù)據(jù)挖掘方法，如聚類、協(xié)同過濾、監(jiān)督學習、半監(jiān)督學習，最后講述了這些基本原理在Web挖掘中的應用。本書為讀者提供了堅實的技術背景和最新的知識。    本書是從事數(shù)據(jù)挖掘?qū)W術研究和開發(fā)的專業(yè)人員理想的參考書，同時也適合作為高等院校計算機及相關專業(yè)研究生的教材。

作者簡介

Soumen Chakrabarti，Web搜索與挖掘領域的知名專家，ACM Transactions on the Web副主編。加州大學伯克利分校博士，目前是印度理工學院計算機科學與工程系副教授。曾經(jīng)供職于IBM Almaden研究中心，從事超文本數(shù)據(jù)庫和數(shù)據(jù)挖掘方面的工作。他有豐富的實際項目開發(fā)經(jīng)驗，開發(fā)了多個Web挖掘系統(tǒng)，并獲得了多項美國專利。

書籍目錄

　1　INTRODUCTION　　1.1　Crawling and Indexing　　1.2  Topic Directories　　1.3  Clustering and Classification　　1.4  Hyperlink Analysis　　1.5  Resource Discovery and Vertical Portals　　1.6  Structured vs. Unstructured Data Mining　　1.7  Bibliographic NotesPART Ⅰ  INFRASTRUCTURE　2　　CRAWLING THE WEB　　2.1  HTML and HTTP Basics　　2.2  Crawling Basics　　2.3  Engineering Large-Scale Crawlers　　　2.3.1  DNS Caching, Prefetching, and Resolution　　　2.3.2  Multiple Concurrent Fetches　　　2.3.3  Link Extraction and Normalization　　　2.3.4  Robot Exclusion　　　2.3.5  Eliminating Already-Visited URLs　　　2.3.6  Spider Traps　　　2.3.7  Avoiding Repeated Expansion of Links on Duplicate Pages　　　2.3.8  Load Monitor and Manager　　　2.3.9  Per-Server Work-Queues　　　2.3.10 Text Repository　　　2.3.11 Refreshing Crawled Pages　　2.4  Putting Together a Crawler　　　2.4.1  Design of the Core Components　　　2.4.2  Case Study: Using w3c-libwww　　2.5  Bibliographic Notes  3 WEB SEARCH AND INFORMATION RETRIEVAL　　3.1  Boolean Queries and the Inverted Index　　　3.1.1  Stopwords and Stemming　　　3.1.2  Batch Indexing and Updates　　　3.1.3  Index Compression Techniques　　3.2  Relevance Ranking　　　3.2.1  Recall and Precision      3.2.2　The Vector-Space Model　　    3.2.3　Relevance Feedback and Rocchio?s Method　　　　　3.2.4　Probabilistic Relevance Feedback Models　　　3.2.5　Advanced Issues　　　3.3　Similarity Search　　　　3.3.1　Handling òFind-Similaró Queries　　　　3.3.2　Eliminating Near Duplicates via Shingling　　　　3.3.3　Detecting Locally Similar Subgraphs of the Web　　　3.4　Bibliographic Notes　PART Ⅱ LEARNING PART Ⅲ  APPLICATIONSReferencesIndex

章節(jié)摘錄

插圖：

媒體關注與評論

本書是Web挖掘與搜索引擎領域的經(jīng)典著作，自出版以來深受好評，已經(jīng)被斯坦福、普林斯頓、卡內(nèi)基梅隆等世界名校采用為教材。書中首先介紹了Web爬行和搜索等許多基礎性的問題，并以此為基礎，深入闡述了解決Web挖掘各種難題所涉及的機器學習技術，提出了機器學習在系統(tǒng)獲取、存儲和分析數(shù)據(jù)中的許多應用，并探討了這些應用的優(yōu)劣和發(fā)展前景。 全書分析透徹，富于前瞻性，為構建Web挖掘創(chuàng)新性應用奠定了理論和實踐基礎，既適用于信息檢索和機器學習領域的研究人員和高校師生，也是廣大Web開發(fā)人員的優(yōu)秀參考書。 “本書深入揭示了搜索引擎的技術內(nèi)幕！有了它，你甚至能夠自己開發(fā)一個搜索引擎?！薄　　猻earchenginewatch.com網(wǎng)站“本書系統(tǒng)、全面而且深入，廣大Web技術開發(fā)人員都能很好地理解和掌握其中內(nèi)容。作者是該研究領域的領軍人物之一，在超文本信息挖掘和檢索方面有著淵博的知識和獨到的見解。”　　——Joydeep Ghosh，得克薩斯大學奧斯汀分校教授，IEEE會士“作者將該領域的所有重要工作融合到這部杰作中，并以一種通俗易懂的方式介紹了原本非常深奧的內(nèi)容。有了這本書，Web挖掘終于有可能成為大學的一門課程了?！薄　　狫aideep Srivastava，明尼蘇達大學教授，IEEE會士

編輯推薦

《Web數(shù)據(jù)挖掘:超文本數(shù)據(jù)的知識發(fā)現(xiàn)(英文版)》是從事數(shù)據(jù)挖掘?qū)W術研究和開發(fā)的專業(yè)人員理想的參考書，同時也適合作為高等院校計算機及相關專業(yè)研究生的教材?！禬eb數(shù)據(jù)挖掘》是Web挖掘與搜索引擎領域的經(jīng)典著作，自出版以來深受好評，已經(jīng)被斯坦福、普林斯頓、卡內(nèi)基梅隆等世界名校采用為教材。書中首先介紹了Web爬行和搜索等許多基礎性的問題，并以此為基礎，深入闡述了解決Web挖掘各種難題所涉及的機器學習技術，提出了機器學習在系統(tǒng)獲取、存儲和分析數(shù)據(jù)中的許多應用，并探討了這些應用的優(yōu)劣和發(fā)展前景?！禬eb數(shù)據(jù)挖掘》分析透徹，富于前瞻性，為構建Web挖掘創(chuàng)新性應用奠定了理論和實踐基礎，既適用于信息檢索和機器學習領域的研究人員和高校師生，也是廣大Web開發(fā)人員的優(yōu)秀參考書。

圖書封面

圖書標簽Tags

無

評論、評分、閱讀與下載

還沒讀過(53)
勉強可看(385)
一般般(658)
內(nèi)容豐富(2729)
強力推薦(223)

Web數(shù)據(jù)挖掘 PDF格式下載

用戶評論 (總計11條)

原版英文書，啃起來有點難度，不過既然貴為經(jīng)典，還是值得擁有滴~~
書不錯，內(nèi)容很多
印度人寫的東西，圖文并茂，有用。
紙質(zhì)很好。
老公說他喜歡
不知大盤
包裝挺好，送的也挺快
沒多注意是英文版的，要慢慢看了
商品本身是沒有問題的，但送貨速度比上回慢了一點點
書是好書，但是內(nèi)容有點兒老，講的都是03年以前的東西了
Web挖掘最好的教材

Web數(shù)據(jù)挖掘

用戶評論 (總計11條)

推薦圖書

相關圖書