出版時(shí)間:2009-2 出版社:人民郵電出版社 作者:查凱萊巴蒂 頁數(shù):344
Tag標(biāo)簽:無
前言
This book is about finding significant statistical patterns relating hypertext documents, topics, hyperlinks, and queries and using these patterns to connect users to information they seek. The Web has become a vast storehouse of knowledge。
內(nèi)容概要
本書是信息檢索領(lǐng)域的名著,深入講解了從大量非結(jié)構(gòu)化Web數(shù)據(jù)中提取和產(chǎn)生知識(shí)的技術(shù)。書中首先論述了Web的基礎(chǔ)(包括Web信息采集機(jī)制、Web標(biāo)引機(jī)制以及基于關(guān)鍵字或基于相似性搜索機(jī)制),然后系統(tǒng)地描述了Web挖掘的基礎(chǔ)知識(shí),著重介紹基于超文本的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘方法,如聚類、協(xié)同過濾、監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí),最后講述了這些基本原理在Web挖掘中的應(yīng)用。本書為讀者提供了堅(jiān)實(shí)的技術(shù)背景和最新的知識(shí)。 本書是從事數(shù)據(jù)挖掘?qū)W術(shù)研究和開發(fā)的專業(yè)人員理想的參考書,同時(shí)也適合作為高等院校計(jì)算機(jī)及相關(guān)專業(yè)研究生的教材。
作者簡介
Soumen Chakrabarti,Web搜索與挖掘領(lǐng)域的知名專家,ACM Transactions on the Web副主編。加州大學(xué)伯克利分校博士,目前是印度理工學(xué)院計(jì)算機(jī)科學(xué)與工程系副教授。曾經(jīng)供職于IBM Almaden研究中心,從事超文本數(shù)據(jù)庫和數(shù)據(jù)挖掘方面的工作。他有豐富的實(shí)際項(xiàng)目開發(fā)經(jīng)驗(yàn),開發(fā)了多個(gè)Web挖掘系統(tǒng),并獲得了多項(xiàng)美國專利。
書籍目錄
1 INTRODUCTION 1.1 Crawling and Indexing 1.2 Topic Directories 1.3 Clustering and Classification 1.4 Hyperlink Analysis 1.5 Resource Discovery and Vertical Portals 1.6 Structured vs. Unstructured Data Mining 1.7 Bibliographic NotesPART Ⅰ INFRASTRUCTURE 2 CRAWLING THE WEB 2.1 HTML and HTTP Basics 2.2 Crawling Basics 2.3 Engineering Large-Scale Crawlers 2.3.1 DNS Caching, Prefetching, and Resolution 2.3.2 Multiple Concurrent Fetches 2.3.3 Link Extraction and Normalization 2.3.4 Robot Exclusion 2.3.5 Eliminating Already-Visited URLs 2.3.6 Spider Traps 2.3.7 Avoiding Repeated Expansion of Links on Duplicate Pages 2.3.8 Load Monitor and Manager 2.3.9 Per-Server Work-Queues 2.3.10 Text Repository 2.3.11 Refreshing Crawled Pages 2.4 Putting Together a Crawler 2.4.1 Design of the Core Components 2.4.2 Case Study: Using w3c-libwww 2.5 Bibliographic Notes 3 WEB SEARCH AND INFORMATION RETRIEVAL 3.1 Boolean Queries and the Inverted Index 3.1.1 Stopwords and Stemming 3.1.2 Batch Indexing and Updates 3.1.3 Index Compression Techniques 3.2 Relevance Ranking 3.2.1 Recall and Precision 3.2.2 The Vector-Space Model 3.2.3 Relevance Feedback and Rocchio?s Method 3.2.4 Probabilistic Relevance Feedback Models 3.2.5 Advanced Issues 3.3 Similarity Search 3.3.1 Handling òFind-Similaró Queries 3.3.2 Eliminating Near Duplicates via Shingling 3.3.3 Detecting Locally Similar Subgraphs of the Web 3.4 Bibliographic Notes PART Ⅱ LEARNING PART Ⅲ APPLICATIONSReferencesIndex
章節(jié)摘錄
插圖:
媒體關(guān)注與評(píng)論
本書是Web挖掘與搜索引擎領(lǐng)域的經(jīng)典著作,自出版以來深受好評(píng),已經(jīng)被斯坦福、普林斯頓、卡內(nèi)基梅隆等世界名校采用為教材。書中首先介紹了Web爬行和搜索等許多基礎(chǔ)性的問題,并以此為基礎(chǔ),深入闡述了解決Web挖掘各種難題所涉及的機(jī)器學(xué)習(xí)技術(shù),提出了機(jī)器學(xué)習(xí)在系統(tǒng)獲取、存儲(chǔ)和分析數(shù)據(jù)中的許多應(yīng)用,并探討了這些應(yīng)用的優(yōu)劣和發(fā)展前景。 全書分析透徹,富于前瞻性,為構(gòu)建Web挖掘創(chuàng)新性應(yīng)用奠定了理論和實(shí)踐基礎(chǔ),既適用于信息檢索和機(jī)器學(xué)習(xí)領(lǐng)域的研究人員和高校師生,也是廣大Web開發(fā)人員的優(yōu)秀參考書。 “本書深入揭示了搜索引擎的技術(shù)內(nèi)幕!有了它,你甚至能夠自己開發(fā)一個(gè)搜索引擎?!薄 猻earchenginewatch.com網(wǎng)站“本書系統(tǒng)、全面而且深入,廣大Web技術(shù)開發(fā)人員都能很好地理解和掌握其中內(nèi)容。作者是該研究領(lǐng)域的領(lǐng)軍人物之一,在超文本信息挖掘和檢索方面有著淵博的知識(shí)和獨(dú)到的見解?!薄 狫oydeep Ghosh,得克薩斯大學(xué)奧斯汀分校教授,IEEE會(huì)士“作者將該領(lǐng)域的所有重要工作融合到這部杰作中,并以一種通俗易懂的方式介紹了原本非常深?yuàn)W的內(nèi)容。有了這本書,Web挖掘終于有可能成為大學(xué)的一門課程了?!薄 狫aideep Srivastava,明尼蘇達(dá)大學(xué)教授,IEEE會(huì)士
編輯推薦
《Web數(shù)據(jù)挖掘:超文本數(shù)據(jù)的知識(shí)發(fā)現(xiàn)(英文版)》是從事數(shù)據(jù)挖掘?qū)W術(shù)研究和開發(fā)的專業(yè)人員理想的參考書,同時(shí)也適合作為高等院校計(jì)算機(jī)及相關(guān)專業(yè)研究生的教材。《Web數(shù)據(jù)挖掘》是Web挖掘與搜索引擎領(lǐng)域的經(jīng)典著作,自出版以來深受好評(píng),已經(jīng)被斯坦福、普林斯頓、卡內(nèi)基梅隆等世界名校采用為教材。書中首先介紹了Web爬行和搜索等許多基礎(chǔ)性的問題,并以此為基礎(chǔ),深入闡述了解決Web挖掘各種難題所涉及的機(jī)器學(xué)習(xí)技術(shù),提出了機(jī)器學(xué)習(xí)在系統(tǒng)獲取、存儲(chǔ)和分析數(shù)據(jù)中的許多應(yīng)用,并探討了這些應(yīng)用的優(yōu)劣和發(fā)展前景?!禬eb數(shù)據(jù)挖掘》分析透徹,富于前瞻性,為構(gòu)建Web挖掘創(chuàng)新性應(yīng)用奠定了理論和實(shí)踐基礎(chǔ),既適用于信息檢索和機(jī)器學(xué)習(xí)領(lǐng)域的研究人員和高校師生,也是廣大Web開發(fā)人員的優(yōu)秀參考書。
圖書封面
圖書標(biāo)簽Tags
無
評(píng)論、評(píng)分、閱讀與下載