Web數(shù)據(jù)挖掘

出版時(shí)間：2009-4 出版社：清華大學(xué)出版社作者：劉兵頁數(shù)：375 字?jǐn)?shù)：594000 譯者：俞勇
Tag標(biāo)簽：無

前言

作為互聯(lián)網(wǎng)上最重要的應(yīng)用之一，Web（萬維網(wǎng)）提供了便捷的文檔發(fā)布與獲取機(jī)制，并逐步成為各類信息資源的聚集地。據(jù)Google于2008年發(fā)布的官方報(bào)告，它們已經(jīng)在互聯(lián)網(wǎng)上發(fā)現(xiàn)超過1萬億個(gè)Web文檔，而且這個(gè)數(shù)字還在以每天幾十億的速度持續(xù)增長。面對如此巨大的信息量，普通Web用戶往往迷失其中，他們迫切需要一種機(jī)制快速定位到所需信息。Web數(shù)據(jù)挖掘便應(yīng)運(yùn)而生，并且伴隨Web的發(fā)展而備受關(guān)注。Web數(shù)據(jù)挖掘它建立在信息檢索、數(shù)據(jù)挖掘以及知識管理等技術(shù)的基礎(chǔ)上，通過對大量Web文檔進(jìn)行分析來獲得隱含的知識和模式，從而幫助人們更好地進(jìn)行信息搜索和決策制定。反過來，可以說，也正是Web挖掘技術(shù)的不斷進(jìn)展，推動了Web的進(jìn)一步蓬勃發(fā)展。目前Web數(shù)據(jù)挖掘已經(jīng)引起了學(xué)術(shù)界、工業(yè)界、社會學(xué)家的廣泛關(guān)注，也吸引了眾多研究人員與開發(fā)人員投身其中。國內(nèi)外很多大學(xué)與研究機(jī)構(gòu)先后開設(shè)了Web挖掘課程。但長期以來并沒有專門針對Web挖掘的教材與專著。劉兵教授出版的這本著作填補(bǔ)了該領(lǐng)域的空白。該教材針對Web挖掘中眾多關(guān)鍵主題進(jìn)行了深入分析。清華大學(xué)出版社獨(dú)具慧眼，決定將該書翻譯成中文版在國內(nèi)出版，這必將對我國Web挖掘的教學(xué)與研究產(chǎn)生積極的推動作用，有幸承擔(dān)該書的翻譯工作，我們感到十分榮幸。本書是由伊利諾伊大學(xué)芝加哥分校（UIC）的劉兵（Bing Liu）教授歷經(jīng)一年的時(shí)間所著的"Web Data Mining"的翻譯版。劉兵教授是Web挖掘研究領(lǐng)域的國際知名專家，曾擔(dān)任多個(gè)國際期刊的編輯，也是多個(gè)國際學(xué)術(shù)會議（如WWW、KDD與AAAI等）的程序委員會委員。劉兵教授在Web內(nèi)容挖掘、互聯(lián)網(wǎng)觀點(diǎn)挖掘、數(shù)據(jù)挖掘等領(lǐng)域有非常高的造詣。他先后在國際著名學(xué)術(shù)期刊與重要國際學(xué)術(shù)會議上發(fā)表論文一百多篇。本教材中的部分章節(jié)也融入了劉兵教授從事Web挖掘研究多年的心血。全書主要包括前言和12個(gè)章節(jié)。本書的翻譯和審校由俞勇、薛貴榮和韓定一共同完成。其中，俞勇負(fù)責(zé)前言、第1章和第2章，薛貴榮負(fù)責(zé)第3～7章，韓定一負(fù)責(zé)第8～12章。參加翻譯工作的還有韓定一（前言、第1章、第8章）、徐生良（第2章）、凌霄（第3章）、郭晉文（第4章、第5章）、王亮（第6章）、陳林虎（第7章）、傅臨云（第9章）、第7張迪（第10章）、包勝華（第11章）和王樂天（第12章）等。上海交通大學(xué)APEX數(shù)據(jù)和知識管理實(shí)驗(yàn)室的全體同學(xué)參加了本書的校對工作。在本書的翻譯過程中，得到了劉兵教授的大力支持。他向譯者提供了全文書稿的最終版本，并對翻譯工作提出了指導(dǎo)性建議。同時(shí)，感謝微軟亞洲研究院李航博士的引薦，使我們有機(jī)會學(xué)習(xí)和翻譯此書。最后，感謝清華大學(xué)出版社的龍啟銘編輯，是他的遠(yuǎn)見，使得本書能夠盡快與讀者見面。由于本書所涉及到內(nèi)容非常廣泛，許多術(shù)語目前尚無固定譯法，翻譯難度相對較大。盡管我們對某些術(shù)語進(jìn)行了推敲，但仍然可能出現(xiàn)詞不達(dá)意的地方。此外，由于譯者水平有限，譯文中不當(dāng)之處也在所難免。我們也真誠地希望同行與讀者朋友們不吝賜教。

內(nèi)容概要

本書旨在講述這些任務(wù)以及它們的核心挖掘算法；盡可能涵蓋每個(gè)話題的廣泛內(nèi)容，給出足夠多的細(xì)節(jié)，以便讀者無須借助額外的閱讀，即可獲得相對完整的關(guān)于算法和技術(shù)的知識。其中結(jié)構(gòu)化數(shù)據(jù)的抽取、信息整合、觀點(diǎn)挖掘和Web使用挖掘等4章是本書的特色，這些內(nèi)容在已有書籍中沒有提及，但它們在Web數(shù)據(jù)挖掘中卻占有非常重要的地位。當(dāng)然，傳統(tǒng)的Web挖掘主題，如搜索、頁面爬取和資源探索以及鏈接分析在書中也作了詳細(xì)描述。    本書盡管題為“Web數(shù)據(jù)挖掘”，卻依然涵蓋了數(shù)據(jù)挖掘和信息檢索的核心主題；因?yàn)閃eb挖掘大量使用了它們的算法和技術(shù)。數(shù)據(jù)挖掘部分主要由關(guān)聯(lián)規(guī)則和序列模式、監(jiān)督學(xué)習(xí)（分類）、無監(jiān)督學(xué)習(xí)（聚類）這三大最重要的數(shù)據(jù)挖掘任務(wù)，以及半監(jiān)督學(xué)習(xí)這個(gè)相對深入的主題組成。而信息檢索對于Web挖掘而言最重要的核心主題都有所闡述。

作者簡介

劉兵（Bing Liu），伊利諾伊大學(xué)芝加哥分校（tnc）教授，他在愛丁堡大學(xué)獲得人工智能博士學(xué)位。劉兵教授是Web挖掘研究領(lǐng)域的國際知名專家，在Web內(nèi)容挖掘、互聯(lián)網(wǎng)觀點(diǎn)挖掘、數(shù)據(jù)挖掘等領(lǐng)域有非常高的造詣，他先后在國際著名學(xué)術(shù)期刊與重要國際學(xué)術(shù)會議（如KDD、www、AAAl

書籍目錄

第一部分 數(shù)據(jù)挖掘基礎(chǔ)  第1章 概述    1.1 什么是萬維網(wǎng)    1.2 萬維網(wǎng)和互聯(lián)網(wǎng)的歷史簡述    1.3 Web數(shù)據(jù)挖掘    1.4 各章概要    1.5 如何閱讀本書    文獻(xiàn)評注  第2章 關(guān)聯(lián)規(guī)則和序列模式    2.1 關(guān)聯(lián)規(guī)則的基本概念    2.2 Apriori算法    2.3 關(guān)聯(lián)規(guī)則挖掘的數(shù)據(jù)格式    2.4 多最小支持度的關(guān)聯(lián)規(guī)則挖掘    2.5 分類關(guān)聯(lián)規(guī)則挖掘    2.6 序列模式的基本概念    2.7 基于GSP挖掘序列模式    2.8 基于PrefixSpan算法的序列模式挖掘    2.9 從序列模式中產(chǎn)生規(guī)則    文獻(xiàn)評注  第3章 監(jiān)督學(xué)習(xí)    3.1 基本概念    3.2 決策樹推理    3.3 評估分類器    3.4 規(guī)則推理    3.5 基于關(guān)聯(lián)規(guī)則的分類    3.6 樸素貝葉斯分類    3.7 樸素貝葉斯文本分類    3.8 支持向量機(jī)    3.9 k-近鄰學(xué)習(xí)    3.10 分類器的集成    文獻(xiàn)評注  第4章 無監(jiān)督學(xué)習(xí)    4.1 基本概念    4.2 k-均值聚類    4.3 聚類的表示    4.4 層次聚類    4.5 距離函數(shù)    4.6 數(shù)據(jù)標(biāo)準(zhǔn)化    4.7 混合屬性的處理    4.8 采用哪種聚類算法    4.9 聚類的評估    4.10 發(fā)現(xiàn)數(shù)據(jù)區(qū)域和數(shù)據(jù)空洞    文獻(xiàn)評注  第5章 部分監(jiān)督學(xué)習(xí)    5.1 從已標(biāo)注數(shù)據(jù)和無標(biāo)注數(shù)據(jù)中學(xué)習(xí)    5.2 從正例和無標(biāo)注數(shù)據(jù)中學(xué)習(xí)    附錄： 樸素貝葉斯EM算法的推導(dǎo)    文獻(xiàn)評注第二部分 Web挖掘  第6章 信息檢索與Web搜索    6.1 信息檢索中的基本概念    6.2 信息檢索模型    6.3 關(guān)聯(lián)性反饋    6.4 評估標(biāo)準(zhǔn)    6.5 文本和網(wǎng)頁的預(yù)處理    6.6 倒排索引及其壓縮    6.7 隱式語義索引    6.8 Web搜索    6.9 元搜索引擎和組合多種排序    6.10 網(wǎng)絡(luò)作弊    文獻(xiàn)評注  第7章 鏈接分析  第8章 Web爬取  第9章 結(jié)構(gòu)化數(shù)據(jù)抽?。喊b器生成  第10章 信息集成  第11章 觀點(diǎn)挖掘  第12章 Web使用挖掘

章節(jié)摘錄

插圖：第一部分 數(shù)據(jù)挖掘基礎(chǔ)第1章 概述1.2 萬維網(wǎng)和互聯(lián)網(wǎng)的歷史簡述萬維網(wǎng)的創(chuàng)立：萬維網(wǎng)最初是由Tim Berners—Lee于1989年發(fā)明的。當(dāng)時(shí)，他在位于瑞士的歐洲粒子物理實(shí)驗(yàn)室（Centre European pour la Recherche Nucleaire，或European Laboratory for Particle Physics，CERN）工作。他給萬維網(wǎng)命名，并且編寫了世界上首個(gè)萬維網(wǎng)服務(wù)器httpd和世界上首個(gè)客戶端程序（包括一個(gè)瀏覽器和一個(gè)編輯器World Wide Web）。事件起源于1989年3月，當(dāng)時(shí)Tim Berners—Lee向他在CERN的導(dǎo)師提交了一份名為“信息管理提議”的提議書。在這份提議中，他討論了層次化信息組織的缺點(diǎn)，并且描繪出基于超文本系統(tǒng)的優(yōu)點(diǎn)。提議書建議設(shè)計(jì)一套簡單的協(xié)議，使得用戶可以通過網(wǎng)絡(luò)請求存放在遠(yuǎn)端系統(tǒng)上的信息；并創(chuàng)立一套使信息可以用相同格式被互相交換，并且用戶可以通過超鏈接把相關(guān)文檔鏈接起來的機(jī)制。其中還提到如何使用當(dāng)時(shí)在CERN的一些文本閱讀和圖形顯示的技術(shù)。提議書完整地描述了分布式超文本系統(tǒng)（Distributed Hypertext System），也就是當(dāng)今萬維網(wǎng)的基礎(chǔ)構(gòu)架。起初，這份提議書并沒有獲得足夠的支持。然而，在1990年，Berners—Lee重新分發(fā)了提議書，并獲得了足夠的支持來展開工作。在這個(gè)項(xiàng)目中，Berners—Lee和他在CERN的團(tuán)隊(duì)為最終把萬維網(wǎng)發(fā)展成為分布式超文本系統(tǒng)鋪平了道路。他們設(shè)計(jì)了服務(wù)器、瀏覽器、用于在客戶端和服務(wù)器之間進(jìn)行通訊的協(xié)議——超本文傳輸協(xié)議（HyperText Transfer Protocol，HTTP）、用于編輯網(wǎng)絡(luò)文檔的超文本標(biāo)記語言（HyperText Markup Language，HTML），以及統(tǒng)一資源定位符（Universal Resource Locator，URL）。萬維網(wǎng)從此開始迅速發(fā)展。Mosaic和Netscape：下一個(gè)萬維網(wǎng)的重要事件是Mosaic的出現(xiàn)。1993年2月，來自美國伊利諾伊斯大學(xué)國家超級計(jì)算應(yīng)用中心（National Center for Supercomputing Applications，NCSA）的Marc Andreesen和他的團(tuán)隊(duì)發(fā)布了UNIX操作系統(tǒng)上圖形界面的 網(wǎng)絡(luò)瀏覽器一Mosaic for X。

編輯推薦

《Web數(shù)據(jù)挖掘》為世界著名計(jì)算機(jī)教材精選之一。

圖書封面

圖書標(biāo)簽Tags

無

評論、評分、閱讀與下載

還沒讀過(58)
勉強(qiáng)可看(421)
一般般(718)
內(nèi)容豐富(2980)
強(qiáng)力推薦(244)

Web數(shù)據(jù)挖掘 PDF格式下載

用戶評論 (總計(jì)112條)

數(shù)本身介紹的內(nèi)容比較新，而且很全面。應(yīng)該算是web數(shù)據(jù)挖掘里邊一本表宏觀的參考書。如果你是要研究某個(gè)算法的，那就算了！這本書在算法研究生寫的不是很多～～更多的是一些總結(jié)性的研究。每個(gè)章節(jié)都是對該章內(nèi)容，當(dāng)前研究的一個(gè)總結(jié)。大家可以買回來當(dāng)參考書，如果是要學(xué)習(xí)web數(shù)據(jù)挖掘?？梢宰鲆粋€(gè)入門的參考書，從宏觀上了解web數(shù)據(jù)挖掘的一個(gè)框架。具體算法可以再買別的參考書看看。
書的質(zhì)量很好，是一本數(shù)據(jù)挖掘以及web數(shù)據(jù)挖掘的入門和時(shí)間學(xué)習(xí)課本。
值得一看。
很經(jīng)典的WEB數(shù)據(jù)挖掘書，有點(diǎn)高深
先講數(shù)據(jù)挖掘的基本知識，然后再是web挖掘的知識。
有些地方講的比較晦澀，看的很難懂。
但慢慢看應(yīng)該會好些·
非常適合初學(xué)者，了解一下web數(shù)據(jù)挖掘的方法
數(shù)據(jù)挖掘中十大經(jīng)典算法都提到了，是一本模式識別在數(shù)據(jù)挖掘中應(yīng)用描述的書，特別贊的是把萬維網(wǎng)和互聯(lián)網(wǎng)很清楚得描述是不一樣的東西。。。
對學(xué)習(xí)數(shù)據(jù)挖掘很有用處，值得一看！
理論性強(qiáng)，可以加強(qiáng)對數(shù)據(jù)挖掘方向概念理解
是本數(shù)據(jù)挖掘的好書
書挺好的，介紹了web信息抽取領(lǐng)域中的一些方法，但就是不太詳細(xì)！
對于做web開發(fā)的程序員，或設(shè)計(jì)者，這本書無疑是強(qiáng)化自己。書的內(nèi)容、質(zhì)量都很好
比較有深度，理解得比較透徹，尤其是數(shù)據(jù)抽取、信息集成等內(nèi)容，有較深的高度。適合有較高理論和實(shí)踐基礎(chǔ)的人使用。
都是從最新的論文里截取的算法和思想，很好很強(qiáng)大?。。?/li>
非常有用的書籍，但千萬別給工程師看，作為學(xué)習(xí)和研究的書籍很好。
這本書我覺得還不錯(cuò)，剛拿到手，就迫不及待的看了一些內(nèi)容，也正是我需要的，感覺是我這個(gè)階段非常需要的，對于做研究真的很不錯(cuò)，直接看英文文獻(xiàn)，可能太費(fèi)力，先看下此書，你再看英文文獻(xiàn)就容易理解多了。
努力學(xué)習(xí)中，里面給出的例子相結(jié)合，容易理解
書還是不錯(cuò)，內(nèi)容很深，要好好研究……
書的內(nèi)容很好，都是比較新的知識，講解得也比較到位。
紙張?jiān)俸駥?shí)一些就好了。
正版，內(nèi)容不錯(cuò)，老公很喜歡的一本書
書的質(zhì)量不錯(cuò)，內(nèi)容還得慢慢看。
書不錯(cuò)，很有內(nèi)容
挺不錯(cuò)的一本書。從入門到深入都來一遍。不錯(cuò)。
譯者是交大ACM試點(diǎn)班的掌門人，手下是牛人輩出。翻譯的質(zhì)量也有所保證。
這本書對于準(zhǔn)備開展相關(guān)研究的入門者是很有幫助的。
這本書寫得有一定深度，值得細(xì)細(xì)研究。
內(nèi)容比較新穎，慢慢看
幫別人買的，據(jù)說質(zhì)量不錯(cuò)，內(nèi)容也挺好。
質(zhì)量不錯(cuò)，內(nèi)容肯定經(jīng)典，但就是章節(jié)的排版有點(diǎn)不滿意！
給別人買的，所以不知道內(nèi)容好壞哦，我選擇的貨到付款，感覺挺不錯(cuò)的，就服務(wù)來講。
內(nèi)容比較新，翻譯的也可以。
最喜歡當(dāng)當(dāng)?shù)姆?wù)和送貨速度
老師推薦的，很好的一本書，但稍偏難，比較概括
這本書以前在學(xué)?？催^，有點(diǎn)深度，同時(shí)也正是我所需要的
說是不錯(cuò)的書我也不懂
碩士上課，老師推薦買的。挺不錯(cuò)的書
這系列的書買了許多都還不錯(cuò) 比較喜歡
讀了一段時(shí)間了，我個(gè)人認(rèn)為不錯(cuò)，翻譯還可以，但還有提升的空間
還好就是好多公式數(shù)學(xué)不好傷不起呀
速度好快，上午下單，下午就來了。贊啊
嗯，很好！
以前接觸這方面比較少，看后很有幫助。
好書，順便贊下當(dāng)當(dāng)?shù)乃拓浰俣?/li>
不錯(cuò)，對我非常有幫助
有點(diǎn)難度，對于我這個(gè)菜鳥
原著不錯(cuò)！俞勇翻譯得經(jīng)典！
看過之后，感覺確實(shí)是一本值得研讀的好書。
此書是數(shù)據(jù)挖掘的一本書，主要是從web應(yīng)用挖掘出發(fā)。
但是，數(shù)據(jù)挖掘概念與技術(shù)這本書更適合那些想全面了解數(shù)據(jù)挖掘的人。
對Web數(shù)據(jù)挖掘涉及到內(nèi)容進(jìn)行了重點(diǎn)介紹精簡而又實(shí)用但是翻譯質(zhì)量一般建議對照使用
Web數(shù)據(jù)挖掘這書翻譯的不咋地啊。。有些話看著別扭。。只怪自己英文太差。。
WEB數(shù)據(jù)挖掘方面的經(jīng)典圖書,第二次買了，這一次買給實(shí)驗(yàn)室的研究生。
基本的介紹了，但是貌似不是劉兵原版的，是改版了嗎
模型算法較多，不是實(shí)際應(yīng)用的
正是我要學(xué)習(xí)的，知識也比較全面使用
對于學(xué)習(xí)計(jì)算機(jī)的和想從事數(shù)據(jù)庫工作的都適合一看。
書的內(nèi)容不錯(cuò)，適合搞研究時(shí)用，不過應(yīng)用性方面不夠強(qiáng)！
書很有啟發(fā)性，不過內(nèi)容很難，對于有自學(xué)能力和研究能力的很過癮
送貨還算迅速，大冷天的，很期待好好的學(xué)習(xí)一下，
本書比較系統(tǒng)，但部分章節(jié)寫的一般
排版印刷內(nèi)容都很不錯(cuò)
內(nèi)容很好、全面，細(xì)致，不過現(xiàn)在還沒看完
比較好的一本書，先看看了
書不錯(cuò)，挺好的。很早想買了。
我是前幾天收到的書，時(shí)間還挺快，就是紙的質(zhì)量一般。
1.同樣的書，**網(wǎng)是75折，差價(jià)較大。
2.我是12月21日下訂單，31日才收到書。
3.書質(zhì)量挺好，快遞師傅服務(wù)好。
基礎(chǔ)，簡潔
還行吧，深度不夠！
數(shù)學(xué)公式很多，理論很多，不適合實(shí)戰(zhàn)
沒看到我想看的東西
我還是看不懂
還有一本印度人寫的，看完這部接著看
還不錯(cuò)，可以看下，開闊下視野
書講得不太詳細(xì)，未抓住重點(diǎn)寫，書名為web數(shù)據(jù)挖掘，應(yīng)當(dāng)將重點(diǎn)放在web使用挖掘及web文本挖掘上，而后者介紹得不多
對現(xiàn)在的技術(shù)有點(diǎn)跟不上！
自己看有點(diǎn)費(fèi)勁，當(dāng)教材很合適
還沒看，不知道怎么樣。
紙張不怎么的，跟價(jià)格不咋相稱
這本書的內(nèi)容比較深奧，注重算法，偏學(xué)術(shù)
個(gè)人認(rèn)為在工作中的用處不大
很不錯(cuò)的書，可惜實(shí)際用到的不多
適合IT新手普及知識
還可以, 可以一看
原作與翻譯都還不錯(cuò)。PP185翻譯有個(gè)小失誤，圖7.7 PageRank的冪迭代方法第4行公式的最后一個(gè)部分，原文是dA(T)P(k-1)誤翻譯成dA(T)(k-1)，少了一個(gè)P。
很好不錯(cuò)，我喜歡很好不錯(cuò)，我喜歡
印刷OK，沒有問題的。
書很值得看，郵過來也很新，速度比較快。
朋友買的一本書用來做畢業(yè)設(shè)計(jì)，我沒有看里面的內(nèi)容就不做評價(jià)了，給個(gè)四星，希望作者不要打我..
內(nèi)容點(diǎn)到為止，比較新，面廣
初學(xué)者可以買本看看，不過很多東西要實(shí)際做了才知道
還是值得一買的，通俗易懂
簡潔易懂,深入淺出,很實(shí)用.
可以，是一本好書，適合初學(xué)者
防偽標(biāo)志遇水沒有完全消失。。。是怎么回事，紙張摸得也不是特別舒服。。。但比盜版質(zhì)量好很多，應(yīng)該是正版中的次品吧。。。亞馬遜你的節(jié)操呢
書挺好的，邊聽課邊看效果更好。
一本數(shù)據(jù)挖掘類的好書，絕對給好評！
書不錯(cuò)，老師推薦的教材
挺薄的一本書，內(nèi)容很好，教材
很火的一本技術(shù)書
剛收到貨，書很不錯(cuò)！
數(shù)據(jù)挖掘好書
好書，不過看的比較難
學(xué)術(shù)意味太強(qiáng)

Web數(shù)據(jù)挖掘

用戶評論 (總計(jì)112條)

推薦圖書

相關(guān)圖書