Web數(shù)據(jù)挖掘

出版時間:2009-4  出版社:清華大學出版社  作者:劉兵  頁數(shù):375  字數(shù):594000  譯者:俞勇  
Tag標簽:無  

前言

作為互聯(lián)網(wǎng)上最重要的應用之一,Web(萬維網(wǎng))提供了便捷的文檔發(fā)布與獲取機制,并逐步成為各類信息資源的聚集地。據(jù)Google于2008年發(fā)布的官方報告,它們已經(jīng)在互聯(lián)網(wǎng)上發(fā)現(xiàn)超過1萬億個Web文檔,而且這個數(shù)字還在以每天幾十億的速度持續(xù)增長。面對如此巨大的信息量,普通Web用戶往往迷失其中,他們迫切需要一種機制快速定位到所需信息。Web數(shù)據(jù)挖掘便應運而生,并且伴隨Web的發(fā)展而備受關注。Web數(shù)據(jù)挖掘它建立在信息檢索、數(shù)據(jù)挖掘以及知識管理等技術的基礎上,通過對大量Web文檔進行分析來獲得隱含的知識和模式,從而幫助人們更好地進行信息搜索和決策制定。反過來,可以說,也正是Web挖掘技術的不斷進展,推動了Web的進一步蓬勃發(fā)展。目前Web數(shù)據(jù)挖掘已經(jīng)引起了學術界、工業(yè)界、社會學家的廣泛關注,也吸引了眾多研究人員與開發(fā)人員投身其中。國內外很多大學與研究機構先后開設了Web挖掘課程。但長期以來并沒有專門針對Web挖掘的教材與專著。劉兵教授出版的這本著作填補了該領域的空白。該教材針對Web挖掘中眾多關鍵主題進行了深入分析。清華大學出版社獨具慧眼,決定將該書翻譯成中文版在國內出版,這必將對我國Web挖掘的教學與研究產生積極的推動作用,有幸承擔該書的翻譯工作,我們感到十分榮幸。本書是由伊利諾伊大學芝加哥分校(UIC)的劉兵(Bing Liu)教授歷經(jīng)一年的時間所著的"Web Data Mining"的翻譯版。劉兵教授是Web挖掘研究領域的國際知名專家,曾擔任多個國際期刊的編輯,也是多個國際學術會議(如WWW、KDD與AAAI等)的程序委員會委員。劉兵教授在Web內容挖掘、互聯(lián)網(wǎng)觀點挖掘、數(shù)據(jù)挖掘等領域有非常高的造詣。他先后在國際著名學術期刊與重要國際學術會議上發(fā)表論文一百多篇。本教材中的部分章節(jié)也融入了劉兵教授從事Web挖掘研究多年的心血。全書主要包括前言和12個章節(jié)。本書的翻譯和審校由俞勇、薛貴榮和韓定一共同完成。其中,俞勇負責前言、第1章和第2章,薛貴榮負責第3~7章,韓定一負責第8~12章。參加翻譯工作的還有韓定一(前言、第1章、第8章)、徐生良(第2章)、凌霄(第3章)、郭晉文(第4章、第5章)、王亮(第6章)、陳林虎(第7章)、傅臨云(第9章)、第7張迪(第10章)、包勝華(第11章)和王樂天(第12章)等。上海交通大學APEX數(shù)據(jù)和知識管理實驗室的全體同學參加了本書的校對工作。在本書的翻譯過程中,得到了劉兵教授的大力支持。他向譯者提供了全文書稿的最終版本,并對翻譯工作提出了指導性建議。同時,感謝微軟亞洲研究院李航博士的引薦,使我們有機會學習和翻譯此書。最后,感謝清華大學出版社的龍啟銘編輯,是他的遠見,使得本書能夠盡快與讀者見面。由于本書所涉及到內容非常廣泛,許多術語目前尚無固定譯法,翻譯難度相對較大。盡管我們對某些術語進行了推敲,但仍然可能出現(xiàn)詞不達意的地方。此外,由于譯者水平有限,譯文中不當之處也在所難免。我們也真誠地希望同行與讀者朋友們不吝賜教。

內容概要

本書旨在講述這些任務以及它們的核心挖掘算法;盡可能涵蓋每個話題的廣泛內容,給出足夠多的細節(jié),以便讀者無須借助額外的閱讀,即可獲得相對完整的關于算法和技術的知識。其中結構化數(shù)據(jù)的抽取、信息整合、觀點挖掘和Web使用挖掘等4章是本書的特色,這些內容在已有書籍中沒有提及,但它們在Web數(shù)據(jù)挖掘中卻占有非常重要的地位。當然,傳統(tǒng)的Web挖掘主題,如搜索、頁面爬取和資源探索以及鏈接分析在書中也作了詳細描述。    本書盡管題為“Web數(shù)據(jù)挖掘”,卻依然涵蓋了數(shù)據(jù)挖掘和信息檢索的核心主題;因為Web挖掘大量使用了它們的算法和技術。數(shù)據(jù)挖掘部分主要由關聯(lián)規(guī)則和序列模式、監(jiān)督學習(分類)、無監(jiān)督學習(聚類)這三大最重要的數(shù)據(jù)挖掘任務,以及半監(jiān)督學習這個相對深入的主題組成。而信息檢索對于Web挖掘而言最重要的核心主題都有所闡述。

作者簡介

劉兵(Bing Liu),伊利諾伊大學芝加哥分校(tnc)教授,他在愛丁堡大學獲得人工智能博士學位。劉兵教授是Web挖掘研究領域的國際知名專家,在Web內容挖掘、互聯(lián)網(wǎng)觀點挖掘、數(shù)據(jù)挖掘等領域有非常高的造詣,他先后在國際著名學術期刊與重要國際學術會議(如KDD、www、AAAl

書籍目錄

第一部分 數(shù)據(jù)挖掘基礎  第1章 概述    1.1 什么是萬維網(wǎng)    1.2 萬維網(wǎng)和互聯(lián)網(wǎng)的歷史簡述    1.3 Web數(shù)據(jù)挖掘    1.4 各章概要    1.5 如何閱讀本書    文獻評注  第2章 關聯(lián)規(guī)則和序列模式    2.1 關聯(lián)規(guī)則的基本概念    2.2 Apriori算法    2.3 關聯(lián)規(guī)則挖掘的數(shù)據(jù)格式    2.4 多最小支持度的關聯(lián)規(guī)則挖掘    2.5 分類關聯(lián)規(guī)則挖掘    2.6 序列模式的基本概念    2.7 基于GSP挖掘序列模式    2.8 基于PrefixSpan算法的序列模式挖掘    2.9 從序列模式中產生規(guī)則    文獻評注  第3章 監(jiān)督學習    3.1 基本概念    3.2 決策樹推理    3.3 評估分類器    3.4 規(guī)則推理    3.5 基于關聯(lián)規(guī)則的分類    3.6 樸素貝葉斯分類    3.7 樸素貝葉斯文本分類    3.8 支持向量機    3.9 k-近鄰學習    3.10 分類器的集成    文獻評注  第4章 無監(jiān)督學習    4.1 基本概念    4.2 k-均值聚類    4.3 聚類的表示    4.4 層次聚類    4.5 距離函數(shù)    4.6 數(shù)據(jù)標準化    4.7 混合屬性的處理    4.8 采用哪種聚類算法    4.9 聚類的評估    4.10 發(fā)現(xiàn)數(shù)據(jù)區(qū)域和數(shù)據(jù)空洞    文獻評注  第5章 部分監(jiān)督學習    5.1 從已標注數(shù)據(jù)和無標注數(shù)據(jù)中學習    5.2 從正例和無標注數(shù)據(jù)中學習    附錄: 樸素貝葉斯EM算法的推導    文獻評注第二部分 Web挖掘  第6章 信息檢索與Web搜索    6.1 信息檢索中的基本概念    6.2 信息檢索模型    6.3 關聯(lián)性反饋    6.4 評估標準    6.5 文本和網(wǎng)頁的預處理    6.6 倒排索引及其壓縮    6.7 隱式語義索引    6.8 Web搜索    6.9 元搜索引擎和組合多種排序    6.10 網(wǎng)絡作弊    文獻評注  第7章 鏈接分析  第8章 Web爬取  第9章 結構化數(shù)據(jù)抽取:包裝器生成  第10章 信息集成  第11章 觀點挖掘  第12章 Web使用挖掘

章節(jié)摘錄

插圖:第一部分 數(shù)據(jù)挖掘基礎第1章 概述1.2 萬維網(wǎng)和互聯(lián)網(wǎng)的歷史簡述萬維網(wǎng)的創(chuàng)立:萬維網(wǎng)最初是由Tim Berners—Lee于1989年發(fā)明的。當時,他在位于瑞士的歐洲粒子物理實驗室(Centre European pour la Recherche Nucleaire,或European Laboratory for Particle Physics,CERN)工作。他給萬維網(wǎng)命名,并且編寫了世界上首個萬維網(wǎng)服務器httpd和世界上首個客戶端程序(包括一個瀏覽器和一個編輯器World Wide Web)。事件起源于1989年3月,當時Tim Berners—Lee向他在CERN的導師提交了一份名為“信息管理提議”的提議書。在這份提議中,他討論了層次化信息組織的缺點,并且描繪出基于超文本系統(tǒng)的優(yōu)點。提議書建議設計一套簡單的協(xié)議,使得用戶可以通過網(wǎng)絡請求存放在遠端系統(tǒng)上的信息;并創(chuàng)立一套使信息可以用相同格式被互相交換,并且用戶可以通過超鏈接把相關文檔鏈接起來的機制。其中還提到如何使用當時在CERN的一些文本閱讀和圖形顯示的技術。提議書完整地描述了分布式超文本系統(tǒng)(Distributed Hypertext System),也就是當今萬維網(wǎng)的基礎構架。起初,這份提議書并沒有獲得足夠的支持。然而,在1990年,Berners—Lee重新分發(fā)了提議書,并獲得了足夠的支持來展開工作。在這個項目中,Berners—Lee和他在CERN的團隊為最終把萬維網(wǎng)發(fā)展成為分布式超文本系統(tǒng)鋪平了道路。他們設計了服務器、瀏覽器、用于在客戶端和服務器之間進行通訊的協(xié)議——超本文傳輸協(xié)議(HyperText Transfer Protocol,HTTP)、用于編輯網(wǎng)絡文檔的超文本標記語言(HyperText Markup Language,HTML),以及統(tǒng)一資源定位符(Universal Resource Locator,URL)。萬維網(wǎng)從此開始迅速發(fā)展。Mosaic和Netscape:下一個萬維網(wǎng)的重要事件是Mosaic的出現(xiàn)。1993年2月,來自美國伊利諾伊斯大學國家超級計算應用中心(National Center for Supercomputing Applications,NCSA)的Marc Andreesen和他的團隊發(fā)布了UNIX操作系統(tǒng)上圖形界面的 網(wǎng)絡瀏覽器一Mosaic for X。

編輯推薦

《Web數(shù)據(jù)挖掘》為世界著名計算機教材精選之一。

圖書封面

圖書標簽Tags

評論、評分、閱讀與下載


    Web數(shù)據(jù)挖掘 PDF格式下載


用戶評論 (總計112條)

 
 

  •   數(shù)本身介紹的內容比較新,而且很全面。應該算是web數(shù)據(jù)挖掘里邊一本表宏觀的參考書。如果你是要研究某個算法的,那就算了!這本書在算法研究生寫的不是很多~~更多的是一些總結性的研究。每個章節(jié)都是對該章內容,當前研究的一個總結。大家可以買回來當參考書,如果是要學習web數(shù)據(jù)挖掘??梢宰鲆粋€入門的參考書,從宏觀上了解web數(shù)據(jù)挖掘的一個框架。具體算法可以再買別的參考書看看。
  •   書的質量很好,是一本數(shù)據(jù)挖掘以及web數(shù)據(jù)挖掘的入門和時間學習課本。
    值得一看。
  •   很經(jīng)典的WEB數(shù)據(jù)挖掘書,有點高深
  •   先講數(shù)據(jù)挖掘的基本知識,然后再是web挖掘的知識。
    有些地方講的比較晦澀,看的很難懂。
    但慢慢看應該會好些·
  •   非常適合初學者,了解一下web數(shù)據(jù)挖掘的方法
  •   數(shù)據(jù)挖掘中十大經(jīng)典算法都提到了,是一本模式識別在數(shù)據(jù)挖掘中應用描述的書,特別贊的是把萬維網(wǎng)和互聯(lián)網(wǎng)很清楚得描述是不一樣的東西。。。
  •   對學習數(shù)據(jù)挖掘很有用處,值得一看!
  •   理論性強,可以加強對數(shù)據(jù)挖掘方向概念理解
  •   是本數(shù)據(jù)挖掘的好書
  •   書挺好的,介紹了web信息抽取領域中的一些方法,但就是不太詳細!
  •   對于做web開發(fā)的程序員,或設計者,這本書無疑是強化自己。書的內容、質量都很好
  •   比較有深度,理解得比較透徹,尤其是數(shù)據(jù)抽取、信息集成等內容,有較深的高度。適合有較高理論和實踐基礎的人使用。
  •   都是從最新的論文里截取的算法和思想,很好很強大?。。?/li>
  •   非常有用的書籍,但千萬別給工程師看,作為學習和研究的書籍很好。
  •   這本書我覺得還不錯,剛拿到手,就迫不及待的看了一些內容,也正是我需要的,感覺是我這個階段非常需要的,對于做研究真的很不錯,直接看英文文獻,可能太費力,先看下此書,你再看英文文獻就容易理解多了。
  •   努力學習中,里面給出的例子相結合,容易理解
  •   書還是不錯,內容很深,要好好研究……
  •   書的內容很好,都是比較新的知識,講解得也比較到位。
    紙張再厚實一些就好了。
  •   正版,內容不錯,老公很喜歡的一本書
  •   書的質量不錯,內容還得慢慢看。
  •   書不錯,很有內容
  •   挺不錯的一本書。從入門到深入都來一遍。不錯。
  •   譯者是交大ACM試點班的掌門人,手下是牛人輩出。翻譯的質量也有所保證。
  •   這本書對于準備開展相關研究的入門者是很有幫助的。
  •   這本書寫得有一定深度,值得細細研究。
  •   內容比較新穎,慢慢看
  •   幫別人買的,據(jù)說質量不錯,內容也挺好。
  •   質量不錯,內容肯定經(jīng)典,但就是章節(jié)的排版有點不滿意!
  •   給別人買的,所以不知道內容好壞哦,我選擇的貨到付款,感覺挺不錯的,就服務來講。
  •   內容比較新,翻譯的也可以。
  •   最喜歡當當?shù)姆蘸退拓浰俣?/li>
  •   老師推薦的,很好的一本書,但稍偏難,比較概括
  •   這本書以前在學??催^,有點深度,同時也正是我所需要的
  •   說是不錯的書 我也不懂
  •   碩士上課,老師推薦買的。挺不錯的書
  •   這系列的書買了許多 都還不錯 比較喜歡
  •   讀了一段時間了,我個人認為不錯,翻譯還可以,但還有提升的空間
  •   還好就是好多公式數(shù)學不好傷不起呀
  •   速度好快,上午下單,下午就來了。贊啊
  •   嗯,很好!
  •   以前接觸這方面比較少,看后很有幫助。
  •   好書,順便贊下當當?shù)乃拓浰俣?/li>
  •   不錯,對我非常 有幫助
  •   有點難度,對于我這個菜鳥
  •   原著不錯!俞勇翻譯得經(jīng)典!
  •   看過之后,感覺確實是一本值得研讀的好書。
  •   此書是數(shù)據(jù)挖掘的一本書,主要是從web應用挖掘出發(fā)。
    但是,數(shù)據(jù)挖掘概念與技術這本書更適合那些想全面了解數(shù)據(jù)挖掘的人。
  •   對Web數(shù)據(jù)挖掘涉及到內容進行了重點介紹 精簡而又實用 但是翻譯質量一般 建議對照使用
  •   Web數(shù)據(jù)挖掘 這書翻譯的不咋地啊。。有些話看著別扭。。只怪自己英文太差。。
  •   WEB數(shù)據(jù)挖掘方面的經(jīng)典圖書,第二次買了,這一次買給實驗室的研究生。
  •   基本的介紹了,但是貌似不是劉兵原版的,是改版了嗎
  •   模型算法較多,不是實際應用的
  •   正是我要學習的,知識也比較全面使用
  •   對于學習計算機的和想從事數(shù)據(jù)庫工作的都適合一看。
  •   書的內容不錯,適合搞研究時用,不過應用性方面不夠強!
  •   書很有啟發(fā)性,不過內容很難,對于有自學能力和研究能力的很過癮
  •   送貨還算迅速,大冷天的,很期待好好的學習一下,
  •   本書比較系統(tǒng),但部分章節(jié)寫的一般
  •   排版印刷內容都很不錯
  •   內容很好、全面,細致,不過現(xiàn)在還沒看完
  •   比較好的一本書,先看看了
  •   書不錯,挺好的。很早想買了。
  •   我是前幾天收到的書,時間還挺快,就是紙的質量一般。
  •   1.同樣的書,**網(wǎng)是75折,差價較大。
    2.我是12月21日下訂單,31日才收到書。
    3.書質量挺好,快遞師傅服務好。
  •   基礎,簡潔
  •   還行吧,深度不夠!
  •   數(shù)學公式很多,理論很多,不適合實戰(zhàn)
  •   沒看到我想看的東西
  •   我還是看不懂
  •   還有一本印度人寫的,看完這部接著看
  •   還不錯,可以看下,開闊下視野
  •   書講得不太詳細,未抓住重點寫,書名為web數(shù)據(jù)挖掘,應當將重點放在web使用挖掘及web文本挖掘上,而后者介紹得不多
  •   對現(xiàn)在的技術有點跟不上!
  •   自己看有點費勁,當教材很合適
  •   還沒看,不知道怎么樣。
  •   紙張不怎么的,跟價格不咋相稱
  •   這本書的內容比較深奧,注重算法,偏學術
    個人認為在工作中的用處不大
  •   很不錯的書,可惜實際用到的不多
  •   適合IT新手普及知識
  •   還可以, 可以一看
  •   原作與翻譯都還不錯。PP185翻譯有個小失誤,圖7.7 PageRank的冪迭代方法第4行公式的最后一個部分,原文是dA(T)P(k-1)誤翻譯成dA(T)(k-1),少了一個P。
  •   很好不錯,我喜歡很好不錯,我喜歡
  •   印刷OK,沒有問題的。
  •   書很值得看,郵過來也很新,速度比較快。
  •   朋友買的一本書 用來做畢業(yè)設計,我沒有看里面的內容就不做評價了 ,給個四星,希望作者不要打我..
  •   內容點到為止,比較新,面廣
  •   初學者可以買本看看,不過很多東西要實際做了才知道
  •   還是值得一買的,通俗易懂
  •   簡潔易懂,深入淺出,很實用.
  •   可以,是一本好書,適合初學者
  •   防偽標志遇水沒有完全消失。。。是怎么回事,紙張摸得也不是特別舒服。。。但比盜版質量好很多,應該是正版中的次品吧。。。亞馬遜你的節(jié)操呢
  •   書挺好的,邊聽課邊看效果更好。
  •   一本數(shù)據(jù)挖掘類的好書,絕對給好評!
  •   書不錯,老師推薦的教材
  •   挺薄的一本書,內容很好,教材
  •   很火的一本技術書
  •   剛收到貨,書很不錯!
  •   數(shù)據(jù)挖掘好書
  •   好書,不過看的比較難
  •   學術意味太強
 

250萬本中文圖書簡介、評論、評分,PDF格式免費下載。 第一圖書網(wǎng) 手機版

京ICP備13047387號-7