出版時間:2009-4 出版社:清華大學出版社 作者:劉兵 頁數(shù):375 字數(shù):594000 譯者:俞勇
Tag標簽:無
前言
作為互聯(lián)網(wǎng)上最重要的應用之一,Web(萬維網(wǎng))提供了便捷的文檔發(fā)布與獲取機制,并逐步成為各類信息資源的聚集地。據(jù)Google于2008年發(fā)布的官方報告,它們已經(jīng)在互聯(lián)網(wǎng)上發(fā)現(xiàn)超過1萬億個Web文檔,而且這個數(shù)字還在以每天幾十億的速度持續(xù)增長。面對如此巨大的信息量,普通Web用戶往往迷失其中,他們迫切需要一種機制快速定位到所需信息。Web數(shù)據(jù)挖掘便應運而生,并且伴隨Web的發(fā)展而備受關注。Web數(shù)據(jù)挖掘它建立在信息檢索、數(shù)據(jù)挖掘以及知識管理等技術的基礎上,通過對大量Web文檔進行分析來獲得隱含的知識和模式,從而幫助人們更好地進行信息搜索和決策制定。反過來,可以說,也正是Web挖掘技術的不斷進展,推動了Web的進一步蓬勃發(fā)展。目前Web數(shù)據(jù)挖掘已經(jīng)引起了學術界、工業(yè)界、社會學家的廣泛關注,也吸引了眾多研究人員與開發(fā)人員投身其中。國內外很多大學與研究機構先后開設了Web挖掘課程。但長期以來并沒有專門針對Web挖掘的教材與專著。劉兵教授出版的這本著作填補了該領域的空白。該教材針對Web挖掘中眾多關鍵主題進行了深入分析。清華大學出版社獨具慧眼,決定將該書翻譯成中文版在國內出版,這必將對我國Web挖掘的教學與研究產生積極的推動作用,有幸承擔該書的翻譯工作,我們感到十分榮幸。本書是由伊利諾伊大學芝加哥分校(UIC)的劉兵(Bing Liu)教授歷經(jīng)一年的時間所著的"Web Data Mining"的翻譯版。劉兵教授是Web挖掘研究領域的國際知名專家,曾擔任多個國際期刊的編輯,也是多個國際學術會議(如WWW、KDD與AAAI等)的程序委員會委員。劉兵教授在Web內容挖掘、互聯(lián)網(wǎng)觀點挖掘、數(shù)據(jù)挖掘等領域有非常高的造詣。他先后在國際著名學術期刊與重要國際學術會議上發(fā)表論文一百多篇。本教材中的部分章節(jié)也融入了劉兵教授從事Web挖掘研究多年的心血。全書主要包括前言和12個章節(jié)。本書的翻譯和審校由俞勇、薛貴榮和韓定一共同完成。其中,俞勇負責前言、第1章和第2章,薛貴榮負責第3~7章,韓定一負責第8~12章。參加翻譯工作的還有韓定一(前言、第1章、第8章)、徐生良(第2章)、凌霄(第3章)、郭晉文(第4章、第5章)、王亮(第6章)、陳林虎(第7章)、傅臨云(第9章)、第7張迪(第10章)、包勝華(第11章)和王樂天(第12章)等。上海交通大學APEX數(shù)據(jù)和知識管理實驗室的全體同學參加了本書的校對工作。在本書的翻譯過程中,得到了劉兵教授的大力支持。他向譯者提供了全文書稿的最終版本,并對翻譯工作提出了指導性建議。同時,感謝微軟亞洲研究院李航博士的引薦,使我們有機會學習和翻譯此書。最后,感謝清華大學出版社的龍啟銘編輯,是他的遠見,使得本書能夠盡快與讀者見面。由于本書所涉及到內容非常廣泛,許多術語目前尚無固定譯法,翻譯難度相對較大。盡管我們對某些術語進行了推敲,但仍然可能出現(xiàn)詞不達意的地方。此外,由于譯者水平有限,譯文中不當之處也在所難免。我們也真誠地希望同行與讀者朋友們不吝賜教。
內容概要
本書旨在講述這些任務以及它們的核心挖掘算法;盡可能涵蓋每個話題的廣泛內容,給出足夠多的細節(jié),以便讀者無須借助額外的閱讀,即可獲得相對完整的關于算法和技術的知識。其中結構化數(shù)據(jù)的抽取、信息整合、觀點挖掘和Web使用挖掘等4章是本書的特色,這些內容在已有書籍中沒有提及,但它們在Web數(shù)據(jù)挖掘中卻占有非常重要的地位。當然,傳統(tǒng)的Web挖掘主題,如搜索、頁面爬取和資源探索以及鏈接分析在書中也作了詳細描述。 本書盡管題為“Web數(shù)據(jù)挖掘”,卻依然涵蓋了數(shù)據(jù)挖掘和信息檢索的核心主題;因為Web挖掘大量使用了它們的算法和技術。數(shù)據(jù)挖掘部分主要由關聯(lián)規(guī)則和序列模式、監(jiān)督學習(分類)、無監(jiān)督學習(聚類)這三大最重要的數(shù)據(jù)挖掘任務,以及半監(jiān)督學習這個相對深入的主題組成。而信息檢索對于Web挖掘而言最重要的核心主題都有所闡述。
作者簡介
劉兵(Bing Liu),伊利諾伊大學芝加哥分校(tnc)教授,他在愛丁堡大學獲得人工智能博士學位。劉兵教授是Web挖掘研究領域的國際知名專家,在Web內容挖掘、互聯(lián)網(wǎng)觀點挖掘、數(shù)據(jù)挖掘等領域有非常高的造詣,他先后在國際著名學術期刊與重要國際學術會議(如KDD、www、AAAl
書籍目錄
第一部分 數(shù)據(jù)挖掘基礎 第1章 概述 1.1 什么是萬維網(wǎng) 1.2 萬維網(wǎng)和互聯(lián)網(wǎng)的歷史簡述 1.3 Web數(shù)據(jù)挖掘 1.4 各章概要 1.5 如何閱讀本書 文獻評注 第2章 關聯(lián)規(guī)則和序列模式 2.1 關聯(lián)規(guī)則的基本概念 2.2 Apriori算法 2.3 關聯(lián)規(guī)則挖掘的數(shù)據(jù)格式 2.4 多最小支持度的關聯(lián)規(guī)則挖掘 2.5 分類關聯(lián)規(guī)則挖掘 2.6 序列模式的基本概念 2.7 基于GSP挖掘序列模式 2.8 基于PrefixSpan算法的序列模式挖掘 2.9 從序列模式中產生規(guī)則 文獻評注 第3章 監(jiān)督學習 3.1 基本概念 3.2 決策樹推理 3.3 評估分類器 3.4 規(guī)則推理 3.5 基于關聯(lián)規(guī)則的分類 3.6 樸素貝葉斯分類 3.7 樸素貝葉斯文本分類 3.8 支持向量機 3.9 k-近鄰學習 3.10 分類器的集成 文獻評注 第4章 無監(jiān)督學習 4.1 基本概念 4.2 k-均值聚類 4.3 聚類的表示 4.4 層次聚類 4.5 距離函數(shù) 4.6 數(shù)據(jù)標準化 4.7 混合屬性的處理 4.8 采用哪種聚類算法 4.9 聚類的評估 4.10 發(fā)現(xiàn)數(shù)據(jù)區(qū)域和數(shù)據(jù)空洞 文獻評注 第5章 部分監(jiān)督學習 5.1 從已標注數(shù)據(jù)和無標注數(shù)據(jù)中學習 5.2 從正例和無標注數(shù)據(jù)中學習 附錄: 樸素貝葉斯EM算法的推導 文獻評注第二部分 Web挖掘 第6章 信息檢索與Web搜索 6.1 信息檢索中的基本概念 6.2 信息檢索模型 6.3 關聯(lián)性反饋 6.4 評估標準 6.5 文本和網(wǎng)頁的預處理 6.6 倒排索引及其壓縮 6.7 隱式語義索引 6.8 Web搜索 6.9 元搜索引擎和組合多種排序 6.10 網(wǎng)絡作弊 文獻評注 第7章 鏈接分析 第8章 Web爬取 第9章 結構化數(shù)據(jù)抽取:包裝器生成 第10章 信息集成 第11章 觀點挖掘 第12章 Web使用挖掘
章節(jié)摘錄
插圖:第一部分 數(shù)據(jù)挖掘基礎第1章 概述1.2 萬維網(wǎng)和互聯(lián)網(wǎng)的歷史簡述萬維網(wǎng)的創(chuàng)立:萬維網(wǎng)最初是由Tim Berners—Lee于1989年發(fā)明的。當時,他在位于瑞士的歐洲粒子物理實驗室(Centre European pour la Recherche Nucleaire,或European Laboratory for Particle Physics,CERN)工作。他給萬維網(wǎng)命名,并且編寫了世界上首個萬維網(wǎng)服務器httpd和世界上首個客戶端程序(包括一個瀏覽器和一個編輯器World Wide Web)。事件起源于1989年3月,當時Tim Berners—Lee向他在CERN的導師提交了一份名為“信息管理提議”的提議書。在這份提議中,他討論了層次化信息組織的缺點,并且描繪出基于超文本系統(tǒng)的優(yōu)點。提議書建議設計一套簡單的協(xié)議,使得用戶可以通過網(wǎng)絡請求存放在遠端系統(tǒng)上的信息;并創(chuàng)立一套使信息可以用相同格式被互相交換,并且用戶可以通過超鏈接把相關文檔鏈接起來的機制。其中還提到如何使用當時在CERN的一些文本閱讀和圖形顯示的技術。提議書完整地描述了分布式超文本系統(tǒng)(Distributed Hypertext System),也就是當今萬維網(wǎng)的基礎構架。起初,這份提議書并沒有獲得足夠的支持。然而,在1990年,Berners—Lee重新分發(fā)了提議書,并獲得了足夠的支持來展開工作。在這個項目中,Berners—Lee和他在CERN的團隊為最終把萬維網(wǎng)發(fā)展成為分布式超文本系統(tǒng)鋪平了道路。他們設計了服務器、瀏覽器、用于在客戶端和服務器之間進行通訊的協(xié)議——超本文傳輸協(xié)議(HyperText Transfer Protocol,HTTP)、用于編輯網(wǎng)絡文檔的超文本標記語言(HyperText Markup Language,HTML),以及統(tǒng)一資源定位符(Universal Resource Locator,URL)。萬維網(wǎng)從此開始迅速發(fā)展。Mosaic和Netscape:下一個萬維網(wǎng)的重要事件是Mosaic的出現(xiàn)。1993年2月,來自美國伊利諾伊斯大學國家超級計算應用中心(National Center for Supercomputing Applications,NCSA)的Marc Andreesen和他的團隊發(fā)布了UNIX操作系統(tǒng)上圖形界面的 網(wǎng)絡瀏覽器一Mosaic for X。
編輯推薦
《Web數(shù)據(jù)挖掘》為世界著名計算機教材精選之一。
圖書封面
圖書標簽Tags
無
評論、評分、閱讀與下載