Web知識挖掘

出版時(shí)間:2010-6  出版社:科學(xué)出版社  作者:鄭慶華  頁數(shù):336  
Tag標(biāo)簽:無  

前言

1989年,歐洲核子研究組織(European Organization for Nuclear Research,CERN)的工程師Tim Berners-Lee針對科學(xué)家之間文獻(xiàn)交流的需求,首次提出了Web概念與應(yīng)用架構(gòu),其核心是通過超鏈接實(shí)現(xiàn)文本文檔的共享。其后,隨著超文本標(biāo)記語言(HTML)、超文本傳輸協(xié)議(HTTP)等技術(shù)標(biāo)準(zhǔn)的逐步成熟,以及Mosaic、Narigatot等瀏覽器的廣泛應(yīng)用,Web在1995年前后進(jìn)入了快速發(fā)展階段,表現(xiàn)為Inter。net上的Web頁面數(shù)量與服務(wù)器數(shù)量呈指數(shù)級增長。2004年以后,Internet上的PIW(pIablicly indexable Web)頁面數(shù)已達(dá)到了10數(shù)量級,每天新增頁面的數(shù)量超過800萬,而Web服務(wù)器數(shù)量的倍增周期僅為23周。Web已成為一個(gè)開放性的、動態(tài)的、全球性信息服務(wù)中心,以及當(dāng)前人們獲取信息的重要手段。然而,Web上同樣面臨著信息社會所共有的“信息爆炸”與“知識貧乏”的矛盾性問題。如何從這些海量的Web數(shù)據(jù)中發(fā)現(xiàn)有用的知識或者模式,成為人們亟待解決的問題。傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)主要針對結(jié)構(gòu)化的數(shù)據(jù)對象,還很難適用于具有異構(gòu)性、半結(jié)構(gòu)化特性以及高度動態(tài)性等特點(diǎn)的Web數(shù)據(jù)。為此,Etzioni于1996年提出了“Web挖掘”的概念。Web挖掘是數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫、自然語言處理、Web/Internet等多種信息技術(shù)相互滲透與融合的必然結(jié)果,旨在研究如何從Web文檔與服務(wù)中抽取有價(jià)值的知識或隱含信息。近年來,Web挖掘這個(gè)研究領(lǐng)域得到了國內(nèi)外學(xué)者越來越多的關(guān)注,人們以文本分類、信息抽取、檢索結(jié)構(gòu)排序、用戶訪問模式發(fā)現(xiàn)等應(yīng)用為目標(biāo),在Web挖掘的三個(gè)子領(lǐng)域——結(jié)構(gòu)挖掘、內(nèi)容挖掘、日志挖掘方面從事了大量的研究工作,在理論、方法與應(yīng)用方面取得了一系列研究成果。

內(nèi)容概要

本書是一部關(guān)于Web知識挖掘的比較系統(tǒng)、完整,且理論和實(shí)踐相結(jié)合的著作,共含7章:第1章與第2章是Web知識挖掘概論,其中,第1章總體上對Web知識挖掘的現(xiàn)狀、概念、典型方法、應(yīng)用領(lǐng)域以及面臨的挑戰(zhàn)進(jìn)行綜述性說明;第2章介紹了Web知識挖掘的預(yù)備知識、分類體系、基本流程等內(nèi)容。第3~6章是Web知識挖掘的理論與方法,分別論述了Web爬取、Web結(jié)構(gòu)挖掘、內(nèi)容挖掘、日志挖掘相關(guān)理論與方法,并系統(tǒng)總結(jié)了我們自己在元數(shù)據(jù)、概念、知識元等多個(gè)層次上的知識獲取以及個(gè)性化知識服務(wù)等方面的工作。第7章是Web知識挖掘的實(shí)踐與應(yīng)用實(shí)例,以實(shí)例對Web結(jié)構(gòu)挖掘、日志挖掘及內(nèi)容挖掘的應(yīng)用進(jìn)行了說明。    本書不僅系統(tǒng)地介紹了Web知識挖掘領(lǐng)域的基礎(chǔ)理論與方法,也闡述了我們在該領(lǐng)域的創(chuàng)新性工作,因而適合不同類型與層次的研究人員及學(xué)生。    本書可作為信息領(lǐng)域的科研與工程技術(shù)人員的參考書,也可作為計(jì)算機(jī)與相關(guān)專業(yè)的研究生和高年級本科生的教材或輔導(dǎo)書目。

書籍目錄

前言 第1章 Web挖掘概述   1.1 Web發(fā)展歷史與現(xiàn)狀   1.2 Web挖掘的概念   1.3 Web挖掘面臨的挑戰(zhàn)   1.4 Web挖掘的研究方向   1.5 小結(jié) 第2章 Web挖掘的基礎(chǔ)知識   2.1 Web挖掘的主要預(yù)備知識   2.2 Web挖掘分類   2.3 Web挖掘的主要應(yīng)用   2.4 Web挖掘的基本流程   2.5 Web挖掘領(lǐng)域的重要文獻(xiàn)、國際期刊與會議、標(biāo)準(zhǔn)規(guī)范   2.6 小結(jié) 第3章 Web爬取與頁面組織管理   3.1 Web爬取概述   3.2 Web爬取中的主要技術(shù)問題   3.3 隱含Web爬取   3.4 面向主題的Web爬取   3.5 爬取頁面的存儲與管理   3.6 小結(jié) 第4章 Web結(jié)構(gòu)挖掘   4.1 Web結(jié)構(gòu)挖掘概述   4.2 PageRank算法   4.3 HITS算法   4.4 Hilltop算法   4.5 Web宏觀結(jié)構(gòu)特性分析   4.6 小結(jié) 第5章 Web內(nèi)容挖掘   5.1 Web頁面的特征表示   5.2 Web頁面分類   5.3 Web頁面聚類   5.4 面向Web的信息抽取   5.5 面向Web的本體學(xué)習(xí)   5.6 面向Web的知識元及其關(guān)聯(lián)抽取   5.7 多媒體數(shù)據(jù)挖掘   5.8 Web內(nèi)容挖掘的未來研究方向   5.9 小結(jié) 第6章 Web日志挖掘   6.1 Web日志挖掘概述   6.2 Web日志預(yù)處理   6.3 序列模式挖掘   6.4 Web用戶行為模式挖掘   6.5 Web用戶個(gè)性挖掘   6.6 Web用戶興趣感知   6.7 Web日志挖掘的未來研究方向   6.8 小結(jié) 第7章 Web挖掘的應(yīng)用實(shí)例   7.1 應(yīng)用1:面向網(wǎng)絡(luò)學(xué)習(xí)的學(xué)習(xí)者個(gè)性挖掘   7.2 應(yīng)用2:海量Web資源中的知識處理與服務(wù)   7.3 小結(jié)   參考文獻(xiàn)

章節(jié)摘錄

插圖:Web挖掘是從數(shù)據(jù)挖掘發(fā)展而來的,但與傳統(tǒng)的數(shù)據(jù)挖掘相比有許多獨(dú)特之處。數(shù)據(jù)挖掘,又稱為面向數(shù)據(jù)庫的知識發(fā)現(xiàn)(knowledge discovery in database,KDD),就是從大量數(shù)據(jù)中獲取新穎的、潛在有用的模式的過程。數(shù)據(jù)挖掘的對象是來自關(guān)系型數(shù)據(jù)庫或XML數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)。而Web挖掘的對象包括網(wǎng)頁、圖像、聲音、視頻、網(wǎng)頁之間的鏈接以及網(wǎng)站用戶的日志數(shù)據(jù)。除了日志數(shù)據(jù)外,其他類型數(shù)據(jù)具有海量、異構(gòu)、非結(jié)構(gòu)化等特性,傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)還很難處理這類數(shù)據(jù)。因此,必須在Web挖掘領(lǐng)域中,研究專門針對Web數(shù)據(jù)特點(diǎn)的算法與方法。在信息檢索中,用戶以關(guān)鍵詞組合表達(dá)檢索需求,通過關(guān)鍵詞匹配的方式從特定文檔集中返回與檢索需求相關(guān)的文檔。信息檢索包括文檔的建模、分類、索引、結(jié)果排序與可視化Web等流程,Web挖掘技術(shù)一般用于其中的分類、索引以及結(jié)果排序,從這個(gè)角度來說,Web挖掘是信息檢索過程的重要組成部分(Kosala etal,2000)。另一方面,信息檢索的結(jié)果往往也是Web挖掘的對象,如在HITS算法中,因而信息檢索也可作為Web挖掘的組成部分。信息抽取指從給定的文檔中抽取特定類別的信息,例如,從一篇文檔中抽取標(biāo)題、作者等元數(shù)據(jù)信息。由于Web站點(diǎn)的異構(gòu)性,大多數(shù)信息抽取都是對針對特定網(wǎng)站,一些抽取方法能夠自動或半自動地建立抽取模式(Kushmerick,1999),對于這類信息抽取,Web挖掘可以看做信息抽取的一個(gè)過程。此外,在Web挖掘中,利用信息抽取可以建立文檔的壓縮版本以提高挖掘效率,從這個(gè)角度來說,信息抽取可以作為Web挖掘的預(yù)處理過程。

編輯推薦

《Web知識挖掘:理論、方法與應(yīng)用》由科學(xué)出版社出版。

圖書封面

圖書標(biāo)簽Tags

評論、評分、閱讀與下載


    Web知識挖掘 PDF格式下載


用戶評論 (總計(jì)7條)

 
 

  •   正版,紙張印刷不錯(cuò),和其他書目一起看的。內(nèi)容不錯(cuò)。
  •   因?yàn)閭€(gè)人關(guān)系對我來說是必須買的書,具體內(nèi)容還在讀
  •   在準(zhǔn)備讀、
  •   類似博士論文,可以大概全面了解web挖掘知識
  •   好像大學(xué)課程教材,呵呵。。
  •   得好好的看才行
  •   本書適合專業(yè)人士閱讀,不適合做入門讀物,寫的比較晦澀,內(nèi)容很多是作者團(tuán)隊(duì)發(fā)表的論文內(nèi)容,做研究可以借鑒。
 

250萬本中文圖書簡介、評論、評分,PDF格式免費(fèi)下載。 第一圖書網(wǎng) 手機(jī)版

京ICP備13047387號-7