Web數(shù)據(jù)挖掘

出版時間:2013-1  出版社:清華大學(xué)出版社  作者:劉兵  頁數(shù):434  譯者:俞勇  
Tag標(biāo)簽:無  

內(nèi)容概要

  過去幾十年里,Web的迅速發(fā)展使其成為世界上規(guī)模最大的公共數(shù)據(jù)源。Web挖掘的目標(biāo)是從Web超鏈接、網(wǎng)頁內(nèi)容和使用日志中探尋有用的信息?!  妒澜缰嬎銠C教材精選:Web數(shù)據(jù)挖掘(第2版)》旨在闡述Web數(shù)據(jù)挖掘的概念及其核心算法,使讀者獲得相對完整的關(guān)于Web數(shù)據(jù)挖掘的算法和技術(shù)知識。本書不僅介紹了搜索、頁面爬取和資源探索以及鏈接分析等傳統(tǒng)的Web挖掘主題,而且還介紹了結(jié)構(gòu)化數(shù)據(jù)的抽取、信息整合、觀點挖掘和Web使用挖掘等內(nèi)容,這些內(nèi)容在已有書籍中沒有提及過,但它們在Web數(shù)據(jù)挖掘中卻占有非常重要的地位。全書分為兩大部分:第一部分包括第2章到第5章,介紹數(shù)據(jù)挖掘的基礎(chǔ),第二部分包括第6章到第12章,介紹Web相關(guān)的挖掘任務(wù)。從本書自第1版出版之后,很多領(lǐng)域已經(jīng)有了重大的進展。新版大部分的章節(jié)都已經(jīng)添加了新的材料來反應(yīng)這些進展,主要的改動在第11章和第12章中,這兩章已經(jīng)被重新撰寫并做了重要的擴展?!  妒澜缰嬎銠C教材精選:Web數(shù)據(jù)挖掘(第2版)》不僅可作為本科生的教科書,也是在Web數(shù)據(jù)挖掘和相關(guān)領(lǐng)域研讀博士學(xué)位的研究生的重要參考用書,同時對Web挖掘研究人員和實踐人員獲取知識、信息、甚至是創(chuàng)新想法也很有幫助。

作者簡介

作者:(美國)劉兵 譯者:俞勇

書籍目錄

第1章 概述 1.1 什么是萬維網(wǎng) 1.2 萬維網(wǎng)和互聯(lián)網(wǎng)的歷史簡述 1.3 Web數(shù)據(jù)挖掘 1.3.1 什么是數(shù)據(jù)挖掘 1.3.2 什么是Web數(shù)據(jù)挖掘 1.4 各章概要 1.5 如何閱讀本書 文獻評注 參考文獻 第1部分 數(shù)據(jù)挖掘基礎(chǔ) 第2章 關(guān)聯(lián)規(guī)則和序列模式 2.1 關(guān)聯(lián)規(guī)則的基本概念 2.2 Apriori算法 2.2.1 頻繁項目集生成 2.2.2 關(guān)聯(lián)規(guī)則生成 2.3 關(guān)聯(lián)規(guī)則挖掘的數(shù)據(jù)格式 2.4 多最小支持度的關(guān)聯(lián)規(guī)則挖掘 2.4.1 擴展模型 2.4.2挖掘算法 2.4.3 規(guī)則生成 2.5 分類關(guān)聯(lián)規(guī)則挖掘 2.5.1 問題描述 2.5.2 挖掘算法 2.5.3 多最小支持度分類關(guān)聯(lián)規(guī)則挖掘 2.6 序列模式的基本概念 2.7 基于GSP挖掘序列模式 2.7.1 GSP算法 2.7.2 多最小支持度挖掘 2.8基于PrefixSpan算法的序列模式挖掘 2.8.1 PrefixSpan算法 2.8.2 多最小支持度挖掘 2.9 從序列模式中產(chǎn)生規(guī)則 2.9.1 序列規(guī)則 2.9.2 標(biāo)簽序列規(guī)則 2.9.3 分類序列規(guī)則 文獻評注 參考文獻 第3章 監(jiān)督學(xué)習(xí) 3.1 基本概念 3.2 決策樹歸納 3.2.1 學(xué)習(xí)算法 3.2.2 混雜度函數(shù) 3.2.3 處理連續(xù)屬性 3.2.4其他一些問題 3.3評估分類器 3.3.1 評估方法 3.3.2 查準(zhǔn)率、查全率、F—score和平衡點(Breakeven Point) 3.3.3 受試者工作特征曲線 3.3.4 提升曲線 3.4 規(guī)則歸納 3.4.1 順序化覆蓋 3.4.2 規(guī)則學(xué)習(xí):Learn—One—Rule函數(shù) 3.4.3 討論 3.5 基于關(guān)聯(lián)規(guī)則的分類 3.5.1 使用類關(guān)聯(lián)規(guī)則進行分類 3.5.2 使用類關(guān)聯(lián)規(guī)則作為分類屬性 3.5.3 使用古典的關(guān)聯(lián)規(guī)則分類 3.6 樸素貝葉斯分類 3.7 樸素貝葉斯文本分類 3.7.1 概率框架 3.7.2 樸素貝葉斯模型 3.7.3 討論 3.8 支持向量機 3.8.1 線性支持向量機:可分的情況 3.8.2 線性支持向量機:數(shù)據(jù)不可分的情況 3.8.3 非線性支持向量機:核方法 總結(jié)  3.9 k—近鄰學(xué)習(xí) 3.10分類器的集成 3.10.1 Bagging 3.10.2 Boosting 文獻評注 參考文獻 第4章 無監(jiān)督學(xué)習(xí) 4.1 基本概念 4.2 k—均值聚類 4.2.1 k—均值算法 4.2.2 k—均值算法的硬盤版本 4.2.3 優(yōu)勢和劣勢 4.3 聚類的表示 4.3.1 聚類的一般表示方法 4.3.2 任意形狀的聚類 4.4 層次聚類 4.4.1 單連結(jié)方法 4.4.2全連結(jié)方法 4.4.3 平均連結(jié)方法 4.4.4優(yōu)勢和劣勢 4.5 距離函數(shù) 4.5.1 數(shù)字屬性 4.5.2 布爾屬性和名詞性屬性 4.5.3 文本文檔 4.6數(shù)據(jù)標(biāo)準(zhǔn)化 4.7 混合屬性的處理 4.8 采用哪種聚類算法 4.9聚類的評估 4.10 發(fā)現(xiàn)數(shù)據(jù)區(qū)域和數(shù)據(jù)空洞 文獻評注 參考文獻 第5章 部分監(jiān)督學(xué)習(xí) 5.1 從已標(biāo)注數(shù)據(jù)和無標(biāo)注數(shù)據(jù)中學(xué)習(xí) 5.1.1 使用樸素貝葉斯分類器的EM算法 5.1.2 Co—Training 5.1.3 自學(xué)習(xí) 5.1.4 直推式支持向量機 5.1.5 基于圖的方法 5.1.6 討論 5.2 從正例和無標(biāo)注數(shù)據(jù)中學(xué)習(xí) 5.2.1 PU學(xué)習(xí)的應(yīng)用 5.2.2 理論基礎(chǔ) 5.2.3 建立分類器:兩步方法 5.2.4建立分類器:偏置SVM 5.2.5建立分類器:概率估計 5.2.6 討論 …… 第2部分 Web挖掘

章節(jié)摘錄

版權(quán)頁:   插圖:   5.2.1 PU學(xué)習(xí)的應(yīng)用 由于人們在大多數(shù)情況下僅僅對某個特定類別的網(wǎng)頁或文本文檔感興趣,所以在網(wǎng)頁和文本文檔的檢索中PU學(xué)習(xí)問題經(jīng)常出現(xiàn)。例如,某些人可能只對與旅游相關(guān)的網(wǎng)頁(正例網(wǎng)頁)有興趣,這時所有其他網(wǎng)頁都可以被看成是反例網(wǎng)頁。下面讓我們通過一個具體的例子來看看PU學(xué)習(xí)應(yīng)用的真實場景。 例1:我們想要建立一個關(guān)于數(shù)據(jù)挖掘研究的論文庫。首先,我們可以從一些數(shù)據(jù)挖掘的會議或者期刊上選取一些論文作為初始的論文集。然后,我們希望從一些在線的關(guān)于數(shù)據(jù)庫和人工智能領(lǐng)域的會議和期刊中尋找關(guān)于數(shù)據(jù)挖掘的論文。在這些領(lǐng)域的會議和期刊論文中都包含有一些數(shù)據(jù)挖掘的論文。同樣它們也包含很多其他研究領(lǐng)域的論文。問題就成了怎樣從這些會議和期刊論文中抽取數(shù)據(jù)挖掘的論文,即怎樣在沒有進行任何反例文檔標(biāo)注的情況下把這些文章分類成數(shù)據(jù)挖掘論文和非數(shù)據(jù)挖掘論文。 在實際應(yīng)用中,正例文檔對于那些已經(jīng)從事某項特定工作很長時間的人來說是很容易得到的,因為他們在工作過程中可能會積累很多相關(guān)文檔。即使一開始沒有正例文檔的話,直接從Web或者其他資源中收集一些正例文檔是相對容易的。這樣人們就可以在沒有任何反例標(biāo)注的情況下,通過使用這個初始正例集從其他一些數(shù)據(jù)來源中去發(fā)現(xiàn)相同類別的文檔。PU學(xué)習(xí)在以下這些情況下十分有用: (1)從多個無標(biāo)注集中學(xué)習(xí):在一些應(yīng)用中,人們需要從大量文檔集中發(fā)現(xiàn)正例文檔。例如,我們希望分辨那些銷售打印機的網(wǎng)頁。首先,我們可以很容易從某個在線交易網(wǎng)站中獲得一些正例網(wǎng)頁,如amazon.com。然后我們希望從其他一些交易網(wǎng)站中找到打印機網(wǎng)頁。為此,我們需要一一爬下每個網(wǎng)站的內(nèi)容,然后使用PU學(xué)習(xí)算法從每個網(wǎng)站中抽出打印機網(wǎng)頁。我們不需要對任何網(wǎng)站中的反例網(wǎng)頁進行人工標(biāo)注。 盡管為一個網(wǎng)站標(biāo)注一些反例網(wǎng)頁并不是太難,但是如果要對每個網(wǎng)站都進行標(biāo)注的話就很困難了。由于站點S1中的反例網(wǎng)頁可能與站點S,中的反例網(wǎng)頁十分不同,所以基于S2中的反例網(wǎng)頁學(xué)習(xí)得到的分類器可能不能用于對站點S2的網(wǎng)頁分類。這個原因在于,盡管兩個站點都銷售打印機,但是它們出售的其他產(chǎn)品可能大相徑庭。因此使用從S1上學(xué)習(xí)得到的分類器對S2中的網(wǎng)頁分類可能會違背機器學(xué)習(xí)的基本假設(shè):訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)符合相同的數(shù)據(jù)分布。從而,我們可能會得到很差的分類精度。

編輯推薦

《世界著名計算機教材精選:Web數(shù)據(jù)挖掘(第2版)》不僅可作為本科生的教科書,也是在Web數(shù)據(jù)挖掘和相關(guān)領(lǐng)域研讀博士學(xué)位的研究生的重要參考用書,同時對Web挖掘研究人員和實踐人員獲取知識、信息、甚至是創(chuàng)新想法也很有幫助。

圖書封面

圖書標(biāo)簽Tags

評論、評分、閱讀與下載


    Web數(shù)據(jù)挖掘 PDF格式下載


用戶評論 (總計8條)

 
 

  •   講得很基礎(chǔ),也很詳細,適合數(shù)據(jù)挖掘入門
  •   這本書很好,值得研究生以上的使用,理論性強,適合研究和探索,推薦給大家!
  •   很不錯的一本書,對于計算機專業(yè)的我,很實用,也很適用
  •   這本書目前還沒進一步的去讀,只是簡單的看了一點。目前在讀另一本 Data Mining: Concepts and Techniques 。web數(shù)據(jù)挖掘是老師推薦的,等剛看完再看吧。
  •   買本書的作者應(yīng)該都是想看后面章節(jié)的知識,前面的章節(jié)講的也不錯,雖然其他的書上其實都講的差不多了,還是值得推薦
  •   挺好的 對于有基礎(chǔ)的讀者 比較合適
  •   書質(zhì)量很不錯了~ 對自己有幫助
  •   一看就是正版,也是新書
 

250萬本中文圖書簡介、評論、評分,PDF格式免費下載。 第一圖書網(wǎng) 手機版

京ICP備13047387號-7