出版時間:2012-5 出版社:科學(xué)出版社 作者:李曉明、閆宏飛、王繼民 頁數(shù):330 字?jǐn)?shù):472750
Tag標(biāo)簽:無
內(nèi)容概要
搜索引擎:原理、技術(shù)與系統(tǒng)(第二版)系統(tǒng)介紹了互聯(lián)網(wǎng)搜索引擎的工作原理、實(shí)現(xiàn)技術(shù)及系統(tǒng)構(gòu)建方案。全書分三篇共13章。上篇介紹搜索引擎的基本原理和技術(shù),講述一個小型簡單搜索引擎實(shí)現(xiàn)的具體細(xì)節(jié);中篇詳細(xì)討論了大規(guī)模分布式搜索引擎系統(tǒng)的設(shè)計要點(diǎn)及其關(guān)鍵技術(shù);下篇結(jié)合“中國Web信息博物館”和“中國互聯(lián)網(wǎng)數(shù)字資源財富庫藏”的實(shí)踐經(jīng)驗(yàn),介紹了構(gòu)建大規(guī)模Web歷史網(wǎng)頁和非網(wǎng)頁倉儲系統(tǒng)的技術(shù)和方法,以及中文網(wǎng)頁的自動分類與聚類、開放域問題系統(tǒng)的構(gòu)建等。
搜索引擎:原理、技術(shù)與系統(tǒng)(第二版)層次分明,由淺入深,上篇和中篇涉及內(nèi)容提供了源代碼下載地址;既有深入的理論分析,也有大量的實(shí)驗(yàn)數(shù)據(jù)和程序,具有學(xué)習(xí)和實(shí)用雙重意義。
搜索引擎:原理、技術(shù)與系統(tǒng)(第二版)可作為高等院校計算機(jī)科學(xué)與技術(shù)、軟件工程、信息管理與信息系統(tǒng)、電子商務(wù)等專業(yè)的研究生或高年級本科生的教學(xué)參考書和技術(shù)資料;對廣大從事網(wǎng)絡(luò)技術(shù)、Web站點(diǎn)管理、數(shù)字圖書館、Web挖掘等研究和應(yīng)用開發(fā)的科技人員有很高的參考價值;書中提供了大量源代碼,除了用于構(gòu)建搜索引擎之外,對于學(xué)習(xí)編程,提高編程技巧,以及實(shí)現(xiàn)一個大規(guī)模應(yīng)用開發(fā)也有一定的參考價值。
書籍目錄
目錄第二版前言第一版前言第一章 引論第一節(jié) 搜索引擎的概念第二節(jié) 搜索引擎的發(fā)展歷史第三節(jié) 一些著名的搜索引擎第四節(jié) 小結(jié)上篇 Web搜索引擎基本原理和技術(shù)第二章 Web搜索引擎工作原理和體系結(jié)構(gòu)第一節(jié) 基本要求第二節(jié) 網(wǎng)頁搜集第三節(jié) 預(yù)處理第四節(jié) 查詢服務(wù)第五節(jié) 體系結(jié)構(gòu)第六節(jié) 小結(jié)第三章 Web信息的搜集第一節(jié) 概述一、超文本傳輸協(xié)議二、一個小型搜索引擎系統(tǒng)第二節(jié) 網(wǎng)頁搜集一、定義URL類和Page類二、與服務(wù)器建立連接三、發(fā)送請求和接收數(shù)據(jù)四、網(wǎng)頁信息存儲的天網(wǎng)格式第三節(jié) 多道搜集程序并行工作一、多線程并發(fā)工作二、控制對一個站點(diǎn)并發(fā)搜集線程的數(shù)目第四節(jié) 如何避免網(wǎng)頁的重復(fù)搜集一、記錄未訪問、已訪問URL和網(wǎng)頁內(nèi)容摘要信息二、域名與IP的對應(yīng)問題第五節(jié) 搜集信息的類型第六節(jié) 小結(jié)第四章 對搜集信息的預(yù)處理第一節(jié) 索引網(wǎng)頁庫第二節(jié) 網(wǎng)頁編碼識別一、基本而重要的概念二、常用字符編碼三、常用字符編碼算法四、字符的輸入和顯示五、編碼識別第三節(jié) 中文自動分詞第四節(jié) 分析網(wǎng)頁和建立倒排文件第五節(jié) 小結(jié)第五章 信息查詢服務(wù)第一節(jié) 檢索的定義第二節(jié) 查詢服務(wù)的實(shí)現(xiàn)一、結(jié)果集合的形成二、查詢結(jié)果顯示第三節(jié) 小結(jié)中篇 對質(zhì)量和性能的追求第六章 可擴(kuò)展搜集子系統(tǒng)第一節(jié) 天網(wǎng)系統(tǒng)概述和集中式搜集系統(tǒng)結(jié)構(gòu)一、天網(wǎng)系統(tǒng)結(jié)構(gòu)二、集中式搜集系統(tǒng)第二節(jié) 利用并行處理技術(shù)高效搜集網(wǎng)頁的一種方案一、節(jié)點(diǎn)間URL的劃分策略二、關(guān)于性能的討論三、性能測試和評價四、系統(tǒng)的動態(tài)可配置性設(shè)計第三節(jié) 天網(wǎng)分布式搜集系統(tǒng)第四節(jié) 對Deep Web的認(rèn)識一、Deep Web的成因二、搜索Deep Web的方法第五節(jié) 小結(jié)第七章 網(wǎng)頁凈化與消重第一節(jié) 網(wǎng)頁凈化與元數(shù)據(jù)提取一、DocView模型二、網(wǎng)頁的表示三、提取DocView模型要素的方法四、模型應(yīng)用及實(shí)驗(yàn)研究第二節(jié) 網(wǎng)頁消重算法一、消重算法二、算法評測第三節(jié) 小結(jié)第八章 高性能檢索子系統(tǒng)第一節(jié) 檢索系統(tǒng)基本技術(shù)一、系統(tǒng)設(shè)計與結(jié)構(gòu)二、索引創(chuàng)建三、檢索過程第二節(jié) 適于查詢的網(wǎng)頁索引結(jié)構(gòu)一、倒排索引結(jié)構(gòu)二、平面位置索引第三節(jié) 倒排索引壓縮一、倒排索引壓縮技術(shù)二、詞典與倒排表的壓縮第四節(jié) 索引剪枝一、靜態(tài)索引剪枝方法二、動態(tài)索引剪枝方法第五節(jié) 混合索引技術(shù)一、混合索引的原理二、混合索引的實(shí)現(xiàn)第六節(jié) 倒排文件緩存機(jī)制一、倒排文件緩存二、負(fù)載特性三、緩存策略的選擇第七節(jié) 小結(jié)第九章 相關(guān)排序與系統(tǒng)質(zhì)量評估第一節(jié) 傳統(tǒng)IR的相關(guān)排序技術(shù)第二節(jié) 鏈接分析與相關(guān)排序一、鏈接分析二、Web查詢模式下的新信息第三節(jié) 相關(guān)排序的一種實(shí)現(xiàn)方案一、形成網(wǎng)頁中詞項的基本權(quán)重二、利用鏈接的結(jié)構(gòu)三、收集用戶反饋信息四、計算最終的權(quán)重第四節(jié) 信息檢索技術(shù)評估一、信息檢索技術(shù)評估指標(biāo)二、TREC和CWIRF信息檢索評估三、搜索引擎技術(shù)評估第五節(jié) 小結(jié)下篇 Web信息資源的組織與應(yīng)用服務(wù)第十章 大規(guī)模Web歷史網(wǎng)頁倉儲系統(tǒng)的構(gòu)建第一節(jié) 國外Web歷史網(wǎng)頁保存現(xiàn)狀一、Internet Archive二、PANDORA三、其他相關(guān)Web保存項目第二節(jié) 中國Web信息博物館的系統(tǒng)設(shè)計一、Web InfoMall的設(shè)計目標(biāo)二、Web InfoMall的體系結(jié)構(gòu)第三節(jié) 歷史網(wǎng)頁的存儲一、數(shù)據(jù)的組織二、存儲結(jié)構(gòu)三、數(shù)據(jù)管理與壓縮四、存儲性能第四節(jié) 數(shù)據(jù)訪問一、PageID的索引二、URL的索引三、數(shù)據(jù)服務(wù)四、性能與優(yōu)化第五節(jié) 網(wǎng)頁的格式保存第六節(jié) 小結(jié)第十一章 大規(guī)模Web非網(wǎng)頁信息倉儲系統(tǒng)的構(gòu)建第一節(jié) 網(wǎng)絡(luò)資源庫藏相關(guān)工作一、Ibiblio二、Internet Archive三、Wikimedia四、中國互聯(lián)網(wǎng)數(shù)字資源財富庫藏第二節(jié) CDAL系統(tǒng)概況第三節(jié) CDAL系統(tǒng)設(shè)計一、系統(tǒng)體系結(jié)構(gòu)二、可擴(kuò)展的存儲組織方案第四節(jié) 網(wǎng)絡(luò)資源描述信息獲取一、Ontology概述二、描述信息獲取機(jī)制三、改進(jìn)查詢的方法四、改進(jìn)排序的方法第五節(jié) 基于局部聚類思想的共現(xiàn)詞匯算法一、基本定義二、FDC共現(xiàn)詞匯算法第六節(jié) 小結(jié)第十二章 中文網(wǎng)頁自動分類與聚類第一節(jié) 文檔自動分類算法的類型第二節(jié) 實(shí)現(xiàn)中文網(wǎng)頁自動分類的一般過程第三節(jié) 影響分類器性能的關(guān)鍵因素分析一、實(shí)驗(yàn)設(shè)置二、訓(xùn)練樣本三、特征選取四、分類算法五、截尾算法六、中文網(wǎng)頁分類器的設(shè)計方案第四節(jié) 天網(wǎng)目錄導(dǎo)航服務(wù)一、問題的提出二、天網(wǎng)目錄導(dǎo)航服務(wù)的體系結(jié)構(gòu)三、天網(wǎng)目錄的運(yùn)行實(shí)例第五節(jié) 文本聚類方法一、文本聚類的一般過程二、文本間相似性的度量三、常用聚類算法四、聚類結(jié)果的評估五、搜索引擎返回結(jié)果的聚類第六節(jié) 小結(jié)第十三章 開放域問答系統(tǒng)第一節(jié) 概述一、問答系統(tǒng)的歷史二、著名開放域問答系統(tǒng)介紹三、開放域問答系統(tǒng)的通用體系結(jié)構(gòu)第二節(jié) 問句的分析一、問句中的指代消解二、問句分類三、問句主題提取第三節(jié) 文檔和段落檢索一、檢索模型的選用二、查詢生成三、查詢結(jié)果排序四、增強(qiáng)索引的功能第四節(jié) 答案提取和驗(yàn)證模塊一、生成候選答案集合二、答案提取第五節(jié) 問答系統(tǒng)的改進(jìn)方法一、問答系統(tǒng)中外部資源的利用二、尋找特殊類問題的解決方案三、通過系綜方法構(gòu)建問答系統(tǒng)第六節(jié) 問答系統(tǒng)的評測一、TREC問答系統(tǒng)評測二、問答系統(tǒng)評測指標(biāo)第七節(jié) 實(shí)例:天網(wǎng)開放域問答系統(tǒng)第八節(jié) 小結(jié)參考文獻(xiàn)附錄 術(shù)語圖目錄圖1-1 2012年3月在Google上檢索“伊拉克戰(zhàn)爭”的結(jié)果圖1-2 2012年3月在Open Directory上檢索“伊拉克戰(zhàn)爭”的結(jié)果圖2-1 搜索引擎示意圖圖2-2 搜索引擎三段式工作流程圖2-3 搜索引擎的體系結(jié)構(gòu)圖3-1 TSE搜索引擎界面圖3-2 TSE查詢結(jié)果頁面圖3-3 TSE網(wǎng)頁快照頁面圖3-4 TSE系統(tǒng)結(jié)構(gòu)圖3-5 Web信息的搜集圖3-6 Sockets和端口圖3-7 通過Socket建立連接圖4-1 網(wǎng)頁預(yù)處理系統(tǒng)結(jié)構(gòu)圖4-2 原始網(wǎng)頁庫中的記錄格式圖4-3 索引網(wǎng)頁庫算法圖4-4 字符的輸入和顯示流程圖4-5 GB2312,Big5和GBK字符編碼分布圖4-6 正向減字最大匹配算法流程圖4-7 切詞算法流程圖4-8 分析網(wǎng)頁與建立倒排文件流程圖4-9 過濾網(wǎng)頁中非正文信息算法圖4-10 正向索引表記錄格式圖4-11 由正向索引建立反向索引圖5-1 信息查詢的系統(tǒng)結(jié)構(gòu)圖5-2 基本檢索算法圖5-3 動態(tài)摘要算法圖5-4 用戶查詢?nèi)罩镜挠涗浉袷綀D6-1 天網(wǎng)系統(tǒng)概貌圖6-2 搜集系統(tǒng)的主控結(jié)構(gòu)圖6-3 協(xié)調(diào)進(jìn)程工作算法圖6-4 分布式Web搜集系統(tǒng)結(jié)構(gòu)圖6-5 負(fù)載方差圖6-6 并行搜集系統(tǒng)與集中式搜集系統(tǒng)的性能對比圖6-7 分布式系統(tǒng)效率圖6-8 URL兩階段映射圖6-9 天網(wǎng)分布式搜集系統(tǒng)P_Arthur體系結(jié)構(gòu)圖6-10 人才招聘網(wǎng)站首頁圖7-1 用DocView模型提取的網(wǎng)頁要素圖7-2 凈化后的網(wǎng)頁圖7-3 HTML Tree結(jié)構(gòu)圖7-4 內(nèi)容塊權(quán)值傳遞過程圖7-5 有主題網(wǎng)頁DocView模型生成過程圖7-6 計算網(wǎng)頁特征項權(quán)值的算法圖7-7 正文段落識別過程圖7-8 基于anchor text的超鏈選取算法圖7-9 網(wǎng)頁凈化前后分類效果對比圖7-10 查全率隨選取關(guān)鍵詞個數(shù)的變化圖8-1 檢索系統(tǒng)集成框架結(jié)構(gòu)圖8-2 天網(wǎng)WWW檢索分布式系統(tǒng)構(gòu)架圖8-3 倒排索引結(jié)構(gòu)示意圖圖8-4 按塊組織的倒排鏈的結(jié)構(gòu)圖8-5 位置索引的結(jié)構(gòu)圖8-6 CLPS結(jié)構(gòu)示意圖圖8-7 倒排鏈中文檔號之間的d-gaps分布圖圖8-8 不同文檔號分配下平均每個查詢對應(yīng)文檔號序列的壓縮大小圖8-9 不同壓縮算法對文檔號的解壓速度圖8-10 不同文檔號分配下平均每個查詢對應(yīng)詞頻序列的壓縮大小圖8-11 不同壓縮算法對詞頻的解壓速度圖8-12 平均每個查詢對應(yīng)的位置信息需要的存儲空間圖8-13 索引剪枝方法的分類圖8-14 MAXSCORE算法的示例圖8-15 WAND算法選擇候選文檔的過程圖8-16 基于最大塊索引的支點(diǎn)文檔號的選擇示例圖8-17 Interval-Base剪枝方法中文檔子區(qū)間劃分的示例圖8-18 SAAT方法處理查詢處理模式及分?jǐn)?shù)累加器數(shù)量的變化圖8-19 當(dāng)前支持高效SR+IR剪枝的索引結(jié)構(gòu)圖8-20 擴(kuò)展詞典樹結(jié)構(gòu)示例圖8-21 擴(kuò)展詞典匹配查找算法圖8-22 搜索引擎檢索系統(tǒng)緩存結(jié)構(gòu)圖8-23 文檔數(shù)據(jù)訪問對象大小分布圖8-24 I/O與PAGE序列序號-頻度分布圖8-25 I/O與PAGE序列時間間隔分布圖8-26 I/O和PAGE序列中唯一模式串圖9-1 Inktomi提供的幾種搜索引擎技術(shù)的比較圖9-2 詞典在系統(tǒng)中的地位圖9-3 新詞學(xué)習(xí)圖9-4 網(wǎng)頁的互聯(lián)結(jié)構(gòu)示意圖9-5 信息獲取技術(shù)評估的“森林”圖9-6 查準(zhǔn)率和召回率基礎(chǔ)定義圖示圖9-7 查準(zhǔn)率和召回率例子圖9-8 “省事的”11點(diǎn)標(biāo)準(zhǔn)召回率例子圖9-9 實(shí)踐中召回率例子圖9-10 實(shí)際中的44個查詢詞的評價統(tǒng)計表和P-R圖圖9-11 測試集在檢索評估中的角色圖9-12 幫助判斷相關(guān)結(jié)果頁面的計算機(jī)輔助程序入口圖9-13 幫助判斷相關(guān)結(jié)果頁面的計算機(jī)輔助程序操作界面圖10-1 Web InfoMall體系結(jié)構(gòu)圖10-2 網(wǎng)頁數(shù)據(jù)的分割圖10-3 Web InfoMall的存儲結(jié)構(gòu)圖10-4 網(wǎng)頁的引用壓縮示意圖圖11-1 CDAL提供的資源訪問方式圖11-2 CDAL系統(tǒng)結(jié)構(gòu)圖圖11-3 基于Ontology的網(wǎng)絡(luò)資源描述信息獲取圖11-4 概念的屬性及其詞匯擴(kuò)展(以電影類資源為例)圖11-5 獲得描述信息的改進(jìn)排序算法圖11-6 網(wǎng)絡(luò)資源描述信息展示圖12-1 自動文檔分類算法的分類圖12-2 中文網(wǎng)頁自動分類的一般過程圖12-3 中文網(wǎng)頁分類器的工作原理圖圖12-4 WebSmart——一個網(wǎng)頁實(shí)例集搜集和整理工具圖12-5 一種中文網(wǎng)頁的分類體系圖12-6 Macro-F1值隨樣本數(shù)的變化圖12-7 Micro-F1值隨樣本數(shù)的變化圖12-8 CHI、IG、DF、MI的比較(Macro-F1)圖12-9 CHI、IG、DF、MI的比較(Micro-F1)圖12-10 kNN與NB分類結(jié)果的比較圖12-11 k的取值對分類器質(zhì)量的影響(Marco-F1)圖12-12 k的取值對分類器質(zhì)量的影響(Micro-F1)圖12-13 蘭式距離法與歐式距離法對12個不同類別的分類情況圖12-14 基于層次模型的kNN與基本kNN的比較圖12-15 RCut和SCut截尾算法的比較圖12-16 天網(wǎng)目錄的體系結(jié)構(gòu)圖12-17 天網(wǎng)目錄導(dǎo)航服務(wù)圖12-18 文本聚類的一般過程圖12-19 層次聚類實(shí)例圖12-20 k-均值算法進(jìn)行文本聚類的過程圖12-21 搜索結(jié)果聚類系統(tǒng)Carrot2圖13-1 START系統(tǒng)界面圖13-2 Ask Jeeves查詢結(jié)果圖13-3 問答系統(tǒng)的通用體系結(jié)構(gòu)圖13-4 天網(wǎng)開放域系統(tǒng)的體系結(jié)構(gòu)表目錄表4-1 網(wǎng)頁索引文件表4-2 URL索引文件表6-1 SOIF數(shù)據(jù)描述表6-2 SOIF具體語法表6-3 參照序列,假設(shè)節(jié)點(diǎn)數(shù)為2表7-1 類別編號對照表表7-2 消重實(shí)驗(yàn)結(jié)果表7-3 當(dāng)N=10、δ=0.01時5種算法的查全率和準(zhǔn)確率表7-4 考察δ的取值對算法3和4的影響表7-5 分段簽名算法的時間復(fù)雜度及性能表7-6 基于關(guān)鍵詞的各算法的時間復(fù)雜度及性能(N=10,δ=0.01)表8-1 MTF對序列進(jìn)行轉(zhuǎn)換的過程表8-2 對包含100萬詞條的詞典使用不同編碼所需要的空間表8-3 平均每個查詢對應(yīng)詞頻鏈的空間大小(文檔號按URL序分配)表8-4 不同索引的組織結(jié)構(gòu)及其支持的查詢處理方式表8-5 數(shù)據(jù)集基本統(tǒng)計信息表9-1 新詞學(xué)習(xí)對檢索準(zhǔn)確率的影響表9-2 影響權(quán)值的HTML標(biāo)簽表9-3 補(bǔ)償因子定義表表9-4 2004中文Web信息檢索評測提交結(jié)果表9-5 主題提取表9-6 導(dǎo)航搜索表9-7 用戶查詢信息類別表10-1 網(wǎng)頁存儲性能(個/秒)表10-2 網(wǎng)頁訪問性能(個/秒)表11-1 幾個網(wǎng)絡(luò)資源庫藏系統(tǒng)的特征表11-2 CDAL中的資源分布表12-1 樣本集中類別及實(shí)例數(shù)量的分布情況表表12-2 kNN和NB算法的分類質(zhì)量和分類效率比較表12-3 歐式距離與蘭式距離的比較表12-4 基于層次模型的kNN與基本kNN的比較表12-5 RCut和SCut截尾算法的比較表12-6 一個分類器的設(shè)計方案表13-1 問題分類體系結(jié)構(gòu)及TREC問答任務(wù)中問題的分布表13-2 天網(wǎng)開放域系統(tǒng)在TREC2005中的表現(xiàn)
章節(jié)摘錄
版權(quán)頁: 插圖: 第二節(jié) 網(wǎng)頁搜集 搜索引擎這樣一個軟件系統(tǒng)應(yīng)該是何種工作方式?如果說軟件系統(tǒng)是工作在某個數(shù)據(jù)集合上的程序的話,這個軟件系統(tǒng)操作的數(shù)據(jù)不僅包括內(nèi)容不可預(yù)測的用戶查詢,還要包括在數(shù)量上動態(tài)變化的海量網(wǎng)頁,并且這些網(wǎng)頁不會主動送到系統(tǒng)來,而是需要由系統(tǒng)去抓取。 首先,我們考慮抓取的時機(jī):事先還是即時。我們都有經(jīng)驗(yàn),在網(wǎng)絡(luò)比較暢通的情況下,從網(wǎng)上下載一篇網(wǎng)頁大約需要1秒鐘左右,因此如果在用戶查詢的時候即時去網(wǎng)上抓來成千上萬的網(wǎng)頁,一個個分析處理,和用戶的查詢匹配,不可能滿足搜索引擎的響應(yīng)時間要求。不僅如此,這樣做的系統(tǒng)效益也不高(會重復(fù)抓取太多的網(wǎng)頁);面對大量的用戶查詢,不可能想象每來一個查詢,系統(tǒng)就到網(wǎng)上“搜索”一次。 因此我們看到,大規(guī)模搜索引擎服務(wù)的基礎(chǔ)應(yīng)該是一批預(yù)先搜集好的網(wǎng)頁(直接或者間接)。這一批網(wǎng)頁如何維護(hù)?可以有兩種基本的考慮。 定期搜集,每次搜集替換上一次的內(nèi)容,我們稱之為“批量搜集”。由于每次都是重新來一次,對于大規(guī)模搜索引擎來說,每次搜集的時間通常會花幾周。而由于這樣做開銷較大,通常兩次搜集的間隔時間也不會很短(如早期天網(wǎng)的版本大約每3個月來一次,Google在一段時間曾是每隔28天來一次)。這樣做的好處是系統(tǒng)實(shí)現(xiàn)比較簡單,主要缺點(diǎn)是“時新性”(freshness)不高,還有重復(fù)搜集所帶來的額外帶寬的消耗。 增量搜集,開始時搜集一批,往后只是:①搜集新出現(xiàn)的網(wǎng)頁;②搜集那些在上次搜集后有過改變的網(wǎng)頁;③發(fā)現(xiàn)自從上次搜集后已經(jīng)不再存在了的網(wǎng)頁,并從庫中刪除。由于除新聞網(wǎng)站外,許多網(wǎng)頁的內(nèi)容變化并不是很經(jīng)常的(有研究指出50%網(wǎng)頁的平均生命周期大約為50天(Choetal.2000,Cho2002》,這樣做每次搜集的網(wǎng)頁量不會很大(例如,我們在2003年初估計中國每天有30萬~50萬變化了的網(wǎng)頁),于是可以經(jīng)常啟動搜集過程(如每天)。30萬網(wǎng)頁,一臺PC機(jī),在一般的網(wǎng)絡(luò)條件下,半天也就搜集完了。這樣的系統(tǒng)表現(xiàn)出來的信息時新性就會比較高,主要缺點(diǎn)是系統(tǒng)實(shí)現(xiàn)比較復(fù)雜;這種復(fù)雜還不僅在于搜集過程,而是還在于下面要談到的建索引的過程。 上面講的是系統(tǒng)網(wǎng)頁數(shù)據(jù)庫維護(hù)的基本策略。在這兩種極端的情況之間也可能有一些折中的方案,J.Cho博士在這方面做過深入的研究(Choetal.2000,Cho2002),他根據(jù)一種網(wǎng)頁變化模型和系統(tǒng)所含內(nèi)容時新性的定義,提出了相應(yīng)優(yōu)化的網(wǎng)頁搜集策略。其中一個有趣的結(jié)論是:在系統(tǒng)搜集能力一定的情況下,若有兩類網(wǎng)頁(如“商業(yè)”和“教育”),它們的更新周期差別很大(如“商業(yè)”類網(wǎng)頁平均更新周期是“天”,而“教育”類網(wǎng)頁平均更新周期是“月”),則系統(tǒng)應(yīng)該將注意力放在更新慢的網(wǎng)頁上(Choetal.2000),以使系統(tǒng)整體的時新性達(dá)到比較高的取值。 在具體搜集過程中,如何抓取一篇篇的網(wǎng)頁,也可以有不同的考慮。最常見的一種是所謂“爬取”:將Web上的網(wǎng)頁集合看成是一個有向圖,搜集過程從給定起始URL集合S(或者說“種子”)開始,沿著網(wǎng)頁中的鏈接,按照先深、先寬或者某種別的策略遍歷,不停地從S中移除URL,下載相應(yīng)的網(wǎng)頁,解析出網(wǎng)頁中的超鏈接URL,看是否已經(jīng)被訪問過,將未訪問過的那些URL加入集合S。整個過程可以形象地想象為一個蜘蛛(spider)在蜘蛛網(wǎng)(Web)上爬行(crawl)。后面我們會看到,真正的系統(tǒng)其實(shí)是多個“蜘蛛”同時在爬。
編輯推薦
《搜索引擎:原理、技術(shù)與系統(tǒng)(第2版)》保留了第一版上篇的大部分內(nèi)容,即搜索引擎的基本原理,過去這么些年并沒有什么變化;刪除了第一版中的第九,第十二和十三章,增加了第十,第十一和十三章,分別介紹基于搜索引擎技術(shù)開發(fā)并從2002年一直運(yùn)行至今的“中國web信息博物館”、“中國數(shù)字財富庫藏”及開放域問答系統(tǒng)。同時,較大幅度修訂了第一版中的部分小節(jié)內(nèi)容?!端阉饕妫涸?、技術(shù)與系統(tǒng)(第2版)》分三篇共13章,內(nèi)容包括引論、Web搜索引擎工作原理和體系結(jié)構(gòu)、 web信息的搜集、對搜集信息的預(yù)處理、信息查詢服務(wù)等。
圖書封面
圖書標(biāo)簽Tags
無
評論、評分、閱讀與下載