搜索引擎

出版時(shí)間：2012-5 出版社：科學(xué)出版社作者：李曉明、閆宏飛、王繼民頁(yè)數(shù)：330 字?jǐn)?shù)：472750
Tag標(biāo)簽：無(wú)

內(nèi)容概要

搜索引擎：原理、技術(shù)與系統(tǒng)（第二版）系統(tǒng)介紹了互聯(lián)網(wǎng)搜索引擎的工作原理、實(shí)現(xiàn)技術(shù)及系統(tǒng)構(gòu)建方案。全書分三篇共13章。上篇介紹搜索引擎的基本原理和技術(shù)，講述一個(gè)小型簡(jiǎn)單搜索引擎實(shí)現(xiàn)的具體細(xì)節(jié)；中篇詳細(xì)討論了大規(guī)模分布式搜索引擎系統(tǒng)的設(shè)計(jì)要點(diǎn)及其關(guān)鍵技術(shù)；下篇結(jié)合“中國(guó)Web信息博物館”和“中國(guó)互聯(lián)網(wǎng)數(shù)字資源財(cái)富庫(kù)藏”的實(shí)踐經(jīng)驗(yàn)，介紹了構(gòu)建大規(guī)模Web歷史網(wǎng)頁(yè)和非網(wǎng)頁(yè)倉(cāng)儲(chǔ)系統(tǒng)的技術(shù)和方法，以及中文網(wǎng)頁(yè)的自動(dòng)分類與聚類、開放域問題系統(tǒng)的構(gòu)建等。
搜索引擎：原理、技術(shù)與系統(tǒng)（第二版）層次分明，由淺入深，上篇和中篇涉及內(nèi)容提供了源代碼下載地址；既有深入的理論分析，也有大量的實(shí)驗(yàn)數(shù)據(jù)和程序，具有學(xué)習(xí)和實(shí)用雙重意義。
搜索引擎：原理、技術(shù)與系統(tǒng)（第二版）可作為高等院校計(jì)算機(jī)科學(xué)與技術(shù)、軟件工程、信息管理與信息系統(tǒng)、電子商務(wù)等專業(yè)的研究生或高年級(jí)本科生的教學(xué)參考書和技術(shù)資料；對(duì)廣大從事網(wǎng)絡(luò)技術(shù)、Web站點(diǎn)管理、數(shù)字圖書館、Web挖掘等研究和應(yīng)用開發(fā)的科技人員有很高的參考價(jià)值；書中提供了大量源代碼，除了用于構(gòu)建搜索引擎之外，對(duì)于學(xué)習(xí)編程，提高編程技巧，以及實(shí)現(xiàn)一個(gè)大規(guī)模應(yīng)用開發(fā)也有一定的參考價(jià)值。

書籍目錄

目錄第二版前言第一版前言第一章 引論第一節(jié) 搜索引擎的概念第二節(jié) 搜索引擎的發(fā)展歷史第三節(jié) 一些著名的搜索引擎第四節(jié) 小結(jié)上篇 Web搜索引擎基本原理和技術(shù)第二章 Web搜索引擎工作原理和體系結(jié)構(gòu)第一節(jié) 基本要求第二節(jié) 網(wǎng)頁(yè)搜集第三節(jié) 預(yù)處理第四節(jié) 查詢服務(wù)第五節(jié) 體系結(jié)構(gòu)第六節(jié) 小結(jié)第三章 Web信息的搜集第一節(jié) 概述一、超文本傳輸協(xié)議二、一個(gè)小型搜索引擎系統(tǒng)第二節(jié) 網(wǎng)頁(yè)搜集一、定義URL類和Page類二、與服務(wù)器建立連接三、發(fā)送請(qǐng)求和接收數(shù)據(jù)四、網(wǎng)頁(yè)信息存儲(chǔ)的天網(wǎng)格式第三節(jié) 多道搜集程序并行工作一、多線程并發(fā)工作二、控制對(duì)一個(gè)站點(diǎn)并發(fā)搜集線程的數(shù)目第四節(jié) 如何避免網(wǎng)頁(yè)的重復(fù)搜集一、記錄未訪問、已訪問URL和網(wǎng)頁(yè)內(nèi)容摘要信息二、域名與IP的對(duì)應(yīng)問題第五節(jié) 搜集信息的類型第六節(jié) 小結(jié)第四章 對(duì)搜集信息的預(yù)處理第一節(jié) 索引網(wǎng)頁(yè)庫(kù)第二節(jié) 網(wǎng)頁(yè)編碼識(shí)別一、基本而重要的概念二、常用字符編碼三、常用字符編碼算法四、字符的輸入和顯示五、編碼識(shí)別第三節(jié) 中文自動(dòng)分詞第四節(jié) 分析網(wǎng)頁(yè)和建立倒排文件第五節(jié) 小結(jié)第五章 信息查詢服務(wù)第一節(jié) 檢索的定義第二節(jié) 查詢服務(wù)的實(shí)現(xiàn)一、結(jié)果集合的形成二、查詢結(jié)果顯示第三節(jié) 小結(jié)中篇 對(duì)質(zhì)量和性能的追求第六章 可擴(kuò)展搜集子系統(tǒng)第一節(jié) 天網(wǎng)系統(tǒng)概述和集中式搜集系統(tǒng)結(jié)構(gòu)一、天網(wǎng)系統(tǒng)結(jié)構(gòu)二、集中式搜集系統(tǒng)第二節(jié) 利用并行處理技術(shù)高效搜集網(wǎng)頁(yè)的一種方案一、節(jié)點(diǎn)間URL的劃分策略二、關(guān)于性能的討論三、性能測(cè)試和評(píng)價(jià)四、系統(tǒng)的動(dòng)態(tài)可配置性設(shè)計(jì)第三節(jié) 天網(wǎng)分布式搜集系統(tǒng)第四節(jié) 對(duì)Deep Web的認(rèn)識(shí)一、Deep Web的成因二、搜索Deep Web的方法第五節(jié) 小結(jié)第七章 網(wǎng)頁(yè)凈化與消重第一節(jié) 網(wǎng)頁(yè)凈化與元數(shù)據(jù)提取一、DocView模型二、網(wǎng)頁(yè)的表示三、提取DocView模型要素的方法四、模型應(yīng)用及實(shí)驗(yàn)研究第二節(jié) 網(wǎng)頁(yè)消重算法一、消重算法二、算法評(píng)測(cè)第三節(jié) 小結(jié)第八章 高性能檢索子系統(tǒng)第一節(jié) 檢索系統(tǒng)基本技術(shù)一、系統(tǒng)設(shè)計(jì)與結(jié)構(gòu)二、索引創(chuàng)建三、檢索過程第二節(jié) 適于查詢的網(wǎng)頁(yè)索引結(jié)構(gòu)一、倒排索引結(jié)構(gòu)二、平面位置索引第三節(jié) 倒排索引壓縮一、倒排索引壓縮技術(shù)二、詞典與倒排表的壓縮第四節(jié) 索引剪枝一、靜態(tài)索引剪枝方法二、動(dòng)態(tài)索引剪枝方法第五節(jié) 混合索引技術(shù)一、混合索引的原理二、混合索引的實(shí)現(xiàn)第六節(jié) 倒排文件緩存機(jī)制一、倒排文件緩存二、負(fù)載特性三、緩存策略的選擇第七節(jié) 小結(jié)第九章 相關(guān)排序與系統(tǒng)質(zhì)量評(píng)估第一節(jié) 傳統(tǒng)IR的相關(guān)排序技術(shù)第二節(jié) 鏈接分析與相關(guān)排序一、鏈接分析二、Web查詢模式下的新信息第三節(jié) 相關(guān)排序的一種實(shí)現(xiàn)方案一、形成網(wǎng)頁(yè)中詞項(xiàng)的基本權(quán)重二、利用鏈接的結(jié)構(gòu)三、收集用戶反饋信息四、計(jì)算最終的權(quán)重第四節(jié) 信息檢索技術(shù)評(píng)估一、信息檢索技術(shù)評(píng)估指標(biāo)二、TREC和CWIRF信息檢索評(píng)估三、搜索引擎技術(shù)評(píng)估第五節(jié) 小結(jié)下篇 Web信息資源的組織與應(yīng)用服務(wù)第十章 大規(guī)模Web歷史網(wǎng)頁(yè)倉(cāng)儲(chǔ)系統(tǒng)的構(gòu)建第一節(jié) 國(guó)外Web歷史網(wǎng)頁(yè)保存現(xiàn)狀一、Internet Archive二、PANDORA三、其他相關(guān)Web保存項(xiàng)目第二節(jié) 中國(guó)Web信息博物館的系統(tǒng)設(shè)計(jì)一、Web InfoMall的設(shè)計(jì)目標(biāo)二、Web InfoMall的體系結(jié)構(gòu)第三節(jié) 歷史網(wǎng)頁(yè)的存儲(chǔ)一、數(shù)據(jù)的組織二、存儲(chǔ)結(jié)構(gòu)三、數(shù)據(jù)管理與壓縮四、存儲(chǔ)性能第四節(jié) 數(shù)據(jù)訪問一、PageID的索引二、URL的索引三、數(shù)據(jù)服務(wù)四、性能與優(yōu)化第五節(jié) 網(wǎng)頁(yè)的格式保存第六節(jié) 小結(jié)第十一章 大規(guī)模Web非網(wǎng)頁(yè)信息倉(cāng)儲(chǔ)系統(tǒng)的構(gòu)建第一節(jié) 網(wǎng)絡(luò)資源庫(kù)藏相關(guān)工作一、Ibiblio二、Internet Archive三、Wikimedia四、中國(guó)互聯(lián)網(wǎng)數(shù)字資源財(cái)富庫(kù)藏第二節(jié) CDAL系統(tǒng)概況第三節(jié) CDAL系統(tǒng)設(shè)計(jì)一、系統(tǒng)體系結(jié)構(gòu)二、可擴(kuò)展的存儲(chǔ)組織方案第四節(jié) 網(wǎng)絡(luò)資源描述信息獲取一、Ontology概述二、描述信息獲取機(jī)制三、改進(jìn)查詢的方法四、改進(jìn)排序的方法第五節(jié) 基于局部聚類思想的共現(xiàn)詞匯算法一、基本定義二、FDC共現(xiàn)詞匯算法第六節(jié) 小結(jié)第十二章 中文網(wǎng)頁(yè)自動(dòng)分類與聚類第一節(jié) 文檔自動(dòng)分類算法的類型第二節(jié) 實(shí)現(xiàn)中文網(wǎng)頁(yè)自動(dòng)分類的一般過程第三節(jié) 影響分類器性能的關(guān)鍵因素分析一、實(shí)驗(yàn)設(shè)置二、訓(xùn)練樣本三、特征選取四、分類算法五、截尾算法六、中文網(wǎng)頁(yè)分類器的設(shè)計(jì)方案第四節(jié) 天網(wǎng)目錄導(dǎo)航服務(wù)一、問題的提出二、天網(wǎng)目錄導(dǎo)航服務(wù)的體系結(jié)構(gòu)三、天網(wǎng)目錄的運(yùn)行實(shí)例第五節(jié) 文本聚類方法一、文本聚類的一般過程二、文本間相似性的度量三、常用聚類算法四、聚類結(jié)果的評(píng)估五、搜索引擎返回結(jié)果的聚類第六節(jié) 小結(jié)第十三章 開放域問答系統(tǒng)第一節(jié) 概述一、問答系統(tǒng)的歷史二、著名開放域問答系統(tǒng)介紹三、開放域問答系統(tǒng)的通用體系結(jié)構(gòu)第二節(jié) 問句的分析一、問句中的指代消解二、問句分類三、問句主題提取第三節(jié) 文檔和段落檢索一、檢索模型的選用二、查詢生成三、查詢結(jié)果排序四、增強(qiáng)索引的功能第四節(jié) 答案提取和驗(yàn)證模塊一、生成候選答案集合二、答案提取第五節(jié) 問答系統(tǒng)的改進(jìn)方法一、問答系統(tǒng)中外部資源的利用二、尋找特殊類問題的解決方案三、通過系綜方法構(gòu)建問答系統(tǒng)第六節(jié) 問答系統(tǒng)的評(píng)測(cè)一、TREC問答系統(tǒng)評(píng)測(cè)二、問答系統(tǒng)評(píng)測(cè)指標(biāo)第七節(jié) 實(shí)例:天網(wǎng)開放域問答系統(tǒng)第八節(jié) 小結(jié)參考文獻(xiàn)附錄 術(shù)語(yǔ)圖目錄圖1-1 2012年3月在Google上檢索“伊拉克戰(zhàn)爭(zhēng)”的結(jié)果圖1-2 2012年3月在Open Directory上檢索“伊拉克戰(zhàn)爭(zhēng)”的結(jié)果圖2-1 搜索引擎示意圖圖2-2 搜索引擎三段式工作流程圖2-3 搜索引擎的體系結(jié)構(gòu)圖3-1 TSE搜索引擎界面圖3-2 TSE查詢結(jié)果頁(yè)面圖3-3 TSE網(wǎng)頁(yè)快照頁(yè)面圖3-4 TSE系統(tǒng)結(jié)構(gòu)圖3-5 Web信息的搜集圖3-6 Sockets和端口圖3-7 通過Socket建立連接圖4-1 網(wǎng)頁(yè)預(yù)處理系統(tǒng)結(jié)構(gòu)圖4-2 原始網(wǎng)頁(yè)庫(kù)中的記錄格式圖4-3 索引網(wǎng)頁(yè)庫(kù)算法圖4-4 字符的輸入和顯示流程圖4-5 GB2312,Big5和GBK字符編碼分布圖4-6 正向減字最大匹配算法流程圖4-7 切詞算法流程圖4-8 分析網(wǎng)頁(yè)與建立倒排文件流程圖4-9 過濾網(wǎng)頁(yè)中非正文信息算法圖4-10 正向索引表記錄格式圖4-11 由正向索引建立反向索引圖5-1 信息查詢的系統(tǒng)結(jié)構(gòu)圖5-2 基本檢索算法圖5-3 動(dòng)態(tài)摘要算法圖5-4 用戶查詢?nèi)罩镜挠涗浉袷綀D6-1 天網(wǎng)系統(tǒng)概貌圖6-2 搜集系統(tǒng)的主控結(jié)構(gòu)圖6-3 協(xié)調(diào)進(jìn)程工作算法圖6-4 分布式Web搜集系統(tǒng)結(jié)構(gòu)圖6-5 負(fù)載方差圖6-6 并行搜集系統(tǒng)與集中式搜集系統(tǒng)的性能對(duì)比圖6-7 分布式系統(tǒng)效率圖6-8 URL兩階段映射圖6-9 天網(wǎng)分布式搜集系統(tǒng)P_Arthur體系結(jié)構(gòu)圖6-10 人才招聘網(wǎng)站首頁(yè)圖7-1 用DocView模型提取的網(wǎng)頁(yè)要素圖7-2 凈化后的網(wǎng)頁(yè)圖7-3 HTML Tree結(jié)構(gòu)圖7-4 內(nèi)容塊權(quán)值傳遞過程圖7-5 有主題網(wǎng)頁(yè)DocView模型生成過程圖7-6 計(jì)算網(wǎng)頁(yè)特征項(xiàng)權(quán)值的算法圖7-7 正文段落識(shí)別過程圖7-8 基于anchor text的超鏈選取算法圖7-9 網(wǎng)頁(yè)凈化前后分類效果對(duì)比圖7-10 查全率隨選取關(guān)鍵詞個(gè)數(shù)的變化圖8-1 檢索系統(tǒng)集成框架結(jié)構(gòu)圖8-2 天網(wǎng)WWW檢索分布式系統(tǒng)構(gòu)架圖8-3 倒排索引結(jié)構(gòu)示意圖圖8-4 按塊組織的倒排鏈的結(jié)構(gòu)圖8-5 位置索引的結(jié)構(gòu)圖8-6 CLPS結(jié)構(gòu)示意圖圖8-7 倒排鏈中文檔號(hào)之間的d-gaps分布圖圖8-8 不同文檔號(hào)分配下平均每個(gè)查詢對(duì)應(yīng)文檔號(hào)序列的壓縮大小圖8-9 不同壓縮算法對(duì)文檔號(hào)的解壓速度圖8-10 不同文檔號(hào)分配下平均每個(gè)查詢對(duì)應(yīng)詞頻序列的壓縮大小圖8-11 不同壓縮算法對(duì)詞頻的解壓速度圖8-12 平均每個(gè)查詢對(duì)應(yīng)的位置信息需要的存儲(chǔ)空間圖8-13 索引剪枝方法的分類圖8-14 MAXSCORE算法的示例圖8-15 WAND算法選擇候選文檔的過程圖8-16 基于最大塊索引的支點(diǎn)文檔號(hào)的選擇示例圖8-17 Interval-Base剪枝方法中文檔子區(qū)間劃分的示例圖8-18 SAAT方法處理查詢處理模式及分?jǐn)?shù)累加器數(shù)量的變化圖8-19 當(dāng)前支持高效SR+IR剪枝的索引結(jié)構(gòu)圖8-20 擴(kuò)展詞典樹結(jié)構(gòu)示例圖8-21 擴(kuò)展詞典匹配查找算法圖8-22 搜索引擎檢索系統(tǒng)緩存結(jié)構(gòu)圖8-23 文檔數(shù)據(jù)訪問對(duì)象大小分布圖8-24 I/O與PAGE序列序號(hào)-頻度分布圖8-25 I/O與PAGE序列時(shí)間間隔分布圖8-26 I/O和PAGE序列中唯一模式串圖9-1 Inktomi提供的幾種搜索引擎技術(shù)的比較圖9-2 詞典在系統(tǒng)中的地位圖9-3 新詞學(xué)習(xí)圖9-4 網(wǎng)頁(yè)的互聯(lián)結(jié)構(gòu)示意圖9-5 信息獲取技術(shù)評(píng)估的“森林”圖9-6 查準(zhǔn)率和召回率基礎(chǔ)定義圖示圖9-7 查準(zhǔn)率和召回率例子圖9-8 “省事的”11點(diǎn)標(biāo)準(zhǔn)召回率例子圖9-9 實(shí)踐中召回率例子圖9-10 實(shí)際中的44個(gè)查詢?cè)~的評(píng)價(jià)統(tǒng)計(jì)表和P-R圖圖9-11 測(cè)試集在檢索評(píng)估中的角色圖9-12 幫助判斷相關(guān)結(jié)果頁(yè)面的計(jì)算機(jī)輔助程序入口圖9-13 幫助判斷相關(guān)結(jié)果頁(yè)面的計(jì)算機(jī)輔助程序操作界面圖10-1 Web InfoMall體系結(jié)構(gòu)圖10-2 網(wǎng)頁(yè)數(shù)據(jù)的分割圖10-3 Web InfoMall的存儲(chǔ)結(jié)構(gòu)圖10-4 網(wǎng)頁(yè)的引用壓縮示意圖圖11-1 CDAL提供的資源訪問方式圖11-2 CDAL系統(tǒng)結(jié)構(gòu)圖圖11-3 基于Ontology的網(wǎng)絡(luò)資源描述信息獲取圖11-4 概念的屬性及其詞匯擴(kuò)展(以電影類資源為例)圖11-5 獲得描述信息的改進(jìn)排序算法圖11-6 網(wǎng)絡(luò)資源描述信息展示圖12-1 自動(dòng)文檔分類算法的分類圖12-2 中文網(wǎng)頁(yè)自動(dòng)分類的一般過程圖12-3 中文網(wǎng)頁(yè)分類器的工作原理圖圖12-4 WebSmart——一個(gè)網(wǎng)頁(yè)實(shí)例集搜集和整理工具圖12-5 一種中文網(wǎng)頁(yè)的分類體系圖12-6 Macro-F1值隨樣本數(shù)的變化圖12-7 Micro-F1值隨樣本數(shù)的變化圖12-8 CHI、IG、DF、MI的比較(Macro-F1)圖12-9 CHI、IG、DF、MI的比較(Micro-F1)圖12-10 kNN與NB分類結(jié)果的比較圖12-11 k的取值對(duì)分類器質(zhì)量的影響(Marco-F1)圖12-12 k的取值對(duì)分類器質(zhì)量的影響(Micro-F1)圖12-13 蘭式距離法與歐式距離法對(duì)12個(gè)不同類別的分類情況圖12-14 基于層次模型的kNN與基本kNN的比較圖12-15 RCut和SCut截尾算法的比較圖12-16 天網(wǎng)目錄的體系結(jié)構(gòu)圖12-17 天網(wǎng)目錄導(dǎo)航服務(wù)圖12-18 文本聚類的一般過程圖12-19 層次聚類實(shí)例圖12-20 k-均值算法進(jìn)行文本聚類的過程圖12-21 搜索結(jié)果聚類系統(tǒng)Carrot2圖13-1 START系統(tǒng)界面圖13-2 Ask Jeeves查詢結(jié)果圖13-3 問答系統(tǒng)的通用體系結(jié)構(gòu)圖13-4 天網(wǎng)開放域系統(tǒng)的體系結(jié)構(gòu)表目錄表4-1 網(wǎng)頁(yè)索引文件表4-2 URL索引文件表6-1 SOIF數(shù)據(jù)描述表6-2 SOIF具體語(yǔ)法表6-3 參照序列,假設(shè)節(jié)點(diǎn)數(shù)為2表7-1 類別編號(hào)對(duì)照表表7-2 消重實(shí)驗(yàn)結(jié)果表7-3 當(dāng)N=10、δ=0.01時(shí)5種算法的查全率和準(zhǔn)確率表7-4 考察δ的取值對(duì)算法3和4的影響表7-5 分段簽名算法的時(shí)間復(fù)雜度及性能表7-6 基于關(guān)鍵詞的各算法的時(shí)間復(fù)雜度及性能(N=10,δ=0.01)表8-1 MTF對(duì)序列進(jìn)行轉(zhuǎn)換的過程表8-2 對(duì)包含100萬(wàn)詞條的詞典使用不同編碼所需要的空間表8-3 平均每個(gè)查詢對(duì)應(yīng)詞頻鏈的空間大小(文檔號(hào)按URL序分配)表8-4 不同索引的組織結(jié)構(gòu)及其支持的查詢處理方式表8-5 數(shù)據(jù)集基本統(tǒng)計(jì)信息表9-1 新詞學(xué)習(xí)對(duì)檢索準(zhǔn)確率的影響表9-2 影響權(quán)值的HTML標(biāo)簽表9-3 補(bǔ)償因子定義表表9-4 2004中文Web信息檢索評(píng)測(cè)提交結(jié)果表9-5 主題提取表9-6 導(dǎo)航搜索表9-7 用戶查詢信息類別表10-1 網(wǎng)頁(yè)存儲(chǔ)性能(個(gè)/秒)表10-2 網(wǎng)頁(yè)訪問性能(個(gè)/秒)表11-1 幾個(gè)網(wǎng)絡(luò)資源庫(kù)藏系統(tǒng)的特征表11-2 CDAL中的資源分布表12-1 樣本集中類別及實(shí)例數(shù)量的分布情況表表12-2 kNN和NB算法的分類質(zhì)量和分類效率比較表12-3 歐式距離與蘭式距離的比較表12-4 基于層次模型的kNN與基本kNN的比較表12-5 RCut和SCut截尾算法的比較表12-6 一個(gè)分類器的設(shè)計(jì)方案表13-1 問題分類體系結(jié)構(gòu)及TREC問答任務(wù)中問題的分布表13-2 天網(wǎng)開放域系統(tǒng)在TREC2005中的表現(xiàn)

章節(jié)摘錄

版權(quán)頁(yè)：   插圖：   第二節(jié) 網(wǎng)頁(yè)搜集 搜索引擎這樣一個(gè)軟件系統(tǒng)應(yīng)該是何種工作方式？如果說軟件系統(tǒng)是工作在某個(gè)數(shù)據(jù)集合上的程序的話，這個(gè)軟件系統(tǒng)操作的數(shù)據(jù)不僅包括內(nèi)容不可預(yù)測(cè)的用戶查詢，還要包括在數(shù)量上動(dòng)態(tài)變化的海量網(wǎng)頁(yè)，并且這些網(wǎng)頁(yè)不會(huì)主動(dòng)送到系統(tǒng)來，而是需要由系統(tǒng)去抓取。 首先，我們考慮抓取的時(shí)機(jī)：事先還是即時(shí)。我們都有經(jīng)驗(yàn)，在網(wǎng)絡(luò)比較暢通的情況下，從網(wǎng)上下載一篇網(wǎng)頁(yè)大約需要1秒鐘左右，因此如果在用戶查詢的時(shí)候即時(shí)去網(wǎng)上抓來成千上萬(wàn)的網(wǎng)頁(yè)，一個(gè)個(gè)分析處理，和用戶的查詢匹配，不可能滿足搜索引擎的響應(yīng)時(shí)間要求。不僅如此，這樣做的系統(tǒng)效益也不高（會(huì)重復(fù)抓取太多的網(wǎng)頁(yè)）；面對(duì)大量的用戶查詢，不可能想象每來一個(gè)查詢，系統(tǒng)就到網(wǎng)上“搜索”一次。 因此我們看到，大規(guī)模搜索引擎服務(wù)的基礎(chǔ)應(yīng)該是一批預(yù)先搜集好的網(wǎng)頁(yè)（直接或者間接）。這一批網(wǎng)頁(yè)如何維護(hù)？可以有兩種基本的考慮。 定期搜集，每次搜集替換上一次的內(nèi)容，我們稱之為“批量搜集”。由于每次都是重新來一次，對(duì)于大規(guī)模搜索引擎來說，每次搜集的時(shí)間通常會(huì)花幾周。而由于這樣做開銷較大，通常兩次搜集的間隔時(shí)間也不會(huì)很短（如早期天網(wǎng)的版本大約每3個(gè)月來一次，Google在一段時(shí)間曾是每隔28天來一次）。這樣做的好處是系統(tǒng)實(shí)現(xiàn)比較簡(jiǎn)單，主要缺點(diǎn)是“時(shí)新性”（freshness）不高，還有重復(fù)搜集所帶來的額外帶寬的消耗。 增量搜集，開始時(shí)搜集一批，往后只是：①搜集新出現(xiàn)的網(wǎng)頁(yè)；②搜集那些在上次搜集后有過改變的網(wǎng)頁(yè)；③發(fā)現(xiàn)自從上次搜集后已經(jīng)不再存在了的網(wǎng)頁(yè)，并從庫(kù)中刪除。由于除新聞網(wǎng)站外，許多網(wǎng)頁(yè)的內(nèi)容變化并不是很經(jīng)常的（有研究指出50％網(wǎng)頁(yè)的平均生命周期大約為50天（Choetal.2000，Cho2002》，這樣做每次搜集的網(wǎng)頁(yè)量不會(huì)很大（例如，我們?cè)?003年初估計(jì)中國(guó)每天有30萬(wàn)～50萬(wàn)變化了的網(wǎng)頁(yè)），于是可以經(jīng)常啟動(dòng)搜集過程（如每天）。30萬(wàn)網(wǎng)頁(yè)，一臺(tái)PC機(jī)，在一般的網(wǎng)絡(luò)條件下，半天也就搜集完了。這樣的系統(tǒng)表現(xiàn)出來的信息時(shí)新性就會(huì)比較高，主要缺點(diǎn)是系統(tǒng)實(shí)現(xiàn)比較復(fù)雜；這種復(fù)雜還不僅在于搜集過程，而是還在于下面要談到的建索引的過程。 上面講的是系統(tǒng)網(wǎng)頁(yè)數(shù)據(jù)庫(kù)維護(hù)的基本策略。在這兩種極端的情況之間也可能有一些折中的方案，J.Cho博士在這方面做過深入的研究（Choetal.2000，Cho2002），他根據(jù)一種網(wǎng)頁(yè)變化模型和系統(tǒng)所含內(nèi)容時(shí)新性的定義，提出了相應(yīng)優(yōu)化的網(wǎng)頁(yè)搜集策略。其中一個(gè)有趣的結(jié)論是：在系統(tǒng)搜集能力一定的情況下，若有兩類網(wǎng)頁(yè)（如“商業(yè)”和“教育”），它們的更新周期差別很大（如“商業(yè)”類網(wǎng)頁(yè)平均更新周期是“天”，而“教育”類網(wǎng)頁(yè)平均更新周期是“月”），則系統(tǒng)應(yīng)該將注意力放在更新慢的網(wǎng)頁(yè)上（Choetal.2000），以使系統(tǒng)整體的時(shí)新性達(dá)到比較高的取值。 在具體搜集過程中，如何抓取一篇篇的網(wǎng)頁(yè)，也可以有不同的考慮。最常見的一種是所謂“爬取”：將Web上的網(wǎng)頁(yè)集合看成是一個(gè)有向圖，搜集過程從給定起始URL集合S（或者說“種子”）開始，沿著網(wǎng)頁(yè)中的鏈接，按照先深、先寬或者某種別的策略遍歷，不停地從S中移除URL，下載相應(yīng)的網(wǎng)頁(yè)，解析出網(wǎng)頁(yè)中的超鏈接URL，看是否已經(jīng)被訪問過，將未訪問過的那些URL加入集合S。整個(gè)過程可以形象地想象為一個(gè)蜘蛛（spider）在蜘蛛網(wǎng)（Web）上爬行（crawl）。后面我們會(huì)看到，真正的系統(tǒng)其實(shí)是多個(gè)“蜘蛛”同時(shí)在爬。

編輯推薦

　　《搜索引擎：原理、技術(shù)與系統(tǒng)（第2版）》保留了第一版上篇的大部分內(nèi)容，即搜索引擎的基本原理，過去這么些年并沒有什么變化；刪除了第一版中的第九，第十二和十三章，增加了第十，第十一和十三章，分別介紹基于搜索引擎技術(shù)開發(fā)并從2002年一直運(yùn)行至今的“中國(guó)web信息博物館”、“中國(guó)數(shù)字財(cái)富庫(kù)藏”及開放域問答系統(tǒng)。同時(shí)，較大幅度修訂了第一版中的部分小節(jié)內(nèi)容?！端阉饕妫涸?、技術(shù)與系統(tǒng)（第2版）》分三篇共13章，內(nèi)容包括引論、Web搜索引擎工作原理和體系結(jié)構(gòu)、 web信息的搜集、對(duì)搜集信息的預(yù)處理、信息查詢服務(wù)等。

圖書封面

圖書標(biāo)簽Tags

無(wú)

評(píng)論、評(píng)分、閱讀與下載

還沒讀過(93)
勉強(qiáng)可看(679)
一般般(115)
內(nèi)容豐富(4807)
強(qiáng)力推薦(394)

搜索引擎 PDF格式下載

用戶評(píng)論 (總計(jì)11條)

書介紹的是原理、技術(shù)與系統(tǒng)，可以作參考用。但沒有示例與代碼分析。
基于北大的天網(wǎng)系統(tǒng) 對(duì)Index/IR部分做了比較深入的講解明顯透露這比較重的工程氣息
SEO必備的枕邊書，經(jīng)朋友介紹買來看后。確實(shí)不錯(cuò)哦。
一般他們都買的都是很實(shí)用的書籍，應(yīng)該還是值得一讀的
書本很好，好看！
這是看的第一本，挺容易懂的，入門還行
需要慢慢理解，書不錯(cuò)，看了一半，繼續(xù)學(xué)習(xí)中
這本書好，值得購(gòu)買，后面有點(diǎn)深?yuàn)W，看不懂
買回來才發(fā)現(xiàn)和大學(xué)課本似的，有點(diǎn)小失望
很難懂哦，要有耐心才行，得多看幾次吧
包裝非常好，書送過來很完整，很新。。不錯(cuò)。。

搜索引擎

用戶評(píng)論 (總計(jì)11條)

推薦圖書

相關(guān)圖書