出版時間:2012-5 出版社:科學出版社 作者:李曉明、閆宏飛、王繼民 頁數:330 字數:472750
Tag標簽:無
內容概要
搜索引擎:原理、技術與系統(第二版)系統介紹了互聯網搜索引擎的工作原理、實現技術及系統構建方案。全書分三篇共13章。上篇介紹搜索引擎的基本原理和技術,講述一個小型簡單搜索引擎實現的具體細節(jié);中篇詳細討論了大規(guī)模分布式搜索引擎系統的設計要點及其關鍵技術;下篇結合“中國Web信息博物館”和“中國互聯網數字資源財富庫藏”的實踐經驗,介紹了構建大規(guī)模Web歷史網頁和非網頁倉儲系統的技術和方法,以及中文網頁的自動分類與聚類、開放域問題系統的構建等。
搜索引擎:原理、技術與系統(第二版)層次分明,由淺入深,上篇和中篇涉及內容提供了源代碼下載地址;既有深入的理論分析,也有大量的實驗數據和程序,具有學習和實用雙重意義。
搜索引擎:原理、技術與系統(第二版)可作為高等院校計算機科學與技術、軟件工程、信息管理與信息系統、電子商務等專業(yè)的研究生或高年級本科生的教學參考書和技術資料;對廣大從事網絡技術、Web站點管理、數字圖書館、Web挖掘等研究和應用開發(fā)的科技人員有很高的參考價值;書中提供了大量源代碼,除了用于構建搜索引擎之外,對于學習編程,提高編程技巧,以及實現一個大規(guī)模應用開發(fā)也有一定的參考價值。
書籍目錄
目錄第二版前言第一版前言第一章 引論第一節(jié) 搜索引擎的概念第二節(jié) 搜索引擎的發(fā)展歷史第三節(jié) 一些著名的搜索引擎第四節(jié) 小結上篇 Web搜索引擎基本原理和技術第二章 Web搜索引擎工作原理和體系結構第一節(jié) 基本要求第二節(jié) 網頁搜集第三節(jié) 預處理第四節(jié) 查詢服務第五節(jié) 體系結構第六節(jié) 小結第三章 Web信息的搜集第一節(jié) 概述一、超文本傳輸協議二、一個小型搜索引擎系統第二節(jié) 網頁搜集一、定義URL類和Page類二、與服務器建立連接三、發(fā)送請求和接收數據四、網頁信息存儲的天網格式第三節(jié) 多道搜集程序并行工作一、多線程并發(fā)工作二、控制對一個站點并發(fā)搜集線程的數目第四節(jié) 如何避免網頁的重復搜集一、記錄未訪問、已訪問URL和網頁內容摘要信息二、域名與IP的對應問題第五節(jié) 搜集信息的類型第六節(jié) 小結第四章 對搜集信息的預處理第一節(jié) 索引網頁庫第二節(jié) 網頁編碼識別一、基本而重要的概念二、常用字符編碼三、常用字符編碼算法四、字符的輸入和顯示五、編碼識別第三節(jié) 中文自動分詞第四節(jié) 分析網頁和建立倒排文件第五節(jié) 小結第五章 信息查詢服務第一節(jié) 檢索的定義第二節(jié) 查詢服務的實現一、結果集合的形成二、查詢結果顯示第三節(jié) 小結中篇 對質量和性能的追求第六章 可擴展搜集子系統第一節(jié) 天網系統概述和集中式搜集系統結構一、天網系統結構二、集中式搜集系統第二節(jié) 利用并行處理技術高效搜集網頁的一種方案一、節(jié)點間URL的劃分策略二、關于性能的討論三、性能測試和評價四、系統的動態(tài)可配置性設計第三節(jié) 天網分布式搜集系統第四節(jié) 對Deep Web的認識一、Deep Web的成因二、搜索Deep Web的方法第五節(jié) 小結第七章 網頁凈化與消重第一節(jié) 網頁凈化與元數據提取一、DocView模型二、網頁的表示三、提取DocView模型要素的方法四、模型應用及實驗研究第二節(jié) 網頁消重算法一、消重算法二、算法評測第三節(jié) 小結第八章 高性能檢索子系統第一節(jié) 檢索系統基本技術一、系統設計與結構二、索引創(chuàng)建三、檢索過程第二節(jié) 適于查詢的網頁索引結構一、倒排索引結構二、平面位置索引第三節(jié) 倒排索引壓縮一、倒排索引壓縮技術二、詞典與倒排表的壓縮第四節(jié) 索引剪枝一、靜態(tài)索引剪枝方法二、動態(tài)索引剪枝方法第五節(jié) 混合索引技術一、混合索引的原理二、混合索引的實現第六節(jié) 倒排文件緩存機制一、倒排文件緩存二、負載特性三、緩存策略的選擇第七節(jié) 小結第九章 相關排序與系統質量評估第一節(jié) 傳統IR的相關排序技術第二節(jié) 鏈接分析與相關排序一、鏈接分析二、Web查詢模式下的新信息第三節(jié) 相關排序的一種實現方案一、形成網頁中詞項的基本權重二、利用鏈接的結構三、收集用戶反饋信息四、計算最終的權重第四節(jié) 信息檢索技術評估一、信息檢索技術評估指標二、TREC和CWIRF信息檢索評估三、搜索引擎技術評估第五節(jié) 小結下篇 Web信息資源的組織與應用服務第十章 大規(guī)模Web歷史網頁倉儲系統的構建第一節(jié) 國外Web歷史網頁保存現狀一、Internet Archive二、PANDORA三、其他相關Web保存項目第二節(jié) 中國Web信息博物館的系統設計一、Web InfoMall的設計目標二、Web InfoMall的體系結構第三節(jié) 歷史網頁的存儲一、數據的組織二、存儲結構三、數據管理與壓縮四、存儲性能第四節(jié) 數據訪問一、PageID的索引二、URL的索引三、數據服務四、性能與優(yōu)化第五節(jié) 網頁的格式保存第六節(jié) 小結第十一章 大規(guī)模Web非網頁信息倉儲系統的構建第一節(jié) 網絡資源庫藏相關工作一、Ibiblio二、Internet Archive三、Wikimedia四、中國互聯網數字資源財富庫藏第二節(jié) CDAL系統概況第三節(jié) CDAL系統設計一、系統體系結構二、可擴展的存儲組織方案第四節(jié) 網絡資源描述信息獲取一、Ontology概述二、描述信息獲取機制三、改進查詢的方法四、改進排序的方法第五節(jié) 基于局部聚類思想的共現詞匯算法一、基本定義二、FDC共現詞匯算法第六節(jié) 小結第十二章 中文網頁自動分類與聚類第一節(jié) 文檔自動分類算法的類型第二節(jié) 實現中文網頁自動分類的一般過程第三節(jié) 影響分類器性能的關鍵因素分析一、實驗設置二、訓練樣本三、特征選取四、分類算法五、截尾算法六、中文網頁分類器的設計方案第四節(jié) 天網目錄導航服務一、問題的提出二、天網目錄導航服務的體系結構三、天網目錄的運行實例第五節(jié) 文本聚類方法一、文本聚類的一般過程二、文本間相似性的度量三、常用聚類算法四、聚類結果的評估五、搜索引擎返回結果的聚類第六節(jié) 小結第十三章 開放域問答系統第一節(jié) 概述一、問答系統的歷史二、著名開放域問答系統介紹三、開放域問答系統的通用體系結構第二節(jié) 問句的分析一、問句中的指代消解二、問句分類三、問句主題提取第三節(jié) 文檔和段落檢索一、檢索模型的選用二、查詢生成三、查詢結果排序四、增強索引的功能第四節(jié) 答案提取和驗證模塊一、生成候選答案集合二、答案提取第五節(jié) 問答系統的改進方法一、問答系統中外部資源的利用二、尋找特殊類問題的解決方案三、通過系綜方法構建問答系統第六節(jié) 問答系統的評測一、TREC問答系統評測二、問答系統評測指標第七節(jié) 實例:天網開放域問答系統第八節(jié) 小結參考文獻附錄 術語圖目錄圖1-1 2012年3月在Google上檢索“伊拉克戰(zhàn)爭”的結果圖1-2 2012年3月在Open Directory上檢索“伊拉克戰(zhàn)爭”的結果圖2-1 搜索引擎示意圖圖2-2 搜索引擎三段式工作流程圖2-3 搜索引擎的體系結構圖3-1 TSE搜索引擎界面圖3-2 TSE查詢結果頁面圖3-3 TSE網頁快照頁面圖3-4 TSE系統結構圖3-5 Web信息的搜集圖3-6 Sockets和端口圖3-7 通過Socket建立連接圖4-1 網頁預處理系統結構圖4-2 原始網頁庫中的記錄格式圖4-3 索引網頁庫算法圖4-4 字符的輸入和顯示流程圖4-5 GB2312,Big5和GBK字符編碼分布圖4-6 正向減字最大匹配算法流程圖4-7 切詞算法流程圖4-8 分析網頁與建立倒排文件流程圖4-9 過濾網頁中非正文信息算法圖4-10 正向索引表記錄格式圖4-11 由正向索引建立反向索引圖5-1 信息查詢的系統結構圖5-2 基本檢索算法圖5-3 動態(tài)摘要算法圖5-4 用戶查詢日志的記錄格式圖6-1 天網系統概貌圖6-2 搜集系統的主控結構圖6-3 協調進程工作算法圖6-4 分布式Web搜集系統結構圖6-5 負載方差圖6-6 并行搜集系統與集中式搜集系統的性能對比圖6-7 分布式系統效率圖6-8 URL兩階段映射圖6-9 天網分布式搜集系統P_Arthur體系結構圖6-10 人才招聘網站首頁圖7-1 用DocView模型提取的網頁要素圖7-2 凈化后的網頁圖7-3 HTML Tree結構圖7-4 內容塊權值傳遞過程圖7-5 有主題網頁DocView模型生成過程圖7-6 計算網頁特征項權值的算法圖7-7 正文段落識別過程圖7-8 基于anchor text的超鏈選取算法圖7-9 網頁凈化前后分類效果對比圖7-10 查全率隨選取關鍵詞個數的變化圖8-1 檢索系統集成框架結構圖8-2 天網WWW檢索分布式系統構架圖8-3 倒排索引結構示意圖圖8-4 按塊組織的倒排鏈的結構圖8-5 位置索引的結構圖8-6 CLPS結構示意圖圖8-7 倒排鏈中文檔號之間的d-gaps分布圖圖8-8 不同文檔號分配下平均每個查詢對應文檔號序列的壓縮大小圖8-9 不同壓縮算法對文檔號的解壓速度圖8-10 不同文檔號分配下平均每個查詢對應詞頻序列的壓縮大小圖8-11 不同壓縮算法對詞頻的解壓速度圖8-12 平均每個查詢對應的位置信息需要的存儲空間圖8-13 索引剪枝方法的分類圖8-14 MAXSCORE算法的示例圖8-15 WAND算法選擇候選文檔的過程圖8-16 基于最大塊索引的支點文檔號的選擇示例圖8-17 Interval-Base剪枝方法中文檔子區(qū)間劃分的示例圖8-18 SAAT方法處理查詢處理模式及分數累加器數量的變化圖8-19 當前支持高效SR+IR剪枝的索引結構圖8-20 擴展詞典樹結構示例圖8-21 擴展詞典匹配查找算法圖8-22 搜索引擎檢索系統緩存結構圖8-23 文檔數據訪問對象大小分布圖8-24 I/O與PAGE序列序號-頻度分布圖8-25 I/O與PAGE序列時間間隔分布圖8-26 I/O和PAGE序列中唯一模式串圖9-1 Inktomi提供的幾種搜索引擎技術的比較圖9-2 詞典在系統中的地位圖9-3 新詞學習圖9-4 網頁的互聯結構示意圖9-5 信息獲取技術評估的“森林”圖9-6 查準率和召回率基礎定義圖示圖9-7 查準率和召回率例子圖9-8 “省事的”11點標準召回率例子圖9-9 實踐中召回率例子圖9-10 實際中的44個查詢詞的評價統計表和P-R圖圖9-11 測試集在檢索評估中的角色圖9-12 幫助判斷相關結果頁面的計算機輔助程序入口圖9-13 幫助判斷相關結果頁面的計算機輔助程序操作界面圖10-1 Web InfoMall體系結構圖10-2 網頁數據的分割圖10-3 Web InfoMall的存儲結構圖10-4 網頁的引用壓縮示意圖圖11-1 CDAL提供的資源訪問方式圖11-2 CDAL系統結構圖圖11-3 基于Ontology的網絡資源描述信息獲取圖11-4 概念的屬性及其詞匯擴展(以電影類資源為例)圖11-5 獲得描述信息的改進排序算法圖11-6 網絡資源描述信息展示圖12-1 自動文檔分類算法的分類圖12-2 中文網頁自動分類的一般過程圖12-3 中文網頁分類器的工作原理圖圖12-4 WebSmart——一個網頁實例集搜集和整理工具圖12-5 一種中文網頁的分類體系圖12-6 Macro-F1值隨樣本數的變化圖12-7 Micro-F1值隨樣本數的變化圖12-8 CHI、IG、DF、MI的比較(Macro-F1)圖12-9 CHI、IG、DF、MI的比較(Micro-F1)圖12-10 kNN與NB分類結果的比較圖12-11 k的取值對分類器質量的影響(Marco-F1)圖12-12 k的取值對分類器質量的影響(Micro-F1)圖12-13 蘭式距離法與歐式距離法對12個不同類別的分類情況圖12-14 基于層次模型的kNN與基本kNN的比較圖12-15 RCut和SCut截尾算法的比較圖12-16 天網目錄的體系結構圖12-17 天網目錄導航服務圖12-18 文本聚類的一般過程圖12-19 層次聚類實例圖12-20 k-均值算法進行文本聚類的過程圖12-21 搜索結果聚類系統Carrot2圖13-1 START系統界面圖13-2 Ask Jeeves查詢結果圖13-3 問答系統的通用體系結構圖13-4 天網開放域系統的體系結構表目錄表4-1 網頁索引文件表4-2 URL索引文件表6-1 SOIF數據描述表6-2 SOIF具體語法表6-3 參照序列,假設節(jié)點數為2表7-1 類別編號對照表表7-2 消重實驗結果表7-3 當N=10、δ=0.01時5種算法的查全率和準確率表7-4 考察δ的取值對算法3和4的影響表7-5 分段簽名算法的時間復雜度及性能表7-6 基于關鍵詞的各算法的時間復雜度及性能(N=10,δ=0.01)表8-1 MTF對序列進行轉換的過程表8-2 對包含100萬詞條的詞典使用不同編碼所需要的空間表8-3 平均每個查詢對應詞頻鏈的空間大小(文檔號按URL序分配)表8-4 不同索引的組織結構及其支持的查詢處理方式表8-5 數據集基本統計信息表9-1 新詞學習對檢索準確率的影響表9-2 影響權值的HTML標簽表9-3 補償因子定義表表9-4 2004中文Web信息檢索評測提交結果表9-5 主題提取表9-6 導航搜索表9-7 用戶查詢信息類別表10-1 網頁存儲性能(個/秒)表10-2 網頁訪問性能(個/秒)表11-1 幾個網絡資源庫藏系統的特征表11-2 CDAL中的資源分布表12-1 樣本集中類別及實例數量的分布情況表表12-2 kNN和NB算法的分類質量和分類效率比較表12-3 歐式距離與蘭式距離的比較表12-4 基于層次模型的kNN與基本kNN的比較表12-5 RCut和SCut截尾算法的比較表12-6 一個分類器的設計方案表13-1 問題分類體系結構及TREC問答任務中問題的分布表13-2 天網開放域系統在TREC2005中的表現
章節(jié)摘錄
版權頁: 插圖: 第二節(jié) 網頁搜集 搜索引擎這樣一個軟件系統應該是何種工作方式?如果說軟件系統是工作在某個數據集合上的程序的話,這個軟件系統操作的數據不僅包括內容不可預測的用戶查詢,還要包括在數量上動態(tài)變化的海量網頁,并且這些網頁不會主動送到系統來,而是需要由系統去抓取。 首先,我們考慮抓取的時機:事先還是即時。我們都有經驗,在網絡比較暢通的情況下,從網上下載一篇網頁大約需要1秒鐘左右,因此如果在用戶查詢的時候即時去網上抓來成千上萬的網頁,一個個分析處理,和用戶的查詢匹配,不可能滿足搜索引擎的響應時間要求。不僅如此,這樣做的系統效益也不高(會重復抓取太多的網頁);面對大量的用戶查詢,不可能想象每來一個查詢,系統就到網上“搜索”一次。 因此我們看到,大規(guī)模搜索引擎服務的基礎應該是一批預先搜集好的網頁(直接或者間接)。這一批網頁如何維護?可以有兩種基本的考慮。 定期搜集,每次搜集替換上一次的內容,我們稱之為“批量搜集”。由于每次都是重新來一次,對于大規(guī)模搜索引擎來說,每次搜集的時間通常會花幾周。而由于這樣做開銷較大,通常兩次搜集的間隔時間也不會很短(如早期天網的版本大約每3個月來一次,Google在一段時間曾是每隔28天來一次)。這樣做的好處是系統實現比較簡單,主要缺點是“時新性”(freshness)不高,還有重復搜集所帶來的額外帶寬的消耗。 增量搜集,開始時搜集一批,往后只是:①搜集新出現的網頁;②搜集那些在上次搜集后有過改變的網頁;③發(fā)現自從上次搜集后已經不再存在了的網頁,并從庫中刪除。由于除新聞網站外,許多網頁的內容變化并不是很經常的(有研究指出50%網頁的平均生命周期大約為50天(Choetal.2000,Cho2002》,這樣做每次搜集的網頁量不會很大(例如,我們在2003年初估計中國每天有30萬~50萬變化了的網頁),于是可以經常啟動搜集過程(如每天)。30萬網頁,一臺PC機,在一般的網絡條件下,半天也就搜集完了。這樣的系統表現出來的信息時新性就會比較高,主要缺點是系統實現比較復雜;這種復雜還不僅在于搜集過程,而是還在于下面要談到的建索引的過程。 上面講的是系統網頁數據庫維護的基本策略。在這兩種極端的情況之間也可能有一些折中的方案,J.Cho博士在這方面做過深入的研究(Choetal.2000,Cho2002),他根據一種網頁變化模型和系統所含內容時新性的定義,提出了相應優(yōu)化的網頁搜集策略。其中一個有趣的結論是:在系統搜集能力一定的情況下,若有兩類網頁(如“商業(yè)”和“教育”),它們的更新周期差別很大(如“商業(yè)”類網頁平均更新周期是“天”,而“教育”類網頁平均更新周期是“月”),則系統應該將注意力放在更新慢的網頁上(Choetal.2000),以使系統整體的時新性達到比較高的取值。 在具體搜集過程中,如何抓取一篇篇的網頁,也可以有不同的考慮。最常見的一種是所謂“爬取”:將Web上的網頁集合看成是一個有向圖,搜集過程從給定起始URL集合S(或者說“種子”)開始,沿著網頁中的鏈接,按照先深、先寬或者某種別的策略遍歷,不停地從S中移除URL,下載相應的網頁,解析出網頁中的超鏈接URL,看是否已經被訪問過,將未訪問過的那些URL加入集合S。整個過程可以形象地想象為一個蜘蛛(spider)在蜘蛛網(Web)上爬行(crawl)。后面我們會看到,真正的系統其實是多個“蜘蛛”同時在爬。
編輯推薦
《搜索引擎:原理、技術與系統(第2版)》保留了第一版上篇的大部分內容,即搜索引擎的基本原理,過去這么些年并沒有什么變化;刪除了第一版中的第九,第十二和十三章,增加了第十,第十一和十三章,分別介紹基于搜索引擎技術開發(fā)并從2002年一直運行至今的“中國web信息博物館”、“中國數字財富庫藏”及開放域問答系統。同時,較大幅度修訂了第一版中的部分小節(jié)內容?!端阉饕妫涸?、技術與系統(第2版)》分三篇共13章,內容包括引論、Web搜索引擎工作原理和體系結構、 web信息的搜集、對搜集信息的預處理、信息查詢服務等。
圖書封面
圖書標簽Tags
無
評論、評分、閱讀與下載