出版時間:2008-4 出版社:水利水電出版社 作者:袁津生 等編著 頁數(shù):278
Tag標簽:無
內容概要
隨著搜索引擎技術的發(fā)展和不斷完善,越來越多的人開始對搜索引擎原理和技術進行研究,越來越多的人喜歡上了搜索引擎。 本書從教學的角度出發(fā),全面地闡述了搜索引擎的技術和信息檢索技術,包括:搜索引擎的基本原理與技術、搜索引擎的數(shù)據(jù)結構和搜索引擎的爬蟲、信息獲取與信息檢索技術、分類與聚類技術以及Web信息檢索技術。 本書適合高等院校計算機科學與技術專業(yè)及相關專業(yè)的高年級學生和研究生閱讀參考,也適合相關領域的工程技術人員參閱。
書籍目錄
前言第1章 搜索引擎概述 1.1 搜索引擎的概念 1.2 搜索引擎的發(fā)展史 1.3 搜索引擎的分類 1.4 搜索引擎的信息檢索模型 1.5 建立搜索引擎的關鍵技術 1.6 中文搜索引擎的發(fā)展趨勢 1.7 主要搜索引擎介紹 1.7.1 谷歌(Google)搜索 1.7.2 雅虎(Yahoo)搜索 1.7.3 百度(Baidu)搜索 1.7.4 天網(wǎng)搜索 1.8 小結 思考題第2章 搜索引擎的工作原理 2.1 搜索引擎的基本結構及工作原理 2.2 網(wǎng)頁的搜集 2.3 網(wǎng)頁內容的提取 2.4 查詢服務 2.5 小結 思考題第3章 信息檢索的模型 3.1 經(jīng)典模型 3.1.1 布爾模型 3.1.2 向量模型 3.1.3 概率模型 3.2 代數(shù)模型 3.2.1 廣義向量空間模型 3.2.2 神經(jīng)網(wǎng)絡模型 3.3 其他概率模型 3.3.1 貝葉斯網(wǎng)絡 3.3.2 推理網(wǎng)絡模型 3.3.3 信任度網(wǎng)絡模型 3.4 小結 思考題第4章 文本操作 4.1 文本預處理 4.1.1 文本的詞法分析 4.1.2 中文分詞技術 4.1.3 無用詞匯的刪除 4.1.4 詞干提取技術 4.1.5 索引詞條的選擇 4.1.6 詞典 4.2 文本聚類 4.2.1 文本聚類算法 4.2.2 文本聚類中的相關概念 4.2.3 特征空間的降維處理 4.3 文本壓縮 4.3.1 基本概念 4.3.2 統(tǒng)計方法 4.3.3 字典方法 4.3.4 倒排文檔壓縮 4.4 小結 思考題第5章 文本信息檢索技術 5.1 順排文檔檢索 5.1.1 表展開法 5.1.2 邏輯樹展開法 5.1.3 其他順排文檔檢索算法 5.2 倒排文檔檢索 5.2.1 倒排文檔的檢索 5.2.2 倒排文檔的建立 5.2.3 逆波蘭表達式 5.2.4 檢索指令表的生成 5.2.5 檢索實施 5.3 布爾檢索 5.4 加權檢索 5.4.1 檢索詞加權檢索 5.4.2 詞頻加權檢索 5.4.3 標引加權檢索 5.5 全文檢索 5.5.1 全文檢索的技術指標 5.5.2 全文檢索的實現(xiàn) 5.5.3 全文檢索效率的提高 5.6 超文本檢索 5.6.1 超文本技術概述 5.6.2 超文本的功能及結構 5.6.3 超文本檢索的優(yōu)缺點 5.7 分布式信息檢索 5.7.1 分布式檢索的查詢協(xié)議 5.7.2 分布式檢索系統(tǒng)的結構 5.7.3 分布式信息檢索模式 5.7.4 分布式檢索資源選擇 5.8 分布式數(shù)據(jù)庫查詢技術 5.8.1 分布式數(shù)據(jù)庫的基本概念 5.8.2 利用C#實現(xiàn)分布式數(shù)據(jù)庫查詢 5.8.3 基于.NET Remoting的查詢技術 5.8.4 基于DCOM的分布式查詢技術 5.8.5 基于JDBC的查詢技術 5.8.6 基于Servlet的查詢技術 5.8.7 基于CORBA的查詢技術 5.8.8 基于Agent的查詢技術 5.9 小結 思考題第6章 信息檢索評價 6.1 相關性 6.1.1 相關性的特征 6.1.2 相關性研究類別 6.1.3 相關性模型 6.2 信息檢索性能評價 6.2.1 信息檢索系統(tǒng)的有效性 6.2.2 評價指標 6.2.3 Web檢索系統(tǒng)性能評價 6.3 信息檢索領域的相關組織和會議 6.4 小結 思考題第7章 文本分類與聚類 7.1 分類與聚類介紹 7.1.1 文本分類 7.1.2 文本聚類 7.1.3 文本分類的算法 7.1.4 文本聚類的算法 7.1.5 自動分類與自動聚類 7.1.6 文本分類的評測方法與指標 7.1.7 文本聚類的評測方法與指標 7.2 常用文本分類方法 7.2.1 文本分類的問題 7.2.2 kNN分類算法 7.2.3 NB分類算法 7.2.4 決策樹分類算法 7.2.5 Rocchio分類算法 7.2.6 支持向量機分類算法 7.2.7 特征選擇分類算法. 7.2.8 文本分類系統(tǒng)的實現(xiàn) 7.3 常用文本聚類方法 7.3.1 層次聚類算法 7.3.2 分割聚類算法 7.3.3 基于密度的聚類算法 7.3.4 基于網(wǎng)格的聚類算法 7.3.5 基于模型的聚類算法 7.4 小結 思考題第8章 Web信息檢索技術 8.1 Web信息處理的基本技術 8.1.1 Web信息的基本特點 8.1.2 Web信息的表現(xiàn)方式 8.1.3 Web信息系統(tǒng)結構 8.1.4 網(wǎng)絡信息資源的組織與管理 8.2 Web數(shù)據(jù)挖掘 8.2.1 Web挖掘流程 8.2.2 Web挖掘的分類及現(xiàn)狀 8.2.3 Web數(shù)據(jù)挖掘和Web信息檢索的區(qū)別 8.3 Web信息檢索的關鍵技術 8.3.1 文檔搜集 8.3.2 文檔預處理 8.3.3 索引數(shù)據(jù)庫的建立 8.3.4 相似度計算與排序方法 8.4 搜索引擎的基本結構 8.4.1 搜索引擎的結構分類 8.4.2 網(wǎng)頁收集模塊 8.4.3 網(wǎng)頁索引模塊 8.4.4 查詢模塊 8.4.5 用戶界面 8.4.6 搜索引擎的主要指標及分析 8.5 搜索引擎的數(shù)據(jù)結構 8.5.1 存儲結構 8.5.2 信息庫 8.5.3 文本索引 8.5.4 詞典 8.5.5 采樣表 8.5.6 前向索引 8.5.7 后向索引 8.6 搜索引擎爬蟲 8.6.1 網(wǎng)絡爬蟲 8.6.2 深度優(yōu)先策略 8.6.3 廣度優(yōu)先策略 8.6.4 不重復抓取策略 8.6.5 網(wǎng)頁抓取優(yōu)先策略 8.6.6 網(wǎng)頁重訪策略 8.6.7 網(wǎng)頁抓取提速策略 8.6.8 Robots協(xié)議 8.6.9 網(wǎng)頁內容提取技術 8.7 元搜索引擎 8.7.1 元搜索引擎的基本構成 8.7.2 常用元搜索引擎介紹及其分類 8.7.3 與獨立搜索引擎的比較 8.7.4 主要技術指標及分析 8.8 小結 思考題第9章 搜索引擎開發(fā)技術 9.1 實例簡介 9.1.1 搜索引擎的體系結構 9.1.2 網(wǎng)頁搜集 9.1.3 網(wǎng)頁預處理 9.1.4 查詢服務 9.2 環(huán)境搭建與配置 9.2.1 idk 1.6的安裝與配置 9.2.2 eclipse的安裝與配置 9.2.3 Tomcat的安裝與配置 9.2.4 Heritrix的安裝與配置 9.3 網(wǎng)頁搜集的實現(xiàn) 9.3.1 擴展Heritrix 9.3.2 抓取網(wǎng)頁 9.4 預處理的實現(xiàn) 9.4.1 原始網(wǎng)頁的處理 9.4.2 建立索引——Lucene 9.5 提供查詢服務 9.5.1 搜索引擎架構設計 9.5.2 后臺設計和實現(xiàn) 9.5.3 頁面設計和實現(xiàn) 9.5.4 部署到Tomcat 9.6 小結 實驗參考文獻
章節(jié)摘錄
第7章 搜索引擎概述Internet上的信息量之大、范圍之廣、用戶之多都比以往任何時候表現(xiàn)得突出,然而如何從浩瀚的信息海洋中得到所需要的信息就顯得更加重要。網(wǎng)絡搜索引擎的出現(xiàn)從某種程度上解決了這個問題,它是目前比較有效的網(wǎng)上信息獲取方法,多數(shù)網(wǎng)上用戶使用搜索引擎來獲得所需的信息。據(jù)CNNIC的統(tǒng)計,用搜索引擎搜索僅次于電子郵件的應用。目前,網(wǎng)上比較有影響的搜索工具中,中文的有:Google、百度(Baidu)、北大天網(wǎng)、愛問(iask)、雅虎(Yahoo)、搜狗(Sogou)等搜索引擎;英文的有:Yahoo、AltaVista、Excite、Infoseek、Lycos、Aol等。另外還有專用搜索引擎,例如,專門搜索歌曲和音樂的;專門搜索電子郵件地址、電話與地址和公眾信息的;專門搜索各種文件的FTP搜索引擎等。本章主要介紹搜索引擎的概念、搜索引擎的發(fā)展史、搜索引擎的分類以及一些著名的搜索引擎。1.1 搜索引擎的概念搜索引擎并不真正搜索互聯(lián)網(wǎng),它搜索的實際上是預先整理好的網(wǎng)頁索引數(shù)據(jù)庫,真正意義上的搜索引擎,通常指的是收集了Internet上幾千萬到幾十億個網(wǎng)頁并對網(wǎng)頁中的每一個詞(即關鍵詞)進行索引,建立索引數(shù)據(jù)庫的全文搜索引擎。當用戶查找某個關鍵詞的時候,所有在頁面內容中包含了該關鍵詞的網(wǎng)頁都將作為搜索結果被搜出來。在經(jīng)過復雜的算法進行排序后,這些結果將按照與搜索關鍵詞的相關度高低依次排列?,F(xiàn)在的搜索引擎已普遍使用超鏈分析技術,除了分析索引網(wǎng)頁本身的內容,還分析索引所有指向該網(wǎng)頁的鏈接的URL、Anchor Text,甚至鏈接周圍的文字。所以,有時候,即使某個網(wǎng)頁A中并沒有某個詞,比如“信息檢索”,但如果有網(wǎng)頁B中有鏈接“信息檢索”指向這個網(wǎng)頁A,那么用戶搜索“信息檢索”時也能找到網(wǎng)頁A。而且,如果有越多網(wǎng)頁的“信息檢索”鏈接指向網(wǎng)頁A,那么網(wǎng)頁A在用戶搜索“信息檢索”時也會被認為更相關,排序也會越靠前。搜索引擎的原理可以分為四步:從Internet網(wǎng)上抓取網(wǎng)頁、建立索引數(shù)據(jù)庫、在索引數(shù)據(jù)庫中搜索排序、對搜索結果進行處理和排序。(1)從Internet上抓取網(wǎng)頁。利用能夠從Internet上自動收集網(wǎng)頁的Spider系統(tǒng)程序,自動訪問Internet,并沿著任何網(wǎng)頁中的所有URL爬到其他網(wǎng)頁,重復這過程,并把爬過的所有網(wǎng)頁收集回來。(2)建立索引數(shù)據(jù)庫。由分析索引系統(tǒng)程序對收集回來的網(wǎng)頁進行分析,提取相關網(wǎng)頁信息(包括網(wǎng)頁所在URL、編碼類型、頁面內容包含的關鍵詞、關鍵詞位置、生成時間、大小、與其他網(wǎng)頁的鏈接關系等),根據(jù)一定的相關度算法進行大量復雜的計算,得到每一個網(wǎng)頁針對頁面內容中及超鏈接中每一個關鍵詞的相關度(或重要性),然后用這些相關信息建立網(wǎng)頁索引數(shù)據(jù)庫。
編輯推薦
《21世紀高等學校精品教材?搜索引擎與信息檢索教程》是“21世紀高等學校精品教材”之一,全書共分9個章節(jié),較為系統(tǒng)地闡述搜索引擎和信息檢索研究領域所涉及的相關內容,具體內容包括搜索引擎的工作原理、信息檢索的模型、文本操作、文本信息檢索技術、信息檢索評價等,其目的就是幫助讀者對搜索引擎技術有一個全面的了解和提高,同時為更加深入地學習和研究搜索引擎打下良好的基礎。該書可供各大專院校作為教材使用,也可供從事相關工作的人員作為參考用書使用。
圖書封面
圖書標簽Tags
無
評論、評分、閱讀與下載