搜索引擎與信息檢索教程

出版時(shí)間：2008-4 出版社：水利水電出版社作者：袁津生等編著頁(yè)數(shù)：278
Tag標(biāo)簽：無(wú)

內(nèi)容概要

隨著搜索引擎技術(shù)的發(fā)展和不斷完善，越來(lái)越多的人開(kāi)始對(duì)搜索引擎原理和技術(shù)進(jìn)行研究，越來(lái)越多的人喜歡上了搜索引擎。    本書(shū)從教學(xué)的角度出發(fā)，全面地闡述了搜索引擎的技術(shù)和信息檢索技術(shù)，包括：搜索引擎的基本原理與技術(shù)、搜索引擎的數(shù)據(jù)結(jié)構(gòu)和搜索引擎的爬蟲(chóng)、信息獲取與信息檢索技術(shù)、分類(lèi)與聚類(lèi)技術(shù)以及Web信息檢索技術(shù)。    本書(shū)適合高等院校計(jì)算機(jī)科學(xué)與技術(shù)專(zhuān)業(yè)及相關(guān)專(zhuān)業(yè)的高年級(jí)學(xué)生和研究生閱讀參考，也適合相關(guān)領(lǐng)域的工程技術(shù)人員參閱。

書(shū)籍目錄

前言第1章  搜索引擎概述  1.1  搜索引擎的概念  1.2  搜索引擎的發(fā)展史  1.3  搜索引擎的分類(lèi)  1.4  搜索引擎的信息檢索模型  1.5  建立搜索引擎的關(guān)鍵技術(shù)  1.6  中文搜索引擎的發(fā)展趨勢(shì)  1.7  主要搜索引擎介紹    1.7.1  谷歌(Google)搜索    1.7.2  雅虎(Yahoo)搜索    1.7.3  百度(Baidu)搜索    1.7.4  天網(wǎng)搜索  1.8  小結(jié)  思考題第2章  搜索引擎的工作原理  2.1  搜索引擎的基本結(jié)構(gòu)及工作原理  2.2  網(wǎng)頁(yè)的搜集  2.3  網(wǎng)頁(yè)內(nèi)容的提取  2.4  查詢服務(wù)  2.5  小結(jié)  思考題第3章  信息檢索的模型  3.1  經(jīng)典模型    3.1.1  布爾模型    3.1.2  向量模型    3.1.3  概率模型  3.2  代數(shù)模型    3.2.1  廣義向量空間模型    3.2.2  神經(jīng)網(wǎng)絡(luò)模型  3.3  其他概率模型    3.3.1  貝葉斯網(wǎng)絡(luò)    3.3.2  推理網(wǎng)絡(luò)模型    3.3.3  信任度網(wǎng)絡(luò)模型  3.4  小結(jié)  思考題第4章  文本操作  4.1  文本預(yù)處理    4.1.1  文本的詞法分析    4.1.2  中文分詞技術(shù)    4.1.3  無(wú)用詞匯的刪除    4.1.4  詞干提取技術(shù)    4.1.5  索引詞條的選擇    4.1.6  詞典  4.2  文本聚類(lèi)    4.2.1  文本聚類(lèi)算法    4.2.2  文本聚類(lèi)中的相關(guān)概念    4.2.3  特征空間的降維處理  4.3  文本壓縮    4.3.1  基本概念    4.3.2  統(tǒng)計(jì)方法    4.3.3  字典方法    4.3.4  倒排文檔壓縮  4.4  小結(jié)  思考題第5章  文本信息檢索技術(shù)  5.1  順排文檔檢索    5.1.1  表展開(kāi)法    5.1.2  邏輯樹(shù)展開(kāi)法    5.1.3  其他順排文檔檢索算法  5.2  倒排文檔檢索    5.2.1  倒排文檔的檢索    5.2.2  倒排文檔的建立    5.2.3  逆波蘭表達(dá)式    5.2.4  檢索指令表的生成    5.2.5  檢索實(shí)施  5.3  布爾檢索  5.4  加權(quán)檢索    5.4.1  檢索詞加權(quán)檢索    5.4.2  詞頻加權(quán)檢索    5.4.3  標(biāo)引加權(quán)檢索  5.5  全文檢索    5.5.1  全文檢索的技術(shù)指標(biāo)    5.5.2  全文檢索的實(shí)現(xiàn)    5.5.3  全文檢索效率的提高  5.6  超文本檢索    5.6.1  超文本技術(shù)概述    5.6.2  超文本的功能及結(jié)構(gòu)    5.6.3  超文本檢索的優(yōu)缺點(diǎn)  5.7  分布式信息檢索    5.7.1  分布式檢索的查詢協(xié)議    5.7.2  分布式檢索系統(tǒng)的結(jié)構(gòu)    5.7.3  分布式信息檢索模式    5.7.4  分布式檢索資源選擇  5.8  分布式數(shù)據(jù)庫(kù)查詢技術(shù)    5.8.1  分布式數(shù)據(jù)庫(kù)的基本概念    5.8.2  利用C#實(shí)現(xiàn)分布式數(shù)據(jù)庫(kù)查詢    5.8.3  基于.NET Remoting的查詢技術(shù)    5.8.4  基于DCOM的分布式查詢技術(shù)    5.8.5  基于JDBC的查詢技術(shù)    5.8.6  基于Servlet的查詢技術(shù)    5.8.7  基于CORBA的查詢技術(shù)    5.8.8  基于Agent的查詢技術(shù)  5.9  小結(jié)  思考題第6章  信息檢索評(píng)價(jià)  6.1  相關(guān)性    6.1.1  相關(guān)性的特征    6.1.2  相關(guān)性研究類(lèi)別    6.1.3  相關(guān)性模型  6.2  信息檢索性能評(píng)價(jià)    6.2.1  信息檢索系統(tǒng)的有效性    6.2.2  評(píng)價(jià)指標(biāo)    6.2.3  Web檢索系統(tǒng)性能評(píng)價(jià)  6.3  信息檢索領(lǐng)域的相關(guān)組織和會(huì)議  6.4  小結(jié)  思考題第7章  文本分類(lèi)與聚類(lèi)  7.1  分類(lèi)與聚類(lèi)介紹    7.1.1  文本分類(lèi)    7.1.2  文本聚類(lèi)    7.1.3  文本分類(lèi)的算法    7.1.4  文本聚類(lèi)的算法    7.1.5  自動(dòng)分類(lèi)與自動(dòng)聚類(lèi)    7.1.6  文本分類(lèi)的評(píng)測(cè)方法與指標(biāo)    7.1.7  文本聚類(lèi)的評(píng)測(cè)方法與指標(biāo)  7.2  常用文本分類(lèi)方法    7.2.1  文本分類(lèi)的問(wèn)題    7.2.2  kNN分類(lèi)算法    7.2.3  NB分類(lèi)算法    7.2.4  決策樹(shù)分類(lèi)算法    7.2.5  Rocchio分類(lèi)算法    7.2.6  支持向量機(jī)分類(lèi)算法    7.2.7  特征選擇分類(lèi)算法.    7.2.8  文本分類(lèi)系統(tǒng)的實(shí)現(xiàn)  7.3  常用文本聚類(lèi)方法    7.3.1  層次聚類(lèi)算法    7.3.2  分割聚類(lèi)算法    7.3.3  基于密度的聚類(lèi)算法    7.3.4  基于網(wǎng)格的聚類(lèi)算法    7.3.5  基于模型的聚類(lèi)算法  7.4  小結(jié)  思考題第8章  Web信息檢索技術(shù)  8.1  Web信息處理的基本技術(shù)    8.1.1  Web信息的基本特點(diǎn)    8.1.2  Web信息的表現(xiàn)方式    8.1.3  Web信息系統(tǒng)結(jié)構(gòu)    8.1.4  網(wǎng)絡(luò)信息資源的組織與管理  8.2  Web數(shù)據(jù)挖掘    8.2.1  Web挖掘流程    8.2.2  Web挖掘的分類(lèi)及現(xiàn)狀    8.2.3  Web數(shù)據(jù)挖掘和Web信息檢索的區(qū)別  8.3  Web信息檢索的關(guān)鍵技術(shù)    8.3.1  文檔搜集    8.3.2  文檔預(yù)處理    8.3.3  索引數(shù)據(jù)庫(kù)的建立    8.3.4  相似度計(jì)算與排序方法  8.4  搜索引擎的基本結(jié)構(gòu)    8.4.1  搜索引擎的結(jié)構(gòu)分類(lèi)    8.4.2  網(wǎng)頁(yè)收集模塊    8.4.3  網(wǎng)頁(yè)索引模塊    8.4.4  查詢模塊    8.4.5  用戶界面    8.4.6  搜索引擎的主要指標(biāo)及分析  8.5  搜索引擎的數(shù)據(jù)結(jié)構(gòu)    8.5.1  存儲(chǔ)結(jié)構(gòu)    8.5.2  信息庫(kù)    8.5.3  文本索引    8.5.4  詞典    8.5.5  采樣表    8.5.6  前向索引    8.5.7  后向索引  8.6  搜索引擎爬蟲(chóng)    8.6.1  網(wǎng)絡(luò)爬蟲(chóng)    8.6.2  深度優(yōu)先策略    8.6.3  廣度優(yōu)先策略    8.6.4  不重復(fù)抓取策略    8.6.5  網(wǎng)頁(yè)抓取優(yōu)先策略    8.6.6  網(wǎng)頁(yè)重訪策略    8.6.7  網(wǎng)頁(yè)抓取提速策略    8.6.8  Robots協(xié)議    8.6.9  網(wǎng)頁(yè)內(nèi)容提取技術(shù)  8.7  元搜索引擎    8.7.1  元搜索引擎的基本構(gòu)成    8.7.2  常用元搜索引擎介紹及其分類(lèi)    8.7.3  與獨(dú)立搜索引擎的比較    8.7.4  主要技術(shù)指標(biāo)及分析  8.8  小結(jié)  思考題第9章  搜索引擎開(kāi)發(fā)技術(shù)  9.1  實(shí)例簡(jiǎn)介    9.1.1  搜索引擎的體系結(jié)構(gòu)    9.1.2  網(wǎng)頁(yè)搜集    9.1.3  網(wǎng)頁(yè)預(yù)處理    9.1.4  查詢服務(wù)  9.2  環(huán)境搭建與配置    9.2.1  idk 1.6的安裝與配置    9.2.2  eclipse的安裝與配置    9.2.3  Tomcat的安裝與配置    9.2.4  Heritrix的安裝與配置  9.3  網(wǎng)頁(yè)搜集的實(shí)現(xiàn)    9.3.1  擴(kuò)展Heritrix    9.3.2  抓取網(wǎng)頁(yè)  9.4  預(yù)處理的實(shí)現(xiàn)    9.4.1  原始網(wǎng)頁(yè)的處理    9.4.2  建立索引——Lucene  9.5  提供查詢服務(wù)    9.5.1  搜索引擎架構(gòu)設(shè)計(jì)    9.5.2  后臺(tái)設(shè)計(jì)和實(shí)現(xiàn)    9.5.3  頁(yè)面設(shè)計(jì)和實(shí)現(xiàn)    9.5.4  部署到Tomcat  9.6  小結(jié)  實(shí)驗(yàn)參考文獻(xiàn)

章節(jié)摘錄

第7章 搜索引擎概述Internet上的信息量之大、范圍之廣、用戶之多都比以往任何時(shí)候表現(xiàn)得突出，然而如何從浩瀚的信息海洋中得到所需要的信息就顯得更加重要。網(wǎng)絡(luò)搜索引擎的出現(xiàn)從某種程度上解決了這個(gè)問(wèn)題，它是目前比較有效的網(wǎng)上信息獲取方法，多數(shù)網(wǎng)上用戶使用搜索引擎來(lái)獲得所需的信息。據(jù)CNNIC的統(tǒng)計(jì)，用搜索引擎搜索僅次于電子郵件的應(yīng)用。目前，網(wǎng)上比較有影響的搜索工具中，中文的有：Google、百度（Baidu）、北大天網(wǎng)、愛(ài)問(wèn)（iask）、雅虎（Yahoo）、搜狗（Sogou）等搜索引擎；英文的有：Yahoo、AltaVista、Excite、Infoseek、Lycos、Aol等。另外還有專(zhuān)用搜索引擎，例如，專(zhuān)門(mén)搜索歌曲和音樂(lè)的；專(zhuān)門(mén)搜索電子郵件地址、電話與地址和公眾信息的；專(zhuān)門(mén)搜索各種文件的FTP搜索引擎等。本章主要介紹搜索引擎的概念、搜索引擎的發(fā)展史、搜索引擎的分類(lèi)以及一些著名的搜索引擎。1.1 搜索引擎的概念搜索引擎并不真正搜索互聯(lián)網(wǎng)，它搜索的實(shí)際上是預(yù)先整理好的網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)，真正意義上的搜索引擎，通常指的是收集了Internet上幾千萬(wàn)到幾十億個(gè)網(wǎng)頁(yè)并對(duì)網(wǎng)頁(yè)中的每一個(gè)詞（即關(guān)鍵詞）進(jìn)行索引，建立索引數(shù)據(jù)庫(kù)的全文搜索引擎。當(dāng)用戶查找某個(gè)關(guān)鍵詞的時(shí)候，所有在頁(yè)面內(nèi)容中包含了該關(guān)鍵詞的網(wǎng)頁(yè)都將作為搜索結(jié)果被搜出來(lái)。在經(jīng)過(guò)復(fù)雜的算法進(jìn)行排序后，這些結(jié)果將按照與搜索關(guān)鍵詞的相關(guān)度高低依次排列?，F(xiàn)在的搜索引擎已普遍使用超鏈分析技術(shù)，除了分析索引網(wǎng)頁(yè)本身的內(nèi)容，還分析索引所有指向該網(wǎng)頁(yè)的鏈接的URL、Anchor Text，甚至鏈接周?chē)奈淖帧Ｋ?，有時(shí)候，即使某個(gè)網(wǎng)頁(yè)A中并沒(méi)有某個(gè)詞，比如“信息檢索”，但如果有網(wǎng)頁(yè)B中有鏈接“信息檢索”指向這個(gè)網(wǎng)頁(yè)A，那么用戶搜索“信息檢索”時(shí)也能找到網(wǎng)頁(yè)A。而且，如果有越多網(wǎng)頁(yè)的“信息檢索”鏈接指向網(wǎng)頁(yè)A，那么網(wǎng)頁(yè)A在用戶搜索“信息檢索”時(shí)也會(huì)被認(rèn)為更相關(guān)，排序也會(huì)越靠前。搜索引擎的原理可以分為四步：從Internet網(wǎng)上抓取網(wǎng)頁(yè)、建立索引數(shù)據(jù)庫(kù)、在索引數(shù)據(jù)庫(kù)中搜索排序、對(duì)搜索結(jié)果進(jìn)行處理和排序。（1）從Internet上抓取網(wǎng)頁(yè)。利用能夠從Internet上自動(dòng)收集網(wǎng)頁(yè)的Spider系統(tǒng)程序，自動(dòng)訪問(wèn)Internet，并沿著任何網(wǎng)頁(yè)中的所有URL爬到其他網(wǎng)頁(yè)，重復(fù)這過(guò)程，并把爬過(guò)的所有網(wǎng)頁(yè)收集回來(lái)。（2）建立索引數(shù)據(jù)庫(kù)。由分析索引系統(tǒng)程序?qū)κ占貋?lái)的網(wǎng)頁(yè)進(jìn)行分析，提取相關(guān)網(wǎng)頁(yè)信息（包括網(wǎng)頁(yè)所在URL、編碼類(lèi)型、頁(yè)面內(nèi)容包含的關(guān)鍵詞、關(guān)鍵詞位置、生成時(shí)間、大小、與其他網(wǎng)頁(yè)的鏈接關(guān)系等），根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜的計(jì)算，得到每一個(gè)網(wǎng)頁(yè)針對(duì)頁(yè)面內(nèi)容中及超鏈接中每一個(gè)關(guān)鍵詞的相關(guān)度（或重要性），然后用這些相關(guān)信息建立網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)。

編輯推薦

《21世紀(jì)高等學(xué)校精品教材?搜索引擎與信息檢索教程》是“21世紀(jì)高等學(xué)校精品教材”之一，全書(shū)共分9個(gè)章節(jié)，較為系統(tǒng)地闡述搜索引擎和信息檢索研究領(lǐng)域所涉及的相關(guān)內(nèi)容，具體內(nèi)容包括搜索引擎的工作原理、信息檢索的模型、文本操作、文本信息檢索技術(shù)、信息檢索評(píng)價(jià)等，其目的就是幫助讀者對(duì)搜索引擎技術(shù)有一個(gè)全面的了解和提高，同時(shí)為更加深入地學(xué)習(xí)和研究搜索引擎打下良好的基礎(chǔ)。該書(shū)可供各大專(zhuān)院校作為教材使用，也可供從事相關(guān)工作的人員作為參考用書(shū)使用。

圖書(shū)封面

圖書(shū)標(biāo)簽Tags

無(wú)

評(píng)論、評(píng)分、閱讀與下載

還沒(méi)讀過(guò)(47)
勉強(qiáng)可看(347)
一般般(592)
內(nèi)容豐富(2457)
強(qiáng)力推薦(201)

搜索引擎與信息檢索教程 PDF格式下載

用戶評(píng)論 (總計(jì)6條)

這是一本非計(jì)算機(jī)或網(wǎng)絡(luò)工程專(zhuān)業(yè)的技術(shù)人員學(xué)習(xí)情報(bào)檢索和搜索引擎的書(shū)籍。對(duì)于業(yè)內(nèi)人士就有點(diǎn)淺。
帶我向搜索引擎又進(jìn)了一步,只是例子不太明了,總體還算一本比較好的一本入門(mén)書(shū),對(duì)于搜索引擎原理來(lái)說(shuō)
也許是自己沒(méi)有那么深入的去學(xué)習(xí)吧
不如去看北大天網(wǎng)自己寫(xiě)的搜索引擎書(shū)，那本書(shū)才好
中國(guó)所謂學(xué)者出的書(shū)，垃圾啊。
不實(shí)用。都是專(zhuān)業(yè)的e

搜索引擎與信息檢索教程

用戶評(píng)論 (總計(jì)6條)

推薦圖書(shū)

相關(guān)圖書(shū)