信息檢索

出版時間:201008  出版社:人民郵電出版社  作者:David A.Grossman,Ophir Frieder  頁數(shù):230  譯者:張華平  
Tag標簽:無  

內(nèi)容概要

  本書是“信息檢索”課程的優(yōu)秀教材,書中對信息檢索的概念、原理和算法進行了詳細介紹,內(nèi)容主要包括檢索模型與算法、檢索實用策略、跨語言信息檢索、查詢處理、融合結(jié)構(gòu)化數(shù)據(jù)和文本、并行信息檢索以及分布式信息檢索等,并給出了闡述算法的大量實例。  本書有一定的廣度和深度,而且所有的內(nèi)容都用當前的技術(shù)闡述,是高等院校計算機及信息管理等專業(yè)本科生和研究生的理想教材,對信息檢索領(lǐng)域的科研和技術(shù)人員也是很好的參考書。

作者簡介

David A.Grossman  佐治亞梅森大學博士,現(xiàn)在伊利諾伊理工大學計算機系任教。曾在美國政府部門高級技術(shù)服務中心和研究發(fā)展辦公室擔任項目經(jīng)理。主要研究領(lǐng)域包括信息檢索、結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)集成以及數(shù)據(jù)挖掘。
Ophir Frieder 喬治敦大學教授、計算機科學系主任。曾任伊利諾伊理工大學計算機系首席教授、學院數(shù)據(jù)檢索實驗室主任。ACM會員,IEEE和美國藝術(shù)與科學研究院高級會員。他在數(shù)據(jù)檢索系統(tǒng)、通信系統(tǒng)、高性能系統(tǒng)結(jié)構(gòu)等方面均有深入的研究。

書籍目錄

第1章 引言 第2章 檢索模型與算法   2.1 向量空間模型   2.2 概率檢索模型   2.3 語言模型   2.4 推理網(wǎng)絡   2.5 擴展布爾檢索   2.6 LSI   2.7 神經(jīng)網(wǎng)絡   2.8 遺傳算法   2.9 模糊集檢索   2.10 本章小結(jié)  2.11 練習題 第3章 檢索實用策略   3.1 相關(guān)反饋   3.2 聚類   3.3 基于段落的檢索   3.4 n元語法   3.5 回歸分析   3.6 同義詞表   3.7 語義網(wǎng)絡   3.8 語言解析   3.9 本章小結(jié)   3.10 練習 第4章 CLIR   4.1 簡介   4.2 跨越語言障礙   4.3 跨語言檢索模型與算法   4.4 跨語言檢索實用策略   4.5 本章小結(jié)   4.6 練習題 第5章 檢索效率優(yōu)化   5.1 倒排索引   5.2 查詢處理   5.3 簽名文件   5.4 重復文檔檢測   5.5 本章小結(jié)   5.6 練習題 第6章 結(jié)構(gòu)化數(shù)據(jù)與文本的融合   6.1 關(guān)系模型回顧   6.2 相關(guān)工作進展   6.3 信息檢索作為關(guān)系應用   6.4 使用關(guān)系模式進行半結(jié)構(gòu)化搜索   6.5 多維數(shù)據(jù)模型   6.6 協(xié)同器   6.7 本章小結(jié)   6.8 練習題 第7章 并行信息檢索 第8章 分布式信息檢索 第9章 總結(jié)與下一步研究方向 參考文獻 索引 

章節(jié)摘錄

  8.4 P2P信息系統(tǒng)  現(xiàn)在,我們來關(guān)注一個新興的領(lǐng)域,它是互聯(lián)網(wǎng)領(lǐng)域和信息檢索的交叉領(lǐng)域,即P2P體系結(jié)構(gòu)。P2P體系結(jié)構(gòu)是分布式環(huán)境,根據(jù)其定義,認為網(wǎng)絡上的每個節(jié)點都是潛在的信息源(服務器),也是需求信息的客戶端(客戶端),同時也是信息傳播的中間路由器(路由器)。每個節(jié)點都是獨立的,而且系統(tǒng)以純粹無中心的方式運行。而在信息檢索系統(tǒng)領(lǐng)域,所提供的資源都是以可檢索數(shù)據(jù)的形式呈現(xiàn)的?! 2P系統(tǒng)最主要的特點就在于其天然的隨機性以及耐久性。P2P系統(tǒng)可以從容地處理系統(tǒng)中節(jié)點的加入與離開。這些節(jié)點提供的資源都可以根據(jù)需要在系統(tǒng)中動態(tài)添加或者刪除。此外,單一節(jié)點的故障不會導致整個系統(tǒng)崩潰?! 2P運動的起源通常要歸功于Napster(它是一個音樂文件共享系統(tǒng)),盡管Napster實際上依靠的還是依據(jù)中心集中式方式而實現(xiàn)的。也就是說,Napster并不是以完全無中心的形式存在的,因此,這并不是一個純粹意義上的P2P體系。但是,Napster確實為用戶提供了P2P的功能,因為用戶可以與他人動態(tài)地共享文件。Napster從性能和可靠性的角度看存在一些爭議,除此之外,Napster的集中式實現(xiàn)模式最終也注定了它會遇到法律問題?,F(xiàn)在,Napster再也不能以其原來的形式存在了。Napster的滅亡給P2P技術(shù)愛好者帶來了教訓。作為回應,他們創(chuàng)建了Gnutella協(xié)議[V0.4,2004],這是真正的P2P,是許多當今P2P研究的基礎(chǔ)。(Gnutella協(xié)議[V0.6,20041的后續(xù)版本也存在,并擴展了P2P的體系結(jié)構(gòu),引入了層次結(jié)構(gòu)。該協(xié)議及其應用稍后討論。)  基于Gnutella(版本0.4)協(xié)議的系統(tǒng)一般只提供了最原始的搜索能力。也就是說,它們一般依賴于名稱精確搜索,而名稱精確搜索往往通過子串匹配來實現(xiàn)。具體來說,如果查詢中的所有詞是某個文件元數(shù)據(jù)的子串,那么查詢就匹配該文件。匹配的文件按照其元數(shù)據(jù)與查詢的相似度進行分組,最終返回到客戶端。目前,我們還沒有可為大家接受的方法來對這些分組進行排序。用戶選擇其中的一組結(jié)果,從相應的服務器下載相關(guān)文件[Rohrs,2000;Rohrs,2001]。  大多數(shù)基于Gnutella協(xié)議(版本0.4)建立的P2P信息檢索系統(tǒng)依然存在其他問題,其中包括:網(wǎng)絡全局泛濫問題、搜索結(jié)果不確定而且精度差。因為從定義上看,P2P信息檢索系統(tǒng)是無中心的,所以對于每一個檢索請求,信息將被發(fā)送到所有有可能含有相關(guān)文檔的節(jié)點上。因為每個節(jié)點搜索與文檔排序的計算能力是有限的,所以任何潛在的相關(guān)文檔都會發(fā)送到請求的節(jié)點上。給定潛在相關(guān)文檔的數(shù)目,結(jié)果信息的網(wǎng)絡總流量一般會大大高于已有的網(wǎng)絡資源。這種情況就稱為網(wǎng)絡全局泛濫。為了減少信息傳輸量,文獻[Yu等人,2003]研究了一種結(jié)果過濾和合并的技術(shù),而且節(jié)點一般都會收集鄰居節(jié)點的信息。因此,查詢請求節(jié)點所需的潛在結(jié)果到達中間節(jié)點時,只將合并和過濾過的結(jié)果返回到請求節(jié)點。層次P2P網(wǎng)絡的最新合并技術(shù)可參見文獻[Lu和Callan,2004]?!  ?/pre>

圖書封面

圖書標簽Tags

評論、評分、閱讀與下載


    信息檢索 PDF格式下載


用戶評論 (總計14條)

 
 

  •   速度很快,書的質(zhì)量也不錯,書的內(nèi)容就不用提了,呵呵
  •   看這種書需要耐心,基本上不可能一口氣看完,哈哈
  •   不錯,慢慢學習中
  •   買重了,已經(jīng)買過一本原版的了
  •   值得細細品味,后面的部分稍微有些難度
  •   好書,慢慢學習
  •   對自然語言處理,信息檢索等方向的同學有提綱挈領(lǐng)的作用??傊?,是一本值得買的專業(yè)書。
  •   信息檢索不錯的圖書,需要一定數(shù)學基礎(chǔ)可能讀懂
  •   本書對算法和數(shù)學要求較高
  •   整體上感覺內(nèi)容充實,嚴謹,比較學術(shù),讀起來需要集中精力。
  •   這本書專業(yè)性比較強,不能當隨筆看。哈哈啊
  •   正在看,難度有些大。
  •   是一本好書,留待慢慢研究。還沒有來得及看。
  •   想要全面了解一下,是挺不錯的。
 

250萬本中文圖書簡介、評論、評分,PDF格式免費下載。 第一圖書網(wǎng) 手機版

京ICP備13047387號-7