信息檢索

出版時(shí)間:201008  出版社:人民郵電出版社  作者:David A.Grossman,Ophir Frieder  頁數(shù):230  譯者:張華平  
Tag標(biāo)簽:無  

內(nèi)容概要

  本書是“信息檢索”課程的優(yōu)秀教材,書中對信息檢索的概念、原理和算法進(jìn)行了詳細(xì)介紹,內(nèi)容主要包括檢索模型與算法、檢索實(shí)用策略、跨語言信息檢索、查詢處理、融合結(jié)構(gòu)化數(shù)據(jù)和文本、并行信息檢索以及分布式信息檢索等,并給出了闡述算法的大量實(shí)例?! ”緯幸欢ǖ膹V度和深度,而且所有的內(nèi)容都用當(dāng)前的技術(shù)闡述,是高等院校計(jì)算機(jī)及信息管理等專業(yè)本科生和研究生的理想教材,對信息檢索領(lǐng)域的科研和技術(shù)人員也是很好的參考書。

作者簡介

David A.Grossman  佐治亞梅森大學(xué)博士,現(xiàn)在伊利諾伊理工大學(xué)計(jì)算機(jī)系任教。曾在美國政府部門高級技術(shù)服務(wù)中心和研究發(fā)展辦公室擔(dān)任項(xiàng)目經(jīng)理。主要研究領(lǐng)域包括信息檢索、結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)集成以及數(shù)據(jù)挖掘。
Ophir Frieder 喬治敦大學(xué)教授、計(jì)算機(jī)科學(xué)系主任。曾任伊利諾伊理工大學(xué)計(jì)算機(jī)系首席教授、學(xué)院數(shù)據(jù)檢索實(shí)驗(yàn)室主任。ACM會(huì)員,IEEE和美國藝術(shù)與科學(xué)研究院高級會(huì)員。他在數(shù)據(jù)檢索系統(tǒng)、通信系統(tǒng)、高性能系統(tǒng)結(jié)構(gòu)等方面均有深入的研究。

書籍目錄

第1章 引言 第2章 檢索模型與算法   2.1 向量空間模型   2.2 概率檢索模型   2.3 語言模型   2.4 推理網(wǎng)絡(luò)   2.5 擴(kuò)展布爾檢索   2.6 LSI   2.7 神經(jīng)網(wǎng)絡(luò)   2.8 遺傳算法   2.9 模糊集檢索   2.10 本章小結(jié)  2.11 練習(xí)題 第3章 檢索實(shí)用策略   3.1 相關(guān)反饋   3.2 聚類   3.3 基于段落的檢索   3.4 n元語法   3.5 回歸分析   3.6 同義詞表   3.7 語義網(wǎng)絡(luò)   3.8 語言解析   3.9 本章小結(jié)   3.10 練習(xí) 第4章 CLIR   4.1 簡介   4.2 跨越語言障礙   4.3 跨語言檢索模型與算法   4.4 跨語言檢索實(shí)用策略   4.5 本章小結(jié)   4.6 練習(xí)題 第5章 檢索效率優(yōu)化   5.1 倒排索引   5.2 查詢處理   5.3 簽名文件   5.4 重復(fù)文檔檢測   5.5 本章小結(jié)   5.6 練習(xí)題 第6章 結(jié)構(gòu)化數(shù)據(jù)與文本的融合   6.1 關(guān)系模型回顧   6.2 相關(guān)工作進(jìn)展   6.3 信息檢索作為關(guān)系應(yīng)用   6.4 使用關(guān)系模式進(jìn)行半結(jié)構(gòu)化搜索   6.5 多維數(shù)據(jù)模型   6.6 協(xié)同器   6.7 本章小結(jié)   6.8 練習(xí)題 第7章 并行信息檢索 第8章 分布式信息檢索 第9章 總結(jié)與下一步研究方向 參考文獻(xiàn) 索引 

章節(jié)摘錄

  8.4 P2P信息系統(tǒng)  現(xiàn)在,我們來關(guān)注一個(gè)新興的領(lǐng)域,它是互聯(lián)網(wǎng)領(lǐng)域和信息檢索的交叉領(lǐng)域,即P2P體系結(jié)構(gòu)。P2P體系結(jié)構(gòu)是分布式環(huán)境,根據(jù)其定義,認(rèn)為網(wǎng)絡(luò)上的每個(gè)節(jié)點(diǎn)都是潛在的信息源(服務(wù)器),也是需求信息的客戶端(客戶端),同時(shí)也是信息傳播的中間路由器(路由器)。每個(gè)節(jié)點(diǎn)都是獨(dú)立的,而且系統(tǒng)以純粹無中心的方式運(yùn)行。而在信息檢索系統(tǒng)領(lǐng)域,所提供的資源都是以可檢索數(shù)據(jù)的形式呈現(xiàn)的?! 2P系統(tǒng)最主要的特點(diǎn)就在于其天然的隨機(jī)性以及耐久性。P2P系統(tǒng)可以從容地處理系統(tǒng)中節(jié)點(diǎn)的加入與離開。這些節(jié)點(diǎn)提供的資源都可以根據(jù)需要在系統(tǒng)中動(dòng)態(tài)添加或者刪除。此外,單一節(jié)點(diǎn)的故障不會(huì)導(dǎo)致整個(gè)系統(tǒng)崩潰。  P2P運(yùn)動(dòng)的起源通常要?dú)w功于Napster(它是一個(gè)音樂文件共享系統(tǒng)),盡管Napster實(shí)際上依靠的還是依據(jù)中心集中式方式而實(shí)現(xiàn)的。也就是說,Napster并不是以完全無中心的形式存在的,因此,這并不是一個(gè)純粹意義上的P2P體系。但是,Napster確實(shí)為用戶提供了P2P的功能,因?yàn)橛脩艨梢耘c他人動(dòng)態(tài)地共享文件。Napster從性能和可靠性的角度看存在一些爭議,除此之外,Napster的集中式實(shí)現(xiàn)模式最終也注定了它會(huì)遇到法律問題?,F(xiàn)在,Napster再也不能以其原來的形式存在了。Napster的滅亡給P2P技術(shù)愛好者帶來了教訓(xùn)。作為回應(yīng),他們創(chuàng)建了Gnutella協(xié)議[V0.4,2004],這是真正的P2P,是許多當(dāng)今P2P研究的基礎(chǔ)。(Gnutella協(xié)議[V0.6,20041的后續(xù)版本也存在,并擴(kuò)展了P2P的體系結(jié)構(gòu),引入了層次結(jié)構(gòu)。該協(xié)議及其應(yīng)用稍后討論。)  基于Gnutella(版本0.4)協(xié)議的系統(tǒng)一般只提供了最原始的搜索能力。也就是說,它們一般依賴于名稱精確搜索,而名稱精確搜索往往通過子串匹配來實(shí)現(xiàn)。具體來說,如果查詢中的所有詞是某個(gè)文件元數(shù)據(jù)的子串,那么查詢就匹配該文件。匹配的文件按照其元數(shù)據(jù)與查詢的相似度進(jìn)行分組,最終返回到客戶端。目前,我們還沒有可為大家接受的方法來對這些分組進(jìn)行排序。用戶選擇其中的一組結(jié)果,從相應(yīng)的服務(wù)器下載相關(guān)文件[Rohrs,2000;Rohrs,2001]?! 〈蠖鄶?shù)基于Gnutella協(xié)議(版本0.4)建立的P2P信息檢索系統(tǒng)依然存在其他問題,其中包括:網(wǎng)絡(luò)全局泛濫問題、搜索結(jié)果不確定而且精度差。因?yàn)閺亩x上看,P2P信息檢索系統(tǒng)是無中心的,所以對于每一個(gè)檢索請求,信息將被發(fā)送到所有有可能含有相關(guān)文檔的節(jié)點(diǎn)上。因?yàn)槊總€(gè)節(jié)點(diǎn)搜索與文檔排序的計(jì)算能力是有限的,所以任何潛在的相關(guān)文檔都會(huì)發(fā)送到請求的節(jié)點(diǎn)上。給定潛在相關(guān)文檔的數(shù)目,結(jié)果信息的網(wǎng)絡(luò)總流量一般會(huì)大大高于已有的網(wǎng)絡(luò)資源。這種情況就稱為網(wǎng)絡(luò)全局泛濫。為了減少信息傳輸量,文獻(xiàn)[Yu等人,2003]研究了一種結(jié)果過濾和合并的技術(shù),而且節(jié)點(diǎn)一般都會(huì)收集鄰居節(jié)點(diǎn)的信息。因此,查詢請求節(jié)點(diǎn)所需的潛在結(jié)果到達(dá)中間節(jié)點(diǎn)時(shí),只將合并和過濾過的結(jié)果返回到請求節(jié)點(diǎn)。層次P2P網(wǎng)絡(luò)的最新合并技術(shù)可參見文獻(xiàn)[Lu和Callan,2004]?!  ?/pre>

圖書封面

圖書標(biāo)簽Tags

評論、評分、閱讀與下載


    信息檢索 PDF格式下載


用戶評論 (總計(jì)14條)

 
 

  •   速度很快,書的質(zhì)量也不錯(cuò),書的內(nèi)容就不用提了,呵呵
  •   看這種書需要耐心,基本上不可能一口氣看完,哈哈
  •   不錯(cuò),慢慢學(xué)習(xí)中
  •   買重了,已經(jīng)買過一本原版的了
  •   值得細(xì)細(xì)品味,后面的部分稍微有些難度
  •   好書,慢慢學(xué)習(xí)
  •   對自然語言處理,信息檢索等方向的同學(xué)有提綱挈領(lǐng)的作用。總之,是一本值得買的專業(yè)書。
  •   信息檢索不錯(cuò)的圖書,需要一定數(shù)學(xué)基礎(chǔ)可能讀懂
  •   本書對算法和數(shù)學(xué)要求較高
  •   整體上感覺內(nèi)容充實(shí),嚴(yán)謹(jǐn),比較學(xué)術(shù),讀起來需要集中精力。
  •   這本書專業(yè)性比較強(qiáng),不能當(dāng)隨筆看。哈哈啊
  •   正在看,難度有些大。
  •   是一本好書,留待慢慢研究。還沒有來得及看。
  •   想要全面了解一下,是挺不錯(cuò)的。
 

250萬本中文圖書簡介、評論、評分,PDF格式免費(fèi)下載。 第一圖書網(wǎng) 手機(jī)版

京ICP備13047387號-7