出版時間:2010-2 出版社:科學(xué)出版社 作者:高凱,郭立煒,許云峰 編著 頁數(shù):243
Tag標(biāo)簽:無
內(nèi)容概要
本書較系統(tǒng)地論述了網(wǎng)絡(luò)信息檢索技術(shù)的基本原理,并進(jìn)一步闡述了其在搜索引擎系統(tǒng)開發(fā)及其智能化實現(xiàn)中的應(yīng)用。本書分為三部分。第一部分是基礎(chǔ)知識和相關(guān)背景介紹部分,包括從第1章到第3章的內(nèi)容。其中,第1章概要介紹了信息檢索的起源和發(fā)展、信息檢索模型及方法、網(wǎng)絡(luò)信息檢索的過程、網(wǎng)絡(luò)信息檢索性能評價、網(wǎng)絡(luò)信息智能化處理、網(wǎng)絡(luò)信息檢索技術(shù)的未來發(fā)展等問題;第2章簡要介紹了Web信息下載、頁面分析與信息抽取方法、基于鏈接分析的網(wǎng)頁相關(guān)性算法、檢索結(jié)果排序、自然語言處理等問題;第3章就搜索引擎的發(fā)展、分類、功能、資源等進(jìn)行了介紹。第二部分為利用開源資源實現(xiàn)搜索引擎系統(tǒng)的部分,包括從第4章到第8
章的內(nèi)容,主要介紹如何利用Lucene等開源資源來構(gòu)建自己的搜索引擎。
作為開源項目中的一朵奇葩,Lucene提供了強(qiáng)大的全文索引和檢索功能,并在搜索引擎、桌面檢索系統(tǒng)、網(wǎng)站站內(nèi)搜索、企業(yè)級內(nèi)部文檔管理與檢索、情報分析系統(tǒng)、知識管理系統(tǒng)、數(shù)字圖書館檢索系統(tǒng)中發(fā)揮了很好的作用。本書第4章介紹了Lucene的索引與檢索機(jī)制及其應(yīng)用、開發(fā)平臺的搭建與配置等;第5章介紹Lucene中的中英文分詞處理及其效果;第6章介紹檢索結(jié)果排序及處理技術(shù);第7章介紹如何利用開源資源來獲取網(wǎng)絡(luò)信息;第8章介紹如何對常見格式的網(wǎng)絡(luò)資源進(jìn)行解析與預(yù)處理。第三部分為搜索引擎智能化的研究與實現(xiàn)部分,包括從第9章到第14章的內(nèi)容。其中,第9
章對信息采集中的網(wǎng)頁去重與相關(guān)網(wǎng)頁聚類進(jìn)行了研究;第10章討論了信息的動態(tài)采集與更新策略,以期搜索引擎能根據(jù)網(wǎng)站及其更新速度的不同,動態(tài)調(diào)整其信息采集與更新的頻度;第11章則是面向自然語言提問的理解與處理,提供面向大眾的支持自然語言提問的智能檢索接口不僅能使人機(jī)交互更加人性化,還能促進(jìn)搜索引擎的應(yīng)用普及;第12章則給出一種參照多數(shù)用戶在檢索類似問題時的經(jīng)驗,為用戶提供一些關(guān)聯(lián)性和擴(kuò)展性的相關(guān)概念反饋的方法;第13章給出一種相近檢索與檢索結(jié)果排序方法;第
14章闡述了一種基于用戶瀏覽興趣的網(wǎng)頁預(yù)取策略。
全書理論聯(lián)系實際,涉及面廣,體系完整,內(nèi)容新穎,條理清晰,組織合理,圖例豐富,說明詳細(xì),既可作為高等院校計算機(jī)應(yīng)用技術(shù)專業(yè)和圖書館等相關(guān)專業(yè)的教材,也可作為工程技術(shù)人員的參考資料。
書籍目錄
第1章 緒論
第2章 網(wǎng)絡(luò)信息處理
第3章 搜索引擎
第4章 Lucene的索引與檢索機(jī)制及其應(yīng)用
第5章 分詞處理
第6章 檢索結(jié)果排序及處理
第7章 網(wǎng)絡(luò)信息獲取
第8章 網(wǎng)絡(luò)信息預(yù)處理
第9章 信息采集中的網(wǎng)頁去重與相似網(wǎng)頁聚類
第10章 信息的動態(tài)采集與更新
第11章 面向自然語言提問的理解與處理
第12章 相關(guān)概念反饋
第13章 相近檢索與檢索結(jié)果排序
第14章 基于用戶瀏覽興趣的網(wǎng)頁預(yù)取
章節(jié)摘錄
插圖:第1章緒論隨著現(xiàn)代網(wǎng)絡(luò)的飛速發(fā)展,中國的互聯(lián)網(wǎng)普及實現(xiàn)再次飛躍,趕上并超過了全球平均水平。據(jù)中國網(wǎng)絡(luò)信息中心CNNIC在2009年1月發(fā)布的統(tǒng)計數(shù)據(jù)顯示,截至2008年底,中國網(wǎng)民規(guī)模達(dá)到2.98億人,較2007年增長41.9%(見圖1.1),因特網(wǎng)普及率達(dá)到22.6%,略高于全球平均水平21.9%對比的其他國家和地區(qū)因特網(wǎng)普及率為2008年6月底數(shù)據(jù)。伴隨著網(wǎng)絡(luò)應(yīng)用的普及,網(wǎng)絡(luò)信息也呈爆炸式增長。英國科學(xué)家詹姆斯?馬丁認(rèn)為,人類的知識在19世紀(jì)是每50年增加1倍,20世紀(jì)中葉是每10年增加1倍,到20世紀(jì)70年代就已經(jīng)縮短為每5年增加1倍。迄今,信息更如爆炸般產(chǎn)生,而且信息的生產(chǎn)能力已超過了人們對其處理和吸收的能力。正如美國作家奈斯比特在其著作《大趨勢》一書中曾指出的那樣:“我們雖淹沒在信息的海洋中,但是卻渴求所需的知識”。為什么會出現(xiàn)這種情況呢?主要原因之一是因為缺乏有效的信息檢索與知識獲取手段。因此,如何幫助人們快速、方便、準(zhǔn)確地從信息海洋中尋找到所需信息已成為時代發(fā)展的迫切需要。
編輯推薦
《網(wǎng)絡(luò)信息檢索技術(shù)及搜索引擎系統(tǒng)開發(fā)》是由科學(xué)出版社出版的。
圖書封面
圖書標(biāo)簽Tags
無
評論、評分、閱讀與下載
網(wǎng)絡(luò)信息檢索技術(shù)及搜索引擎系統(tǒng)開發(fā) PDF格式下載