信息檢索系統(tǒng)導(dǎo)論

出版時間:2008-12  出版社:機械工業(yè)出版社  作者:劉挺 等編著  頁數(shù):257  
Tag標(biāo)簽:無  

前言

信息檢索和搜索引擎因Internet的普及而日益變成一個熱門學(xué)科。各種相關(guān)學(xué)科的技術(shù)都被用于信息檢索,而信息檢索也被用于各個領(lǐng)域。熱門固然是一門學(xué)科興盛的表現(xiàn),每個從事研究的人都希望自己的研究領(lǐng)域成為熱門。但熱門也可能帶來危險,即把信息檢索當(dāng)作一種時髦技術(shù),無論適用與否都將其套用而不究其根本。對于信息檢索而言,這種時髦反而是它進一步發(fā)展的障礙。

內(nèi)容概要

本書對信息檢索及信息檢索系統(tǒng)的基本概念、原理、算法進行詳盡介紹。主要內(nèi)容包括信息檢索模型、文本操作技術(shù)、文本索引和搜索技術(shù)、查詢處理與Web檢索技術(shù)、分布式信息檢索、文本分類與聚類、信息過濾等,并給出Web信息檢索的實現(xiàn)實例。    本書內(nèi)容豐富,源于作者多年的教學(xué)及科研心得,適合作為高等院校計算機專業(yè)本科生及研究生相關(guān)課程的教材,也可作為技術(shù)人員研究信息檢索與搜索引擎的參考讀物。

作者簡介

劉挺,教授,博士生導(dǎo)師。哈爾濱工業(yè)大學(xué)計算機研究所副所長,信息檢索研究室主任。國家863”中文處理”重點項目總體組專家。中國中文信息學(xué)會理事.信息檢索專委會副主任.計算語言學(xué)專委會委員,《中文信息學(xué)報》編委。中國計算機學(xué)會中文信息技術(shù)專委會委員,YOCSEF委員。

書籍目錄

序前言作者簡介教學(xué)建議第1章  緒論  1.1  信息檢索簡介    1.1.1  信息檢索的概念和處理對象    1.1.2  信息檢索的基本流程    1.1.3  與信息檢索相關(guān)的學(xué)科  1.2  信息檢索的研究內(nèi)容    1.2.1  信息檢索要解決的問題    1.2.2  信息檢索中的基礎(chǔ)研究課題    1.2.3  信息檢索中的關(guān)鍵技術(shù)    1.2.4  信息檢索中的應(yīng)用研究  1.3  信息檢索的歷史、現(xiàn)狀與未來    1.3.1  信息檢索的歷史    1.3.2  信息檢索的現(xiàn)狀與未來  1.4  本書結(jié)構(gòu)  本章小結(jié)  思考練習(xí)第2章  信息檢索模型  2.1  信息檢索模型的定義和分類    2.1.1  信息檢索模型的定義    2.1.2  信息檢索模型的分類  2.2  布爾模型    2.2.1  布爾模型的定義    2.2.2  布爾模型示例  2.3  向量空間模型    2.3.1  向量空間模型的定義    2.3.2  常見相似度計算方法    2.3.3  向量空間模型與布爾模型的比較  2.4  概率模型    2.4.1  概率模型的定義    2.4.2  概率模型的優(yōu)缺點  2.5  擴展布爾模型    2.5.1  擴展布爾模型簡介    2.5.2  基本模糊集合模型    2.5.3  擴展模糊集合模型  2.6  統(tǒng)計語言模型    2.6.1  語言模型簡介    2.6.2  數(shù)據(jù)稀疏和平滑    2.6.3  基于語言模型的檢索模型    2.6.4  基于語言模型的信息檢索模型的優(yōu)缺點分析  2.7  隱性語義索引模型    2.7.1  隱性語義索引    2.7.2  隱性語義索引模型原理    2.7.3  隱性語義索引實例    2.7.4  隱性語義索引模型的特點  2.8  基于本體論的模型    2.8.1  本體論的概念    2.8.2  描述本體的語言    2.8.3  本體的構(gòu)造    2.8.4  常用的本體庫簡介    2.8.5  本體論在信息檢索系統(tǒng)中的應(yīng)用  本章小結(jié)  思考練習(xí)  參考文獻第3章  信息檢索系統(tǒng)的評價  3.1  引言  3.2  性能評價指標(biāo)    3.2.1  準(zhǔn)確率和召回率    3.2.2  單值評價方法    3.2.3  一些特殊的評價方法    3.2.4  其他測度方法  3.3  國外信息檢索評測    3.3.1  TREC評測    3.3.2  NTCIR評測    3.3.3  CLEF評測  3.4  國內(nèi)信息檢索評測    3.4.1  863信息檢索評測    3.4.2  SEWM中文Web評測  3.5  信息檢索評價的研究    3.5.1  現(xiàn)有研究成果介紹    3.5.2  今后的研究問題與趨勢  本章小結(jié)  思考練習(xí)  參考文獻第4章  文本操作技術(shù)  4.1  引言  4.2  英文詞法分析    4.2.1  斷詞    4.2.2  詞干提取  4.3  中文詞法分析    4.3.1  最大匹配法    4.3.2  歧義詞切分    4.3.3  未登錄詞識別    4.3.4  分詞系統(tǒng)介紹    4.3.5  語料及評測  4.4  相關(guān)資源    4.4.1  停用詞表    4.4.2  詞典資源  4.5  英文拼寫檢查    4.5.1  形態(tài)還原    4.5.2  詞語相似度計算  本章小結(jié)  思考練習(xí)  參考文獻第5章  文本索引和搜索  5.1  引言  5.2  倒排文件    5.2.1  倒排文件簡介    5.2.2  倒排文件的使用    5.2.3  倒排文件的建立    5.2.4  倒排文件的維護    5.2.5  倒排文件的壓縮    5.2.6  倒排文件性能分析  5.3  詞匯表的存取    5.3.1  排序數(shù)組    5.3.2  B樹    5.3.3  Trie樹  5.4  后綴數(shù)組    5.4.1  后綴數(shù)組的構(gòu)造    5.4.2  后綴數(shù)組的使用    5.4.3  后綴數(shù)組的分析  5.5  簽名文件    5.5.1  簽名文件的構(gòu)造    5.5.2  簽名文件的使用和維護    5.5.3  簽名文件的分析  5.6  文本搜索技術(shù)    5.6.1  BF算法    5.6.2  KMP算法    5.6.3  BM算法    5.6.4  精確模式匹配算法的選擇  本章小結(jié)  思考練習(xí)  參考文獻第6章  查詢處理技術(shù)  6.1  引言  6.2  查詢構(gòu)造方法    6.2.1  單一詞查詢    6.2.2  上下文查詢    6.2.3  布爾查詢  6.3  相關(guān)反饋與查詢重構(gòu)    6.3.1  向量空間模型中的反饋與查詢重構(gòu)    6.3.2  概率模型中的反饋與查詢重構(gòu)    6.3.3  布爾模型中的反饋與查詢重構(gòu)    6.3.4  相關(guān)反饋的評價  6.4  自動查詢擴展技術(shù)    6.4.1  查詢擴展的全局分析方法    6.4.2  查詢擴展的局部分析方法    6.4.3  基于詞典庫的查詢擴展  6.5  交互式查詢擴展  6.6  查詢處理的發(fā)展趨勢  本章小結(jié)  思考練習(xí)  參考文獻第7章  Web檢索技術(shù)  7.1  引言  7.2  Web檢索的工作流程及系統(tǒng)結(jié)構(gòu)    7.2.1  工作流程    7.2.2  系統(tǒng)結(jié)構(gòu)  7.3  Web數(shù)據(jù)的采集    7.3.1  Web數(shù)據(jù)采集系統(tǒng)的工作原理    7.3.2  Web數(shù)據(jù)采集系統(tǒng)的相關(guān)概念及協(xié)議    7.3.3  Web數(shù)據(jù)采集系統(tǒng)的基本結(jié)構(gòu)    7.3.4  Web數(shù)據(jù)采集系統(tǒng)的分類  7.4  網(wǎng)頁的預(yù)處理    7.4.1  網(wǎng)頁去重    7.4.2  正文提取  7.5  相關(guān)性排序系統(tǒng)    7.5.1  早期的相關(guān)性排序技術(shù)    7.5.2  鏈接分析技術(shù)    7.5.3  多特征融合的相關(guān)性排序算法  7.6  Web檢索系統(tǒng)的其他模塊  本章小結(jié)  思考練習(xí)  參考文獻第8章  分布式信息檢索  8.1  引言  8.2  分布式信息檢索系統(tǒng)體系結(jié)構(gòu)  8.3  文檔集合的劃分  8.4  文檔集合的選擇    8.4.1  文檔集合的表示    8.4.2  集合選擇算法    8.4.3  文檔集合選擇算法的評價  8.5  檢索結(jié)果的合并  本章小結(jié)  思考練習(xí)  參考文獻第9章  Web信息檢索實踐  9.1  引言  9.2  利用Lucene建立索引    9.2.1  在Lucene中建立索引的主要步驟    9.2.2  基本索引程序    9.2.3  深入控制Lucene索引過程    9.2.4  與索引相關(guān)的并發(fā)問題  9.3  利用Lucene進行搜索    9.3.1  IndexSearcher    9.3.2  Hits    9.3.3  Query與QueryParser  本章小結(jié)  思考練習(xí)  參考資源第10章  文本分類與聚類  10.1  引言  10.2  文本分類    10.2.1  文本分類概述    10.2.2  文本分類的過程    10.2.3  分類算法    10.2.4  文本分類的評估指標(biāo)    10.2.5  相關(guān)評測和相關(guān)資源  10.3  文本聚類    10.3.1  文本聚類概述    10.3.2  層次聚類    10.3.3  基于劃分的聚類    10.3.4  基于密度的方法    10.3.5  自組織映射    10.3.6  基于模型的方法    10.3.7  文本聚類結(jié)果的描述    11.3.8  文本聚類的評價方法  本章小結(jié)  思考練習(xí)  參考文獻第11章  信息過濾技術(shù)  11.1  引言  11.2  信息過濾的概念及主要研究內(nèi)容    11.2.1  信息過濾的概念和主要特點    11.2.2  信息過濾與信息檢索、信息抽取以及分類等研究的區(qū)別    11.2.3  信息過濾系統(tǒng)的分類體系  11.3  信息過濾系統(tǒng)的結(jié)構(gòu)及評價    11.3.1  信息過濾系統(tǒng)的組成    11.3.2  信息過濾系統(tǒng)的評價  11.4  基于內(nèi)容的信息過濾    11.4.1  信息過濾中應(yīng)用的統(tǒng)計模型    11.4.2  信息過濾中應(yīng)用的文本分類方法  11.5  協(xié)作過濾    11.5.1  基于用戶的協(xié)作過濾    11.5.2  基于模型的協(xié)作過濾    11.5.3  基于項目的協(xié)作過濾  本章小結(jié)  思考練習(xí)  參考文獻第12章  問答系統(tǒng)  12.1  引言  12.2  問答系統(tǒng)的發(fā)展歷程  12.3  問答系統(tǒng)的種類    12.3.1  問答系統(tǒng)分類方法    12.3.2  自然語言的數(shù)據(jù)庫問答系統(tǒng)    12.3.3  對話式問答系統(tǒng)    12.3.4  基于常問問題集的問答系統(tǒng)    12.3.5  基于大規(guī)模文檔集的問答系統(tǒng)    12.3.6  閱讀理解系統(tǒng)    12.3.7  基于知識庫的問答系統(tǒng)  12.4  基于常問問題集的問答系統(tǒng)實現(xiàn)    12.4.1  候選問題集的建立    12.4.2  句子相似度計算  12.5  基于大規(guī)模文檔集的問答系統(tǒng)實現(xiàn)    12.5.1  問答的任務(wù)與系統(tǒng)實現(xiàn)流程    12.5.2  問題分析    12.5.3  相關(guān)文檔檢索    12.5.4  句段檢索    12.5.5  答案抽取    12.5.6  問答結(jié)果的答案評測及其面對的問題和困難  本章小結(jié)  思考練習(xí)  參考文獻

章節(jié)摘錄

第1章 緒論1.1 信息檢索簡介1.1.1 信息檢索的概念和處理對象什么是信息檢索呢?概括地說,信息檢索就是從非結(jié)構(gòu)化的信息集合中找出與用戶需求相關(guān)的信息。相應(yīng)的,信息檢索系統(tǒng)就是用來實現(xiàn)信息檢索功能的計算機軟件系統(tǒng)。這里要強調(diào)的是,與數(shù)據(jù)庫系統(tǒng)處理的結(jié)構(gòu)化信息不同,信息檢索系統(tǒng)處理的是“非結(jié)構(gòu)化信息”。什么是“非結(jié)構(gòu)化信息”呢?一篇新聞就是一條非結(jié)構(gòu)化信息,新聞中會出現(xiàn)一些人名、地名、機構(gòu)名等實體,以及這些實體之間的關(guān)系(比如某人是某地區(qū)某機關(guān)的負(fù)責(zé)人),還有與這些實體相關(guān)的事件(比如某人訪問了某地)。但是這些人、事、物、關(guān)系和事件并不像關(guān)系數(shù)據(jù)庫的二維表中存放的信息那樣,被精確地分割并嚴(yán)格地存放在合適的字段或記錄中。這種在現(xiàn)實世界中自然存在的模糊而帶有歧義且沒有經(jīng)過規(guī)格化的信息被稱為“非結(jié)構(gòu)化的”(unstructured)信息。現(xiàn)實世界中存在著大量的非結(jié)構(gòu)化信息,除文本外,還有圖像、圖形、語音、視頻等多媒體信息。本書不討論多媒體檢索,而是專注于文本檢索,因此本書中所涉及的檢索對象默認(rèn)為文本。文本又有各種各樣的類型,如網(wǎng)頁、郵件、博客、論壇上的帖子、聊天記錄、短信等,不同類型的文本有不同的特點,比如論壇上的帖子往往非??谡Z化,存在大量的別稱、省略語等現(xiàn)象,給檢索帶來很大的挑戰(zhàn)。

編輯推薦

《信息檢索系統(tǒng)導(dǎo)論》特點:理論聯(lián)系實際,介紹了用Lucene實現(xiàn)Web信息檢索的實例。融入了作者的科研實踐心得,對相關(guān)的前沿技術(shù)也有所涉及。每章后都附有大量的參考文獻,并提供思考題供讀者進行深入研究?!缎畔z索系統(tǒng)導(dǎo)論》為授課教師提供電子課件,請登錄華章網(wǎng)站下載。

圖書封面

圖書標(biāo)簽Tags

評論、評分、閱讀與下載


    信息檢索系統(tǒng)導(dǎo)論 PDF格式下載


用戶評論 (總計19條)

 
 

  •   本書的編者是行業(yè)內(nèi)的專家。劉挺教授的實驗室出了很多人才,那邊每年去幾大搜索引擎公司的學(xué)生都有不少。劉老師學(xué)識淵博,嚴(yán)謹(jǐn)扎實,令人欽佩。本書非常適合作為信息檢索專業(yè)學(xué)生的第一本教材。
  •   內(nèi)容不錯,寫的不錯,很滿意。
  •   剛到,沒發(fā)現(xiàn)什么問題。
  •   國內(nèi)難得的好書
  •   本書是從技術(shù)角度介紹信息檢索系統(tǒng)。檢索模型上涉及統(tǒng)計語言模型、本體論模型,在文本操作上包含文本聚類、信息過濾等技術(shù),內(nèi)容比較全面。
  •   這是一本偏向檢索系統(tǒng)的計算機理論方面的書而不是偏向檢索方法的,適合需要探索信息檢索系統(tǒng)實現(xiàn)的人,里面的涉及很多數(shù)學(xué)方面的內(nèi)容,大家要注意選擇?。?/li>
  •   信息檢索的入門書,各個環(huán)節(jié)都有介紹,但是哪個環(huán)節(jié)介紹的都不夠全面,還可以吧~寫的不是很細(xì)致,例子少,都是些書本的理論。
  •   感覺不錯。對于信息檢索。很不錯!
  •   這本書還不錯,是別人介紹的,適合初學(xué)者閱讀。
  •   書是不錯,就是運的過程中嚴(yán)重?fù)p毀,中間 折斷,前兩頁都 快掉了
  •   給老公買的,忘了問他怎么了,應(yīng)該還不錯吧
  •   good,挺好的!
  •   基本都寫到了,如果要深入可以找相關(guān)資料
  •   跟舊的一樣??炕ㄥX買了一本舊書,再也不在這網(wǎng)買了
  •   很不錯,發(fā)書速度很快,是初學(xué)信息檢索者必備之書
  •   系統(tǒng)介紹了信息檢索的各個環(huán)節(jié)。讀后受益匪淺。一直崇敬哈工大IR研究團隊對該學(xué)科的貢獻。希望此生有機會前往受教。
  •   雖然不厚,但寫的很精練
  •   寫的很詳細(xì)。非常不錯。有幸聽過劉老師和秦老師的課,講的也很好
  •   我們學(xué)校的書,我還是支持一下吧,這本書是大牛劉廷出的,不算十分的好,是一本信息檢索入門的書籍。
 

250萬本中文圖書簡介、評論、評分,PDF格式免費下載。 第一圖書網(wǎng) 手機版

京ICP備13047387號-7