出版時間:2012-1 出版社:機(jī)械工業(yè)出版社 作者:(美)Stefan Büttcher,(加)Charles L.A.Clarke,(加)Gordon V. Cormack 譯者:陳健,黃晉
Tag標(biāo)簽:無
內(nèi)容概要
《信息檢索:實現(xiàn)和評價搜索引擎》從多個視角對信息檢索技術(shù)進(jìn)行了深入講解,內(nèi)容涵蓋了信息檢索系統(tǒng)的架構(gòu)、基礎(chǔ)技術(shù)、詞條和詞項、靜態(tài)和動態(tài)倒排索引、查詢處理、索引壓縮技術(shù)、概率模型、語言模型、分類和過濾、融合和元學(xué)習(xí)、評價方法以及并行信息檢索、Web檢索和XML檢索等具體應(yīng)用。本書以模塊化的方式進(jìn)行組織,理論性強(qiáng),體系完整,同時強(qiáng)調(diào)實踐。作者以認(rèn)真嚴(yán)謹(jǐn)?shù)膽B(tài)度實現(xiàn)了書中絕大部分的主要方法,并詳盡地描述了各種方法的適用環(huán)境以及取得的效果。
《信息檢索:實現(xiàn)和評價搜索引擎》可作為高等院校信息管理與信息系統(tǒng)、計算機(jī)科學(xué)與技術(shù)、情報學(xué)、圖書館學(xué)以及電子商務(wù)等專業(yè)的高年級本科生和研究生的教材和參考書,對于從事信息檢索與網(wǎng)絡(luò)分析等實際工作的從業(yè)人員也具有較高的參考價值。
作者簡介
作者:(美國)布切爾 (Stefan Buttcher) (加拿大)Charles L.A.Calrke (加拿大)Gordon V.Cormack 譯者:陳健 黃晉 等布切爾(Stefan Buttcher)是Google公司資深網(wǎng)站可靠性工程師。Charles L A.Clarke和Gordon V Cormack是滑鐵盧大學(xué)David R.Cheriton計算機(jī)科學(xué)學(xué)院的計算機(jī)科學(xué)教授。
書籍目錄
出版者的話
譯者序
序
前言
符號
第一部分 基礎(chǔ)知識
第1章 緒論
1.1 什么是信息檢索
1.1.1 web搜索
1.1.2 其他搜索應(yīng)用
1.1.3 其他信息檢索應(yīng)用
1.2 信息檢索系統(tǒng)
1.2.1 信息檢索系統(tǒng)基礎(chǔ)架構(gòu)
1.2.2 文檔及其更新
1.2.3 性能評價
1.3 使用電子文本
1.3.1 文本格式
1.3.2 英文文本中的分詞
1.3.3 詞項分布
1.3.4 語言模型
1.4 測試集
1.5 開源信息檢索系統(tǒng)
1.5.1 lucene
1.5.2 indri
1.5.3 wumpus
1.6 延伸閱讀
1.7 練習(xí)
1.8 參考文獻(xiàn)
第2章 基礎(chǔ)技術(shù)
2.1 倒排索引
2.1.1 延伸例子:詞組查找
2.1.2 實現(xiàn)倒排索引
2.1.3 文檔和其他元素
2.2 檢索與排名
2.2.1 向量空間模型
2.2.2 鄰近度排名
2.2.3 布爾檢索
2.3 評價
2.3.1 查全率和查準(zhǔn)率
2.3.2 排名檢索的有效性指標(biāo)
2.3.3 創(chuàng)建測試集
2.3.4 效率指標(biāo)
2.4 總結(jié)
2.5 延伸閱讀
2.6 練習(xí)
2.7 參考文獻(xiàn)
第3章 詞條與詞項
3.1 英語
3.1.1 標(biāo)點與大寫
3.1.2 詞干提取
3.1.3 停詞
3.2 字符
3.3 字符n?gram
3.4 歐洲語言
3.5 cjk語言
3.6 延伸閱讀
3.7 練習(xí)
3.8 參考文獻(xiàn)
第二部分 索引
第4章 靜態(tài)倒排索引
第5章 查詢處理
第6章 索引壓縮
第7章 動態(tài)倒排索引
第三部分 檢索和排名
第8章 概率檢索
第9章 語言模型及其相關(guān)方法
第10章 分類和過濾
第11章 融合和元學(xué)習(xí)
第四部分 評價
第12章 度量有效性
第13章 度量效率
第五部分 應(yīng)用和擴(kuò)展
第14章 并行信息檢索
第15章 web搜索
第16章 xml檢索
第六部分 附錄
附錄a 計算機(jī)性能
章節(jié)摘錄
版權(quán)頁:插圖:1.1 什么是信息檢索信息檢索被認(rèn)為是對大規(guī)模電子文本和其他人類語言數(shù)據(jù)進(jìn)行表示、搜索和處理的技術(shù)。信息檢索系統(tǒng)和服務(wù)現(xiàn)在已經(jīng)非常普遍了,成千上萬的人每天都使用它們來方便地進(jìn)行商務(wù)、教育和娛樂。Google、Bing等Web搜索引擎,是目前為止最普遍和大量使用信息檢索服務(wù)的形式,提供獲取最新技術(shù)信息、搜索人和組織、總結(jié)新聞和事件以及簡化比較購物的途徑。電子圖書館系統(tǒng)幫助醫(yī)學(xué)界和學(xué)術(shù)界的研究人員了解他們研究領(lǐng)域內(nèi)最新的期刊文章和會議報告。消費者使用本地搜索服務(wù)來找到提供所需產(chǎn)品和服務(wù)的零售商。在大型公司中,企業(yè)搜索系統(tǒng)作為電子郵件、備忘錄、技術(shù)報告和其他業(yè)務(wù)文檔的存儲庫,通過保存這些文檔和提供相應(yīng)的手段獲得文檔蘊涵的知識來提供企業(yè)記憶。桌面搜索系統(tǒng)則允許用戶搜索他們的個人電子郵件、文檔和文件。1.1.1 Web搜索對Web搜索引擎的一般用戶而言,通常希望只要在一個文本框里輸入一個簡短的查詢——幾個簡單的詞,然后點擊一下搜索按鈕,馬上就可以得到問題的精確答案。在這簡單直觀的界面后面是一組計算機(jī)集群,包括成千上萬臺協(xié)同工作的機(jī)器,用來產(chǎn)生最有可能滿足查詢中所包含信息的網(wǎng)頁排名列表。這些機(jī)器要識別包含查詢詞的網(wǎng)頁集合,計算每個網(wǎng)頁的得分,消除重復(fù)和多余的頁面,生成余下頁面的摘要,最后將摘要和鏈接返回給用戶以便瀏覽。
媒體關(guān)注與評論
“這本書是越來越多的信息檢索著作中的一本好書?!薄 狣onald H. Krafft,計算機(jī)評論“學(xué)術(shù)巨匠齊聚一堂編撰了一部信息檢索的優(yōu)秀教材。Stefan Buttcher.Charles L.A.Clarke和GordonV.Cormack以合計超過50年的研究經(jīng)驗,組成了橫跨三代的信息檢索研究泰斗組合……這本書是所有信息檢索研究者和從業(yè)人員的必讀教材!” ——摘自Amit Singhal撰寫的序言
編輯推薦
《信息檢索:實現(xiàn)和評價搜索引擎》:信息檢索奠定了現(xiàn)代搜索引擎的基石?!缎畔z索:實現(xiàn)和評價搜索引擎》介紹了現(xiàn)代搜索技術(shù)的核心主題,包括算法、數(shù)據(jù)結(jié)構(gòu)、索引、檢索和評價,重點在于實現(xiàn)和實驗,每一章都有練習(xí)和對學(xué)生項目的建議。Wumpus(《信息檢索:實現(xiàn)和評價搜索引擎》其中一位作者開發(fā)的一個多用戶開源信息檢索系統(tǒng),可以在網(wǎng)上下載)提供了模型實現(xiàn),可作為學(xué)生練習(xí)的一個基礎(chǔ),《信息檢索:實現(xiàn)和評價搜索引擎》采用的模塊化結(jié)構(gòu)使教師可以將此書用于不同水平的研究生課程中,包括從數(shù)據(jù)庫系統(tǒng)角度教授的課程、專注于理論的傳統(tǒng)信息檢索課程和關(guān)于Web檢索基礎(chǔ)的課程。對信息檢索的基礎(chǔ)進(jìn)行介紹之后,《信息檢索:實現(xiàn)和評價搜索引擎》分別在相應(yīng)的部分介紹了3個重要主題——索引、檢索和評價?!缎畔z索:實現(xiàn)和評價搜索引擎》的最后一部分借用并擴(kuò)展了前面部分的基本內(nèi)容,考慮了以下具體應(yīng)用:并行搜索引擎、Web搜索和XML檢索。、除了用于課堂教學(xué),《信息檢索:實現(xiàn)和評價搜索引擎》對計算機(jī)科學(xué)、計算機(jī)工程和軟件工程的專業(yè)人員來說也具有很好的參考價值。
圖書封面
圖書標(biāo)簽Tags
無
評論、評分、閱讀與下載