搜索引擎

出版時間:2010-6  出版社:機械工業(yè)出版社  作者:W.Bruce Croft,Donald Metzler,Trevor Strohman  頁數(shù):309  譯者:劉挺,秦兵,張宇,車萬翔  
Tag標簽:無  

前言

本書綜述了信息檢索中的重要問題,并介紹了這些問題如何對搜索引擎的設計與實現(xiàn)產生影響。本書并不是按照相同的詳細程度描述每個主題,相反,我們側重于那些對于實現(xiàn)搜索引擎組件以及組件背后的信息檢索模型最重要的部分。網絡搜索引擎顯然是一個重要的話題,我們主要覆蓋了在網絡上使用的搜索技術,但搜索引擎在其他場合中也有應用,這就是為什么我們重點強調各種搜索引擎背后的信息檢索理論與概念的原因。本書的目標讀者群主要是計算機科學或計算機工程的本科生,但研究生也會發(fā)現(xiàn)本書是有用的,此外,本書也適合多數(shù)情報科學專業(yè)的學生。最后,無論讀者是什么背景,通過閱讀本書都可以對他們動手開發(fā)搜索引擎有所幫助。本書中涉及數(shù)學知識,但并不深奧?!瘯幸灿写a和程序設計的練習,但對于那些已經完成了基本計算機科學與程序設計課程的人來說,完全可以掌握。每章末尾的練習使用了被稱為Galago的基于Java的開源搜索引擎。Galago既是為本書所設計的,也借鑒了Lemur和Indri項目的經驗。換句話說,這是一個功能齊全的能夠支持真正應用的搜索引擎。許多編程練習都是針對Galago組件的使用、修改和擴展。內容在第1章,我們對信息檢索及它與搜索引擎的關系做了一個高層次的回顧。在第2章,我們描述了搜索引擎的架構,這一章全面介紹搜索引擎的各個組件,但沒有涉及細節(jié)問題。在第3章,我們關注于爬取、文檔信息源和其他用于獲取被檢索信息的技術。第4章描述了文本的統(tǒng)計特征,以及用來處理和識別重要特征的技術,并為建立索引做準備。第5章描述了怎樣為有效的搜索建立索引,以及怎樣利用索引處理查詢。在第6章,我們描述了怎樣處理查詢,并把它們轉換為更好的形式,以表達用戶的信息需求。

內容概要

  本書介紹了信息檢索(IR)中的關鍵問題,以及這些問題如何影響搜索引擎的設計與實現(xiàn),并且用數(shù)學模型強化了重要的概念。對于網絡搜素引擎這一重要的話題,書中主要涵蓋了在網絡上廣泛使用的搜索技術?! ”緯m用于高等院校計算機科學或計算機工程專業(yè)的本科生、研究生,對于專業(yè)人士而言,本書也不失為一本理想的入門教材。

作者簡介

作者:(美國)克羅夫特(W.Bruce Croft) (美國)Donald Metzler (美國)Trevor Strohman 譯者:劉挺 秦兵 張宇 等克羅夫特(W.Bruce Croft),馬薩諸塞大學阿默斯特分校計算機科學特聘教授、ACM會士。他創(chuàng)建了智能信息檢索研究中心,發(fā)表了200余篇論文,多次獲獎,其中包括2003年由ACM SIGIR頒發(fā)的Gerard Salton獎。Donald Metzler,馬薩諸塞大學阿默斯特分校博士,是位于加州Santa Clara的雅虎研究中心搜索與計算機廣告組的研究科學家。Trevor Strohman,馬薩諸塞大學阿默斯特分校博士。他開發(fā)了Galago搜索引擎,也是Indri搜索引擎的主要開發(fā)者。

書籍目錄

出版者的話 譯者序 前言 第1章 搜索引擎和信息檢索   1.1 什么是信息檢索   1.2 重要問題   1.3 搜索引擎   1.4 搜索工程師   參考文獻和深入閱讀   練習  第2章 搜索引擎的架構   2.1 什么是軟件架構   2.2 基本的構件   2.3 組件及其功能    2.3.1 文本采集    2.3.2 文本轉換    2.3.3 索引的創(chuàng)建    2.3.4 用戶交互    2.3.5 排序    2.3.6 評價   2.4 搜索引擎是如何工作的   參考文獻和深入閱讀   練習  第3章 信息采集和信息源   3.1 確定搜索的內容   3.2 網絡信息爬取    3.2.1 抓取網頁    3.2.2 網絡爬蟲    3.2.3 時新性    3.2.4 面向主題的信息采集    3.2.5 深層網絡    3.2.6 網站地圖    3.2.7 分布式信息采集   3.3 文檔和電子郵件的信息采集   3.4 文檔信息源   3.5 轉換問題   3.6 存儲文檔    3.6.1 使用數(shù)據(jù)庫系統(tǒng)    3.6.2 隨機存取    3.6.3 壓縮和大規(guī)模文件    3.6.4 更新     3.6.5 BigTable   3.7 重復檢測   3.8 去除噪聲   參考文獻和深入閱讀   練習  第4章 文本處理   4.1 從詞到詞項   4.2 文本統(tǒng)計    4.2.1 詞表增長    4.2.2 估計數(shù)據(jù)集和結果集大小   4.3 文檔解析    4.3.1 概述    4.3.2 詞素切分    4.3.3 停用詞去除    4.3.4 詞干提取    4.3.5 短語和n元串   4.4 文檔結構和標記    4.5 鏈接分析    4.5.1 錨文本    4.5.2 PageRank    4.5.3 鏈接質量   4.6 信息抽取   4.7 國際化   參考文獻和深入閱讀   練習  第5章 基于索引的相關排序   5.1 概述   5.2 抽象的相關排序模型   5.3 倒排索引    5.3.1 文檔    5.3.2 計數(shù)    5.3.3 位置    5.3.4 域與范圍    5.3.5 分數(shù)    5.3.6 排列   5.4 壓縮    5.4.1 熵與歧義    5.4.2 Delta編碼    5.4.3 位對齊碼    5.4.4 字節(jié)對齊碼    5.4.5 實際應用中的壓縮    5.4.6 展望    5.4.7 跳轉和跳轉指針   5.5 輔助結構   5.6 索引構建    5.6.1 簡單構建    5.6.2 融合    5.6.3 并行與分布式    5.6.4 更新   5.7 查詢處理    5.7.1 document-at-a-time評價    5.7.2 term-at-a-time評價    5.7.3 優(yōu)化技術    5.7.4 結構化查詢    5.7.5 分布式的評價    5.7.6 緩存   參考文獻和深入閱讀   練習  第6章 查詢與界面   6.1 信息需求與查詢   6.2 查詢轉換與提煉    6.2.1 停用詞去除和詞干提取    6.2.2 拼寫檢查和建議    6.2.3 查詢擴展    6.2.4 相關反饋    6.2.5 上下文和個性化   6.3 搜索結果顯示    6.3.1 搜索結果頁面與頁面摘要    6.3.2 廣告與搜索    6.3.3 結果聚類   6.4 跨語言搜索   參考文獻和深入閱讀   練習  第7章 檢索模型   7.1 檢索模型概述    7.1.1 布爾檢索    7.1.2 向量空間模型   7.2 概率模型    7.2.1 將信息檢索作為分類問題    7.2.2 BM25排序算法   7.3 基于排序的語言模型    7.3.1 查詢項似然排序    7.3.2 相關性模型和偽相關反饋   7.4 復雜查詢和證據(jù)整合    7.4.1 推理網絡模型    7.4.2 Galago查詢語言   7.5 網絡搜索   7.6 機器學習和信息檢索    7.6.1 排序學習    7.6.2 主題模型和詞匯不匹配   7.7 基于應用的模型   參考文獻和深入閱讀   練習  第8章 搜索引擎評價   8.1 搜索引擎評價的意義   8.2 評價語料   8.3 日志   8.4 效果評價    8.4.1 召回率和準確率    8.4.2 平均化和插值    8.4.3 關注排序靠前的文檔    8.4.4 使用用戶偏好   8.5 效率評價   8.6 訓練、測試和統(tǒng)計    8.6.1 顯著性檢驗    8.6.2 設置參數(shù)值    8.6.3 在線測試   8.7 基本要點   參考文獻和深入閱讀   練習  第9章 分類和聚類   9.1 分類    9.1.1 樸素貝葉斯    9.1.2 支持向量機    9.1.3 評價    9.1.4 分類器和特征選擇    9.1.5 垃圾、情感及在線廣告   9.2 聚類    9.2.1 層次聚類和K均值聚類    9.2.2 K近鄰聚類    9.2.3 評價    9.2.4 如何選擇K    9.2.5 聚類和搜索   參考文獻和深入閱讀   練習  第10章 社會化搜索   10.1 什么是社會化搜索   10.2 用戶標簽和人工索引    10.2.1 搜索標簽    10.2.2 推測缺失的標簽    10.2.3 瀏覽和標簽云   10.3 社區(qū)內搜索    10.3.1 什么是社區(qū)    10.3.2 社區(qū)發(fā)現(xiàn)    10.3.3 基于社區(qū)的問答    10.3.4 協(xié)同搜索   10.4 過濾和推薦    10.4.1 文檔過濾    10.4.2 協(xié)同過濾   10.5 P2P搜索和元搜索    10.5.1 分布式搜索    10.5.2 P2P網絡   參考文獻和深入閱讀   練習  第11章 超越詞袋   11.1 概述   11.2 基于特征的檢索模型   11.3 詞項依賴模型   11.4 再談結構化    11.4.1 XML檢索    11.4.2 實體搜索   11.5 問題越長,答案越好   11.6 詞語、圖片和音樂   11.7 搜索能否適用于所有情況   參考文獻和深入閱讀   練習  參考文獻

章節(jié)摘錄

插圖:2.查詢轉換查詢轉換組件包括一系列的技術,這些技術用于在生成排好序的文檔之前和之后改善初始查詢。最簡單的處理涉及一些對文檔進行文本轉換的技術。在查詢文本上,需要進行詞素切分、停用詞去除和詞干提取這些工作,以生成與文檔詞項具有可比性的索引詞。拼寫檢查(spell checking)和查詢建議(query suggestion)是查詢轉換中的技術,生成與用戶初始查詢相似的輸出。在這兩種情況下,向用戶提供初始查詢的一些候選查詢,這些候選查詢可能糾正了拼寫錯誤或者是對用戶所需信息的更規(guī)范的描述。這些技術通常會導致為網絡應用搜集大量的查詢日志(query log)。查詢擴展(query expansion)技術是對查詢進行推薦或者增加一些額外的詞項,但通常都是在對文檔中詞項的出現(xiàn)情況分析的基礎上進行的。該分析通常是用不同的信息源,如整個文檔集合、檢索到的文檔或者用戶計算機上的文檔。相關反饋(relevance feedback)是一種查詢擴展技術,利用用戶認為相關的文檔中出現(xiàn)的詞項對查詢進行擴展。3.結果輸出結果輸出組件負責對相關組件得到的排好序的文檔的結果進行顯示。可能包含的任務有生成網頁摘要(snippets)來對檢索到的文檔內容進行概括;強調(highlighting)文檔中重要的詞和段落;對輸出結果聚類以找到文檔相關的類別;以及將相應的廣告增加到結果顯示中。在涉及多種語言的應用系統(tǒng)中,結果可能會被翻譯成同一種的語言。

編輯推薦

《搜索引擎:信息檢索實踐》:計算機科學叢書

圖書封面

圖書標簽Tags

評論、評分、閱讀與下載


    搜索引擎 PDF格式下載


用戶評論 (總計100條)

 
 

  •   作為信息檢索新人,這是一本非常好的入門書籍,詳細介紹搜索引擎涉及的各個部分
  •   本書很好,是搜索引擎學習很重要的一本書。內容非常實用。而且沒有商業(yè)技術保密的感覺。但是沒有現(xiàn)成的源代碼。只有算法偽代碼實現(xiàn)。比較適合有一定編程或算法基礎的人使用
  •   無論你是從事搜索引擎中某個模塊的研究還是整個領域的研究,這本書都是不錯的。但是不適合作為入門書籍,本書個人感覺適用于有一定文本處理、爬蟲、索引處理、聚類分類的基礎知識的人群。翻譯的不錯。
  •   前輩推薦的~當作信息檢索入門再好不過了~翻譯水平也不錯~
  •   基本上把搜索引擎的各個方面都講了一遍,雖不是很深入,但很適合入門...
  •   可以作為對搜索引擎的廣泛了解吧,但不夠深入~
  •   書中講述了大量的理論,都是非常實用的,開發(fā)搜索引擎必須從原理上了解他
  •   信息檢索大牛寫的書,實踐性很強。
  •   關于搜索引擎類的比較好的一本書
  •   同學推薦的,關于搜索引擎講的比較全面的書。就是書里有一頁撕開了,懶得換,自己粘上了。
  •   初步了解搜索引擎的好書?。?!
  •   很好的書,值得廣大計算機人學習
  •   計算機領域的黑寶書,值得一看
  •   還行吧,不過好像太專業(yè)了,感覺回到了大學時期學數(shù)學理論。。。。全部都是數(shù)學知識。
  •   介紹全面,但不夠細致??梢援斪魅腴T讀物。
  •   書的質量不錯,紙張也不錯,入門級經典書籍!
  •   這本書,我是中英文都買了的。專業(yè)。
  •   推薦買的一本書,講解很好,希望從中有所收獲啊
  •   不錯的一本書,當當很給力!
  •   這本書很值得一讀,我很喜歡。
  •   這本書內容非常的好,薄,但面面俱到,猶如“麻雀雖小,五臟俱全”!
    非常值得推薦?。?!
  •   書寫得很好,翻譯通順,書后的習題設計很好。今天看了第一章,被豐富的內容吸引,不知不覺看了一章。很喜歡。
  •   又有技術又講理論,學信管的很合適
  •   好很好的書。
  •   書的質量很好,贊一下!
  •   書還沒看 應該不錯 書太薄了 有點貴
  •   書不厚,但是內容很豐富,值得細細研究
  •   很基礎的書,值得好好學習
  •   送到的時候,書的外面還有層薄膜包著呢,內容也挺好的
  •   好書,正在學習中.........
  •   幫助我入門的好書!
  •   自學起來有壓力,但為了更好的提升,拼了
  •   剛到,看段時間在說....
  •   貨剛到,這書評論挺不錯的
  •   值得慢慢品讀
  •   質量不錯,送貨很快。
  •   先看了英文版的,感覺不太懂,買本中文的看
  •   老師推薦看的,應該不錯,數(shù)的質量也很好
  •   幫同事買的他很喜歡
  •   很好,真心推薦
  •   雖然看的不多,但是內容很實用,適合初學者!
  •   哎,內容太深奧,平時用不到,也不曉得實用性如何,一直放著,可惜了。
  •   質量和印刷都很好
  •   內容還行,看看至少知道是怎么回事了
    沒看太多
  •   雖然看不懂,但是在大師的面前,我必須裝懂。
  •   真的很經典?。?!
  •   學習~充實下自己。。。。
  •   根據(jù)前三章的內容來看,這本書相當適合用于學習搜索引擎與智能檢索方面的知識
  •   內容相當全面,也較容易理解,不足的是由于是在英文搜索引擎的角度寫的書,有些內容可能不太適用于中文搜索引擎,但是總體來說是一本非常值得閱讀的書。
  •   里面有好多的數(shù)學知識,都是些概念性的東西,不過可以讓你去了解搜索引擎這方面
  •   喜歡搜索的可以看看
  •   內容比較寬泛,具體算法講解較少,適合入門級別的娃娃
  •   朋友推薦買的,很實用的一本教材,不過剛拿到這本書里面散發(fā)的味道不太喜歡
  •   比較重視實踐
  •   這本書也不錯。不過需要些基礎。
  •   書質量很好

    書的內容更好

    知識全面,簡單易懂,適合初學者!
  •   正在學習中,看了一半,感覺還行吧
  •   好好的看,深入理解
  •   內容不錯,但與想象還有一定差距!
  •   別人推薦的,好好讀讀
  •   圖書不錯!
  •   一個字,好;兩個字;加強,四個字,還得努力
  •   據(jù)說不錯,還沒拿到手
  •   看了包裝不錯,挺精致
  •   開闊一些思路
  •   有用,不過也有點枯燥。
  •   很好哈哈
  •   期待啊啊啊,終于有中文版了
  •   太專業(yè),不適合做營銷推廣的同學
  •   內容還可以吧,適合學習使用。
  •   書的紙張很薄 質量一般
  •   書還可以,可以讀讀
  •   看看內容是啥,不知道是不是算法?
  •   在看中,,,,,,感覺還行。。。。。
  •   推薦看原版
  •   剛剛收到,還沒有看內容,但是印刷和紙張感覺不是特別好
  •   看了兩章,實質的內容還行,就是翻譯得比較糟糕。感覺譯者不夠用心。
  •   書還沒看,書都壓的破了,買來就是本破書,影響看書的心情,印刷紙張也不好,很懷疑這本書怎么會買這么高的價格,這樣的包裝,影響心情。
  •   教科書,枯燥
  •   好像從GOOGLE翻譯上復制下來的,簡直給原文造成障礙
  •   內容通俗易懂,適合對搜索引擎零基礎的讀者看
  •   翻譯的不好,全篇是英文直譯,讓人看不懂,有些東西摸不著頭腦,推薦買英文原版書。
  •   概述型的書,只是對于搜索引擎做了一個總體概述,然后各個部分,模塊怎么實現(xiàn)的,架構及的介紹,沒有很詳細的技術點的說明
  •   正版書,很不錯,可以好好學習了
  •   特別適合計算機專業(yè)的學生進行學習。
  •   不錯的入門書,適合初學者,不錯。
  •   這翻譯,真得很沒有用心。
  •   書不錯比較全面,有些內容國內書上沒有
  •   信息量比較大,有很多引用文獻。零基礎的人學起來會吃力一些。
  •   像盜版的,里面有幾頁擠在一起了,還有破洞
  •   原理的東西真不是一般人看得懂的。。
  •   算一本詳細的手冊。學習搜索引擎必看
  •   不錯。。很快就收到 了書,很新,值得一看的一本書
  •   搜索引擎-信息檢索實踐
  •   包裝很好,很喜歡,是真品
  •   不好,書本收到就已毀壞了
  •   學習SEO,必先了解搜索引擎
  •   同樣的牛書一本
  •   這本書書很薄
  •   搜索引擎:信息檢索實踐
 

250萬本中文圖書簡介、評論、評分,PDF格式免費下載。 第一圖書網 手機版

京ICP備13047387號-7