出版時(shí)間:2010-6 出版社:機(jī)械工業(yè)出版社 作者:W.Bruce Croft,Donald Metzler,Trevor Strohman 頁(yè)數(shù):309 譯者:劉挺,秦兵,張宇,車(chē)萬(wàn)翔
Tag標(biāo)簽:無(wú)
前言
本書(shū)綜述了信息檢索中的重要問(wèn)題,并介紹了這些問(wèn)題如何對(duì)搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)產(chǎn)生影響。本書(shū)并不是按照相同的詳細(xì)程度描述每個(gè)主題,相反,我們側(cè)重于那些對(duì)于實(shí)現(xiàn)搜索引擎組件以及組件背后的信息檢索模型最重要的部分。網(wǎng)絡(luò)搜索引擎顯然是一個(gè)重要的話題,我們主要覆蓋了在網(wǎng)絡(luò)上使用的搜索技術(shù),但搜索引擎在其他場(chǎng)合中也有應(yīng)用,這就是為什么我們重點(diǎn)強(qiáng)調(diào)各種搜索引擎背后的信息檢索理論與概念的原因。本書(shū)的目標(biāo)讀者群主要是計(jì)算機(jī)科學(xué)或計(jì)算機(jī)工程的本科生,但研究生也會(huì)發(fā)現(xiàn)本書(shū)是有用的,此外,本書(shū)也適合多數(shù)情報(bào)科學(xué)專業(yè)的學(xué)生。最后,無(wú)論讀者是什么背景,通過(guò)閱讀本書(shū)都可以對(duì)他們動(dòng)手開(kāi)發(fā)搜索引擎有所幫助。本書(shū)中涉及數(shù)學(xué)知識(shí),但并不深?yuàn)W。’書(shū)中也有代碼和程序設(shè)計(jì)的練習(xí),但對(duì)于那些已經(jīng)完成了基本計(jì)算機(jī)科學(xué)與程序設(shè)計(jì)課程的人來(lái)說(shuō),完全可以掌握。每章末尾的練習(xí)使用了被稱為Galago的基于Java的開(kāi)源搜索引擎。Galago既是為本書(shū)所設(shè)計(jì)的,也借鑒了Lemur和Indri項(xiàng)目的經(jīng)驗(yàn)。換句話說(shuō),這是一個(gè)功能齊全的能夠支持真正應(yīng)用的搜索引擎。許多編程練習(xí)都是針對(duì)Galago組件的使用、修改和擴(kuò)展。內(nèi)容在第1章,我們對(duì)信息檢索及它與搜索引擎的關(guān)系做了一個(gè)高層次的回顧。在第2章,我們描述了搜索引擎的架構(gòu),這一章全面介紹搜索引擎的各個(gè)組件,但沒(méi)有涉及細(xì)節(jié)問(wèn)題。在第3章,我們關(guān)注于爬取、文檔信息源和其他用于獲取被檢索信息的技術(shù)。第4章描述了文本的統(tǒng)計(jì)特征,以及用來(lái)處理和識(shí)別重要特征的技術(shù),并為建立索引做準(zhǔn)備。第5章描述了怎樣為有效的搜索建立索引,以及怎樣利用索引處理查詢。在第6章,我們描述了怎樣處理查詢,并把它們轉(zhuǎn)換為更好的形式,以表達(dá)用戶的信息需求。
內(nèi)容概要
本書(shū)介紹了信息檢索(IR)中的關(guān)鍵問(wèn)題,以及這些問(wèn)題如何影響搜索引擎的設(shè)計(jì)與實(shí)現(xiàn),并且用數(shù)學(xué)模型強(qiáng)化了重要的概念。對(duì)于網(wǎng)絡(luò)搜素引擎這一重要的話題,書(shū)中主要涵蓋了在網(wǎng)絡(luò)上廣泛使用的搜索技術(shù)?! ”緯?shū)適用于高等院校計(jì)算機(jī)科學(xué)或計(jì)算機(jī)工程專業(yè)的本科生、研究生,對(duì)于專業(yè)人士而言,本書(shū)也不失為一本理想的入門(mén)教材。
作者簡(jiǎn)介
作者:(美國(guó))克羅夫特(W.Bruce Croft) (美國(guó))Donald Metzler (美國(guó))Trevor Strohman 譯者:劉挺 秦兵 張宇 等克羅夫特(W.Bruce Croft),馬薩諸塞大學(xué)阿默斯特分校計(jì)算機(jī)科學(xué)特聘教授、ACM會(huì)士。他創(chuàng)建了智能信息檢索研究中心,發(fā)表了200余篇論文,多次獲獎(jiǎng),其中包括2003年由ACM SIGIR頒發(fā)的Gerard Salton獎(jiǎng)。Donald Metzler,馬薩諸塞大學(xué)阿默斯特分校博士,是位于加州Santa Clara的雅虎研究中心搜索與計(jì)算機(jī)廣告組的研究科學(xué)家。Trevor Strohman,馬薩諸塞大學(xué)阿默斯特分校博士。他開(kāi)發(fā)了Galago搜索引擎,也是Indri搜索引擎的主要開(kāi)發(fā)者。
書(shū)籍目錄
出版者的話 譯者序 前言 第1章 搜索引擎和信息檢索 1.1 什么是信息檢索 1.2 重要問(wèn)題 1.3 搜索引擎 1.4 搜索工程師 參考文獻(xiàn)和深入閱讀 練習(xí) 第2章 搜索引擎的架構(gòu) 2.1 什么是軟件架構(gòu) 2.2 基本的構(gòu)件 2.3 組件及其功能 2.3.1 文本采集 2.3.2 文本轉(zhuǎn)換 2.3.3 索引的創(chuàng)建 2.3.4 用戶交互 2.3.5 排序 2.3.6 評(píng)價(jià) 2.4 搜索引擎是如何工作的 參考文獻(xiàn)和深入閱讀 練習(xí) 第3章 信息采集和信息源 3.1 確定搜索的內(nèi)容 3.2 網(wǎng)絡(luò)信息爬取 3.2.1 抓取網(wǎng)頁(yè) 3.2.2 網(wǎng)絡(luò)爬蟲(chóng) 3.2.3 時(shí)新性 3.2.4 面向主題的信息采集 3.2.5 深層網(wǎng)絡(luò) 3.2.6 網(wǎng)站地圖 3.2.7 分布式信息采集 3.3 文檔和電子郵件的信息采集 3.4 文檔信息源 3.5 轉(zhuǎn)換問(wèn)題 3.6 存儲(chǔ)文檔 3.6.1 使用數(shù)據(jù)庫(kù)系統(tǒng) 3.6.2 隨機(jī)存取 3.6.3 壓縮和大規(guī)模文件 3.6.4 更新 3.6.5 BigTable 3.7 重復(fù)檢測(cè) 3.8 去除噪聲 參考文獻(xiàn)和深入閱讀 練習(xí) 第4章 文本處理 4.1 從詞到詞項(xiàng) 4.2 文本統(tǒng)計(jì) 4.2.1 詞表增長(zhǎng) 4.2.2 估計(jì)數(shù)據(jù)集和結(jié)果集大小 4.3 文檔解析 4.3.1 概述 4.3.2 詞素切分 4.3.3 停用詞去除 4.3.4 詞干提取 4.3.5 短語(yǔ)和n元串 4.4 文檔結(jié)構(gòu)和標(biāo)記 4.5 鏈接分析 4.5.1 錨文本 4.5.2 PageRank 4.5.3 鏈接質(zhì)量 4.6 信息抽取 4.7 國(guó)際化 參考文獻(xiàn)和深入閱讀 練習(xí) 第5章 基于索引的相關(guān)排序 5.1 概述 5.2 抽象的相關(guān)排序模型 5.3 倒排索引 5.3.1 文檔 5.3.2 計(jì)數(shù) 5.3.3 位置 5.3.4 域與范圍 5.3.5 分?jǐn)?shù) 5.3.6 排列 5.4 壓縮 5.4.1 熵與歧義 5.4.2 Delta編碼 5.4.3 位對(duì)齊碼 5.4.4 字節(jié)對(duì)齊碼 5.4.5 實(shí)際應(yīng)用中的壓縮 5.4.6 展望 5.4.7 跳轉(zhuǎn)和跳轉(zhuǎn)指針 5.5 輔助結(jié)構(gòu) 5.6 索引構(gòu)建 5.6.1 簡(jiǎn)單構(gòu)建 5.6.2 融合 5.6.3 并行與分布式 5.6.4 更新 5.7 查詢處理 5.7.1 document-at-a-time評(píng)價(jià) 5.7.2 term-at-a-time評(píng)價(jià) 5.7.3 優(yōu)化技術(shù) 5.7.4 結(jié)構(gòu)化查詢 5.7.5 分布式的評(píng)價(jià) 5.7.6 緩存 參考文獻(xiàn)和深入閱讀 練習(xí) 第6章 查詢與界面 6.1 信息需求與查詢 6.2 查詢轉(zhuǎn)換與提煉 6.2.1 停用詞去除和詞干提取 6.2.2 拼寫(xiě)檢查和建議 6.2.3 查詢擴(kuò)展 6.2.4 相關(guān)反饋 6.2.5 上下文和個(gè)性化 6.3 搜索結(jié)果顯示 6.3.1 搜索結(jié)果頁(yè)面與頁(yè)面摘要 6.3.2 廣告與搜索 6.3.3 結(jié)果聚類(lèi) 6.4 跨語(yǔ)言搜索 參考文獻(xiàn)和深入閱讀 練習(xí) 第7章 檢索模型 7.1 檢索模型概述 7.1.1 布爾檢索 7.1.2 向量空間模型 7.2 概率模型 7.2.1 將信息檢索作為分類(lèi)問(wèn)題 7.2.2 BM25排序算法 7.3 基于排序的語(yǔ)言模型 7.3.1 查詢項(xiàng)似然排序 7.3.2 相關(guān)性模型和偽相關(guān)反饋 7.4 復(fù)雜查詢和證據(jù)整合 7.4.1 推理網(wǎng)絡(luò)模型 7.4.2 Galago查詢語(yǔ)言 7.5 網(wǎng)絡(luò)搜索 7.6 機(jī)器學(xué)習(xí)和信息檢索 7.6.1 排序?qū)W習(xí) 7.6.2 主題模型和詞匯不匹配 7.7 基于應(yīng)用的模型 參考文獻(xiàn)和深入閱讀 練習(xí) 第8章 搜索引擎評(píng)價(jià) 8.1 搜索引擎評(píng)價(jià)的意義 8.2 評(píng)價(jià)語(yǔ)料 8.3 日志 8.4 效果評(píng)價(jià) 8.4.1 召回率和準(zhǔn)確率 8.4.2 平均化和插值 8.4.3 關(guān)注排序靠前的文檔 8.4.4 使用用戶偏好 8.5 效率評(píng)價(jià) 8.6 訓(xùn)練、測(cè)試和統(tǒng)計(jì) 8.6.1 顯著性檢驗(yàn) 8.6.2 設(shè)置參數(shù)值 8.6.3 在線測(cè)試 8.7 基本要點(diǎn) 參考文獻(xiàn)和深入閱讀 練習(xí) 第9章 分類(lèi)和聚類(lèi) 9.1 分類(lèi) 9.1.1 樸素貝葉斯 9.1.2 支持向量機(jī) 9.1.3 評(píng)價(jià) 9.1.4 分類(lèi)器和特征選擇 9.1.5 垃圾、情感及在線廣告 9.2 聚類(lèi) 9.2.1 層次聚類(lèi)和K均值聚類(lèi) 9.2.2 K近鄰聚類(lèi) 9.2.3 評(píng)價(jià) 9.2.4 如何選擇K 9.2.5 聚類(lèi)和搜索 參考文獻(xiàn)和深入閱讀 練習(xí) 第10章 社會(huì)化搜索 10.1 什么是社會(huì)化搜索 10.2 用戶標(biāo)簽和人工索引 10.2.1 搜索標(biāo)簽 10.2.2 推測(cè)缺失的標(biāo)簽 10.2.3 瀏覽和標(biāo)簽云 10.3 社區(qū)內(nèi)搜索 10.3.1 什么是社區(qū) 10.3.2 社區(qū)發(fā)現(xiàn) 10.3.3 基于社區(qū)的問(wèn)答 10.3.4 協(xié)同搜索 10.4 過(guò)濾和推薦 10.4.1 文檔過(guò)濾 10.4.2 協(xié)同過(guò)濾 10.5 P2P搜索和元搜索 10.5.1 分布式搜索 10.5.2 P2P網(wǎng)絡(luò) 參考文獻(xiàn)和深入閱讀 練習(xí) 第11章 超越詞袋 11.1 概述 11.2 基于特征的檢索模型 11.3 詞項(xiàng)依賴模型 11.4 再談結(jié)構(gòu)化 11.4.1 XML檢索 11.4.2 實(shí)體搜索 11.5 問(wèn)題越長(zhǎng),答案越好 11.6 詞語(yǔ)、圖片和音樂(lè) 11.7 搜索能否適用于所有情況 參考文獻(xiàn)和深入閱讀 練習(xí) 參考文獻(xiàn)
章節(jié)摘錄
插圖:2.查詢轉(zhuǎn)換查詢轉(zhuǎn)換組件包括一系列的技術(shù),這些技術(shù)用于在生成排好序的文檔之前和之后改善初始查詢。最簡(jiǎn)單的處理涉及一些對(duì)文檔進(jìn)行文本轉(zhuǎn)換的技術(shù)。在查詢文本上,需要進(jìn)行詞素切分、停用詞去除和詞干提取這些工作,以生成與文檔詞項(xiàng)具有可比性的索引詞。拼寫(xiě)檢查(spell checking)和查詢建議(query suggestion)是查詢轉(zhuǎn)換中的技術(shù),生成與用戶初始查詢相似的輸出。在這兩種情況下,向用戶提供初始查詢的一些候選查詢,這些候選查詢可能糾正了拼寫(xiě)錯(cuò)誤或者是對(duì)用戶所需信息的更規(guī)范的描述。這些技術(shù)通常會(huì)導(dǎo)致為網(wǎng)絡(luò)應(yīng)用搜集大量的查詢?nèi)罩荆╭uery log)。查詢擴(kuò)展(query expansion)技術(shù)是對(duì)查詢進(jìn)行推薦或者增加一些額外的詞項(xiàng),但通常都是在對(duì)文檔中詞項(xiàng)的出現(xiàn)情況分析的基礎(chǔ)上進(jìn)行的。該分析通常是用不同的信息源,如整個(gè)文檔集合、檢索到的文檔或者用戶計(jì)算機(jī)上的文檔。相關(guān)反饋(relevance feedback)是一種查詢擴(kuò)展技術(shù),利用用戶認(rèn)為相關(guān)的文檔中出現(xiàn)的詞項(xiàng)對(duì)查詢進(jìn)行擴(kuò)展。3.結(jié)果輸出結(jié)果輸出組件負(fù)責(zé)對(duì)相關(guān)組件得到的排好序的文檔的結(jié)果進(jìn)行顯示。可能包含的任務(wù)有生成網(wǎng)頁(yè)摘要(snippets)來(lái)對(duì)檢索到的文檔內(nèi)容進(jìn)行概括;強(qiáng)調(diào)(highlighting)文檔中重要的詞和段落;對(duì)輸出結(jié)果聚類(lèi)以找到文檔相關(guān)的類(lèi)別;以及將相應(yīng)的廣告增加到結(jié)果顯示中。在涉及多種語(yǔ)言的應(yīng)用系統(tǒng)中,結(jié)果可能會(huì)被翻譯成同一種的語(yǔ)言。
編輯推薦
《搜索引擎:信息檢索實(shí)踐》:計(jì)算機(jī)科學(xué)叢書(shū)
圖書(shū)封面
圖書(shū)標(biāo)簽Tags
無(wú)
評(píng)論、評(píng)分、閱讀與下載
250萬(wàn)本中文圖書(shū)簡(jiǎn)介、評(píng)論、評(píng)分,PDF格式免費(fèi)下載。 第一圖書(shū)網(wǎng) 手機(jī)版