現(xiàn)代信息檢索

出版時(shí)間:2012-10  出版社:機(jī)械工業(yè)出版社  作者:Ricardo Baeza-Yates,Berthier Ribeiro-Neto  頁數(shù):672  譯者:黃萱菁,張奇,邱錫鵬  
Tag標(biāo)簽:無  

內(nèi)容概要

  
《現(xiàn)代信息檢索(原書第2版)》論述信息檢索的概念和技術(shù)、這些技術(shù)在搜索引擎中的應(yīng)用,及其對相關(guān)領(lǐng)域知識(shí)的影響等,主要內(nèi)容包括:用戶界面設(shè)計(jì);經(jīng)典的信息檢索模型、結(jié)果質(zhì)量評估和用戶相關(guān)反饋;文檔和查詢概念及其相關(guān)技術(shù);文檔集索引和搜索技術(shù);Web文檔的爬取、檢索和排序;結(jié)構(gòu)化文本檢索、多媒體檢索和企業(yè)搜索;圖書館系統(tǒng)和數(shù)字圖書館等。
  
《現(xiàn)代信息檢索(原書第2版)》內(nèi)容廣泛、細(xì)節(jié)豐富、深入淺出,可以作為高等院校信息管理與信息系統(tǒng)、計(jì)算機(jī)科學(xué)與技術(shù)、圖書館學(xué)、情報(bào)學(xué)、檔案學(xué)等專業(yè)本科生和研究生的教材或參考書,對從事信息檢索及系統(tǒng)分析、設(shè)計(jì)的實(shí)際工作者也有較高的參考價(jià)值。

書籍目錄

出版者的話
譯者序
第2版前言
第1版前言
第2版致謝
第1版致謝
出版商致謝
第1章 引言
1.1 信息檢索
1.1.1 信息檢索的早期發(fā)展
1.1.2 圖書館和數(shù)字圖書館中的信息檢索
1.1.3 舞臺(tái)中央的信息檢索
1.2 信息檢索問題
1.2.1 用戶的任務(wù)
1.2.2 信息檢索與數(shù)據(jù)檢索
1.3 信息檢索系統(tǒng)
1.3.1 信息檢索系統(tǒng)的軟件架構(gòu)
1.3.2 檢索和排序過程
1.4 Web
1.4.1 Web簡史
1.4.2 電子出版時(shí)代
1.4.3 Web如何改變搜索
1.4.4 Web上的實(shí)際問題
1.5 本書的組織結(jié)構(gòu)
1.5.1 本書的重點(diǎn)
1.5.2 本書的內(nèi)容
1.6 本書的教學(xué)資源網(wǎng)站
1.7 文獻(xiàn)討論
第2章 用戶搜索界面
2.1 介紹
2.2 人們?nèi)绾嗡阉?br />2.2.1 信息查找與探索式搜索
2.2.2 信息搜尋的經(jīng)典模型與動(dòng)態(tài)模型
2.2.3 導(dǎo)航與搜索
2.2.4 對搜索過程的觀察
2.3 現(xiàn)今的搜索界面
2.3.1 啟動(dòng)搜尋
2.3.2 查詢描述
2.3.3 查詢描述界面
2.3.4 檢索結(jié)果顯示
2.3.5 查詢重構(gòu)
2.3.6 組織搜索結(jié)果
2.4 搜索界面的可視化
2.4.1 可視化布爾語法
2.4.2 可視化查詢結(jié)果中的查詢項(xiàng)
2.4.3 可視化詞語和文檔間的關(guān)系
2.4.4 文本挖掘的可視化
2.5 搜索界面的設(shè)計(jì)和評價(jià)
2.6 趨勢和研究問題
2.7 文獻(xiàn)討論
第3章 信息檢索建模
3.1 信息檢索模型
3.1.1 建模和排序
3.1.2 信息檢索模型描述
3.1.3 信息檢索模型的分類體系
3.2 經(jīng)典信息檢索
3.2.1 基本概念
3.2.2 布爾模型
3.2.3 項(xiàng)權(quán)重
3.2.4 TF-IDF權(quán)重
3.2.5 文檔長度歸一化
3.2.6 向量模型
3.2.7 概率模型
3.2.8 經(jīng)典模型之間的簡單比較
3.3 其他集合論模型
3.3.1 基于集合的模型
3.3.2 擴(kuò)展布爾模型
3.3.3 模糊集模型
3.4 其他代數(shù)模型
3.4.1 廣義向量空間模型
3.4.2 潛在語義索引模型
3.4.3 神經(jīng)網(wǎng)絡(luò)模型
3.5 其他概率模型
3.5.1 BM25模型
3.5.2 語言模型
3.5.3 隨機(jī)差異模型
3.5.4 貝葉斯網(wǎng)模型
3.6 其他模型
3.6.1 超文本模型
3.6.2 基于Web的模型
3.6.3 結(jié)構(gòu)化文本檢索
3.6.4 多媒體檢索
3.6.5 企業(yè)和垂直搜索
3.7 趨勢和研究問題
3.8 文獻(xiàn)討論
第4章 檢索評價(jià)
4.1 介紹
4.2 Cranfield范式
4.2.1 歷史簡述
4.2.2 參考集
4.3 檢索指標(biāo)
4.3.1 精度和召回率
4.3.2 單值總結(jié):P@n,MAP,MRR,F(xiàn)
4.3.3 面向用戶的指標(biāo)
4.3.4 折扣累積增益
4.3.5 二元偏好
4.3.6 排序相關(guān)性測度
4.4 參考文檔集
4.4.1 TREC參考集
4.4.2 其他參考集
4.4.3 其他小規(guī)模測試文檔集
4.5 基于用戶的評價(jià)
4.5.1 實(shí)驗(yàn)室中的人工實(shí)驗(yàn)
4.5.2 并排面板
4.5.3 A/B測試
4.5.4 眾包
4.5.5 使用點(diǎn)擊數(shù)據(jù)的評價(jià)
4.6 實(shí)踐說明
4.7 趨勢和研究問題
4.8 文獻(xiàn)討論
第5章 相關(guān)反饋與查詢擴(kuò)展
5.1 介紹
5.2 反饋方法的框架
5.3 顯式相關(guān)反饋
5.3.1 向量模型的相關(guān)反饋:Rocchio方法
5.3.2 概率模型的相關(guān)反饋
5.3.3 相關(guān)反饋的評價(jià)
5.4 基于點(diǎn)擊的顯式反饋
5.4.1 眼動(dòng)追蹤和相關(guān)性評價(jià)
5.4.2 用戶行為
5.4.3 點(diǎn)擊作為用戶偏好的指標(biāo)
5.5 通過局部分析的隱式反饋
5.5.1 通過局部聚類的隱式反饋
5.5.2 通過局部上下文分析的隱式反饋
5.6 通過全局分析的隱式反饋
5.6.1 基于相似度同義詞典的查詢擴(kuò)展
5.6.2 基于統(tǒng)計(jì)同義詞典的查詢擴(kuò)展
5.7 趨勢和研究問題
5.8 文獻(xiàn)討論
第6章 文檔:語言及屬性
6.1 介紹
6.2 元數(shù)據(jù)
6.3 文檔格式
6.3.1 文本
6.3.2 多媒體
6.3.3 圖形和虛擬現(xiàn)實(shí)
6.4 標(biāo)記語言
6.4.1 SGML
6.4.2 HTML
6.4.3 XML
6.4.4 RDF
6.4.5 HyTime
6.5 文本屬性
6.5.1 信息論
6.5.2 自然語言建模
6.5.3 文本相似度
6.6 文檔預(yù)處理
6.6.1 文本的詞匯分析
6.6.2 去除禁用詞
6.6.3 詞干提取
6.6.4 關(guān)鍵詞選擇
6.6.5 同義詞典
6.7 組織文檔
6.7.1 分類體系法
6.7.2 分眾分類法
6.8 文本壓縮
6.8.1 基本概念
6.8.2 統(tǒng)計(jì)方法
6.8.3 統(tǒng)計(jì)方法:建模
6.8.4 統(tǒng)計(jì)方法:編碼
6.8.5 字典方法
6.8.6 壓縮預(yù)處理
6.8.7 文本壓縮技術(shù)的比較
6.8.8 結(jié)構(gòu)化文本壓縮
6.9 趨勢和研究問題
6.10 文獻(xiàn)討論
第7章 查詢:語言及屬性
7.1 查詢語言
7.1.1 基于關(guān)鍵詞的查詢
7.1.2 非關(guān)鍵詞查詢
7.1.3 結(jié)構(gòu)化查詢
7.1.4 查詢協(xié)議
7.2 查詢屬性
7.2.1 Web查詢的特征
7.2.2 用戶搜索行為
7.2.3 查詢意圖
7.2.4 查詢主題
7.2.5 查詢會(huì)話與任務(wù)
7.2.6 查詢難度
7.3 趨勢和研究問題
7.4 文獻(xiàn)討論
第8章 文本分類
8.1 介紹
8.2 文本分類的特性描述
8.2.1 機(jī)器學(xué)習(xí)
8.2.2 文本分類問題
8.2.3 文本分類算法
8.3 無監(jiān)督算法
8.3.1 聚類
8.3.2 樸素文本分類
8.4 監(jiān)督算法
8.4.1 決策樹
8.4.2 k近鄰分類器
8.4.3 Rocchio分類器
8.4.4 概率樸素貝葉斯文檔分類
8.4.5 支持向量機(jī)分類器
8.4.6 集成分類器
8.4.7 關(guān)于監(jiān)督算法的結(jié)束語
8.5 特征選擇或降維
8.5.1 項(xiàng)-類別出現(xiàn)列聯(lián)表
8.5.2 索引項(xiàng)文檔頻率
8.5.3 TF-IDF權(quán)重
8.5.4 互信息
8.5.5 信息增益
8.5.6 卡方檢驗(yàn)
8.5.7 特征選擇的作用
8.6 評價(jià)指標(biāo)
8.6.1 列聯(lián)表
8.6.2 準(zhǔn)確率和錯(cuò)誤率
8.6.3 精度和召回率
8.6.4 F測度和F
8.6.5 交叉檢驗(yàn)
8.6.6 標(biāo)準(zhǔn)文檔集
8.7 類別組織--構(gòu)建分類體系
8.8 趨勢和研究問題
8.9 文獻(xiàn)討論
第9章 索引和搜索
9.1 介紹
9.2 倒排索引
9.2.1 基本概念
9.2.2 完全倒排索引
9.2.3 搜索
9.2.4 排序
9.2.5 構(gòu)建
9.2.6 壓縮的倒排索引
9.2.7 結(jié)構(gòu)化查詢
9.3 簽名文件
9.4 后綴樹和后綴數(shù)組
9.4.1 結(jié)構(gòu):trie樹和后綴樹
9.4.2 簡單字符串搜索
9.4.3 復(fù)雜模式的搜索
9.4.4 構(gòu)建
9.4.5 壓縮的后綴數(shù)組
9.5 序列搜索
9.5.1 簡單字符串:Horspool
9.5.2 復(fù)雜模式:自動(dòng)機(jī)和位并行
9.5.3 更快的位并行算法
9.5.4 正則表達(dá)式
9.5.5 多重模式
9.5.6 近似搜索
9.5.7 搜索壓縮文本
9.6 多維索引
9.7 趨勢和研究問題
9.8 文獻(xiàn)討論
第10章 并行與分布式信息檢索
10.1 介紹
10.2 分布式信息檢索系統(tǒng)的分類
10.3 數(shù)據(jù)劃分
10.3.1 文檔集劃分
10.3.2 文檔集選擇
10.3.3 倒排索引劃分
10.3.4 劃分其他索引
10.4 并行信息檢索
10.4.1 介紹
10.4.2 在MIMD架構(gòu)上的并行信息檢索
10.4.3 在SIMD架構(gòu)上的并行信息檢索
10.5 基于集群的信息檢索
10.6 分布式信息檢索
10.6.1 介紹
10.6.2 索引
10.6.3 查詢處理
10.6.4 Web問題
10.7 聯(lián)合搜索
10.8 在對等網(wǎng)絡(luò)中的檢索
10.9 趨勢和研究問題
10.10 文獻(xiàn)討論
第11章 Web檢索
11.1 介紹
11.2 一個(gè)有挑戰(zhàn)性的問題
11.3 Web
11.3.1 特性
11.3.2 Web圖的結(jié)構(gòu)
11.3.3 對Web建模
11.3.4 鏈接分析
11.4 搜索引擎架構(gòu)
11.4.1 基本架構(gòu)
11.4.2 基于集群的架構(gòu)
11.4.3 緩存
11.4.4 多級(jí)索引
11.4.5 分布式架構(gòu)
11.5 搜索引擎排序
11.5.1 排序信號(hào)
11.5.2 基于鏈接的排序
11.5.3 簡單的排序函數(shù)
11.5.4 排序?qū)W習(xí)
11.5.5 學(xué)習(xí)排序函數(shù)
11.5.6 質(zhì)量評價(jià)
11.5.7 Web垃圾
11.6 管理Web數(shù)據(jù)
11.6.1 為文檔分配標(biāo)識(shí)符
11.6.2 元數(shù)據(jù)
11.6.3 壓縮Web圖
11.6.4 處理重復(fù)數(shù)據(jù)
11.7 搜索引擎用戶交互
11.7.1 搜索矩形范式
11.7.2 搜索引擎結(jié)果頁面
11.7.3 培養(yǎng)用戶
11.8 瀏覽
11.8.1 扁平瀏覽
11.8.2 結(jié)構(gòu)導(dǎo)向的瀏覽和Web目錄
11.9 瀏覽之外
11.9.1 超文本和Web
11.9.2 搜索與瀏覽相結(jié)合
11.9.3 Web查詢語言
11.9.4 動(dòng)態(tài)搜索
11.10 相關(guān)問題
11.10.1 計(jì)算廣告學(xué)
11.10.2 Web挖掘
11.10.3 元搜索
11.11 趨勢和研究問題
11.11.1 靜態(tài)文本數(shù)據(jù)之外
11.11.2 目前的挑戰(zhàn)
11.12 文獻(xiàn)討論
第12章 Web爬取
12.1 介紹
12.2 網(wǎng)絡(luò)爬蟲的應(yīng)用
12.2.1 通用Web搜索
12.2.2 聚焦爬取
12.2.3 Web刻畫
12.2.4 鏡像
12.2.5 網(wǎng)站分析
12.3 爬蟲的分類體系
12.4 架構(gòu)和實(shí)現(xiàn)
12.4.1 爬蟲架構(gòu)
12.4.2 實(shí)際問題
12.4.3 并行爬取
12.5 調(diào)度算法
12.5.1 選擇策略
12.5.2 重訪問策略
12.5.3 友好策略
12.5.4 組合策略
12.6 評價(jià)
12.6.1 評價(jià)網(wǎng)絡(luò)使用
12.6.2 評價(jià)長期調(diào)度
12.7 趨勢和研究問題
12.7.1 爬取“暗網(wǎng)”
12.7.2 在網(wǎng)站幫助下的爬取
12.7.3 分布式爬取
12.8 文獻(xiàn)討論
第13章 結(jié)構(gòu)化文本檢索
13.1 介紹
13.2 結(jié)構(gòu)化能力
13.2.1 顯式和隱式結(jié)構(gòu)對比
13.2.2 靜態(tài)與動(dòng)態(tài)結(jié)構(gòu)對比
13.2.3 單一層次結(jié)構(gòu)與多層次結(jié)構(gòu)對比
13.3 早期文本檢索模型
13.3.1 基于非覆蓋列表的模型
13.3.2 基于相鄰結(jié)點(diǎn)的模型
13.3.3 結(jié)構(gòu)化文本結(jié)果排序
13.4 XML檢索
13.4.1 XML檢索中的挑戰(zhàn)
13.4.2 索引策略
13.4.3 排序策略
13.4.4 去除重疊
13.5 XML檢索評價(jià)
13.5.1 文檔集
13.5.2 主題
13.5.3 檢索任務(wù)
13.5.4 相關(guān)性
13.5.5 測度
13.6 查詢語言
13.6.1 特性
13.6.2 XML查詢語言分類
13.6.3 XML查詢語言樣例
13.7 趨勢和研究問題
13.8 文獻(xiàn)討論
第14章 多媒體信息檢索
14.1 介紹
14.1.1 什么是多媒體
14.1.2 多媒體檢索
14.1.3 文本檢索與多媒體檢索的對比
14.2 挑戰(zhàn)
14.2.1 語義鴻溝
14.2.2 特征歧義性
14.2.3 機(jī)器生成的數(shù)據(jù)
14.3 基于內(nèi)容的圖像檢索
14.3.1 基于顏色的檢索
14.3.2 紋理
14.3.3 顯著點(diǎn)
14.4 聲音和音樂檢索
14.4.1 指紋識(shí)別
14.4.2 語音識(shí)別
14.4.3 說話人識(shí)別
14.4.4 語音文檔檢索
14.4.5 音頻基礎(chǔ)知識(shí)
14.5 檢索和瀏覽視頻
14.5.1 視頻摘要
14.5.2 靜態(tài)摘要
14.5.3 圖像拼接與跳躍劇照
14.5.4 動(dòng)態(tài)摘要
14.5.5 交互式摘要
14.5.6 視覺與聽覺瀏覽對比
14.5.7 摘要評價(jià)
14.6 融合模型:合并所有信息
14.6.1 人臉命名
14.6.2 圖像命名
14.6.3 音頻命名
14.6.4 結(jié)合音頻與視頻的音-視頻語音識(shí)別
14.6.5 結(jié)合音頻和視頻的多媒體處理
14.7 分割
14.7.1 視頻分割樣例
14.7.2 視頻分割方案
14.7.3 利用邊緣的視頻分割
14.7.4 語音分割
14.7.5 分割評價(jià)
14.8 壓縮和MPEG標(biāo)準(zhǔn)
14.8.1 強(qiáng)度和采樣
14.8.2 顏色
14.8.3 有損壓縮
14.8.4 無損壓縮
14.8.5 時(shí)間冗余
14.8.6 運(yùn)動(dòng)預(yù)測
14.8.7 MPEG標(biāo)準(zhǔn)
14.9 趨勢和研究問題
14.10 文獻(xiàn)討論
第15章 企業(yè)搜索
15.1 介紹
15.1.1 企業(yè)搜索的特點(diǎn)和應(yīng)用
15.1.2 企業(yè)搜索軟件
15.1.3 工作場所搜索
15.2 企業(yè)搜索任務(wù)
15.2.1 搜索支持任務(wù)的例子
15.2.2 搜索類型
15.2.3 研究企業(yè)搜索
15.3 企業(yè)搜索系統(tǒng)的結(jié)構(gòu)
15.3.1 收集
15.3.2 提取
15.3.3 索引
15.3.4 文本注釋的索引
15.3.5 查詢處理
15.3.6 搜索結(jié)果的展示
15.3.7 安全模型
15.3.8 聯(lián)合/元搜索
15.4 企業(yè)搜索評價(jià)
15.4.1 企業(yè)搜索的公開測試集
15.4.2 企業(yè)搜索內(nèi)部評價(jià)
15.4.3 企業(yè)搜索調(diào)試
15.4.4 所能期待的是什么
15.5 不滿意的可能原因
15.6 情境化和個(gè)性化
15.6.1 情境化的控制和工具
15.6.2 情境化:本地、企業(yè)或全球
15.6.3 輪廓的隱私
15.6.4 定義、建立和維護(hù)輪廓
15.6.5 用戶建模
15.6.6 隱式評價(jià)
15.6.7 信息過濾
15.6.8 社會(huì)化推薦系統(tǒng)
15.7 趨勢和研究問題
15.8 文獻(xiàn)討論
第16章 圖書館系統(tǒng)
16.1 圖書館的信息環(huán)境
16.2 聯(lián)機(jī)公共檢索目錄
16.2.1 OPAC和書目記錄
16.2.2 來自ILS的信息檢索
16.2.3 混合圖書館的整合
16.2.4 OPAC和最終用戶
16.2.5 ILS:供應(yīng)商和產(chǎn)品
16.3 信息檢索系統(tǒng)與文檔數(shù)據(jù)庫
16.3.1 書目和全文數(shù)據(jù)庫
16.3.2 數(shù)據(jù)庫記錄的內(nèi)容
16.3.3 聯(lián)機(jī)產(chǎn)業(yè):數(shù)據(jù)庫供應(yīng)商
16.3.4 來自文檔數(shù)據(jù)庫的信息檢索
16.4 組織機(jī)構(gòu)內(nèi)部的信息檢索
16.5 趨勢和研究問題
16.6 文獻(xiàn)討論
第17章 數(shù)字圖書館
17.1 介紹
17.2 定義數(shù)字圖書館
17.3 通用架構(gòu)
17.4 基本概念
17.4.1 數(shù)字對象和館藏
17.4.2 元數(shù)據(jù)和目錄
17.4.3 資源庫/檔案庫
17.4.4 服務(wù)
17.5 社會(huì)經(jīng)濟(jì)問題
17.5.1 社會(huì)問題
17.5.2 經(jīng)濟(jì)問題
17.6 軟件系統(tǒng)
17.6.1 Greenstone
17.6.2 Eprints
17.6.3 DSpace
17.6.4 Fedora
17.6.5 ODL
17.6.6 5S套件
17.7 數(shù)字圖書館案例研究
17.7.1 聯(lián)網(wǎng)學(xué)位論文數(shù)字圖書館
17.7.2 國家科學(xué)數(shù)字圖書館
17.7.3 ETANA-DL考古數(shù)字圖書館
17.8 趨勢和研究問題
17.8.1 評價(jià)
17.8.2 集成
17.8.3 其他研究挑戰(zhàn)
17.9 文獻(xiàn)討論
附錄A 開源搜索引擎
附錄B 作者簡介
參考文獻(xiàn)
索引

圖書封面

圖書標(biāo)簽Tags

評論、評分、閱讀與下載


    現(xiàn)代信息檢索 PDF格式下載


用戶評論 (總計(jì)3條)

 
 

  •   剛到手,閱讀之后加上心得
  •   對我來說好像有些難
  •   還沒讀完呢 等讀完了再說
 

250萬本中文圖書簡介、評論、評分,PDF格式免費(fèi)下載。 第一圖書網(wǎng) 手機(jī)版

京ICP備13047387號(hào)-7