網(wǎng)絡(luò)信息檢索

出版時(shí)間:2010-4  出版社:西安電子科技大學(xué)出版社  作者:董守斌,袁華 編著  頁(yè)數(shù):348  
Tag標(biāo)簽:無  

前言

隨著互聯(lián)網(wǎng)上的信息越來越豐富,人們一方面越來越相信所需要的信息能夠在網(wǎng)上找到,另一方面也常常要為花不少時(shí)間才能找到所需的信息而煩惱.于是,搜索引擎在我們工作和生活中扮演的角色越來越活躍,關(guān)心和研究如何從網(wǎng)絡(luò)上有效獲取信息的人也越來越多起來?!熬W(wǎng)絡(luò)信息檢索”一方面是億萬人每天都要進(jìn)行的實(shí)踐,另一方面也成為一個(gè)生機(jī)勃勃的研究領(lǐng)域。這從“全國(guó)搜索引擎與網(wǎng)絡(luò)信息挖掘?qū)W術(shù)研討會(huì)”近年投稿紅火的情況可見一斑。同時(shí),在教學(xué)方面,我國(guó)一些大學(xué)紛紛開設(shè)了相關(guān)的課程,多數(shù)在研究生層次。據(jù)我所知,華南理工大學(xué)是最早針對(duì)本科生開設(shè)這類課程的,本書作者即為其主講教師,本書是她們幾年來教學(xué)和科研實(shí)踐的結(jié)晶。讀者會(huì)發(fā)現(xiàn)這本書是有用的其有用性,在于相比起我國(guó)先前出版的幾本與網(wǎng)絡(luò)信息檢索相關(guān)題材的書籍而言,內(nèi)容是最豐富的.其內(nèi)容在時(shí)空上的跨度之大令人興奮,使得這本書不僅可以作為教材,還可以作為打算進(jìn)入這個(gè)領(lǐng)域的研發(fā)人員的入門參考。例如第一章 緒論,從網(wǎng)絡(luò)信息的特點(diǎn)、信息檢索的概念開始,對(duì)網(wǎng)絡(luò)信息檢索的基本含義進(jìn)行了一個(gè)概要介紹,同時(shí)也概覽了其發(fā)展的歷史,列舉了本領(lǐng)域知識(shí)與技術(shù)在多方面的應(yīng)用。從中讀者可以感受到網(wǎng)絡(luò)信息檢索既是由來已久,也是方興未艾的一個(gè)重要領(lǐng)域。讀者會(huì)發(fā)現(xiàn)這本書是有特色的,其最大的特色,就是和我國(guó)已經(jīng)出版的幾本類似的書相比,這本書定位在教材,而且很好地體現(xiàn)了這種定位。本書的作者在網(wǎng)絡(luò)信息檢索領(lǐng)域工作多年,對(duì)內(nèi)容的選取和篇章結(jié)構(gòu)的安排頗有講究。在介紹技術(shù)性內(nèi)容的章節(jié),除了后面有思考題、練習(xí)題之外,其中還包含有大量舉例,對(duì)于教材來說,這是很有意義的。同時(shí),我們還可以看到,作者不僅掌握了大量文獻(xiàn)資料,而且在具體寫作中融入了自己工作的體會(huì),從而使得本書具有較強(qiáng)的感染力。例如,將信息檢索的要義概括為“兩個(gè)表示,一個(gè)比較”,就很有教益,值得讀者仔細(xì)體會(huì)。

內(nèi)容概要

  《網(wǎng)絡(luò)信息檢索》詳細(xì)介紹了網(wǎng)絡(luò)信息檢索的原理和技術(shù),內(nèi)容包括信息檢索模型、網(wǎng)絡(luò)信息的自動(dòng)獲取、網(wǎng)絡(luò)信息預(yù)處理和索引、查詢語言和查詢優(yōu)化等。針對(duì)網(wǎng)絡(luò)信息檢索的廣泛應(yīng)用,書中對(duì)搜索引擎、中文和跨語言信息檢索、多媒體檢索、并行和分布式信息檢索、信息分類和聚類、信息提取與自動(dòng)問答等重要應(yīng)用的關(guān)鍵技術(shù)也進(jìn)行了深入的探討?!  毒W(wǎng)絡(luò)信息檢索》層次分明,深入淺出;既有原理闡述和理論推導(dǎo),也有大量的實(shí)例分析,闡述力求系統(tǒng)性和科學(xué)性?!毒W(wǎng)絡(luò)信息檢索》可作為高等院校計(jì)算機(jī)科學(xué)與技術(shù)、信息管理與信息系統(tǒng)、電子商務(wù)等專業(yè)的高年級(jí)本科生或研究生的教科書和參考書,對(duì)廣大從事網(wǎng)絡(luò)信息檢索、數(shù)字圖書館、信息管理、人工智能、Web數(shù)據(jù)挖掘等研究和應(yīng)用開發(fā)的科技人員也有較大的參考價(jià)值。

書籍目錄

第1章 緒論 1.1 網(wǎng)絡(luò)信息檢索概述 1.1.1 網(wǎng)絡(luò)信息 1.1.2 信息檢索 1.1.3 網(wǎng)絡(luò)信息檢索 1.2 信息檢索的發(fā)展 1.2.1 手工檢索 1.2.2 脫機(jī)批處理檢索 1.2.3 聯(lián)機(jī)檢索 1.2.4 網(wǎng)絡(luò)信息檢索 1.3 網(wǎng)絡(luò)信息檢索的應(yīng)用 1.3.1 搜索引擎 1.3.2 多媒體信息檢索 1.3.3 話題識(shí)別與跟蹤 1.3.4 信息過濾 1.3.5 問題回答 思考題 參考文獻(xiàn) 第2章 信息檢索模型 2.1 檢索模型定義 2.2 布爾模型 2.3 向量模型 2.3.1 索引項(xiàng)權(quán)重 2.3.2 相似度量 2.3.3 計(jì)算方法 2,4 概率模型 2.5 擴(kuò)展的布爾模型 2.5.1 模糊集合模型 2.5.2 擴(kuò)展布爾模型 2.6 擴(kuò)展的向量模型 2.6.1 廣義向量空間模型 2.6.2 潛語義標(biāo)引模型 2.6.3 神經(jīng)網(wǎng)絡(luò)模型 2.7 擴(kuò)展的概率模型 2.7.1 推理網(wǎng)絡(luò)模型 2.7.2 信任度網(wǎng)絡(luò)模型 2.7.3 語言模型 2.8 小結(jié) 思考題 習(xí)題 參考文獻(xiàn) 第3章 網(wǎng)絡(luò)信息的自動(dòng)搜集 3.1 網(wǎng)絡(luò)信息的特點(diǎn) 3.1.1 Web的組成 3.1.2 Web的特點(diǎn) 3.2 網(wǎng)絡(luò)信息搜集的原理 3.2.1 信息搜集的基本流程 3.2.2 遍歷策略 3.2.3 頁(yè)面解析 3.3 網(wǎng)絡(luò)信息搜集的禮貌原則 3.3.1 機(jī)器人排斥協(xié)議 3.3.2 機(jī)器人元標(biāo)簽 3.4 高性能信息搜集 3.4.1 并行搜集 3.4.2 DNS優(yōu)化 3.4.3 優(yōu)先搜集策略 3.4.4 網(wǎng)頁(yè)更新 3.4.5 網(wǎng)頁(yè)消重 3.4.6 避免蜘蛛陷阱 3.5 專題信息搜集 3.5.1 網(wǎng)頁(yè)的主題特性 3.5.2 專題信息搜集算法 3.6 小結(jié) 思考題 習(xí)題 參考文獻(xiàn) 第4章 網(wǎng)頁(yè)文本處理和索引 4.1 文本的特性 4.1.1 信息熵 4.1.2 統(tǒng)計(jì)定律 4.2 網(wǎng)頁(yè)信息的特征 4.2.1 網(wǎng)頁(yè)結(jié)構(gòu) 4.2.2 網(wǎng)頁(yè)類型 4.3 網(wǎng)頁(yè)去噪 4.3.1 基于網(wǎng)頁(yè)結(jié)構(gòu)的方法 4.3.2 基于模板的方法 4.4 文本處理 4.4.1 詞匯分析 4.4.2 排除停用詞 4.4.3 詞干提取 4.4.4 索引詞選擇 4.5 索引 4.5.1 Trie樹 4.5.2 后綴樹 4.5.3 簽名檔 4.5.4 倒排文件 4.6 小結(jié) 思考題 習(xí)題 參考文獻(xiàn) 第5章 查詢語言與查詢處理 5.1 Web查詢語言 5.1.1 WebSQL查詢語言 5.1.2 W3QL查詢語言 5.1.3 WebOQL查詢語言 5.2 查詢方式 5.2.1 基于關(guān)鍵字的查詢 5.2.2 模式匹配 5.3 相關(guān)反饋 5.3.1 向量空間模型中的相關(guān)反饋 5.3.2 概率模型中的相關(guān)反饋 5.4 查詢擴(kuò)展 5.4.1 基于字典的簡(jiǎn)單查詢擴(kuò)展 5.4.2 自動(dòng)局部分析 5,4.3 自動(dòng)全局分析 5.5 小結(jié) 思考題 習(xí)題 參考文獻(xiàn) 第6章 信息檢索性能評(píng)價(jià) 6.1 信息檢索評(píng)價(jià)指標(biāo) 6.1.1 查全率和查準(zhǔn)率 6.1.2 其他評(píng)價(jià)指標(biāo) 6.2 信息檢索評(píng)價(jià)基準(zhǔn) 6.2.1 基準(zhǔn)測(cè)試 6.2.2 TREC評(píng)測(cè) 6.2.3 Web檢索評(píng)價(jià) 6.2.4 CWIRF評(píng)測(cè) 6.3 小結(jié) 思考題 習(xí)題 參考文獻(xiàn) 第7章 搜索引擎 7.1 概述 7.1.1 發(fā)展概況 7.1,2 術(shù)語與定義 7.1.3 工作原理 7.2 鏈接分析 7.2.1 PageRank 7.2.2 HITS 7.2.3 算法比較 7.3 相關(guān)排序 7.3.1 Lucene檢索模型 7.3.2 Nutch排序算法 7.4 大規(guī)模搜索引擎 7.4.1 體系架構(gòu) 7.4.2 數(shù)據(jù)結(jié)構(gòu) 7.4.3 檢索算法 7.4.4 相關(guān)排序 7.5 小結(jié) 思考題 習(xí)題 參考文獻(xiàn) 第8章 并行和分布式信息檢索 8.1 并行信息檢索 8.1.1 并行計(jì)算的概念 8.1.2 并行信息檢索體系架構(gòu) 8.1.3 并行編程 8.1.4 數(shù)據(jù)并行 8.2 分布式信息檢索 8.3 元搜索引擎 8.3.1 系統(tǒng)架構(gòu) 8.3.2 資源選擇 8.3.3 文檔選擇 8.3.4 信息融合 8.4 P2P網(wǎng)絡(luò)信息檢索 8.4.1 P2P網(wǎng)絡(luò)信息檢索的原理 8.4.2 非結(jié)構(gòu)化P2P網(wǎng)絡(luò)信息檢索 8.4.3 結(jié)構(gòu)化P2P網(wǎng)絡(luò)信息檢索 8.5 小結(jié) 思考題 習(xí)題 參考文獻(xiàn) 第9章 中文和跨語言信息檢索 9.1 中文預(yù)處理 9.1.1 中文編碼及轉(zhuǎn)換 9.1.2 中文分詞 9.2 中文信息檢索 9.2.1 中文檢索模型 9.2.2 中文索引 9.3 跨語言信息檢索 9.3.1 基本原理 9.3.2 基于GVSM的跨語言檢索 9.3.3 基于LSI的跨語言檢索 9,4 小結(jié) 思考題 習(xí)題 參考文獻(xiàn) 第10章 多媒體信息檢索 10.1 基于內(nèi)容的圖像信息檢索 10.2 圖像特征提取 10.2.1 顏色特征 10.2.2 形狀特征提取 10.2.3 紋理特征提取 10.3 圖像相似量度 10.4 基于內(nèi)容的視頻信息檢索 10.4.1 鏡頭分割 10.4.2 關(guān)鍵幀提取 10.5 基于內(nèi)容的音頻信息檢索 10.6 小結(jié) 思考題 習(xí)題 參考文獻(xiàn) 第11章 信息分類與聚類 11.1 基本知識(shí) 11.1.1 類的概念 11.1.2 對(duì)象特征描述 11.1.3 文檔相似性 11.1.4 類間距離 11.2 特征描述及提取 11.2.1 特征提取 11.2.2 特征選擇 11.3 聚類方法 11.3.1 劃分聚類法 11.3.2 層次聚類法 11.3.3 其他聚類方法 11.4 分類方法 11.4.1 NaiveBayes算法 11.4.2 kNN算法 11.4.3 Rocchio算法 11.4.4 SVM算法 11.5 方法評(píng)測(cè) 11.5.1 聚類方法評(píng)測(cè) 11.5.2 分類方法評(píng)測(cè) 11.5.3 顯著性檢驗(yàn) 11.6 小結(jié) 思考題 習(xí)題 參考文獻(xiàn) 第12章 Web信息抽取與問答系統(tǒng) 12.1 信息抽取概述 12.1.1 信息抽取的發(fā)展 12.1.2 信息抽取的評(píng)價(jià)指標(biāo) 12.2 Web信息抽取 12.2.1 基于關(guān)鍵字的Web信息抽取 12.2.2 基于模式的Web信息抽取 12.2.3 基于樣本的Web信息抽取 12.3 問答系統(tǒng) 12.3.1 問題分析 12.3.2 信息檢索 12.3.3 答案抽取 12.6 小結(jié) 思考題 參考文獻(xiàn)

章節(jié)摘錄

插圖:網(wǎng)絡(luò)信息是指通過互聯(lián)網(wǎng)可以利用的各種信息資源的總和。隨著互聯(lián)網(wǎng)的迅速發(fā)展,網(wǎng)絡(luò)信息作為一種新型的信息資源,發(fā)揮著越來越重要的作用。與傳統(tǒng)的非網(wǎng)絡(luò)信息資源相比,網(wǎng)絡(luò)環(huán)境下的信息資源具有以下幾個(gè)方面的特點(diǎn):(1)網(wǎng)絡(luò)信息內(nèi)容豐富?;ヂ?lián)網(wǎng)已經(jīng)成為全球最大的信息資源基地,同時(shí)其信息資源的增長(zhǎng)十分迅速。在互聯(lián)網(wǎng)上幾乎可以獲得任何領(lǐng)域的信息,其內(nèi)容涉及政治、經(jīng)濟(jì)、文化、科學(xué)和娛樂等各個(gè)方面,涵蓋社會(huì)科學(xué)、自然科學(xué)、人文科學(xué)和工程技術(shù)等各個(gè)領(lǐng)域。(2)網(wǎng)絡(luò)信息變化頻繁。在互聯(lián)網(wǎng)上,信息地址、信息鏈接和信息內(nèi)容經(jīng)常處于變動(dòng)之中,信息資源的更換和消亡更是無法預(yù)測(cè)。因而,網(wǎng)絡(luò)信息時(shí)時(shí)刻刻處在變化和發(fā)展之中。(3)網(wǎng)絡(luò)信息結(jié)構(gòu)復(fù)雜.互聯(lián)網(wǎng)對(duì)網(wǎng)絡(luò)信息資源本身的組織管理尚未形成完全統(tǒng)一的標(biāo)準(zhǔn)和規(guī)范,網(wǎng)絡(luò)信息呈全球化分布結(jié)構(gòu),信息資源物理地存儲(chǔ)在世界不同地區(qū)各種不同類型的服務(wù)器上。因此,在信息的組織和檢索方面比較復(fù)雜。(4)網(wǎng)絡(luò)信息格式多樣。網(wǎng)絡(luò)信息的媒體形式多種多樣,包括文本、圖形、圖像、聲音和視頻等,各種類型的媒體信息都有多種不同的信息描述格式,例如文字信息的格式有HTML、TXT、PDF、DOC等格式;圖像信息的格式有BMP、GIF、JPG等格式,因此網(wǎng)絡(luò)信息格式呈現(xiàn)多樣化。(5)網(wǎng)絡(luò)信息價(jià)值差異。由于網(wǎng)絡(luò)信息的發(fā)布具有很大的自由度和隨意性,且缺乏必要的質(zhì)量控制和管理機(jī)制,因而,網(wǎng)絡(luò)信息資源的價(jià)值差異較大,既有較大參考價(jià)值的有用信息,也有毫無用處的垃圾信息,甚至還有不少有害的信息,可謂良莠不齊。因此,如何評(píng)價(jià)、選擇和過濾信息成為網(wǎng)絡(luò)信息組織和檢索的重要任務(wù)。

編輯推薦

《網(wǎng)絡(luò)信息檢索》:新世紀(jì)計(jì)算機(jī)類本科規(guī)劃教材

圖書封面

圖書標(biāo)簽Tags

評(píng)論、評(píng)分、閱讀與下載


    網(wǎng)絡(luò)信息檢索 PDF格式下載


用戶評(píng)論 (總計(jì)2條)

 
 

  •   封面有些折痕,不過無缺漏,淺顯易懂吧,不是很深入,能有所了解吧
  •   一般般,看來送到的時(shí)候退才可以了
 

250萬本中文圖書簡(jiǎn)介、評(píng)論、評(píng)分,PDF格式免費(fèi)下載。 第一圖書網(wǎng) 手機(jī)版

京ICP備13047387號(hào)-7