網(wǎng)絡信息檢索

出版時間:2010-4  出版社:西安電子科技大學出版社  作者:董守斌,袁華 編著  頁數(shù):348  
Tag標簽:無  

前言

隨著互聯(lián)網(wǎng)上的信息越來越豐富,人們一方面越來越相信所需要的信息能夠在網(wǎng)上找到,另一方面也常常要為花不少時間才能找到所需的信息而煩惱.于是,搜索引擎在我們工作和生活中扮演的角色越來越活躍,關(guān)心和研究如何從網(wǎng)絡上有效獲取信息的人也越來越多起來。“網(wǎng)絡信息檢索”一方面是億萬人每天都要進行的實踐,另一方面也成為一個生機勃勃的研究領(lǐng)域。這從“全國搜索引擎與網(wǎng)絡信息挖掘?qū)W術(shù)研討會”近年投稿紅火的情況可見一斑。同時,在教學方面,我國一些大學紛紛開設了相關(guān)的課程,多數(shù)在研究生層次。據(jù)我所知,華南理工大學是最早針對本科生開設這類課程的,本書作者即為其主講教師,本書是她們幾年來教學和科研實踐的結(jié)晶。讀者會發(fā)現(xiàn)這本書是有用的其有用性,在于相比起我國先前出版的幾本與網(wǎng)絡信息檢索相關(guān)題材的書籍而言,內(nèi)容是最豐富的.其內(nèi)容在時空上的跨度之大令人興奮,使得這本書不僅可以作為教材,還可以作為打算進入這個領(lǐng)域的研發(fā)人員的入門參考。例如第一章 緒論,從網(wǎng)絡信息的特點、信息檢索的概念開始,對網(wǎng)絡信息檢索的基本含義進行了一個概要介紹,同時也概覽了其發(fā)展的歷史,列舉了本領(lǐng)域知識與技術(shù)在多方面的應用。從中讀者可以感受到網(wǎng)絡信息檢索既是由來已久,也是方興未艾的一個重要領(lǐng)域。讀者會發(fā)現(xiàn)這本書是有特色的,其最大的特色,就是和我國已經(jīng)出版的幾本類似的書相比,這本書定位在教材,而且很好地體現(xiàn)了這種定位。本書的作者在網(wǎng)絡信息檢索領(lǐng)域工作多年,對內(nèi)容的選取和篇章結(jié)構(gòu)的安排頗有講究。在介紹技術(shù)性內(nèi)容的章節(jié),除了后面有思考題、練習題之外,其中還包含有大量舉例,對于教材來說,這是很有意義的。同時,我們還可以看到,作者不僅掌握了大量文獻資料,而且在具體寫作中融入了自己工作的體會,從而使得本書具有較強的感染力。例如,將信息檢索的要義概括為“兩個表示,一個比較”,就很有教益,值得讀者仔細體會。

內(nèi)容概要

  《網(wǎng)絡信息檢索》詳細介紹了網(wǎng)絡信息檢索的原理和技術(shù),內(nèi)容包括信息檢索模型、網(wǎng)絡信息的自動獲取、網(wǎng)絡信息預處理和索引、查詢語言和查詢優(yōu)化等。針對網(wǎng)絡信息檢索的廣泛應用,書中對搜索引擎、中文和跨語言信息檢索、多媒體檢索、并行和分布式信息檢索、信息分類和聚類、信息提取與自動問答等重要應用的關(guān)鍵技術(shù)也進行了深入的探討。  《網(wǎng)絡信息檢索》層次分明,深入淺出;既有原理闡述和理論推導,也有大量的實例分析,闡述力求系統(tǒng)性和科學性?!毒W(wǎng)絡信息檢索》可作為高等院校計算機科學與技術(shù)、信息管理與信息系統(tǒng)、電子商務等專業(yè)的高年級本科生或研究生的教科書和參考書,對廣大從事網(wǎng)絡信息檢索、數(shù)字圖書館、信息管理、人工智能、Web數(shù)據(jù)挖掘等研究和應用開發(fā)的科技人員也有較大的參考價值。

書籍目錄

第1章 緒論 1.1 網(wǎng)絡信息檢索概述 1.1.1 網(wǎng)絡信息 1.1.2 信息檢索 1.1.3 網(wǎng)絡信息檢索 1.2 信息檢索的發(fā)展 1.2.1 手工檢索 1.2.2 脫機批處理檢索 1.2.3 聯(lián)機檢索 1.2.4 網(wǎng)絡信息檢索 1.3 網(wǎng)絡信息檢索的應用 1.3.1 搜索引擎 1.3.2 多媒體信息檢索 1.3.3 話題識別與跟蹤 1.3.4 信息過濾 1.3.5 問題回答 思考題 參考文獻 第2章 信息檢索模型 2.1 檢索模型定義 2.2 布爾模型 2.3 向量模型 2.3.1 索引項權(quán)重 2.3.2 相似度量 2.3.3 計算方法 2,4 概率模型 2.5 擴展的布爾模型 2.5.1 模糊集合模型 2.5.2 擴展布爾模型 2.6 擴展的向量模型 2.6.1 廣義向量空間模型 2.6.2 潛語義標引模型 2.6.3 神經(jīng)網(wǎng)絡模型 2.7 擴展的概率模型 2.7.1 推理網(wǎng)絡模型 2.7.2 信任度網(wǎng)絡模型 2.7.3 語言模型 2.8 小結(jié) 思考題 習題 參考文獻 第3章 網(wǎng)絡信息的自動搜集 3.1 網(wǎng)絡信息的特點 3.1.1 Web的組成 3.1.2 Web的特點 3.2 網(wǎng)絡信息搜集的原理 3.2.1 信息搜集的基本流程 3.2.2 遍歷策略 3.2.3 頁面解析 3.3 網(wǎng)絡信息搜集的禮貌原則 3.3.1 機器人排斥協(xié)議 3.3.2 機器人元標簽 3.4 高性能信息搜集 3.4.1 并行搜集 3.4.2 DNS優(yōu)化 3.4.3 優(yōu)先搜集策略 3.4.4 網(wǎng)頁更新 3.4.5 網(wǎng)頁消重 3.4.6 避免蜘蛛陷阱 3.5 專題信息搜集 3.5.1 網(wǎng)頁的主題特性 3.5.2 專題信息搜集算法 3.6 小結(jié) 思考題 習題 參考文獻 第4章 網(wǎng)頁文本處理和索引 4.1 文本的特性 4.1.1 信息熵 4.1.2 統(tǒng)計定律 4.2 網(wǎng)頁信息的特征 4.2.1 網(wǎng)頁結(jié)構(gòu) 4.2.2 網(wǎng)頁類型 4.3 網(wǎng)頁去噪 4.3.1 基于網(wǎng)頁結(jié)構(gòu)的方法 4.3.2 基于模板的方法 4.4 文本處理 4.4.1 詞匯分析 4.4.2 排除停用詞 4.4.3 詞干提取 4.4.4 索引詞選擇 4.5 索引 4.5.1 Trie樹 4.5.2 后綴樹 4.5.3 簽名檔 4.5.4 倒排文件 4.6 小結(jié) 思考題 習題 參考文獻 第5章 查詢語言與查詢處理 5.1 Web查詢語言 5.1.1 WebSQL查詢語言 5.1.2 W3QL查詢語言 5.1.3 WebOQL查詢語言 5.2 查詢方式 5.2.1 基于關(guān)鍵字的查詢 5.2.2 模式匹配 5.3 相關(guān)反饋 5.3.1 向量空間模型中的相關(guān)反饋 5.3.2 概率模型中的相關(guān)反饋 5.4 查詢擴展 5.4.1 基于字典的簡單查詢擴展 5.4.2 自動局部分析 5,4.3 自動全局分析 5.5 小結(jié) 思考題 習題 參考文獻 第6章 信息檢索性能評價 6.1 信息檢索評價指標 6.1.1 查全率和查準率 6.1.2 其他評價指標 6.2 信息檢索評價基準 6.2.1 基準測試 6.2.2 TREC評測 6.2.3 Web檢索評價 6.2.4 CWIRF評測 6.3 小結(jié) 思考題 習題 參考文獻 第7章 搜索引擎 7.1 概述 7.1.1 發(fā)展概況 7.1,2 術(shù)語與定義 7.1.3 工作原理 7.2 鏈接分析 7.2.1 PageRank 7.2.2 HITS 7.2.3 算法比較 7.3 相關(guān)排序 7.3.1 Lucene檢索模型 7.3.2 Nutch排序算法 7.4 大規(guī)模搜索引擎 7.4.1 體系架構(gòu) 7.4.2 數(shù)據(jù)結(jié)構(gòu) 7.4.3 檢索算法 7.4.4 相關(guān)排序 7.5 小結(jié) 思考題 習題 參考文獻 第8章 并行和分布式信息檢索 8.1 并行信息檢索 8.1.1 并行計算的概念 8.1.2 并行信息檢索體系架構(gòu) 8.1.3 并行編程 8.1.4 數(shù)據(jù)并行 8.2 分布式信息檢索 8.3 元搜索引擎 8.3.1 系統(tǒng)架構(gòu) 8.3.2 資源選擇 8.3.3 文檔選擇 8.3.4 信息融合 8.4 P2P網(wǎng)絡信息檢索 8.4.1 P2P網(wǎng)絡信息檢索的原理 8.4.2 非結(jié)構(gòu)化P2P網(wǎng)絡信息檢索 8.4.3 結(jié)構(gòu)化P2P網(wǎng)絡信息檢索 8.5 小結(jié) 思考題 習題 參考文獻 第9章 中文和跨語言信息檢索 9.1 中文預處理 9.1.1 中文編碼及轉(zhuǎn)換 9.1.2 中文分詞 9.2 中文信息檢索 9.2.1 中文檢索模型 9.2.2 中文索引 9.3 跨語言信息檢索 9.3.1 基本原理 9.3.2 基于GVSM的跨語言檢索 9.3.3 基于LSI的跨語言檢索 9,4 小結(jié) 思考題 習題 參考文獻 第10章 多媒體信息檢索 10.1 基于內(nèi)容的圖像信息檢索 10.2 圖像特征提取 10.2.1 顏色特征 10.2.2 形狀特征提取 10.2.3 紋理特征提取 10.3 圖像相似量度 10.4 基于內(nèi)容的視頻信息檢索 10.4.1 鏡頭分割 10.4.2 關(guān)鍵幀提取 10.5 基于內(nèi)容的音頻信息檢索 10.6 小結(jié) 思考題 習題 參考文獻 第11章 信息分類與聚類 11.1 基本知識 11.1.1 類的概念 11.1.2 對象特征描述 11.1.3 文檔相似性 11.1.4 類間距離 11.2 特征描述及提取 11.2.1 特征提取 11.2.2 特征選擇 11.3 聚類方法 11.3.1 劃分聚類法 11.3.2 層次聚類法 11.3.3 其他聚類方法 11.4 分類方法 11.4.1 NaiveBayes算法 11.4.2 kNN算法 11.4.3 Rocchio算法 11.4.4 SVM算法 11.5 方法評測 11.5.1 聚類方法評測 11.5.2 分類方法評測 11.5.3 顯著性檢驗 11.6 小結(jié) 思考題 習題 參考文獻 第12章 Web信息抽取與問答系統(tǒng) 12.1 信息抽取概述 12.1.1 信息抽取的發(fā)展 12.1.2 信息抽取的評價指標 12.2 Web信息抽取 12.2.1 基于關(guān)鍵字的Web信息抽取 12.2.2 基于模式的Web信息抽取 12.2.3 基于樣本的Web信息抽取 12.3 問答系統(tǒng) 12.3.1 問題分析 12.3.2 信息檢索 12.3.3 答案抽取 12.6 小結(jié) 思考題 參考文獻

章節(jié)摘錄

插圖:網(wǎng)絡信息是指通過互聯(lián)網(wǎng)可以利用的各種信息資源的總和。隨著互聯(lián)網(wǎng)的迅速發(fā)展,網(wǎng)絡信息作為一種新型的信息資源,發(fā)揮著越來越重要的作用。與傳統(tǒng)的非網(wǎng)絡信息資源相比,網(wǎng)絡環(huán)境下的信息資源具有以下幾個方面的特點:(1)網(wǎng)絡信息內(nèi)容豐富。互聯(lián)網(wǎng)已經(jīng)成為全球最大的信息資源基地,同時其信息資源的增長十分迅速。在互聯(lián)網(wǎng)上幾乎可以獲得任何領(lǐng)域的信息,其內(nèi)容涉及政治、經(jīng)濟、文化、科學和娛樂等各個方面,涵蓋社會科學、自然科學、人文科學和工程技術(shù)等各個領(lǐng)域。(2)網(wǎng)絡信息變化頻繁。在互聯(lián)網(wǎng)上,信息地址、信息鏈接和信息內(nèi)容經(jīng)常處于變動之中,信息資源的更換和消亡更是無法預測。因而,網(wǎng)絡信息時時刻刻處在變化和發(fā)展之中。(3)網(wǎng)絡信息結(jié)構(gòu)復雜.互聯(lián)網(wǎng)對網(wǎng)絡信息資源本身的組織管理尚未形成完全統(tǒng)一的標準和規(guī)范,網(wǎng)絡信息呈全球化分布結(jié)構(gòu),信息資源物理地存儲在世界不同地區(qū)各種不同類型的服務器上。因此,在信息的組織和檢索方面比較復雜。(4)網(wǎng)絡信息格式多樣。網(wǎng)絡信息的媒體形式多種多樣,包括文本、圖形、圖像、聲音和視頻等,各種類型的媒體信息都有多種不同的信息描述格式,例如文字信息的格式有HTML、TXT、PDF、DOC等格式;圖像信息的格式有BMP、GIF、JPG等格式,因此網(wǎng)絡信息格式呈現(xiàn)多樣化。(5)網(wǎng)絡信息價值差異。由于網(wǎng)絡信息的發(fā)布具有很大的自由度和隨意性,且缺乏必要的質(zhì)量控制和管理機制,因而,網(wǎng)絡信息資源的價值差異較大,既有較大參考價值的有用信息,也有毫無用處的垃圾信息,甚至還有不少有害的信息,可謂良莠不齊。因此,如何評價、選擇和過濾信息成為網(wǎng)絡信息組織和檢索的重要任務。

編輯推薦

《網(wǎng)絡信息檢索》:新世紀計算機類本科規(guī)劃教材

圖書封面

圖書標簽Tags

評論、評分、閱讀與下載


    網(wǎng)絡信息檢索 PDF格式下載


用戶評論 (總計2條)

 
 

  •   封面有些折痕,不過無缺漏,淺顯易懂吧,不是很深入,能有所了解吧
  •   一般般,看來送到的時候退才可以了
 

250萬本中文圖書簡介、評論、評分,PDF格式免費下載。 第一圖書網(wǎng) 手機版

京ICP備13047387號-7