語義桌面搜索技術

出版時間:2011-9  出版社:武漢理工大學出版社  作者:李勝  頁數:166  

內容概要

  要對桌面文檔進行搜索,需要某種信息檢索模型來支持,而信息檢索模型一直都是信息檢索領域的重要研究課題。在對傳統(tǒng)向量空問模型研究的基礎上,《語義桌面搜索技術》設計了一種基于本體的語義信息檢索模型,其工作重點包括:語義項權重的設計,各關鍵字之問的語義關系分析,以及語義特征向量之間的相似度計算策略等。在模型中,通過概念連通剛對不同語義項之間的關系進行了重新考量,并將語義相似度的計算分為概念相似度和屬性相似度兩個方面,綜合考慮了二者在語義檢索中的作用,改善了檢索效果?! z索結果進行排序是文檔檢索的一個重要步驟。書中在對現有的web排序算法和模式圖理論進行研究后,提出一種基于權威傳遞的檢索結果排序方法。該方法利用本體描述文檔之間權威傳遞的模式,通過設定不同的傳遞系數,反映出文檔之問的不同連接線索對文檔聯系緊密程度的影響。實驗結果表明,該方法可將重要程度高的結果優(yōu)先返回,并有效地體現出文檔對象之間的關聯關系。

書籍目錄

1 緒論
 1.1 語義桌面研究的背景和意義
 1.2 桌面搜索的需求
 1.3 本文研究的內容
 1.4 文章的組織結構
2 語義網技術
 2.1 語義網
 2.2 基于語義網的檢索技術
 2.3 語義搜索模型
 2.4 研究方法總結
3 語義桌面
 3.1 語義桌面的產生和發(fā)展
 3.2 語義桌面的體系結構及其組成部分
 3.3 語義桌面的研究現狀
 3.4 語義桌面搜索
 3.5 當前語義桌面搜索中面臨的問題
 3.6 小結
4 基于用戶行為的桌面元數據提取
 4.1 桌面元數據
 4.2 基于用戶行為的元數據提取
 4.3 桌面文檔本體的創(chuàng)建
 4.4 動態(tài)上下文檢測方法
 4.5 元數據生成器原型系統(tǒng)實現
 4.6 小結
5 桌面無結構文檔的實體提取
 5.1 信息提取概述
 5.2 無結構文檔的實體提取
 5.3 基于本體的無結構文檔實體識別方法
 5.4 基于PLSA的無結構文檔關系識別方法
 5.5 小結
6 桌面文檔檢索模型
 6.1 向量空間模型概述
 6.2 語義向量空間模型的新特點
 6.3 創(chuàng)建本體
 6.4 語義向量的相似度計算
 6.5 實驗分析
 6.6 小結
7 文檔的語義排序方法
 7.1 語義排序
 7.2 基于權威傳遞的排序方法
 7.3 算法的時間效率分析
 7.4 實驗及效率評估
 7.5 小結
8 總結與展望
 8.1 總結
 8.2 今后的展望
參考文獻

章節(jié)摘錄

版權頁:   插圖:   Web瀏覽器緩存中蘊涵了大量的用戶瀏覽行為信息,這些信息不但對查找相關的結果很有幫助,而且能夠為搜索結果提供更多的擴展上下文信息。例如,我們在桌面上搜索到某篇論文的文檔,該文檔是通過網頁下載得到的。通過Web緩存上下文元數據,就可以得到這篇論文的參考文獻信息,以及與該論文議題相關的其他論文的URL信息。 通過研究我們發(fā)現,人們習慣于將事物關聯到某個特定的上下文中,所有這些上下文信息在搜索時都有可能被利用到。然而到目前為止,桌面搜索工具既沒有將這些信息與文檔關聯起來,也沒有在搜索中使用到它們。 4.1.2桌面元數據的作用 在現有的語義桌面研究項目中,元數據起著非常關鍵的作用。綜合來看,至少可以分為以下三個方面: 1.利用元數據擴展搜索結果 這個方面的代表就是TAP,TAP是一項著名的語義搜索工程。建立TAP的目的有兩點:一是把來自不同Web服務上的數據整合成一個統(tǒng)一的全局數據庫,于是就建立了TAP知識庫;二是為知識庫提供接口便于數據的訪問,如GetData等。TAP Knowledge Base是一個淺顯的但內容廣泛的知識庫,涉及的領域很多,包括人物、組織、地理和產品等。它是R.Guha等人開發(fā)的語義搜索系統(tǒng)ABS的一個重要的知識來源。該知識庫以RDF作為描述資源及其內部關系的數據模型。GetData是一個簡單的查詢接口。每個GetData查詢都是聲明與該URL相連的SOAP消息。此消息包括兩個參數:被訪問屬性的資源和被訪問的屬性。GetData查詢返回的結果是語義網上知識庫內部包含資源的圖,還有所查詢資源和各來源之間的關系。用抽象語法表示如下: GetDate(,)→(value) TAP建立在TAPache模塊之上,它提供一個平臺來發(fā)布和使用語義網上的數據。TAP的一個輔助系統(tǒng)onTAP對知識庫提供更新服務,包括207個HTML頁面模板,可以從38個高質量網站中讀取和提取數據。TAP的核心思想是:對于特殊搜索而言,一些信息對于編制目錄和后端數據庫十分有用,但是他們卻無法被Google網絡爬蟲那樣的工具訪問到?;谡Z義搜索的結果將擴展通過傳統(tǒng)技術得到的檢索結果,同時這些語義搜索結果又是獨立存在的。主題分類是網頁非常重要的特征,當用戶要搜索某個著名實體的時候(例如城市、國家),可以利用Web中的許多信息,其中就包括頁面的主題分類。這些信息在后端數據庫中是十分有用的,而這些數據集合可以與實體的ID聯系起來。

編輯推薦

《語義桌面搜索技術》在傳統(tǒng)信息提取技術的基礎上,給出了一種基于本體的無結構文檔信息提取方案。書中在對現有的Web排序算法和模式圖理論進行研究后,提出一種基于權威傳遞的檢索結果排序方法。

圖書封面

評論、評分、閱讀與下載


    語義桌面搜索技術 PDF格式下載


用戶評論 (總計1條)

 
 

  •   內容還可以,比較深奧,但是里面的插圖有些模糊看不清楚~
 

250萬本中文圖書簡介、評論、評分,PDF格式免費下載。 第一圖書網 手機版

京ICP備13047387號-7