出版時(shí)間:2011-9 出版社:武漢理工大學(xué)出版社 作者:李勝 頁(yè)數(shù):166
內(nèi)容概要
要對(duì)桌面文檔進(jìn)行搜索,需要某種信息檢索模型來(lái)支持,而信息檢索模型一直都是信息檢索領(lǐng)域的重要研究課題。在對(duì)傳統(tǒng)向量空問(wèn)模型研究的基礎(chǔ)上,《語(yǔ)義桌面搜索技術(shù)》設(shè)計(jì)了一種基于本體的語(yǔ)義信息檢索模型,其工作重點(diǎn)包括:語(yǔ)義項(xiàng)權(quán)重的設(shè)計(jì),各關(guān)鍵字之問(wèn)的語(yǔ)義關(guān)系分析,以及語(yǔ)義特征向量之間的相似度計(jì)算策略等。在模型中,通過(guò)概念連通剛對(duì)不同語(yǔ)義項(xiàng)之間的關(guān)系進(jìn)行了重新考量,并將語(yǔ)義相似度的計(jì)算分為概念相似度和屬性相似度兩個(gè)方面,綜合考慮了二者在語(yǔ)義檢索中的作用,改善了檢索效果。 對(duì)檢索結(jié)果進(jìn)行排序是文檔檢索的一個(gè)重要步驟。書(shū)中在對(duì)現(xiàn)有的web排序算法和模式圖理論進(jìn)行研究后,提出一種基于權(quán)威傳遞的檢索結(jié)果排序方法。該方法利用本體描述文檔之間權(quán)威傳遞的模式,通過(guò)設(shè)定不同的傳遞系數(shù),反映出文檔之問(wèn)的不同連接線索對(duì)文檔聯(lián)系緊密程度的影響。實(shí)驗(yàn)結(jié)果表明,該方法可將重要程度高的結(jié)果優(yōu)先返回,并有效地體現(xiàn)出文檔對(duì)象之間的關(guān)聯(lián)關(guān)系。
書(shū)籍目錄
1 緒論
1.1 語(yǔ)義桌面研究的背景和意義
1.2 桌面搜索的需求
1.3 本文研究的內(nèi)容
1.4 文章的組織結(jié)構(gòu)
2 語(yǔ)義網(wǎng)技術(shù)
2.1 語(yǔ)義網(wǎng)
2.2 基于語(yǔ)義網(wǎng)的檢索技術(shù)
2.3 語(yǔ)義搜索模型
2.4 研究方法總結(jié)
3 語(yǔ)義桌面
3.1 語(yǔ)義桌面的產(chǎn)生和發(fā)展
3.2 語(yǔ)義桌面的體系結(jié)構(gòu)及其組成部分
3.3 語(yǔ)義桌面的研究現(xiàn)狀
3.4 語(yǔ)義桌面搜索
3.5 當(dāng)前語(yǔ)義桌面搜索中面臨的問(wèn)題
3.6 小結(jié)
4 基于用戶行為的桌面元數(shù)據(jù)提取
4.1 桌面元數(shù)據(jù)
4.2 基于用戶行為的元數(shù)據(jù)提取
4.3 桌面文檔本體的創(chuàng)建
4.4 動(dòng)態(tài)上下文檢測(cè)方法
4.5 元數(shù)據(jù)生成器原型系統(tǒng)實(shí)現(xiàn)
4.6 小結(jié)
5 桌面無(wú)結(jié)構(gòu)文檔的實(shí)體提取
5.1 信息提取概述
5.2 無(wú)結(jié)構(gòu)文檔的實(shí)體提取
5.3 基于本體的無(wú)結(jié)構(gòu)文檔實(shí)體識(shí)別方法
5.4 基于PLSA的無(wú)結(jié)構(gòu)文檔關(guān)系識(shí)別方法
5.5 小結(jié)
6 桌面文檔檢索模型
6.1 向量空間模型概述
6.2 語(yǔ)義向量空間模型的新特點(diǎn)
6.3 創(chuàng)建本體
6.4 語(yǔ)義向量的相似度計(jì)算
6.5 實(shí)驗(yàn)分析
6.6 小結(jié)
7 文檔的語(yǔ)義排序方法
7.1 語(yǔ)義排序
7.2 基于權(quán)威傳遞的排序方法
7.3 算法的時(shí)間效率分析
7.4 實(shí)驗(yàn)及效率評(píng)估
7.5 小結(jié)
8 總結(jié)與展望
8.1 總結(jié)
8.2 今后的展望
參考文獻(xiàn)
章節(jié)摘錄
版權(quán)頁(yè): 插圖: Web瀏覽器緩存中蘊(yùn)涵了大量的用戶瀏覽行為信息,這些信息不但對(duì)查找相關(guān)的結(jié)果很有幫助,而且能夠?yàn)樗阉鹘Y(jié)果提供更多的擴(kuò)展上下文信息。例如,我們?cè)谧烂嫔纤阉鞯侥称撐牡奈臋n,該文檔是通過(guò)網(wǎng)頁(yè)下載得到的。通過(guò)Web緩存上下文元數(shù)據(jù),就可以得到這篇論文的參考文獻(xiàn)信息,以及與該論文議題相關(guān)的其他論文的URL信息。 通過(guò)研究我們發(fā)現(xiàn),人們習(xí)慣于將事物關(guān)聯(lián)到某個(gè)特定的上下文中,所有這些上下文信息在搜索時(shí)都有可能被利用到。然而到目前為止,桌面搜索工具既沒(méi)有將這些信息與文檔關(guān)聯(lián)起來(lái),也沒(méi)有在搜索中使用到它們。 4.1.2桌面元數(shù)據(jù)的作用 在現(xiàn)有的語(yǔ)義桌面研究項(xiàng)目中,元數(shù)據(jù)起著非常關(guān)鍵的作用。綜合來(lái)看,至少可以分為以下三個(gè)方面: 1.利用元數(shù)據(jù)擴(kuò)展搜索結(jié)果 這個(gè)方面的代表就是TAP,TAP是一項(xiàng)著名的語(yǔ)義搜索工程。建立TAP的目的有兩點(diǎn):一是把來(lái)自不同Web服務(wù)上的數(shù)據(jù)整合成一個(gè)統(tǒng)一的全局?jǐn)?shù)據(jù)庫(kù),于是就建立了TAP知識(shí)庫(kù);二是為知識(shí)庫(kù)提供接口便于數(shù)據(jù)的訪問(wèn),如GetData等。TAP Knowledge Base是一個(gè)淺顯的但內(nèi)容廣泛的知識(shí)庫(kù),涉及的領(lǐng)域很多,包括人物、組織、地理和產(chǎn)品等。它是R.Guha等人開(kāi)發(fā)的語(yǔ)義搜索系統(tǒng)ABS的一個(gè)重要的知識(shí)來(lái)源。該知識(shí)庫(kù)以RDF作為描述資源及其內(nèi)部關(guān)系的數(shù)據(jù)模型。GetData是一個(gè)簡(jiǎn)單的查詢接口。每個(gè)GetData查詢都是聲明與該URL相連的SOAP消息。此消息包括兩個(gè)參數(shù):被訪問(wèn)屬性的資源和被訪問(wèn)的屬性。GetData查詢返回的結(jié)果是語(yǔ)義網(wǎng)上知識(shí)庫(kù)內(nèi)部包含資源的圖,還有所查詢資源和各來(lái)源之間的關(guān)系。用抽象語(yǔ)法表示如下: GetDate(,)→(value) TAP建立在TAPache模塊之上,它提供一個(gè)平臺(tái)來(lái)發(fā)布和使用語(yǔ)義網(wǎng)上的數(shù)據(jù)。TAP的一個(gè)輔助系統(tǒng)onTAP對(duì)知識(shí)庫(kù)提供更新服務(wù),包括207個(gè)HTML頁(yè)面模板,可以從38個(gè)高質(zhì)量網(wǎng)站中讀取和提取數(shù)據(jù)。TAP的核心思想是:對(duì)于特殊搜索而言,一些信息對(duì)于編制目錄和后端數(shù)據(jù)庫(kù)十分有用,但是他們卻無(wú)法被Google網(wǎng)絡(luò)爬蟲(chóng)那樣的工具訪問(wèn)到?;谡Z(yǔ)義搜索的結(jié)果將擴(kuò)展通過(guò)傳統(tǒng)技術(shù)得到的檢索結(jié)果,同時(shí)這些語(yǔ)義搜索結(jié)果又是獨(dú)立存在的。主題分類(lèi)是網(wǎng)頁(yè)非常重要的特征,當(dāng)用戶要搜索某個(gè)著名實(shí)體的時(shí)候(例如城市、國(guó)家),可以利用Web中的許多信息,其中就包括頁(yè)面的主題分類(lèi)。這些信息在后端數(shù)據(jù)庫(kù)中是十分有用的,而這些數(shù)據(jù)集合可以與實(shí)體的ID聯(lián)系起來(lái)。
編輯推薦
《語(yǔ)義桌面搜索技術(shù)》在傳統(tǒng)信息提取技術(shù)的基礎(chǔ)上,給出了一種基于本體的無(wú)結(jié)構(gòu)文檔信息提取方案。書(shū)中在對(duì)現(xiàn)有的Web排序算法和模式圖理論進(jìn)行研究后,提出一種基于權(quán)威傳遞的檢索結(jié)果排序方法。
圖書(shū)封面
評(píng)論、評(píng)分、閱讀與下載
250萬(wàn)本中文圖書(shū)簡(jiǎn)介、評(píng)論、評(píng)分,PDF格式免費(fèi)下載。 第一圖書(shū)網(wǎng) 手機(jī)版