XML數(shù)據(jù)查詢與信息檢索系統(tǒng)

出版時間:2010-3  出版社:水利水電出版社  作者:陳忠明  頁數(shù):121  字?jǐn)?shù):168000  

前言

XMIL已經(jīng)成為互聯(lián)網(wǎng)上數(shù)據(jù)表示和數(shù)據(jù)交換的標(biāo)準(zhǔn)。隨著XML文檔數(shù)據(jù)量和文檔數(shù)量的快速增長,產(chǎn)生了很多問題,其中很重要的一個問題就是如何有效地查詢這些文檔,也就是結(jié)構(gòu)化查詢,亦稱為數(shù)據(jù)查詢。而有效的數(shù)據(jù)查詢又涉及文檔的存儲機(jī)制和索引結(jié)構(gòu)等問題,這些問題已經(jīng)引起了學(xué)術(shù)界和工業(yè)界廣泛的研究熱情,學(xué)者們在這些問題上作了大量的研究工作。另外一個問題是基于XML。文檔的信息檢索,這也是一個新產(chǎn)生的研究問題。面對巨大的網(wǎng)絡(luò)信息,如何才能為用戶檢索出真正有效的信息是一個非常具有挑戰(zhàn)性的研究問題?,F(xiàn)存的大部分搜索引擎是基于關(guān)鍵字搜索的,頁面排序算法采用頁面的超鏈接或頁面內(nèi)容的文本特性。如果頁面采用XML,來編寫,那么就需要合理地利用XML的結(jié)構(gòu)特性、語義特性以及其他的相關(guān)性質(zhì)來提高檢索的效果和效率。這就促使對XML文檔進(jìn)行信息檢索成為了一個非常有意義的問題。XML上的信息檢索正開始受到學(xué)術(shù)界的高度重視。對XML進(jìn)行結(jié)構(gòu)化查詢和信息檢索是兩個既具有相關(guān)性又具有不同特性的研究問題,如何集成這兩個研究問題就更加具有研究意義。本書的主要研究對象就是如何改進(jìn)XML的結(jié)構(gòu)化查詢以及信息檢索的相關(guān)理論與技術(shù),以便于它們更好地集成在一起,從而可以更加優(yōu)化地執(zhí)行用戶的查詢需求。針對這個研究目標(biāo),本書做了大量的研究工作。首先,本書在XQuery語言的基礎(chǔ)上擴(kuò)充了全文本檢索功能,為了與原來的XQuery區(qū)分,擴(kuò)充后的語言稱為XQuery+(XQueryPlus)。XQuery+語言有如下特點(diǎn):在XQuery+語言里,擴(kuò)充了XQuery的檢索功能,增加了一個為檢索服務(wù)的謂詞;在XQuery+中還支持檢索詞的布爾操作。本書的主要研究任務(wù)之一是如何有效地處理XML的結(jié)構(gòu)化查詢。作為處理XML結(jié)構(gòu)化查詢的基礎(chǔ),XML文檔的節(jié)點(diǎn)編碼模式和索引結(jié)構(gòu)是研究的核心問題。本書提出了一個新穎有效的節(jié)點(diǎn)編號模式,詳細(xì)地討論了節(jié)點(diǎn)編號模式的定義和性質(zhì)。節(jié)點(diǎn)編號模式為XML文檔索引和查詢提供了基礎(chǔ),一個有效的節(jié)點(diǎn)編號模式應(yīng)該可以包含結(jié)構(gòu)信息,易于支持索引和查詢。從本書給出的節(jié)點(diǎn)編號定義和性質(zhì)分析,我們知道編號模式可以滿足這些基本的要求。本書在這個節(jié)點(diǎn)編號模式的基礎(chǔ)上建立了一個HiD索引結(jié)構(gòu),HiD索引結(jié)構(gòu)有效地集成了結(jié)構(gòu)索引和值索引兩個部分。通過大量有競爭性的實(shí)驗(yàn)分析表明,采用HiD索引機(jī)制方法可以在索引的構(gòu)建時間和空間消耗上得到很好的平衡和性能表現(xiàn)。

內(nèi)容概要

本書主要研究改進(jìn)XML數(shù)據(jù)查詢和信息檢索的相關(guān)理論與技術(shù),以便于它們更好地集成在—起,從而可以更加優(yōu)化地執(zhí)行用戶的查詢需求,針對這個研究目標(biāo),本書做了大量的研究工作。本書提出了一個新穎有效的節(jié)點(diǎn)編號模式,詳細(xì)討論了節(jié)點(diǎn)編號模式的定義和性質(zhì),還提出了一種新穎有效的對基于XML信息檢索查詢進(jìn)行相關(guān)度打分的算法,這個打分機(jī)制結(jié)合了檢索查詢關(guān)鍵詞的頻度、文檔的結(jié)構(gòu)化特性、文檔的語義特性等。基于對結(jié)構(gòu)化查詢和信息檢索的相關(guān)研究成果,本書提出了處理XML結(jié)構(gòu)化查詢和信息檢索的有效算法與機(jī)制。本書還討論了一個原型系統(tǒng)的設(shè)計(jì)目標(biāo)、分析與設(shè)計(jì)過程。

書籍目錄

前言第1章 緒論  1.1 研究背景  1.2 XML介紹    1.2.1 元素(Element)    1.2.2 屬性    1.2.3 指令/處理指令    1.2.4 注釋    1.2.5 CDATA    1.2.6 XML的語法規(guī)則  1.3 Xpath介紹    1.3.1 節(jié)點(diǎn)(Node)    1.3.2 XPath謂語    1.3.3 XPath軸    1.3.4 XPath節(jié)點(diǎn)測試  1.4 XQuery介紹    1.4.1 XQuery的語法    1.4.2 XQuery的運(yùn)算符    1.4.3 XQuery函數(shù)    1.4.4 XQuery條件表達(dá)式  1.5 相關(guān)研究    1.5.1 數(shù)據(jù)庫的研究    1.5.2 XML數(shù)據(jù)管理    1.5.3 XML數(shù)據(jù)查詢    1.5.4 信息檢索及基于XML的信息檢索  1.6 小結(jié)第2章 基于XQuery的信息檢索語言  2.1 XML查詢語言  2.2 XML信息檢索語言的特點(diǎn)  2.3 XML信息檢索語言XQuery+    2.3.1 XQuery+語法分析    2.3.2 XQuery+語義分析  2.4 小結(jié)與問題第3章 XML節(jié)點(diǎn)編號模式與索引結(jié)構(gòu)  3.1 預(yù)備知識  3.2 XML節(jié)點(diǎn)編號模式    3.2.1 節(jié)點(diǎn)標(biāo)簽路徑數(shù)    3.2.2 節(jié)點(diǎn)數(shù)據(jù)路徑數(shù)    3.2.3 節(jié)點(diǎn)標(biāo)識  3.3 XML索引結(jié)構(gòu)  3.4 值索引結(jié)構(gòu)  3.5 相關(guān)實(shí)驗(yàn)及分析  3.6 小結(jié)與問題第4章 XML相關(guān)度打分機(jī)制與算法  4.1 問題描述  4.2 IR查詢表達(dá)  4.3 相關(guān)度打分機(jī)制    4.3.1 結(jié)構(gòu)相關(guān)度    4.3.2 語義相關(guān)度    4.3.3 相關(guān)度集成  4.4 實(shí)例分析  4.5 實(shí)驗(yàn)與分析  4.6 小結(jié)與問題第5章 查詢處理  5.1 問題描述  5.2 XQuery查詢處理算法    5.2.1 單路徑查詢    5.2.2 樹模式查詢算法  5.3 XQuery+查詢處理算法  5.4 XQuery查詢實(shí)驗(yàn)分析  5.5 XQuery+查詢算法實(shí)驗(yàn)分析  5.6 小結(jié)與問題第6章 原型系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)  6.1 原型系統(tǒng)分析與設(shè)計(jì)    6.1.1 系統(tǒng)設(shè)計(jì)目標(biāo)和原則    6.1.2 需求分析    6.1.3 數(shù)據(jù)流圖    6.1.4 系統(tǒng)架構(gòu)  6.2 原型系統(tǒng)模塊分析    6.2.1 系統(tǒng)處理流程    6.2.2 模塊設(shè)計(jì)  6.3 原型系統(tǒng)的實(shí)現(xiàn)    6.3.1 原型系統(tǒng)核心數(shù)據(jù)結(jié)構(gòu)    6.3.2 查詢引擎處理過程部分代碼分析    6.3.3 原型系統(tǒng)界面及使用介紹    6.4 小結(jié)與問題第7章 結(jié)論與展望參考文獻(xiàn)

章節(jié)摘錄

插圖:查詢、存取等。信息檢索是一個一直以來都在研究的熱點(diǎn)問題,有大量研究者從事信息檢索的研究。XML的結(jié)構(gòu)化查詢主要是基于XML的結(jié)構(gòu)上精確的數(shù)據(jù)查詢,當(dāng)用戶給出一個:XML的查詢時,要求查詢系統(tǒng)返回的是精確的查詢結(jié)果節(jié)點(diǎn)集;而XML,的信息檢索主要是基于XML文檔的內(nèi)容,即以文本信息為主的。用戶給出的一般是文本信息的要求,而結(jié)構(gòu)信息等可能是模糊的、不精確的,要求返回的節(jié)點(diǎn)可能在查詢時也不會被清晰地定義好。信息檢索的結(jié)果是給出和用戶要求的文本信息最相關(guān)的節(jié)點(diǎn)集或者最相關(guān)的前K個結(jié)果,也就是所謂的TOP-K查詢。在信息檢索領(lǐng)域,涌現(xiàn)了大量新型智能檢索技術(shù),如職能檢索、知識挖掘、全息檢索等。下面簡單介紹一下這些技術(shù)。(1)智能檢索。智能檢索利用分詞詞典、同義詞典、同音詞典改善檢索的效果。比如用戶查詢“計(jì)算機(jī)”,那么與“電腦”相關(guān)的信息也能檢索出來;進(jìn)一步還可在知識層面上輔助查詢,通過主題詞典、上下文詞典、相關(guān)同級詞典形成一個知識體系,給予用戶智能知識提示,最終幫助用戶獲得最佳的檢索效果。智能檢索還包括歧義信息檢索處理,如“蘋果”究竟是指水果還是指電腦品牌,將通過歧義知識描述庫、全文索引、用戶檢索上下文分析以及用戶相關(guān)性反饋等技術(shù)結(jié)合處理,高效、準(zhǔn)確地反饋給用戶,使其得到最需要的信息。(2)知識挖掘。知識挖掘主要指文本挖掘技術(shù),目的是幫助人們更好地發(fā)現(xiàn)、組織、表示信息,提取知識,滿足信息檢索的高層次需要。包括摘要、分類(聚類)和相似性檢索等。自動摘要就是利用計(jì)算機(jī)自動地從原始文獻(xiàn)中提取文摘。在信息檢索和服務(wù)中,自動摘要有助于用戶快速評價檢索結(jié)果的相關(guān)程度和多種形式的內(nèi)容分發(fā)。自動分類可基于統(tǒng)計(jì)或規(guī)則,經(jīng)過機(jī)器學(xué)習(xí)形成預(yù)定義分類樹,再根據(jù)文檔內(nèi)容特征將其歸類。自動聚類則是根據(jù)文檔內(nèi)容的相關(guān)程度進(jìn)行分組歸并。相似性檢索技術(shù)基于文檔內(nèi)容特征檢索與其相似或相關(guān)的文檔,是實(shí)現(xiàn)用戶個性化相關(guān)反饋的基礎(chǔ),也可用于去重分析。(3)異構(gòu)信息整合檢索和全息檢索。在信息檢索分布化和網(wǎng)絡(luò)化的趨勢下,對于信息檢索系統(tǒng)的開放性和集成性要求越來越高,需要它能夠檢索和整合不同來源和結(jié)構(gòu)的信息,這是異構(gòu)信息檢索技術(shù)發(fā)展的基點(diǎn),包括支持各種格式化文件的處理和檢索;支持多語種信息檢索;支持結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一處理等。全息檢索即支持一切格式和方式的檢索,從目前實(shí)踐來看,已經(jīng)發(fā)展到異構(gòu)信息整合檢索的層面,而基于自然語言理解的人機(jī)交互以及多媒體信息檢索整合等方面尚有待進(jìn)一步突破。從實(shí)際的應(yīng)用角度分析,信息的充分利用和交流是實(shí)現(xiàn)真正的信息化的基礎(chǔ)。美國財(cái)富500強(qiáng)企業(yè)網(wǎng)站信息檢索工具擁有率幾乎達(dá)到了100%,而中國企業(yè)的信息利用狀況則形成了極大的反差。企業(yè)只是追逐時尚,花費(fèi)大量的人力物力構(gòu)建自己的網(wǎng)站和豐富的內(nèi)容體系,然而信息檢索工具卻不盡人意。因此,發(fā)展信息檢索方面的應(yīng)用是當(dāng)前中國企業(yè)信息化建設(shè)的重要任務(wù)。

編輯推薦

《XML數(shù)據(jù)查詢與信息檢索系統(tǒng)》是由中國水利水電出版社出版的。

圖書封面

評論、評分、閱讀與下載


    XML數(shù)據(jù)查詢與信息檢索系統(tǒng) PDF格式下載


用戶評論 (總計(jì)1條)

 
 

  •   書質(zhì)量還行,就是有點(diǎn)薄,價格有些貴,內(nèi)容不是很具體
 

250萬本中文圖書簡介、評論、評分,PDF格式免費(fèi)下載。 第一圖書網(wǎng) 手機(jī)版

京ICP備13047387號-7