出版時(shí)間:2010-3 出版社:水利水電出版社 作者:陳忠明 頁(yè)數(shù):121 字?jǐn)?shù):168000
前言
XMIL已經(jīng)成為互聯(lián)網(wǎng)上數(shù)據(jù)表示和數(shù)據(jù)交換的標(biāo)準(zhǔn)。隨著XML文檔數(shù)據(jù)量和文檔數(shù)量的快速增長(zhǎng),產(chǎn)生了很多問題,其中很重要的一個(gè)問題就是如何有效地查詢這些文檔,也就是結(jié)構(gòu)化查詢,亦稱為數(shù)據(jù)查詢。而有效的數(shù)據(jù)查詢又涉及文檔的存儲(chǔ)機(jī)制和索引結(jié)構(gòu)等問題,這些問題已經(jīng)引起了學(xué)術(shù)界和工業(yè)界廣泛的研究熱情,學(xué)者們?cè)谶@些問題上作了大量的研究工作。另外一個(gè)問題是基于XML。文檔的信息檢索,這也是一個(gè)新產(chǎn)生的研究問題。面對(duì)巨大的網(wǎng)絡(luò)信息,如何才能為用戶檢索出真正有效的信息是一個(gè)非常具有挑戰(zhàn)性的研究問題?,F(xiàn)存的大部分搜索引擎是基于關(guān)鍵字搜索的,頁(yè)面排序算法采用頁(yè)面的超鏈接或頁(yè)面內(nèi)容的文本特性。如果頁(yè)面采用XML,來(lái)編寫,那么就需要合理地利用XML的結(jié)構(gòu)特性、語(yǔ)義特性以及其他的相關(guān)性質(zhì)來(lái)提高檢索的效果和效率。這就促使對(duì)XML文檔進(jìn)行信息檢索成為了一個(gè)非常有意義的問題。XML上的信息檢索正開始受到學(xué)術(shù)界的高度重視。對(duì)XML進(jìn)行結(jié)構(gòu)化查詢和信息檢索是兩個(gè)既具有相關(guān)性又具有不同特性的研究問題,如何集成這兩個(gè)研究問題就更加具有研究意義。本書的主要研究對(duì)象就是如何改進(jìn)XML的結(jié)構(gòu)化查詢以及信息檢索的相關(guān)理論與技術(shù),以便于它們更好地集成在一起,從而可以更加優(yōu)化地執(zhí)行用戶的查詢需求。針對(duì)這個(gè)研究目標(biāo),本書做了大量的研究工作。首先,本書在XQuery語(yǔ)言的基礎(chǔ)上擴(kuò)充了全文本檢索功能,為了與原來(lái)的XQuery區(qū)分,擴(kuò)充后的語(yǔ)言稱為XQuery+(XQueryPlus)。XQuery+語(yǔ)言有如下特點(diǎn):在XQuery+語(yǔ)言里,擴(kuò)充了XQuery的檢索功能,增加了一個(gè)為檢索服務(wù)的謂詞;在XQuery+中還支持檢索詞的布爾操作。本書的主要研究任務(wù)之一是如何有效地處理XML的結(jié)構(gòu)化查詢。作為處理XML結(jié)構(gòu)化查詢的基礎(chǔ),XML文檔的節(jié)點(diǎn)編碼模式和索引結(jié)構(gòu)是研究的核心問題。本書提出了一個(gè)新穎有效的節(jié)點(diǎn)編號(hào)模式,詳細(xì)地討論了節(jié)點(diǎn)編號(hào)模式的定義和性質(zhì)。節(jié)點(diǎn)編號(hào)模式為XML文檔索引和查詢提供了基礎(chǔ),一個(gè)有效的節(jié)點(diǎn)編號(hào)模式應(yīng)該可以包含結(jié)構(gòu)信息,易于支持索引和查詢。從本書給出的節(jié)點(diǎn)編號(hào)定義和性質(zhì)分析,我們知道編號(hào)模式可以滿足這些基本的要求。本書在這個(gè)節(jié)點(diǎn)編號(hào)模式的基礎(chǔ)上建立了一個(gè)HiD索引結(jié)構(gòu),HiD索引結(jié)構(gòu)有效地集成了結(jié)構(gòu)索引和值索引兩個(gè)部分。通過大量有競(jìng)爭(zhēng)性的實(shí)驗(yàn)分析表明,采用HiD索引機(jī)制方法可以在索引的構(gòu)建時(shí)間和空間消耗上得到很好的平衡和性能表現(xiàn)。
內(nèi)容概要
本書主要研究改進(jìn)XML數(shù)據(jù)查詢和信息檢索的相關(guān)理論與技術(shù),以便于它們更好地集成在—起,從而可以更加優(yōu)化地執(zhí)行用戶的查詢需求,針對(duì)這個(gè)研究目標(biāo),本書做了大量的研究工作。本書提出了一個(gè)新穎有效的節(jié)點(diǎn)編號(hào)模式,詳細(xì)討論了節(jié)點(diǎn)編號(hào)模式的定義和性質(zhì),還提出了一種新穎有效的對(duì)基于XML信息檢索查詢進(jìn)行相關(guān)度打分的算法,這個(gè)打分機(jī)制結(jié)合了檢索查詢關(guān)鍵詞的頻度、文檔的結(jié)構(gòu)化特性、文檔的語(yǔ)義特性等?;趯?duì)結(jié)構(gòu)化查詢和信息檢索的相關(guān)研究成果,本書提出了處理XML結(jié)構(gòu)化查詢和信息檢索的有效算法與機(jī)制。本書還討論了一個(gè)原型系統(tǒng)的設(shè)計(jì)目標(biāo)、分析與設(shè)計(jì)過程。
書籍目錄
前言第1章 緒論 1.1 研究背景 1.2 XML介紹 1.2.1 元素(Element) 1.2.2 屬性 1.2.3 指令/處理指令 1.2.4 注釋 1.2.5 CDATA 1.2.6 XML的語(yǔ)法規(guī)則 1.3 Xpath介紹 1.3.1 節(jié)點(diǎn)(Node) 1.3.2 XPath謂語(yǔ) 1.3.3 XPath軸 1.3.4 XPath節(jié)點(diǎn)測(cè)試 1.4 XQuery介紹 1.4.1 XQuery的語(yǔ)法 1.4.2 XQuery的運(yùn)算符 1.4.3 XQuery函數(shù) 1.4.4 XQuery條件表達(dá)式 1.5 相關(guān)研究 1.5.1 數(shù)據(jù)庫(kù)的研究 1.5.2 XML數(shù)據(jù)管理 1.5.3 XML數(shù)據(jù)查詢 1.5.4 信息檢索及基于XML的信息檢索 1.6 小結(jié)第2章 基于XQuery的信息檢索語(yǔ)言 2.1 XML查詢語(yǔ)言 2.2 XML信息檢索語(yǔ)言的特點(diǎn) 2.3 XML信息檢索語(yǔ)言XQuery+ 2.3.1 XQuery+語(yǔ)法分析 2.3.2 XQuery+語(yǔ)義分析 2.4 小結(jié)與問題第3章 XML節(jié)點(diǎn)編號(hào)模式與索引結(jié)構(gòu) 3.1 預(yù)備知識(shí) 3.2 XML節(jié)點(diǎn)編號(hào)模式 3.2.1 節(jié)點(diǎn)標(biāo)簽路徑數(shù) 3.2.2 節(jié)點(diǎn)數(shù)據(jù)路徑數(shù) 3.2.3 節(jié)點(diǎn)標(biāo)識(shí) 3.3 XML索引結(jié)構(gòu) 3.4 值索引結(jié)構(gòu) 3.5 相關(guān)實(shí)驗(yàn)及分析 3.6 小結(jié)與問題第4章 XML相關(guān)度打分機(jī)制與算法 4.1 問題描述 4.2 IR查詢表達(dá) 4.3 相關(guān)度打分機(jī)制 4.3.1 結(jié)構(gòu)相關(guān)度 4.3.2 語(yǔ)義相關(guān)度 4.3.3 相關(guān)度集成 4.4 實(shí)例分析 4.5 實(shí)驗(yàn)與分析 4.6 小結(jié)與問題第5章 查詢處理 5.1 問題描述 5.2 XQuery查詢處理算法 5.2.1 單路徑查詢 5.2.2 樹模式查詢算法 5.3 XQuery+查詢處理算法 5.4 XQuery查詢實(shí)驗(yàn)分析 5.5 XQuery+查詢算法實(shí)驗(yàn)分析 5.6 小結(jié)與問題第6章 原型系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn) 6.1 原型系統(tǒng)分析與設(shè)計(jì) 6.1.1 系統(tǒng)設(shè)計(jì)目標(biāo)和原則 6.1.2 需求分析 6.1.3 數(shù)據(jù)流圖 6.1.4 系統(tǒng)架構(gòu) 6.2 原型系統(tǒng)模塊分析 6.2.1 系統(tǒng)處理流程 6.2.2 模塊設(shè)計(jì) 6.3 原型系統(tǒng)的實(shí)現(xiàn) 6.3.1 原型系統(tǒng)核心數(shù)據(jù)結(jié)構(gòu) 6.3.2 查詢引擎處理過程部分代碼分析 6.3.3 原型系統(tǒng)界面及使用介紹 6.4 小結(jié)與問題第7章 結(jié)論與展望參考文獻(xiàn)
章節(jié)摘錄
插圖:查詢、存取等。信息檢索是一個(gè)一直以來(lái)都在研究的熱點(diǎn)問題,有大量研究者從事信息檢索的研究。XML的結(jié)構(gòu)化查詢主要是基于XML的結(jié)構(gòu)上精確的數(shù)據(jù)查詢,當(dāng)用戶給出一個(gè):XML的查詢時(shí),要求查詢系統(tǒng)返回的是精確的查詢結(jié)果節(jié)點(diǎn)集;而XML,的信息檢索主要是基于XML文檔的內(nèi)容,即以文本信息為主的。用戶給出的一般是文本信息的要求,而結(jié)構(gòu)信息等可能是模糊的、不精確的,要求返回的節(jié)點(diǎn)可能在查詢時(shí)也不會(huì)被清晰地定義好。信息檢索的結(jié)果是給出和用戶要求的文本信息最相關(guān)的節(jié)點(diǎn)集或者最相關(guān)的前K個(gè)結(jié)果,也就是所謂的TOP-K查詢。在信息檢索領(lǐng)域,涌現(xiàn)了大量新型智能檢索技術(shù),如職能檢索、知識(shí)挖掘、全息檢索等。下面簡(jiǎn)單介紹一下這些技術(shù)。(1)智能檢索。智能檢索利用分詞詞典、同義詞典、同音詞典改善檢索的效果。比如用戶查詢“計(jì)算機(jī)”,那么與“電腦”相關(guān)的信息也能檢索出來(lái);進(jìn)一步還可在知識(shí)層面上輔助查詢,通過主題詞典、上下文詞典、相關(guān)同級(jí)詞典形成一個(gè)知識(shí)體系,給予用戶智能知識(shí)提示,最終幫助用戶獲得最佳的檢索效果。智能檢索還包括歧義信息檢索處理,如“蘋果”究竟是指水果還是指電腦品牌,將通過歧義知識(shí)描述庫(kù)、全文索引、用戶檢索上下文分析以及用戶相關(guān)性反饋等技術(shù)結(jié)合處理,高效、準(zhǔn)確地反饋給用戶,使其得到最需要的信息。(2)知識(shí)挖掘。知識(shí)挖掘主要指文本挖掘技術(shù),目的是幫助人們更好地發(fā)現(xiàn)、組織、表示信息,提取知識(shí),滿足信息檢索的高層次需要。包括摘要、分類(聚類)和相似性檢索等。自動(dòng)摘要就是利用計(jì)算機(jī)自動(dòng)地從原始文獻(xiàn)中提取文摘。在信息檢索和服務(wù)中,自動(dòng)摘要有助于用戶快速評(píng)價(jià)檢索結(jié)果的相關(guān)程度和多種形式的內(nèi)容分發(fā)。自動(dòng)分類可基于統(tǒng)計(jì)或規(guī)則,經(jīng)過機(jī)器學(xué)習(xí)形成預(yù)定義分類樹,再根據(jù)文檔內(nèi)容特征將其歸類。自動(dòng)聚類則是根據(jù)文檔內(nèi)容的相關(guān)程度進(jìn)行分組歸并。相似性檢索技術(shù)基于文檔內(nèi)容特征檢索與其相似或相關(guān)的文檔,是實(shí)現(xiàn)用戶個(gè)性化相關(guān)反饋的基礎(chǔ),也可用于去重分析。(3)異構(gòu)信息整合檢索和全息檢索。在信息檢索分布化和網(wǎng)絡(luò)化的趨勢(shì)下,對(duì)于信息檢索系統(tǒng)的開放性和集成性要求越來(lái)越高,需要它能夠檢索和整合不同來(lái)源和結(jié)構(gòu)的信息,這是異構(gòu)信息檢索技術(shù)發(fā)展的基點(diǎn),包括支持各種格式化文件的處理和檢索;支持多語(yǔ)種信息檢索;支持結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一處理等。全息檢索即支持一切格式和方式的檢索,從目前實(shí)踐來(lái)看,已經(jīng)發(fā)展到異構(gòu)信息整合檢索的層面,而基于自然語(yǔ)言理解的人機(jī)交互以及多媒體信息檢索整合等方面尚有待進(jìn)一步突破。從實(shí)際的應(yīng)用角度分析,信息的充分利用和交流是實(shí)現(xiàn)真正的信息化的基礎(chǔ)。美國(guó)財(cái)富500強(qiáng)企業(yè)網(wǎng)站信息檢索工具擁有率幾乎達(dá)到了100%,而中國(guó)企業(yè)的信息利用狀況則形成了極大的反差。企業(yè)只是追逐時(shí)尚,花費(fèi)大量的人力物力構(gòu)建自己的網(wǎng)站和豐富的內(nèi)容體系,然而信息檢索工具卻不盡人意。因此,發(fā)展信息檢索方面的應(yīng)用是當(dāng)前中國(guó)企業(yè)信息化建設(shè)的重要任務(wù)。
編輯推薦
《XML數(shù)據(jù)查詢與信息檢索系統(tǒng)》是由中國(guó)水利水電出版社出版的。
圖書封面
評(píng)論、評(píng)分、閱讀與下載
XML數(shù)據(jù)查詢與信息檢索系統(tǒng) PDF格式下載