出版時(shí)間:2010-3 出版社:水利水電出版社 作者:陳忠明 頁(yè)數(shù):121 字?jǐn)?shù):168000
前言
XMIL已經(jīng)成為互聯(lián)網(wǎng)上數(shù)據(jù)表示和數(shù)據(jù)交換的標(biāo)準(zhǔn)。隨著XML文檔數(shù)據(jù)量和文檔數(shù)量的快速增長(zhǎng),產(chǎn)生了很多問(wèn)題,其中很重要的一個(gè)問(wèn)題就是如何有效地查詢(xún)這些文檔,也就是結(jié)構(gòu)化查詢(xún),亦稱(chēng)為數(shù)據(jù)查詢(xún)。而有效的數(shù)據(jù)查詢(xún)又涉及文檔的存儲(chǔ)機(jī)制和索引結(jié)構(gòu)等問(wèn)題,這些問(wèn)題已經(jīng)引起了學(xué)術(shù)界和工業(yè)界廣泛的研究熱情,學(xué)者們?cè)谶@些問(wèn)題上作了大量的研究工作。另外一個(gè)問(wèn)題是基于XML。文檔的信息檢索,這也是一個(gè)新產(chǎn)生的研究問(wèn)題。面對(duì)巨大的網(wǎng)絡(luò)信息,如何才能為用戶(hù)檢索出真正有效的信息是一個(gè)非常具有挑戰(zhàn)性的研究問(wèn)題?,F(xiàn)存的大部分搜索引擎是基于關(guān)鍵字搜索的,頁(yè)面排序算法采用頁(yè)面的超鏈接或頁(yè)面內(nèi)容的文本特性。如果頁(yè)面采用XML,來(lái)編寫(xiě),那么就需要合理地利用XML的結(jié)構(gòu)特性、語(yǔ)義特性以及其他的相關(guān)性質(zhì)來(lái)提高檢索的效果和效率。這就促使對(duì)XML文檔進(jìn)行信息檢索成為了一個(gè)非常有意義的問(wèn)題。XML上的信息檢索正開(kāi)始受到學(xué)術(shù)界的高度重視。對(duì)XML進(jìn)行結(jié)構(gòu)化查詢(xún)和信息檢索是兩個(gè)既具有相關(guān)性又具有不同特性的研究問(wèn)題,如何集成這兩個(gè)研究問(wèn)題就更加具有研究意義。本書(shū)的主要研究對(duì)象就是如何改進(jìn)XML的結(jié)構(gòu)化查詢(xún)以及信息檢索的相關(guān)理論與技術(shù),以便于它們更好地集成在一起,從而可以更加優(yōu)化地執(zhí)行用戶(hù)的查詢(xún)需求。針對(duì)這個(gè)研究目標(biāo),本書(shū)做了大量的研究工作。首先,本書(shū)在XQuery語(yǔ)言的基礎(chǔ)上擴(kuò)充了全文本檢索功能,為了與原來(lái)的XQuery區(qū)分,擴(kuò)充后的語(yǔ)言稱(chēng)為XQuery+(XQueryPlus)。XQuery+語(yǔ)言有如下特點(diǎn):在XQuery+語(yǔ)言里,擴(kuò)充了XQuery的檢索功能,增加了一個(gè)為檢索服務(wù)的謂詞;在XQuery+中還支持檢索詞的布爾操作。本書(shū)的主要研究任務(wù)之一是如何有效地處理XML的結(jié)構(gòu)化查詢(xún)。作為處理XML結(jié)構(gòu)化查詢(xún)的基礎(chǔ),XML文檔的節(jié)點(diǎn)編碼模式和索引結(jié)構(gòu)是研究的核心問(wèn)題。本書(shū)提出了一個(gè)新穎有效的節(jié)點(diǎn)編號(hào)模式,詳細(xì)地討論了節(jié)點(diǎn)編號(hào)模式的定義和性質(zhì)。節(jié)點(diǎn)編號(hào)模式為XML文檔索引和查詢(xún)提供了基礎(chǔ),一個(gè)有效的節(jié)點(diǎn)編號(hào)模式應(yīng)該可以包含結(jié)構(gòu)信息,易于支持索引和查詢(xún)。從本書(shū)給出的節(jié)點(diǎn)編號(hào)定義和性質(zhì)分析,我們知道編號(hào)模式可以滿足這些基本的要求。本書(shū)在這個(gè)節(jié)點(diǎn)編號(hào)模式的基礎(chǔ)上建立了一個(gè)HiD索引結(jié)構(gòu),HiD索引結(jié)構(gòu)有效地集成了結(jié)構(gòu)索引和值索引兩個(gè)部分。通過(guò)大量有競(jìng)爭(zhēng)性的實(shí)驗(yàn)分析表明,采用HiD索引機(jī)制方法可以在索引的構(gòu)建時(shí)間和空間消耗上得到很好的平衡和性能表現(xiàn)。
內(nèi)容概要
本書(shū)主要研究改進(jìn)XML數(shù)據(jù)查詢(xún)和信息檢索的相關(guān)理論與技術(shù),以便于它們更好地集成在—起,從而可以更加優(yōu)化地執(zhí)行用戶(hù)的查詢(xún)需求,針對(duì)這個(gè)研究目標(biāo),本書(shū)做了大量的研究工作。本書(shū)提出了一個(gè)新穎有效的節(jié)點(diǎn)編號(hào)模式,詳細(xì)討論了節(jié)點(diǎn)編號(hào)模式的定義和性質(zhì),還提出了一種新穎有效的對(duì)基于XML信息檢索查詢(xún)進(jìn)行相關(guān)度打分的算法,這個(gè)打分機(jī)制結(jié)合了檢索查詢(xún)關(guān)鍵詞的頻度、文檔的結(jié)構(gòu)化特性、文檔的語(yǔ)義特性等?;趯?duì)結(jié)構(gòu)化查詢(xún)和信息檢索的相關(guān)研究成果,本書(shū)提出了處理XML結(jié)構(gòu)化查詢(xún)和信息檢索的有效算法與機(jī)制。本書(shū)還討論了一個(gè)原型系統(tǒng)的設(shè)計(jì)目標(biāo)、分析與設(shè)計(jì)過(guò)程。
書(shū)籍目錄
前言第1章 緒論 1.1 研究背景 1.2 XML介紹 1.2.1 元素(Element) 1.2.2 屬性 1.2.3 指令/處理指令 1.2.4 注釋 1.2.5 CDATA 1.2.6 XML的語(yǔ)法規(guī)則 1.3 Xpath介紹 1.3.1 節(jié)點(diǎn)(Node) 1.3.2 XPath謂語(yǔ) 1.3.3 XPath軸 1.3.4 XPath節(jié)點(diǎn)測(cè)試 1.4 XQuery介紹 1.4.1 XQuery的語(yǔ)法 1.4.2 XQuery的運(yùn)算符 1.4.3 XQuery函數(shù) 1.4.4 XQuery條件表達(dá)式 1.5 相關(guān)研究 1.5.1 數(shù)據(jù)庫(kù)的研究 1.5.2 XML數(shù)據(jù)管理 1.5.3 XML數(shù)據(jù)查詢(xún) 1.5.4 信息檢索及基于XML的信息檢索 1.6 小結(jié)第2章 基于XQuery的信息檢索語(yǔ)言 2.1 XML查詢(xún)語(yǔ)言 2.2 XML信息檢索語(yǔ)言的特點(diǎn) 2.3 XML信息檢索語(yǔ)言XQuery+ 2.3.1 XQuery+語(yǔ)法分析 2.3.2 XQuery+語(yǔ)義分析 2.4 小結(jié)與問(wèn)題第3章 XML節(jié)點(diǎn)編號(hào)模式與索引結(jié)構(gòu) 3.1 預(yù)備知識(shí) 3.2 XML節(jié)點(diǎn)編號(hào)模式 3.2.1 節(jié)點(diǎn)標(biāo)簽路徑數(shù) 3.2.2 節(jié)點(diǎn)數(shù)據(jù)路徑數(shù) 3.2.3 節(jié)點(diǎn)標(biāo)識(shí) 3.3 XML索引結(jié)構(gòu) 3.4 值索引結(jié)構(gòu) 3.5 相關(guān)實(shí)驗(yàn)及分析 3.6 小結(jié)與問(wèn)題第4章 XML相關(guān)度打分機(jī)制與算法 4.1 問(wèn)題描述 4.2 IR查詢(xún)表達(dá) 4.3 相關(guān)度打分機(jī)制 4.3.1 結(jié)構(gòu)相關(guān)度 4.3.2 語(yǔ)義相關(guān)度 4.3.3 相關(guān)度集成 4.4 實(shí)例分析 4.5 實(shí)驗(yàn)與分析 4.6 小結(jié)與問(wèn)題第5章 查詢(xún)處理 5.1 問(wèn)題描述 5.2 XQuery查詢(xún)處理算法 5.2.1 單路徑查詢(xún) 5.2.2 樹(shù)模式查詢(xún)算法 5.3 XQuery+查詢(xún)處理算法 5.4 XQuery查詢(xún)實(shí)驗(yàn)分析 5.5 XQuery+查詢(xún)算法實(shí)驗(yàn)分析 5.6 小結(jié)與問(wèn)題第6章 原型系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn) 6.1 原型系統(tǒng)分析與設(shè)計(jì) 6.1.1 系統(tǒng)設(shè)計(jì)目標(biāo)和原則 6.1.2 需求分析 6.1.3 數(shù)據(jù)流圖 6.1.4 系統(tǒng)架構(gòu) 6.2 原型系統(tǒng)模塊分析 6.2.1 系統(tǒng)處理流程 6.2.2 模塊設(shè)計(jì) 6.3 原型系統(tǒng)的實(shí)現(xiàn) 6.3.1 原型系統(tǒng)核心數(shù)據(jù)結(jié)構(gòu) 6.3.2 查詢(xún)引擎處理過(guò)程部分代碼分析 6.3.3 原型系統(tǒng)界面及使用介紹 6.4 小結(jié)與問(wèn)題第7章 結(jié)論與展望參考文獻(xiàn)
章節(jié)摘錄
插圖:查詢(xún)、存取等。信息檢索是一個(gè)一直以來(lái)都在研究的熱點(diǎn)問(wèn)題,有大量研究者從事信息檢索的研究。XML的結(jié)構(gòu)化查詢(xún)主要是基于XML的結(jié)構(gòu)上精確的數(shù)據(jù)查詢(xún),當(dāng)用戶(hù)給出一個(gè):XML的查詢(xún)時(shí),要求查詢(xún)系統(tǒng)返回的是精確的查詢(xún)結(jié)果節(jié)點(diǎn)集;而XML,的信息檢索主要是基于XML文檔的內(nèi)容,即以文本信息為主的。用戶(hù)給出的一般是文本信息的要求,而結(jié)構(gòu)信息等可能是模糊的、不精確的,要求返回的節(jié)點(diǎn)可能在查詢(xún)時(shí)也不會(huì)被清晰地定義好。信息檢索的結(jié)果是給出和用戶(hù)要求的文本信息最相關(guān)的節(jié)點(diǎn)集或者最相關(guān)的前K個(gè)結(jié)果,也就是所謂的TOP-K查詢(xún)。在信息檢索領(lǐng)域,涌現(xiàn)了大量新型智能檢索技術(shù),如職能檢索、知識(shí)挖掘、全息檢索等。下面簡(jiǎn)單介紹一下這些技術(shù)。(1)智能檢索。智能檢索利用分詞詞典、同義詞典、同音詞典改善檢索的效果。比如用戶(hù)查詢(xún)“計(jì)算機(jī)”,那么與“電腦”相關(guān)的信息也能檢索出來(lái);進(jìn)一步還可在知識(shí)層面上輔助查詢(xún),通過(guò)主題詞典、上下文詞典、相關(guān)同級(jí)詞典形成一個(gè)知識(shí)體系,給予用戶(hù)智能知識(shí)提示,最終幫助用戶(hù)獲得最佳的檢索效果。智能檢索還包括歧義信息檢索處理,如“蘋(píng)果”究竟是指水果還是指電腦品牌,將通過(guò)歧義知識(shí)描述庫(kù)、全文索引、用戶(hù)檢索上下文分析以及用戶(hù)相關(guān)性反饋等技術(shù)結(jié)合處理,高效、準(zhǔn)確地反饋給用戶(hù),使其得到最需要的信息。(2)知識(shí)挖掘。知識(shí)挖掘主要指文本挖掘技術(shù),目的是幫助人們更好地發(fā)現(xiàn)、組織、表示信息,提取知識(shí),滿足信息檢索的高層次需要。包括摘要、分類(lèi)(聚類(lèi))和相似性檢索等。自動(dòng)摘要就是利用計(jì)算機(jī)自動(dòng)地從原始文獻(xiàn)中提取文摘。在信息檢索和服務(wù)中,自動(dòng)摘要有助于用戶(hù)快速評(píng)價(jià)檢索結(jié)果的相關(guān)程度和多種形式的內(nèi)容分發(fā)。自動(dòng)分類(lèi)可基于統(tǒng)計(jì)或規(guī)則,經(jīng)過(guò)機(jī)器學(xué)習(xí)形成預(yù)定義分類(lèi)樹(shù),再根據(jù)文檔內(nèi)容特征將其歸類(lèi)。自動(dòng)聚類(lèi)則是根據(jù)文檔內(nèi)容的相關(guān)程度進(jìn)行分組歸并。相似性檢索技術(shù)基于文檔內(nèi)容特征檢索與其相似或相關(guān)的文檔,是實(shí)現(xiàn)用戶(hù)個(gè)性化相關(guān)反饋的基礎(chǔ),也可用于去重分析。(3)異構(gòu)信息整合檢索和全息檢索。在信息檢索分布化和網(wǎng)絡(luò)化的趨勢(shì)下,對(duì)于信息檢索系統(tǒng)的開(kāi)放性和集成性要求越來(lái)越高,需要它能夠檢索和整合不同來(lái)源和結(jié)構(gòu)的信息,這是異構(gòu)信息檢索技術(shù)發(fā)展的基點(diǎn),包括支持各種格式化文件的處理和檢索;支持多語(yǔ)種信息檢索;支持結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一處理等。全息檢索即支持一切格式和方式的檢索,從目前實(shí)踐來(lái)看,已經(jīng)發(fā)展到異構(gòu)信息整合檢索的層面,而基于自然語(yǔ)言理解的人機(jī)交互以及多媒體信息檢索整合等方面尚有待進(jìn)一步突破。從實(shí)際的應(yīng)用角度分析,信息的充分利用和交流是實(shí)現(xiàn)真正的信息化的基礎(chǔ)。美國(guó)財(cái)富500強(qiáng)企業(yè)網(wǎng)站信息檢索工具擁有率幾乎達(dá)到了100%,而中國(guó)企業(yè)的信息利用狀況則形成了極大的反差。企業(yè)只是追逐時(shí)尚,花費(fèi)大量的人力物力構(gòu)建自己的網(wǎng)站和豐富的內(nèi)容體系,然而信息檢索工具卻不盡人意。因此,發(fā)展信息檢索方面的應(yīng)用是當(dāng)前中國(guó)企業(yè)信息化建設(shè)的重要任務(wù)。
編輯推薦
《XML數(shù)據(jù)查詢(xún)與信息檢索系統(tǒng)》是由中國(guó)水利水電出版社出版的。
圖書(shū)封面
評(píng)論、評(píng)分、閱讀與下載
XML數(shù)據(jù)查詢(xún)與信息檢索系統(tǒng) PDF格式下載
250萬(wàn)本中文圖書(shū)簡(jiǎn)介、評(píng)論、評(píng)分,PDF格式免費(fèi)下載。 第一圖書(shū)網(wǎng) 手機(jī)版