出版時間:2012-7 出版社:復(fù)旦大學(xué)出版社 作者:胡運發(fā) 頁數(shù):204 字?jǐn)?shù):335000
內(nèi)容概要
胡運發(fā)編著的《數(shù)據(jù)索引與數(shù)據(jù)組織模型及其應(yīng)用》是面向海量數(shù)據(jù)處理的屬于數(shù)據(jù)與知識工程范疇的學(xué)術(shù)專著。本書從數(shù)據(jù)組織的觀點處理數(shù)據(jù)索引問題,提出一種互關(guān)聯(lián)后繼索引的商空間模型,從數(shù)學(xué)變換角度論證該模型優(yōu)越于現(xiàn)有經(jīng)典索引模型的多種特性:保序性、保假性和壓縮性,導(dǎo)出多種優(yōu)越能力:(1)log級的快速查詢能力;(2)原文生成能力;(3)高度的壓縮能力。
本書以互關(guān)聯(lián)后繼索引模型為中心,與多種領(lǐng)域的核心問題相結(jié)合,說明該模型如何對數(shù)據(jù)壓縮、全文數(shù)據(jù)庫、關(guān)系數(shù)據(jù)庫、Web數(shù)據(jù)庫、演繹數(shù)據(jù)庫、知識庫、文本信息隱藏、數(shù)據(jù)挖掘等領(lǐng)域產(chǎn)生創(chuàng)新性的影響,從而生成一系列新成果。
《數(shù)據(jù)索引與數(shù)據(jù)組織模型及其應(yīng)用》對從事關(guān)系數(shù)據(jù)庫、Web數(shù)據(jù)庫、事務(wù)庫、演繹數(shù)據(jù)庫、知識庫、邏輯語言、搜索引擎、數(shù)據(jù)云、數(shù)據(jù)壓縮、文本分類、數(shù)據(jù)挖掘等領(lǐng)域的研究人員、工程技術(shù)人員、高等院校的教師與學(xué)生有重要的參考價值或借鑒作用。
作者簡介
胡運發(fā),1964年復(fù)旦大學(xué)數(shù)學(xué)系畢業(yè),后任該校計算機系教授,博士生導(dǎo)師。研究方向是數(shù)據(jù)、知識工程與知識庫、創(chuàng)建新型數(shù)據(jù)索引-數(shù)據(jù)組織模型。曾參加我國銀河億次計算機的研制工作、邏輯語言Prolog開發(fā)、智能計算機的研制,承擔(dān)“八六三”項目六次,國家自然科學(xué)基金項目四次,參加國家自然科學(xué)基金重點項目兩次。期聞獲得電子工業(yè)科技進(jìn)步二等獎(1986)、國防科工委科技進(jìn)步一等獎(1994)及二等獎兩次、中國人民解放軍三等功一次。上??萍歼M(jìn)步獎二等獎6項。發(fā)表論文100余篇,翻譯出版《劍橋五重奏》(上??萍汲霭嫔?003.獲得牛頓科技普及二等獎),編著教材《數(shù)據(jù)與知識工程導(dǎo)論》(清華大學(xué)出版社,2003)及《人工智能系統(tǒng)原理與設(shè)計》(國防科技大學(xué)出版社,1989)。獲得與本專著有關(guān)的國家專利一項(2000)。
書籍目錄
上篇
第一章 第一后繼字符有序的互關(guān)聯(lián)后繼樹索引模型3
1.1 全文檢索模型綜述
1.1.1 位圖(Bitmap)
1.1.2 署名文件(Signature Files)
1.1.3 倒排表(Inverted Files)
1.1.4 Pat樹和Pat數(shù)組
1.1.5 ∑2相鄰矩陣模型
1.1.6 全文索引模型的評價標(biāo)準(zhǔn)
1.2 第一后繼字符有序的互關(guān)聯(lián)后繼樹
1.2.1 基本定義
1.2.2 后繼區(qū)間概念介紹
1.2.3 創(chuàng)建第一后繼有序的互關(guān)聯(lián)后繼樹創(chuàng)建算法
1.3 后繼區(qū)間查詢算法
1.4 后繼區(qū)間查詢算法復(fù)雜度及其性能分析
1.5 實驗與分析
1.6 小結(jié)
第二章 雙排序互關(guān)聯(lián)后繼樹創(chuàng)建與查詢算法
2.1 引言
2.2 雙有序互關(guān)聯(lián)后繼樹索引創(chuàng)建算法
2.3 雙排序互關(guān)聯(lián)后繼樹查詢算法
2.3.1 逆向區(qū)間二分查詢算法
2.3.2 雙排序互關(guān)聯(lián)后繼樹二分驗證查詢算法
2.3.3 雙排序互關(guān)聯(lián)后繼樹線性優(yōu)化查詢算法
2.4 實驗與分析
第三章 互關(guān)聯(lián)后繼樹索引的編碼優(yōu)化方法
3.1 引言
3.2 編碼方案
3.3 位編碼算法
3.4 原文生成算法
3.4.1 字符定位算法
3.4.2 后繼樹編碼計數(shù)算法
3.4.3 后繼樹編碼值算法
3.4.4 原文根地址算法
3.4.5 原文生成算法
3.5 全文檢索算法
3.6 實驗數(shù)據(jù)及分析
3.7 小結(jié)
第四章 基于互關(guān)聯(lián)后繼樹索引的文本壓縮
4.1 文本數(shù)據(jù)壓縮的常用技術(shù)
4.1.1 數(shù)據(jù)壓縮
4.1.2 文本壓縮技術(shù)的分類
4.1.3 幾種主要的壓縮模型
4.1.4 文本壓縮技術(shù)的應(yīng)用
4.1.5 壓縮的評判標(biāo)準(zhǔn)
4.2 后繼樹靜態(tài)詞典壓縮
4.2.1 互關(guān)聯(lián)后繼樹靜態(tài)詞典的設(shè)計
4.2.2 壓縮和解壓算法
4.2.3 靜態(tài)詞典壓縮算法改進(jìn)
4.2.4 性能比較與分析
4.3 互關(guān)聯(lián)后繼樹自適應(yīng)詞典壓縮
4.3.1 互關(guān)聯(lián)后繼樹自適應(yīng)詞典的設(shè)計
4.3.2 壓縮和解壓算法
4.3.3 壓縮算法改進(jìn)
4.3.4 互關(guān)聯(lián)后繼樹自適應(yīng)壓縮算法特點
4.3.5 性能比較與分析
4.3.6 小結(jié)
第五章 基于后繼模式樹的XML索引模型
5.1 引言
5.2 基于后繼模式樹的倒向XML索引
5.3 XML的統(tǒng)一索引模型
5.3.1 聯(lián)合索引的創(chuàng)建
5.3.2 XML數(shù)據(jù)與全文數(shù)據(jù)的協(xié)同查詢
5.4 XPath的自頂向下與自底向上查詢
5.4.1 絕對位置路徑的查詢樹解析
5.4.2 自頂向下查詢
5.4.3 自底向上查詢
5.5 基于后繼模式樹的協(xié)同查詢
5.5.1 后繼模式樹上的路徑查詢
5.5.2 基于后繼模式樹的自底向上協(xié)同查詢
5.6 系統(tǒng)實現(xiàn)與實驗
5.7 小結(jié)
第六章 基于互關(guān)聯(lián)后繼模型的搜索引擎
6.1 引言
6.1.1 搜索引擎的原理
6.1.2 主流搜索引擎介紹
6.1.3 黃頁搜索引擎基本需求
6.2 基于互關(guān)聯(lián)后繼索引的搜索引擎
6.2.1 搜索引擎與互關(guān)聯(lián)后繼樹的結(jié)合
6.2.2 互關(guān)聯(lián)后繼樹搜索引擎的索引結(jié)構(gòu)
6.3 匹配度計算
6.3.1 匹配度定義
6.3.2 匹配度計算公式
6.3.3 匹配度計算實現(xiàn)技術(shù)
6.3.4 詞位置號的保存
6.3.5 匹配度計算
6.3.6 實驗與分析
6.4 搜索結(jié)果排序技術(shù)
6.4.1 通用排序算法介紹
6.4.2 基于動態(tài)劃分的多權(quán)值快速排序
6.4.3 基于區(qū)間的劃分算法
6.5 小結(jié)
下篇
第七章 序列文本索引的粒子模型
7.1 引言
7.2 文本索引的粒子模型
7.2.1 序列對象有序化
7.2.2 有序化的序列對象粒子化
7.2.3 有序化的序列對象粒子的結(jié)構(gòu)關(guān)系
7.3 互關(guān)聯(lián)后繼索引—文本序列商空間Istr1, 2的性質(zhì)
7.3.1 商空間的熵的性質(zhì)
7.3.2 保假性與保序性
7.3.3 Istr1, 2的特殊性質(zhì)
7.4 小結(jié)
第八章 創(chuàng)建索引模型的數(shù)學(xué)方法
8.1 創(chuàng)建全文索引模型的數(shù)學(xué)變換
8.2 互關(guān)聯(lián)后繼索引模型性能分析與比較
8.2.1 倒排表和Pat數(shù)組的性能分析
8.2.2 互關(guān)聯(lián)后繼索引模型性質(zhì)
8.2.3 分析與比較
8.3 存儲模型比較分析
8.3.1 原文和索引都在內(nèi)存
8.3.2 原文在外存索引放置于內(nèi)存的情況
8.3.3 原文和索引都放置于外存的情況
8.4 與Pat樹等其他索引模型的關(guān)系
8.5 小結(jié)
第九章 互關(guān)聯(lián)后繼索引模型的熵與壓縮原理
9.1 引言
9.2 粒子細(xì)分的方法不能降低信息量
9.3 公因子方法壓縮原理
9.4 差異熵壓縮的原理
9.4.1 一元編碼
9.4.2 Golomb方法
9.4.3 編碼模式方法和實例
9.5 小結(jié)
第十章 事務(wù)庫的組織與數(shù)據(jù)挖掘
10.1 FP-Growth方法簡介
10.2 隱式互關(guān)聯(lián)間接后繼樹/圖的挖掘方法
10.2.1 隱式互關(guān)聯(lián)間接后繼樹(/圖)表示
10.2.2 ISTR+樹創(chuàng)建算法
10.2.3 Istr+樹頻繁項集挖掘算法
10.2.4 Istr+樹挖掘算法與FP-growth算法的比較
10.3 可變維數(shù)的隱式間接互關(guān)聯(lián)后繼樹的挖掘方法
10.3.1 可變維數(shù)的隱式間接互關(guān)聯(lián)后繼樹表達(dá)
10.3.2 T-Istr+間接后繼表的性質(zhì)與頻繁項的挖掘算法
10.3.3 算法復(fù)雜性分析
10.4 小結(jié)
第十一章 關(guān)系數(shù)據(jù)庫與演繹數(shù)據(jù)庫的數(shù)據(jù)組織
11.1 協(xié)同查詢問題的回顧
11.2 關(guān)系的互關(guān)聯(lián)后繼的數(shù)據(jù)表達(dá)
11.3 關(guān)系R-Istr+互關(guān)聯(lián)隱式間接后繼索引表與演算
11.3.1 基于R-Istr+索引表的關(guān)系演算
11.3.2 R-Istr+查詢操作的復(fù)雜性分析
11.4 基于R-Istr+的關(guān)系庫的協(xié)同查詢
11.5 演繹數(shù)據(jù)庫的索引與演繹
11.5.1 演繹數(shù)據(jù)庫的索引
11.5.2 基于I-Istr+的基本查詢算法(集合查詢算法)
11.5.3 演繹數(shù)據(jù)庫的演算
11.5.4 對規(guī)則的演算
11.5.5 復(fù)雜性的對比
11.6 小結(jié)
第十二章 邏輯程序或知識庫的索引
12.1 邏輯程序的簡單介紹[Hu88]
12.2 嚴(yán)格有序的邏輯程序的索引模型
12.2.1 第一種函詞的序列表示
12.2.2 創(chuàng)建邏輯子句索引的步驟
12.2.3 互關(guān)聯(lián)后繼樹索引與Warren抽象機數(shù)據(jù)的關(guān)系
12.2.4 基于互關(guān)聯(lián)后繼索引的合一操作——索引合一
12.2.5 推理步驟說明
12.2.6 子句的或并行
12.2.7 串行執(zhí)行機制的改進(jìn)——子目標(biāo)級別優(yōu)選
12.3 邏輯程序并行性
12.3.1 第二種函詞表示方法
12.3.2 創(chuàng)建互關(guān)聯(lián)后繼索引的步驟
12.3.3 合一中的并行
12.3.4 邏輯程序并行推理的實例
12.4 結(jié)論
第十三章 基于互關(guān)聯(lián)后繼數(shù)據(jù)組織模型的文本信息隱藏技術(shù)
13.1 引言
13.2 相關(guān)技術(shù)與術(shù)語介紹
13.2.1 術(shù)語介紹
13.2.2 相關(guān)技術(shù)介紹
13.3 基于互關(guān)聯(lián)后繼索引模型的文本信息隱藏方法
13.3.1 信息隱藏過程
13.3.2 信息提取過程
13.3.3 控制功能
13.4 安全強度分析
13.5 小結(jié)
參考文獻(xiàn)
圖書封面
評論、評分、閱讀與下載
數(shù)據(jù)索引與數(shù)據(jù)組織模型及其應(yīng)用 PDF格式下載