海量數(shù)據(jù)挖掘技術(shù)研究

出版時(shí)間:2010-12  出版社:浙江工商大學(xué)出版社  作者:劉君強(qiáng)  頁數(shù):176  
Tag標(biāo)簽:無  

內(nèi)容概要

  隨著信息技術(shù)特別是網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,人們收集、存貯、傳輸數(shù)據(jù)的能力不斷提高。數(shù)據(jù)出現(xiàn)了爆炸性增長,與此形成鮮明對比的是:對決策有價(jià)值的知識卻非常匱乏。知識發(fā)現(xiàn)與數(shù)據(jù)挖掘技術(shù)正是在這一背景下誕生的一門新學(xué)科。數(shù)據(jù)挖掘要在實(shí)際應(yīng)用中發(fā)揮作用,高性能挖掘算法和數(shù)據(jù)挖掘軟件平臺是重要的技術(shù)基礎(chǔ)。本書以數(shù)據(jù)挖掘最基本問題、頻繁模式與關(guān)聯(lián)規(guī)則挖掘?yàn)榍腥朦c(diǎn),研究高時(shí)間效率、高空間可伸縮性的挖掘算法和分布,異質(zhì)、海量數(shù)據(jù)的協(xié)同挖掘軟件模型,并探討了數(shù)據(jù)挖掘過程中的隱私保護(hù)問題。  本書首先發(fā)現(xiàn)了基于樹表示形式的虛擬投影方法,用于按深度優(yōu)先挖掘密集型數(shù)據(jù)集;提出了稀疏型數(shù)據(jù)集表示形式及非過濾投影方法;進(jìn)_步提出了基于伺機(jī)投影的思想,設(shè)計(jì)并實(shí)現(xiàn)了基于伺機(jī)投影的全新算法OpportuneProject,對比實(shí)驗(yàn)表明,該算法挖掘各種規(guī)模與特性數(shù)據(jù)庫的效率與可伸縮性都是最佳的?! ∮捎谄鋬?nèi)在的計(jì)算復(fù)雜性,挖掘密集型數(shù)據(jù)的頻繁模式完全集非常困難,解決辦法是挖掘頻繁模式的閉合集或最大集。本書提出了一種組織閉合模式集的復(fù)合型頻繁模式樹,支持搜索空間的高效剪裁,有效地平衡了樹生成與樹剪裁的代價(jià),實(shí)現(xiàn)了閉合模式集挖掘算法CROP,其效率與可伸縮性大大優(yōu)于CHARM等算法。在此基礎(chǔ)上,本書提出了閉合性剪裁和一般性剪裁相結(jié)合,并能適時(shí)前窺的最大模式挖掘算法MOP,大大優(yōu)于MaxMiner和MAFIA等算法?! ”緯M(jìn)一步提出了逆字典樹剪裁、層次標(biāo)記等新技術(shù),以及根據(jù)信息熵自動生成與人機(jī)交互相結(jié)合來確定數(shù)值型與類別型屬性概念層次的新方法,不僅支持逐層挖掘,而且能進(jìn)行跨層挖掘,并實(shí)現(xiàn)了多支持率剪裁,將所提出的挖掘頻繁模式完全集、閉合集的新算法推廣到無冗余關(guān)聯(lián)規(guī)則、多維多層多數(shù)據(jù)類型關(guān)聯(lián)規(guī)則、多支持率分類規(guī)則的挖掘問題?! ”緯谒〉玫臄?shù)據(jù)挖掘算法研究成果基礎(chǔ)上,對數(shù)據(jù)挖掘軟件模型作了深入研究。首先提出了數(shù)據(jù)挖掘作業(yè)描述語言MDL和挖掘任務(wù)模型腳本語言,設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)集成數(shù)據(jù)倉庫管理功能、挖掘引擎具有一定智能、體系結(jié)構(gòu)可擴(kuò)展的數(shù)據(jù)挖掘工具?! ”緯谘芯糠植际絾栴}求解技術(shù)和分析移動型智能代理技術(shù)的基礎(chǔ)上,提出了從網(wǎng)絡(luò)海量數(shù)據(jù)中發(fā)現(xiàn)有用知識的協(xié)同挖掘模型。首先定義了黑板和知識源的描述語言以及知識交換格式,設(shè)計(jì)和實(shí)現(xiàn)了支持互聯(lián)網(wǎng)上分布式問題求解的黑板系統(tǒng),提出了分布式網(wǎng)絡(luò)海量數(shù)據(jù)挖掘系統(tǒng)DistributedMiner。接著在分析移動式智能代理技術(shù)的基礎(chǔ)上,設(shè)計(jì)了一種移動式智能代理服務(wù)器,通過重構(gòu)基礎(chǔ)結(jié)構(gòu),提出了移動式網(wǎng)絡(luò)海量數(shù)據(jù)挖掘系統(tǒng)模型MobileMiner?! ∽詈?,本書研究了挖掘事務(wù)型數(shù)據(jù)過程中的隱私保護(hù)問題。由于事務(wù)型數(shù)據(jù)的極度稀疏性,任何單一技術(shù)難以有效發(fā)揮作用,或是導(dǎo)致過高的信息損失,或是處理結(jié)果難以解釋,或是技術(shù)自身性能有缺陷。本書提出了集成概化技術(shù)與消隱技術(shù)來降低信息損失。然而,從技術(shù)上講,集成并非易事。本書提出了一種新穎的方法來解決效率與可伸縮性的問題。采用此方法處理過的數(shù)據(jù)能夠應(yīng)用標(biāo)準(zhǔn)的數(shù)據(jù)挖掘工具進(jìn)行分析。

作者簡介

  劉君強(qiáng),男,教授,浙江省杭州市人。畢業(yè)于加拿大Simon Fraser大學(xué)獲哲學(xué)博士學(xué)位,浙江大學(xué)獲工學(xué)博士學(xué)位和管理學(xué)碩士學(xué)位,北京大學(xué)獲理學(xué)學(xué)士學(xué)位。以第一作者在ACM SIGKDD、IEEE ICDE、IEEE ICDM、PAKDD、《電子學(xué)報(bào)》、《計(jì)算機(jī)學(xué)報(bào)》、《軟件學(xué)報(bào)》、《計(jì)算機(jī)研究與發(fā)展》、《中國圖形圖象學(xué)報(bào)》、《系統(tǒng)工程理論與實(shí)踐》等發(fā)表多篇論文,承擔(dān)省部級研究課題多項(xiàng)。研究興趣涉及數(shù)據(jù)挖掘、網(wǎng)絡(luò)信息安全、隱私保護(hù)、管理信息系統(tǒng)、軟件工程。

書籍目錄

前言摘要ABSTRACT第一章 概論第一節(jié) 數(shù)據(jù)挖掘技術(shù)的興起第二節(jié) 數(shù)據(jù)挖掘的主要問題一、數(shù)據(jù)挖掘任務(wù)與知識類型二、數(shù)據(jù)挖掘的過程三、數(shù)據(jù)挖掘的對象四、數(shù)據(jù)挖掘的應(yīng)用五、數(shù)據(jù)挖掘面臨的挑戰(zhàn)第三節(jié) 本書的工作第四節(jié) 本書的結(jié)構(gòu)第二章 數(shù)據(jù)挖掘技術(shù)綜述第一節(jié) 頻繁模式與關(guān)聯(lián)規(guī)則挖掘一、單層單維布爾型關(guān)聯(lián)規(guī)則挖掘與Apriori算法二、對Apriori算法的改進(jìn)三、頻繁模式與關(guān)聯(lián)規(guī)則挖掘研究的新發(fā)展第二節(jié) 閉合模式挖掘與A-Close算法一、閉合模式挖掘與A-Close算法二、其他閉合模式挖掘算法第三節(jié) 最大模式挖掘與Pincer-Search算法一、最大模式挖掘與Pincer-Search算法二、其他最大模式挖掘算法第四節(jié) 多層多維關(guān)聯(lián)規(guī)則挖掘一、多層關(guān)聯(lián)規(guī)則挖掘問題二、多維關(guān)聯(lián)規(guī)則挖掘問題第五節(jié) 對關(guān)聯(lián)規(guī)則挖掘的其他擴(kuò)展一、順序模式挖掘二、基于約束的關(guān)聯(lián)規(guī)則挖掘三、并行挖掘問題四、復(fù)雜檢索問題五、關(guān)聯(lián)規(guī)則與相關(guān)性六、其他問題第六節(jié) 數(shù)據(jù)挖掘軟件系統(tǒng)第七節(jié) 保護(hù)隱私的數(shù)據(jù)挖掘技術(shù)一、全局概化技術(shù)二、全消隱技術(shù)三、局部概化技術(shù)四、帶寬矩陣方法五、其他相關(guān)工作第八節(jié) 數(shù)據(jù)挖掘技術(shù)的應(yīng)用一、數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域二、企業(yè)營銷應(yīng)用數(shù)據(jù)挖掘技術(shù)第三章 伺機(jī)投影策略的挖掘算法第一節(jié) 引言第二節(jié) 問題的描述第三節(jié) 頻繁模式樹的構(gòu)造第四節(jié) 模式支持集的表示與投影一、稀疏型PTS的基于數(shù)組表示及其投影二、密集型PTS的基于樹表示及虛擬投影第五節(jié) 伺機(jī)投影策略與OpponuneProject算法一、伺機(jī)投影的啟發(fā)式原則二、估計(jì)TVLA和TTF的大小三、OpponuneProject算法第六節(jié) 性能評價(jià)一、數(shù)據(jù)集及其特性二、基本實(shí)驗(yàn)結(jié)果三、可伸縮性試驗(yàn)第七節(jié) 小結(jié)第四章 閉合模式與最大模式挖掘第一節(jié) 引言第二節(jié) 問題的描述第三節(jié) 復(fù)合型頻繁模式樹及其生成一、復(fù)合型頻繁模式樹CFIST二、CFIST結(jié)點(diǎn)的合并三、CFIST的生成算法第四節(jié) CFIST的剪裁與包含關(guān)系的檢查一、高效的CFIST局部剪裁二、分枝包容關(guān)系的快速檢查三、快速雜湊法第五節(jié) CROP:挖掘閉合模式的高性能算法一、平衡CFIST生成與剪裁效率二、CROP算法第六節(jié) CROP性能測評一、CROP與CHARM效率對比二、CROP與CLOSET效率對比三、CROP與MAFIA效率對比四、可伸縮性實(shí)驗(yàn)第七節(jié) 挖掘最大頻繁模式的新算法MOP一、最大頻繁模式集及其剪裁二、MOP算法三、MOP的性能評價(jià)第八節(jié) 小結(jié)第五章 多維多層關(guān)聯(lián)規(guī)則、分類規(guī)則與空間關(guān)聯(lián)規(guī)則第一節(jié) 關(guān)聯(lián)規(guī)則與無冗余關(guān)聯(lián)規(guī)則第二節(jié) 多層頻繁模式挖掘一、問題的描述二、逆字典樹與多層頻繁模式三、層次標(biāo)記技術(shù)與模式支持集四、高性能多層頻繁模式挖掘算法五、性能測評第三節(jié) 多維多層多數(shù)據(jù)類型關(guān)聯(lián)規(guī)則挖掘一、多維多層多數(shù)據(jù)類型關(guān)聯(lián)規(guī)則挖掘問題二、MDML-PP算法三、性能測評第四節(jié) 挖掘多支持率分類規(guī)則一、分類規(guī)則挖掘與TTF擴(kuò)展二、多支持率剪裁三、分類規(guī)則及其單階段挖掘算法四、對比實(shí)驗(yàn)第五節(jié) 空間關(guān)聯(lián)規(guī)則的挖掘一、空間關(guān)聯(lián)規(guī)則二、兩階段挖掘策略三、基于輔存分而治之的方法第六節(jié) 提高挖掘算法可伸縮性的技術(shù)一、海量數(shù)據(jù)挖掘策略二、緩沖管理技術(shù)三、挖掘算法改進(jìn)及其性能分析第七節(jié) 小結(jié)第六章 智能型數(shù)據(jù)挖掘工具設(shè)計(jì)與實(shí)現(xiàn)第一節(jié) 引言第二節(jié) 數(shù)據(jù)倉庫及其管理一、數(shù)據(jù)倉庫模型與OLAP二、數(shù)據(jù)倉庫的框架描述三、數(shù)據(jù)倉庫管理器第三節(jié) 數(shù)據(jù)挖掘任務(wù)的描述、管理及執(zhí)行機(jī)制一、數(shù)據(jù)挖掘作業(yè)Job的描述二、挖掘任務(wù)模型Scenario的定義三、挖掘任務(wù)模型的管理與執(zhí)行第四節(jié) 智能型數(shù)據(jù)挖掘引擎一、算法描述庫與算法模塊二、知識庫與引擎管理器第五節(jié) SmartMiner體系結(jié)構(gòu)第六節(jié) 關(guān)鍵技術(shù)與SmartMiner原型實(shí)現(xiàn)第七節(jié) 小結(jié)第七章 網(wǎng)絡(luò)海量數(shù)據(jù)協(xié)同挖掘第一節(jié) 引言第二節(jié) 分布式黑板控制一、問題求解的黑板系統(tǒng)二、分布式問題求解與黑板控制第三節(jié) 形式化描述語言一、黑板的描述二、知識源的描述三、知識交換格式第四節(jié) 實(shí)現(xiàn)分布式黑板控制的一般智能代理一、智能代理GA的結(jié)構(gòu)設(shè)計(jì)二、智能代理軟件DBC-MA的實(shí)現(xiàn)第五節(jié) 分布式數(shù)據(jù)挖掘系統(tǒng)DistributedMiner一、分布式知識發(fā)現(xiàn)功能二、DistributedMiner的黑板設(shè)計(jì)三、挖掘平臺體系結(jié)構(gòu)四、DistributedMiner的實(shí)現(xiàn)與應(yīng)用第六節(jié) 從分布計(jì)算到移動計(jì)算一、什么是智能代理二、智能代理的特征三、移動型智能代理四、典型mobile agent系統(tǒng)第七節(jié) 移動式數(shù)據(jù)挖掘系統(tǒng)模型一、移動型智能代理服務(wù)器二、DBC-MA變型三、MobileMiner工作流程第八節(jié) 小結(jié)第八章 挖掘事務(wù)型數(shù)據(jù)過程中的隱私保護(hù)第一節(jié) 引言第二節(jié) 隱私保護(hù)與匿名化模型第三節(jié) 集成概化與消隱技術(shù)的基本方法一、割集柵格的自頂向下貪婪法搜索二、為割集尋找一個(gè)好的消隱方案三、算法描述第四節(jié) 解決效率與可伸縮性瓶頸的關(guān)鍵技術(shù)一、最小隱私威脅二、多輪次求解策略第五節(jié) 信息損失與性能的實(shí)驗(yàn)評估一、信息損失評估二、效率評估三、可伸縮性評估第六節(jié) 小結(jié)參考文獻(xiàn)后記

圖書封面

圖書標(biāo)簽Tags

評論、評分、閱讀與下載


    海量數(shù)據(jù)挖掘技術(shù)研究 PDF格式下載


用戶評論 (總計(jì)0條)

 
 

 

250萬本中文圖書簡介、評論、評分,PDF格式免費(fèi)下載。 第一圖書網(wǎng) 手機(jī)版

京ICP備13047387號-7