出版時間:2012-6 出版社:浙江大學(xué)出版社 作者:沈斌 頁數(shù):169 字數(shù):170000
內(nèi)容概要
《關(guān)聯(lián)規(guī)則技術(shù)研究》是作者沈斌在關(guān)聯(lián)規(guī)則挖掘領(lǐng)域多年研究成果的系統(tǒng)總結(jié)。在相關(guān)綜述的基礎(chǔ)上,重點探討了以下幾個方面的工作:提出了一種新的相關(guān)性興趣度度量All-itern-confidence,研究了該度量所具有的性質(zhì),然后闡述了該度量與All-set-confidence度量之間的關(guān)系,以及該度量的適用范圍;針對普通關(guān)聯(lián)規(guī)則在解決前后項集對稱型應(yīng)用問題上的不足,提出了項項正相關(guān)關(guān)聯(lián)規(guī)則挖掘問題;針對普通關(guān)聯(lián)規(guī)則在解決前后項集非對稱型應(yīng)用問題上的不足,進一步提出了項項且項集正相關(guān)關(guān)聯(lián)規(guī)則挖掘問題;對動態(tài)關(guān)聯(lián)規(guī)則技術(shù)進行了相應(yīng)的研究,提出了動態(tài)關(guān)聯(lián)規(guī)則新定義,進一步闡述了兩種動態(tài)關(guān)聯(lián)規(guī)則挖掘新算法;提出了挖掘帶使用信息的動態(tài)關(guān)聯(lián)規(guī)則(DAR-C)新問題,給出了DAR-C規(guī)則的候選有效時段的表示方法,并對DAR-C規(guī)則進行了定義等。
本書一方面是數(shù)據(jù)挖掘相關(guān)的科技工作者學(xué)習(xí)、研究、應(yīng)用、推廣關(guān)聯(lián)規(guī)則技術(shù)的重要參考資料;另一方面也可以作為相關(guān)領(lǐng)域研究生、本科生的教材和學(xué)習(xí)資料。希望本書能夠促進廣大科技工作者對關(guān)聯(lián)規(guī)則的認識、應(yīng)用和創(chuàng)新。
作者簡介
沈斌,工學(xué)博士,浙江大學(xué)寧波理工學(xué)院副教授,浙江大學(xué)碩士生導(dǎo)師,澳大利亞悉尼科技大學(xué)量子計算與智能系統(tǒng)研究中心訪問學(xué)者。近年來,主持或參與多項國家和省部級科研項目,發(fā)表高水平學(xué)術(shù)論文20余篇,出版專著1部,主編科普讀物1部。2011年被列入浙江省“新世紀(jì)151人才工程”第三層次培養(yǎng)人員。主要研究方向:數(shù)據(jù)挖掘、物聯(lián)網(wǎng)和智慧城市建設(shè)、復(fù)雜網(wǎng)絡(luò)與復(fù)雜系統(tǒng)。
書籍目錄
第1章 概論
1.1 引 言
1.2 關(guān)聯(lián)規(guī)則技術(shù)基礎(chǔ)知識
1.2.1 基本概念
1.2.2 挖掘方法
1.3 關(guān)聯(lián)規(guī)則技術(shù)研究分類
1.3.1 頻繁模式、最大頻繁模式和閉合頻繁模式挖掘
1.3.2 多種擴展形式的關(guān)聯(lián)規(guī)則挖掘研究
1.3.3 關(guān)聯(lián)規(guī)則挖掘后處理
1.4 問題的提出
第2章 基于相關(guān)興趣度的關(guān)聯(lián)規(guī)則挖掘
2.1 引 言
2.2 一種新的相關(guān)興趣度度量
2.2.1 已有的關(guān)聯(lián)和相關(guān)興趣度度量
2.2.2 All-itern-confidence相關(guān)興趣度度量
2.2.3 All-itern-confidence與All-set-confidence之間的關(guān)系
2.2.4 All-item-confidence與卡方檢驗之間的關(guān)系
2.3 購物籃中關(guān)聯(lián)規(guī)則的應(yīng)用類型分析
2.4 基于All-itern-confidencee的項項正相關(guān)關(guān)聯(lián)規(guī)則挖掘
2.4.1 項項正相關(guān)關(guān)聯(lián)規(guī)則挖掘問題的提出
2.4.2 興趣度度量的選取
2.4.3 基于All-itern-confidence度量的項項正相關(guān)關(guān)聯(lián)規(guī)則挖掘
2.5 挖掘算法ItemCoMine_AP和ItemCoMine_CT
2.5.1 ItemCoMine_AP算法
2.5.2 ItemCoMine_CT算法
2.5.3 實驗測評和比較分析
2.6 基于All-item-confidence和項集相關(guān)性度量的項項且項集正相關(guān)關(guān)聯(lián)規(guī)則挖掘
2.6.1 項項且項集正相關(guān)關(guān)聯(lián)規(guī)則挖掘問題的提出
2.6.2 項集相關(guān)性度量
2.6.3 項項且項集正相關(guān)關(guān)聯(lián)規(guī)則定義和舉例
2.7 挖掘算法I&ISCoMine_AP和I&ISCoMine_CT
2.7.1 I&ISCoMine_AP算法
2.7.2 I&ISCoMine_CT算法
2.7.3 實驗測評和比較分析
2.8 本章小結(jié)
第3章 動態(tài)關(guān)聯(lián)規(guī)則挖掘
3.1 引 言
3.2 問題描述及其分析
3.2.1 動態(tài)關(guān)聯(lián)規(guī)則原定義
3.2.2 原定義的不足之處
3.3 動態(tài)關(guān)聯(lián)規(guī)則新定義及其挖掘算法
3.3.1 動態(tài)關(guān)聯(lián)規(guī)則新定義
3.3.2 動態(tài)關(guān)聯(lián)規(guī)則挖掘算法
3.3.3 性能評測
3.4 帶使用信息動態(tài)關(guān)聯(lián)規(guī)則挖掘問題的提出
3.5 問題定義
3.5.1 候選有效時段表示
3.5.2 帶使用信息的動態(tài)關(guān)聯(lián)規(guī)則
3.6 帶使用信息的動態(tài)關(guān)聯(lián)規(guī)則挖掘算法
3.6.1 挖掘框架
3.6.2 ITS2算法
3.6.3 EFP-GrOWth2算法
3.6.4 使用信息生成
3.6.5 性能評測
3.6.6 應(yīng)用實例
3.7 本章小結(jié)
第4章 加權(quán)模糊層次關(guān)聯(lián)規(guī)則挖掘
4.1 引 言
4.2 模糊層次型關(guān)聯(lián)規(guī)則
4.3 布爾型數(shù)據(jù)庫中的加權(quán)模糊層次型關(guān)聯(lián)規(guī)則挖掘
4.3.1 加權(quán)的原因
4.3.2 葉子結(jié)點項權(quán)值的確定
4.3.3 加權(quán)模糊層次型關(guān)聯(lián)規(guī)則(WGF—AR)模型
4.4 WGF-AR規(guī)則挖掘算法
4.4.1 性質(zhì)
4.4.2 W-Apriori算法
4.5 性能測評
4.5.1 實驗一:算法性能測試
4.5.2 實驗二:可伸縮性實驗
4.6 本章小結(jié)
第5章 基于模糊分類結(jié)構(gòu)的交易數(shù)據(jù)庫關(guān)聯(lián)規(guī)則聚類
5.1 引 言
5.2 模糊分類結(jié)構(gòu)的合并
5.2.1 模糊分類結(jié)構(gòu)描述
5.2.2 多個有向無環(huán)圖的合并
5.2.3 合并后的模糊分類結(jié)構(gòu)描述
5.3 帶語義差別信息的模糊分類結(jié)構(gòu)
5.4 基于模糊分類結(jié)構(gòu)的距離度量
5.4.1 項間距離
5.4.2 項集距離
5.4.3 關(guān)聯(lián)規(guī)則距離
5.5 規(guī)則聚類算法的選擇和應(yīng)用
5.6 實驗分析與討論
5.6.1 實驗一:規(guī)則距離計算實驗
5.6.2 實驗二:規(guī)則聚類可視化計算
5.7 本章小結(jié)
第6章 使用erot6g6軟件的基于Ontology的關(guān)聯(lián)規(guī)則檢索
6.1 引 言
6.2 相關(guān)概念簡介
6.2.1 語義本體
6.2.2 語義網(wǎng)
6.2.3 關(guān)聯(lián)規(guī)則及其度量
6.3 基于Ontology的智能規(guī)則檢索系統(tǒng)體系結(jié)構(gòu)
6.3.1 體系結(jié)構(gòu)
6.3.2 檢索方式
6.4 基于語義web的關(guān)聯(lián)規(guī)則檢索核心技術(shù)
6.4.1 規(guī)則檢索Ontology
6.4.2 商品項目實例和Rules實例標(biāo)注
6.4.3 查詢解析
6.5 本章小結(jié)
第7章 關(guān)聯(lián)規(guī)則技術(shù)進展及趨勢展望
7.1 最新技術(shù)進展
7.1.1 關(guān)聯(lián)規(guī)則隱藏(Association Rules Hiding)
7.1.2 比對模式(Contrast Patter/Emerging Patter)
7.1.3 圖模式(Graph Patter)
7.1.4 可行動關(guān)聯(lián)規(guī)則(Actionable Association Rule)、領(lǐng)域驅(qū)動關(guān)聯(lián)規(guī)則
7.1.5 關(guān)聯(lián)規(guī)則、模式應(yīng)用研究
7.2 值得關(guān)注的方向
附錄 關(guān)聯(lián)規(guī)則研究資料匯總
參考文獻
章節(jié)摘錄
兩個階段關(guān)聯(lián)規(guī)則挖掘過程主要包含兩個階段:第一階段必須先從資料集合中找出所有的高頻項目組(Frequent Itemsets),第二階段再由這些高頻項目組中產(chǎn)生關(guān)聯(lián)規(guī)則(Association Rules)。 關(guān)聯(lián)規(guī)則挖掘的第一階段必須從原始資料集合中,找出所有高頻項目組(Large Itemsets)。高頻的意思是指某一項目組出現(xiàn)的頻率相對于所有記錄而言,必須達到某一水平。一項目組出現(xiàn)的頻率稱為支持度(Support),以一個包含A與B兩個項目的2-itemset為例,我們可以經(jīng)由公式(1)求得包含{A,B}項目組的支持度,若支持度大于等于所設(shè)定的最小支持度(Minimum Support)門檻值時,則{A,B}稱為高頻項目組。一個滿足最小支持度的k-itemset,則稱為高頻k-項目組(Frequent k-itemset),一般表示為Large k或Frequent k。算法并從Large k的項目組中再產(chǎn)生Large k+1,直到無法再找到更長的高頻項目組為止。關(guān)聯(lián)規(guī)則挖掘的第二階段是要產(chǎn)生關(guān)聯(lián)規(guī)則(Association Rules)。從高頻項目組產(chǎn)生關(guān)聯(lián)規(guī)則,是利用前一步驟的高頻k-項目組來產(chǎn)生規(guī)則,在最小信賴度(Minimum Confidence)的條件門檻下,若一規(guī)則所求得的信賴度滿足最小信賴度,稱此規(guī)則為關(guān)聯(lián)規(guī)則。例如:經(jīng)由高頻k-項目組{A,B}所產(chǎn)生的規(guī)則AB,其信賴度可經(jīng)由公式(2)求得,若信賴度大于等于最小信賴度,則稱AB為關(guān)聯(lián)規(guī)則。案例分析就沃爾馬案例而言,使用關(guān)聯(lián)規(guī)則挖掘技術(shù),對交易資料庫中的紀(jì)錄進行資料挖掘,首先必須要設(shè)定最小支持度與最小信賴度兩個門檻值,在此假設(shè)最小支持度min_support=5%且最小信賴度min_confidence=70%。因此符合此該超市需求的關(guān)聯(lián)規(guī)則將必須同時滿足以上兩個條件。若經(jīng)過挖掘過程所找到的關(guān)聯(lián)規(guī)則「尿布,啤酒」,滿足下列條件,將可接受「尿布,啤酒」的關(guān)聯(lián)規(guī)則。用公式可以描述Support(尿布,啤酒)>=5%且Confidence(尿布,啤酒)>=70%。其中,Support(尿布,啤酒)>=5%于此應(yīng)用范例中的意義為:在所有的交易紀(jì)錄資料中,至少有5%的交易呈現(xiàn)尿布與啤酒這兩項商品被同時購買的交易行為。Confidence(尿布,啤酒)>=70%于此應(yīng)用范例中的意義為:在所有包含尿布的交易紀(jì)錄資料中,至少有70%的交易會同時購買啤酒。因此,今后若有某消費者出現(xiàn)購買尿布的行為,超市將可推薦該消費者同時購買啤酒。這個商品推薦的行為則是根據(jù)「尿布,啤酒」關(guān)聯(lián)規(guī)則,因為就該超市過去的交易紀(jì)錄而言,支持了“大部份購買尿布的交易,會同時購買啤酒”的消費行為。從上面的介紹還可以看出,關(guān)聯(lián)規(guī)則挖掘通常比較適用與記錄中的指標(biāo)取離散值的情況。如果原始數(shù)據(jù)庫中的指標(biāo)值是取連續(xù)的數(shù)據(jù),則在關(guān)聯(lián)規(guī)則挖掘之前應(yīng)該進行適當(dāng)?shù)臄?shù)據(jù)離散化(實際上就是將某個區(qū)間的值對應(yīng)于某個值),數(shù)據(jù)的離散化是數(shù)據(jù)挖掘前的重要環(huán)節(jié),離散化的過程是否合理將直接影響關(guān)聯(lián)規(guī)則的挖掘結(jié)果。
后記
關(guān)聯(lián)規(guī)則發(fā)掘技術(shù)在國內(nèi)外的應(yīng)用就目前而言,關(guān)聯(lián)規(guī)則挖掘技術(shù)已經(jīng)被廣泛應(yīng)用在西方金融行業(yè)企業(yè)中,它可以成功預(yù)測銀行客戶需求。一旦獲得了這些信息,銀行就可以改善自身營銷?,F(xiàn)在銀行天天都在開發(fā)新的溝通客戶的方法。各銀行在自己的ATM機上就捆綁了顧客可能感興趣的本行產(chǎn)品信息,供使用本行ATM機的用戶了解。如果數(shù)據(jù)庫中顯示,某個高信用限額的客戶更換了地址,這個客戶很有可能新近購買了一棟更大的住宅,因此會有可能需要更高信用限額,更高端的新信用卡,或者需要一個住房改善貸款,這些產(chǎn)品都可以通過信用卡賬單郵寄給客戶。當(dāng)客戶打電話咨詢的時候,數(shù)據(jù)庫可以有力地幫助電話銷售代表。銷售代表的電腦屏幕上可以顯示出客戶的特點,同時也可以顯示出顧客會對什么產(chǎn)品感興趣。同時,一些知名的電子商務(wù)站點也從強大的關(guān)聯(lián)規(guī)則挖掘中的受益。這些電子購物網(wǎng)站使用關(guān)聯(lián)規(guī)則中規(guī)則進行挖掘,然后設(shè)置用戶有意要一起購買的捆綁包。也有一些購物網(wǎng)站使用它們設(shè)置相應(yīng)的交叉銷售,也就是購買某種商品的顧客會看到相關(guān)的另外一種商品的廣告。但是目前在我國,“數(shù)據(jù)海量,信息缺乏”是商業(yè)銀行在數(shù)據(jù)大集中之后普遍所面對的尷尬。目前金融業(yè)實施的大多數(shù)數(shù)據(jù)庫只能實現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計等較低層次的功能,卻無法發(fā)現(xiàn)數(shù)據(jù)中存在的各種有用的信息,譬如對這些數(shù)據(jù)進行分析,發(fā)現(xiàn)其數(shù)據(jù)模式及特征,然后可能發(fā)現(xiàn)某個客戶、消費群體或組織的金融和商業(yè)興趣,并可觀察金融市場的變化趨勢??梢哉f,關(guān)聯(lián)規(guī)則挖掘的技術(shù)在我國的研究與應(yīng)用并不是很廣泛深入。近年來關(guān)聯(lián)規(guī)則發(fā)掘技術(shù)的一些研究由于許多應(yīng)用問題往往比超市購買問題更復(fù)雜,大量研究從不同的角度對關(guān)聯(lián)規(guī)則做了擴展,將更多的因素集成到關(guān)聯(lián)規(guī)則挖掘方法之中,以此豐富關(guān)聯(lián)規(guī)則的應(yīng)用領(lǐng)域,拓寬支持管理決策的范圍。如考慮屬性之間的類別層次關(guān)系,時態(tài)關(guān)系,多表挖掘等。近年來圍繞關(guān)聯(lián)規(guī)則的研究主要集中于兩個方面,即擴展經(jīng)典關(guān)聯(lián)規(guī)則能夠解決問題的范圍,改善經(jīng)典關(guān)聯(lián)規(guī)則挖掘算法效率和規(guī)則興趣性。
圖書封面
評論、評分、閱讀與下載
關(guān)聯(lián)規(guī)則技術(shù)研究 PDF格式下載