關(guān)聯(lián)規(guī)則技術(shù)研究

出版時(shí)間:2012-6  出版社:浙江大學(xué)出版社  作者:沈斌  頁(yè)數(shù):169  字?jǐn)?shù):170000  

內(nèi)容概要

《關(guān)聯(lián)規(guī)則技術(shù)研究》是作者沈斌在關(guān)聯(lián)規(guī)則挖掘領(lǐng)域多年研究成果的系統(tǒng)總結(jié)。在相關(guān)綜述的基礎(chǔ)上,重點(diǎn)探討了以下幾個(gè)方面的工作:提出了一種新的相關(guān)性興趣度度量All-itern-confidence,研究了該度量所具有的性質(zhì),然后闡述了該度量與All-set-confidence度量之間的關(guān)系,以及該度量的適用范圍;針對(duì)普通關(guān)聯(lián)規(guī)則在解決前后項(xiàng)集對(duì)稱型應(yīng)用問(wèn)題上的不足,提出了項(xiàng)項(xiàng)正相關(guān)關(guān)聯(lián)規(guī)則挖掘問(wèn)題;針對(duì)普通關(guān)聯(lián)規(guī)則在解決前后項(xiàng)集非對(duì)稱型應(yīng)用問(wèn)題上的不足,進(jìn)一步提出了項(xiàng)項(xiàng)且項(xiàng)集正相關(guān)關(guān)聯(lián)規(guī)則挖掘問(wèn)題;對(duì)動(dòng)態(tài)關(guān)聯(lián)規(guī)則技術(shù)進(jìn)行了相應(yīng)的研究,提出了動(dòng)態(tài)關(guān)聯(lián)規(guī)則新定義,進(jìn)一步闡述了兩種動(dòng)態(tài)關(guān)聯(lián)規(guī)則挖掘新算法;提出了挖掘帶使用信息的動(dòng)態(tài)關(guān)聯(lián)規(guī)則(DAR-C)新問(wèn)題,給出了DAR-C規(guī)則的候選有效時(shí)段的表示方法,并對(duì)DAR-C規(guī)則進(jìn)行了定義等。
本書(shū)一方面是數(shù)據(jù)挖掘相關(guān)的科技工作者學(xué)習(xí)、研究、應(yīng)用、推廣關(guān)聯(lián)規(guī)則技術(shù)的重要參考資料;另一方面也可以作為相關(guān)領(lǐng)域研究生、本科生的教材和學(xué)習(xí)資料。希望本書(shū)能夠促進(jìn)廣大科技工作者對(duì)關(guān)聯(lián)規(guī)則的認(rèn)識(shí)、應(yīng)用和創(chuàng)新。

作者簡(jiǎn)介

沈斌,工學(xué)博士,浙江大學(xué)寧波理工學(xué)院副教授,浙江大學(xué)碩士生導(dǎo)師,澳大利亞悉尼科技大學(xué)量子計(jì)算與智能系統(tǒng)研究中心訪問(wèn)學(xué)者。近年來(lái),主持或參與多項(xiàng)國(guó)家和省部級(jí)科研項(xiàng)目,發(fā)表高水平學(xué)術(shù)論文20余篇,出版專著1部,主編科普讀物1部。2011年被列入浙江省“新世紀(jì)151人才工程”第三層次培養(yǎng)人員。主要研究方向:數(shù)據(jù)挖掘、物聯(lián)網(wǎng)和智慧城市建設(shè)、復(fù)雜網(wǎng)絡(luò)與復(fù)雜系統(tǒng)。

書(shū)籍目錄

第1章  概論
1.1 引 言
1.2 關(guān)聯(lián)規(guī)則技術(shù)基礎(chǔ)知識(shí)
1.2.1 基本概念
1.2.2 挖掘方法
1.3 關(guān)聯(lián)規(guī)則技術(shù)研究分類
1.3.1 頻繁模式、最大頻繁模式和閉合頻繁模式挖掘
1.3.2 多種擴(kuò)展形式的關(guān)聯(lián)規(guī)則挖掘研究
1.3.3 關(guān)聯(lián)規(guī)則挖掘后處理
1.4 問(wèn)題的提出
第2章 基于相關(guān)興趣度的關(guān)聯(lián)規(guī)則挖掘
2.1 引 言
2.2 一種新的相關(guān)興趣度度量
2.2.1 已有的關(guān)聯(lián)和相關(guān)興趣度度量
2.2.2 All-itern-confidence相關(guān)興趣度度量
2.2.3 All-itern-confidence與All-set-confidence之間的關(guān)系
2.2.4 All-item-confidence與卡方檢驗(yàn)之間的關(guān)系
2.3 購(gòu)物籃中關(guān)聯(lián)規(guī)則的應(yīng)用類型分析
2.4 基于All-itern-confidencee的項(xiàng)項(xiàng)正相關(guān)關(guān)聯(lián)規(guī)則挖掘
2.4.1 項(xiàng)項(xiàng)正相關(guān)關(guān)聯(lián)規(guī)則挖掘問(wèn)題的提出
2.4.2 興趣度度量的選取
2.4.3 基于All-itern-confidence度量的項(xiàng)項(xiàng)正相關(guān)關(guān)聯(lián)規(guī)則挖掘
2.5 挖掘算法ItemCoMine_AP和ItemCoMine_CT
2.5.1 ItemCoMine_AP算法
2.5.2 ItemCoMine_CT算法
2.5.3 實(shí)驗(yàn)測(cè)評(píng)和比較分析
2.6 基于All-item-confidence和項(xiàng)集相關(guān)性度量的項(xiàng)項(xiàng)且項(xiàng)集正相關(guān)關(guān)聯(lián)規(guī)則挖掘
2.6.1 項(xiàng)項(xiàng)且項(xiàng)集正相關(guān)關(guān)聯(lián)規(guī)則挖掘問(wèn)題的提出
2.6.2 項(xiàng)集相關(guān)性度量
2.6.3 項(xiàng)項(xiàng)且項(xiàng)集正相關(guān)關(guān)聯(lián)規(guī)則定義和舉例
2.7 挖掘算法I&ISCoMine_AP和I&ISCoMine_CT
2.7.1 I&ISCoMine_AP算法
2.7.2 I&ISCoMine_CT算法
2.7.3 實(shí)驗(yàn)測(cè)評(píng)和比較分析
2.8 本章小結(jié)
第3章 動(dòng)態(tài)關(guān)聯(lián)規(guī)則挖掘
3.1 引 言
3.2 問(wèn)題描述及其分析
3.2.1 動(dòng)態(tài)關(guān)聯(lián)規(guī)則原定義
3.2.2 原定義的不足之處
3.3 動(dòng)態(tài)關(guān)聯(lián)規(guī)則新定義及其挖掘算法
3.3.1 動(dòng)態(tài)關(guān)聯(lián)規(guī)則新定義
3.3.2 動(dòng)態(tài)關(guān)聯(lián)規(guī)則挖掘算法
3.3.3 性能評(píng)測(cè)
3.4 帶使用信息動(dòng)態(tài)關(guān)聯(lián)規(guī)則挖掘問(wèn)題的提出
3.5 問(wèn)題定義
3.5.1 候選有效時(shí)段表示
3.5.2 帶使用信息的動(dòng)態(tài)關(guān)聯(lián)規(guī)則
3.6 帶使用信息的動(dòng)態(tài)關(guān)聯(lián)規(guī)則挖掘算法
3.6.1 挖掘框架
3.6.2 ITS2算法
3.6.3 EFP-GrOWth2算法
3.6.4 使用信息生成
3.6.5 性能評(píng)測(cè)
3.6.6 應(yīng)用實(shí)例
3.7 本章小結(jié)
第4章 加權(quán)模糊層次關(guān)聯(lián)規(guī)則挖掘
4.1 引 言
4.2 模糊層次型關(guān)聯(lián)規(guī)則
4.3 布爾型數(shù)據(jù)庫(kù)中的加權(quán)模糊層次型關(guān)聯(lián)規(guī)則挖掘
4.3.1 加權(quán)的原因
4.3.2 葉子結(jié)點(diǎn)項(xiàng)權(quán)值的確定
4.3.3 加權(quán)模糊層次型關(guān)聯(lián)規(guī)則(WGF—AR)模型
4.4 WGF-AR規(guī)則挖掘算法
4.4.1 性質(zhì)
4.4.2 W-Apriori算法
4.5 性能測(cè)評(píng)
4.5.1 實(shí)驗(yàn)一:算法性能測(cè)試
4.5.2 實(shí)驗(yàn)二:可伸縮性實(shí)驗(yàn)
4.6 本章小結(jié)
第5章 基于模糊分類結(jié)構(gòu)的交易數(shù)據(jù)庫(kù)關(guān)聯(lián)規(guī)則聚類
5.1 引 言
5.2 模糊分類結(jié)構(gòu)的合并
5.2.1 模糊分類結(jié)構(gòu)描述
5.2.2 多個(gè)有向無(wú)環(huán)圖的合并
5.2.3 合并后的模糊分類結(jié)構(gòu)描述
5.3 帶語(yǔ)義差別信息的模糊分類結(jié)構(gòu)
5.4 基于模糊分類結(jié)構(gòu)的距離度量
5.4.1 項(xiàng)間距離
5.4.2 項(xiàng)集距離
5.4.3 關(guān)聯(lián)規(guī)則距離
5.5 規(guī)則聚類算法的選擇和應(yīng)用
5.6 實(shí)驗(yàn)分析與討論
5.6.1 實(shí)驗(yàn)一:規(guī)則距離計(jì)算實(shí)驗(yàn)
5.6.2 實(shí)驗(yàn)二:規(guī)則聚類可視化計(jì)算
5.7 本章小結(jié)
第6章 使用erot6g6軟件的基于Ontology的關(guān)聯(lián)規(guī)則檢索
6.1 引 言
6.2 相關(guān)概念簡(jiǎn)介
6.2.1 語(yǔ)義本體
6.2.2 語(yǔ)義網(wǎng)
6.2.3 關(guān)聯(lián)規(guī)則及其度量
6.3 基于Ontology的智能規(guī)則檢索系統(tǒng)體系結(jié)構(gòu)
6.3.1 體系結(jié)構(gòu)
6.3.2 檢索方式
6.4 基于語(yǔ)義web的關(guān)聯(lián)規(guī)則檢索核心技術(shù)
6.4.1 規(guī)則檢索Ontology
6.4.2 商品項(xiàng)目實(shí)例和Rules實(shí)例標(biāo)注
6.4.3 查詢解析
6.5 本章小結(jié)
第7章 關(guān)聯(lián)規(guī)則技術(shù)進(jìn)展及趨勢(shì)展望
7.1 最新技術(shù)進(jìn)展
7.1.1 關(guān)聯(lián)規(guī)則隱藏(Association Rules Hiding)
7.1.2 比對(duì)模式(Contrast Patter/Emerging Patter)
7.1.3 圖模式(Graph Patter)
7.1.4 可行動(dòng)關(guān)聯(lián)規(guī)則(Actionable Association Rule)、領(lǐng)域驅(qū)動(dòng)關(guān)聯(lián)規(guī)則
7.1.5 關(guān)聯(lián)規(guī)則、模式應(yīng)用研究
7.2 值得關(guān)注的方向
附錄 關(guān)聯(lián)規(guī)則研究資料匯總
參考文獻(xiàn)

章節(jié)摘錄

兩個(gè)階段關(guān)聯(lián)規(guī)則挖掘過(guò)程主要包含兩個(gè)階段:第一階段必須先從資料集合中找出所有的高頻項(xiàng)目組(Frequent Itemsets),第二階段再由這些高頻項(xiàng)目組中產(chǎn)生關(guān)聯(lián)規(guī)則(Association Rules)。   關(guān)聯(lián)規(guī)則挖掘的第一階段必須從原始資料集合中,找出所有高頻項(xiàng)目組(Large Itemsets)。高頻的意思是指某一項(xiàng)目組出現(xiàn)的頻率相對(duì)于所有記錄而言,必須達(dá)到某一水平。一項(xiàng)目組出現(xiàn)的頻率稱為支持度(Support),以一個(gè)包含A與B兩個(gè)項(xiàng)目的2-itemset為例,我們可以經(jīng)由公式(1)求得包含{A,B}項(xiàng)目組的支持度,若支持度大于等于所設(shè)定的最小支持度(Minimum Support)門(mén)檻值時(shí),則{A,B}稱為高頻項(xiàng)目組。一個(gè)滿足最小支持度的k-itemset,則稱為高頻k-項(xiàng)目組(Frequent k-itemset),一般表示為L(zhǎng)arge k或Frequent k。算法并從Large k的項(xiàng)目組中再產(chǎn)生Large k+1,直到無(wú)法再找到更長(zhǎng)的高頻項(xiàng)目組為止。關(guān)聯(lián)規(guī)則挖掘的第二階段是要產(chǎn)生關(guān)聯(lián)規(guī)則(Association Rules)。從高頻項(xiàng)目組產(chǎn)生關(guān)聯(lián)規(guī)則,是利用前一步驟的高頻k-項(xiàng)目組來(lái)產(chǎn)生規(guī)則,在最小信賴度(Minimum Confidence)的條件門(mén)檻下,若一規(guī)則所求得的信賴度滿足最小信賴度,稱此規(guī)則為關(guān)聯(lián)規(guī)則。例如:經(jīng)由高頻k-項(xiàng)目組{A,B}所產(chǎn)生的規(guī)則AB,其信賴度可經(jīng)由公式(2)求得,若信賴度大于等于最小信賴度,則稱AB為關(guān)聯(lián)規(guī)則。案例分析就沃爾馬案例而言,使用關(guān)聯(lián)規(guī)則挖掘技術(shù),對(duì)交易資料庫(kù)中的紀(jì)錄進(jìn)行資料挖掘,首先必須要設(shè)定最小支持度與最小信賴度兩個(gè)門(mén)檻值,在此假設(shè)最小支持度min_support=5%且最小信賴度min_confidence=70%。因此符合此該超市需求的關(guān)聯(lián)規(guī)則將必須同時(shí)滿足以上兩個(gè)條件。若經(jīng)過(guò)挖掘過(guò)程所找到的關(guān)聯(lián)規(guī)則「尿布,啤酒」,滿足下列條件,將可接受「尿布,啤酒」的關(guān)聯(lián)規(guī)則。用公式可以描述Support(尿布,啤酒)>=5%且Confidence(尿布,啤酒)>=70%。其中,Support(尿布,啤酒)>=5%于此應(yīng)用范例中的意義為:在所有的交易紀(jì)錄資料中,至少有5%的交易呈現(xiàn)尿布與啤酒這兩項(xiàng)商品被同時(shí)購(gòu)買的交易行為。Confidence(尿布,啤酒)>=70%于此應(yīng)用范例中的意義為:在所有包含尿布的交易紀(jì)錄資料中,至少有70%的交易會(huì)同時(shí)購(gòu)買啤酒。因此,今后若有某消費(fèi)者出現(xiàn)購(gòu)買尿布的行為,超市將可推薦該消費(fèi)者同時(shí)購(gòu)買啤酒。這個(gè)商品推薦的行為則是根據(jù)「尿布,啤酒」關(guān)聯(lián)規(guī)則,因?yàn)榫驮摮羞^(guò)去的交易紀(jì)錄而言,支持了“大部份購(gòu)買尿布的交易,會(huì)同時(shí)購(gòu)買啤酒”的消費(fèi)行為。從上面的介紹還可以看出,關(guān)聯(lián)規(guī)則挖掘通常比較適用與記錄中的指標(biāo)取離散值的情況。如果原始數(shù)據(jù)庫(kù)中的指標(biāo)值是取連續(xù)的數(shù)據(jù),則在關(guān)聯(lián)規(guī)則挖掘之前應(yīng)該進(jìn)行適當(dāng)?shù)臄?shù)據(jù)離散化(實(shí)際上就是將某個(gè)區(qū)間的值對(duì)應(yīng)于某個(gè)值),數(shù)據(jù)的離散化是數(shù)據(jù)挖掘前的重要環(huán)節(jié),離散化的過(guò)程是否合理將直接影響關(guān)聯(lián)規(guī)則的挖掘結(jié)果。

后記

關(guān)聯(lián)規(guī)則發(fā)掘技術(shù)在國(guó)內(nèi)外的應(yīng)用就目前而言,關(guān)聯(lián)規(guī)則挖掘技術(shù)已經(jīng)被廣泛應(yīng)用在西方金融行業(yè)企業(yè)中,它可以成功預(yù)測(cè)銀行客戶需求。一旦獲得了這些信息,銀行就可以改善自身營(yíng)銷。現(xiàn)在銀行天天都在開(kāi)發(fā)新的溝通客戶的方法。各銀行在自己的ATM機(jī)上就捆綁了顧客可能感興趣的本行產(chǎn)品信息,供使用本行ATM機(jī)的用戶了解。如果數(shù)據(jù)庫(kù)中顯示,某個(gè)高信用限額的客戶更換了地址,這個(gè)客戶很有可能新近購(gòu)買了一棟更大的住宅,因此會(huì)有可能需要更高信用限額,更高端的新信用卡,或者需要一個(gè)住房改善貸款,這些產(chǎn)品都可以通過(guò)信用卡賬單郵寄給客戶。當(dāng)客戶打電話咨詢的時(shí)候,數(shù)據(jù)庫(kù)可以有力地幫助電話銷售代表。銷售代表的電腦屏幕上可以顯示出客戶的特點(diǎn),同時(shí)也可以顯示出顧客會(huì)對(duì)什么產(chǎn)品感興趣。同時(shí),一些知名的電子商務(wù)站點(diǎn)也從強(qiáng)大的關(guān)聯(lián)規(guī)則挖掘中的受益。這些電子購(gòu)物網(wǎng)站使用關(guān)聯(lián)規(guī)則中規(guī)則進(jìn)行挖掘,然后設(shè)置用戶有意要一起購(gòu)買的捆綁包。也有一些購(gòu)物網(wǎng)站使用它們?cè)O(shè)置相應(yīng)的交叉銷售,也就是購(gòu)買某種商品的顧客會(huì)看到相關(guān)的另外一種商品的廣告。但是目前在我國(guó),“數(shù)據(jù)海量,信息缺乏”是商業(yè)銀行在數(shù)據(jù)大集中之后普遍所面對(duì)的尷尬。目前金融業(yè)實(shí)施的大多數(shù)數(shù)據(jù)庫(kù)只能實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)等較低層次的功能,卻無(wú)法發(fā)現(xiàn)數(shù)據(jù)中存在的各種有用的信息,譬如對(duì)這些數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)其數(shù)據(jù)模式及特征,然后可能發(fā)現(xiàn)某個(gè)客戶、消費(fèi)群體或組織的金融和商業(yè)興趣,并可觀察金融市場(chǎng)的變化趨勢(shì)??梢哉f(shuō),關(guān)聯(lián)規(guī)則挖掘的技術(shù)在我國(guó)的研究與應(yīng)用并不是很廣泛深入。近年來(lái)關(guān)聯(lián)規(guī)則發(fā)掘技術(shù)的一些研究由于許多應(yīng)用問(wèn)題往往比超市購(gòu)買問(wèn)題更復(fù)雜,大量研究從不同的角度對(duì)關(guān)聯(lián)規(guī)則做了擴(kuò)展,將更多的因素集成到關(guān)聯(lián)規(guī)則挖掘方法之中,以此豐富關(guān)聯(lián)規(guī)則的應(yīng)用領(lǐng)域,拓寬支持管理決策的范圍。如考慮屬性之間的類別層次關(guān)系,時(shí)態(tài)關(guān)系,多表挖掘等。近年來(lái)圍繞關(guān)聯(lián)規(guī)則的研究主要集中于兩個(gè)方面,即擴(kuò)展經(jīng)典關(guān)聯(lián)規(guī)則能夠解決問(wèn)題的范圍,改善經(jīng)典關(guān)聯(lián)規(guī)則挖掘算法效率和規(guī)則興趣性。

圖書(shū)封面

評(píng)論、評(píng)分、閱讀與下載


    關(guān)聯(lián)規(guī)則技術(shù)研究 PDF格式下載


用戶評(píng)論 (總計(jì)1條)

 
 

  •   快遞太不給力,慢悠悠晃了快一周的時(shí)間!
 

250萬(wàn)本中文圖書(shū)簡(jiǎn)介、評(píng)論、評(píng)分,PDF格式免費(fèi)下載。 第一圖書(shū)網(wǎng) 手機(jī)版

京ICP備13047387號(hào)-7