粒度計算在數(shù)據(jù)挖掘中的應(yīng)用研究

出版時間:2011-7  出版社:中國物資出版社  作者:張霞  頁數(shù):153  

內(nèi)容概要

  《粒度計算在數(shù)據(jù)挖掘中的應(yīng)用研究》是對模糊粒度計算在文本軟聚類中的應(yīng)用進行了深入研究,提出了一種基于模糊粒度計算的聚類方法,并且利用該聚類方法對K-means算法進行了優(yōu)化。基于模糊粒度計算的聚類是通過歸一化的距離函數(shù)將聚類問題映射到距離空間,調(diào)節(jié)粒度產(chǎn)生對文本集合D的動態(tài)聚類劃分?! 討B(tài)聚類既可以作為一個單獨的聚類結(jié)果,也可以作為其他算法的一個預(yù)處理步驟。K-means算法是一種經(jīng)典的聚類算法,速度快、消耗資源小,但是算法對初始聚類中心點敏感,容易陷入局部最小值。《粒度計算在數(shù)據(jù)挖掘中的應(yīng)用研究》將基于模糊粒度計算的聚類方法作為K-means算法的預(yù)處理步驟,實驗結(jié)果證明,這種預(yù)處理有效地消除了K-means算法的初始值敏感問題,優(yōu)化了K-means算法。

作者簡介

  張霞,女,河北省石家莊市人。曾先后于蘭州商學院經(jīng)濟信息管理系獲得工學學士、北京科技大學信息工程學院獲得工學碩士。2004年師從尹怡欣教授,就讀于北京科技大學信息工程學院控制理論與控制工程專業(yè),并于2009年6月獲工學博士學位。自1998年至今,在河北經(jīng)貿(mào)大學從事計算機教學的工作。曾主持河北省教育廳科研計劃項目、河北省科學技術(shù)研究與發(fā)展計劃項目:參與河北省科技支撐計劃項目、河北省教育廳教改課題以及河北省哲學社會科學規(guī)劃辦公室等多項課題;發(fā)表近20篇核心期刊學術(shù)論文,其中4篇為EI收錄論文。主要研究方向:數(shù)據(jù)挖掘、模式識別。

書籍目錄

1 緒論1.1 課題背景和意義1.2 課題研究內(nèi)容1.3 主要創(chuàng)新點1.4 本書的邏輯結(jié)構(gòu)2 文獻綜述2.1 數(shù)據(jù)挖掘概述2.2 粒度計算在數(shù)據(jù)挖掘中的應(yīng)用2.3 粒度計算數(shù)據(jù)挖掘研究中需要進一步解決的問題2.4 本書的研究內(nèi)容及特點2.5 小結(jié)3 基于模糊粒度計算的聚類3.1 引言3.2 模糊聚類分析3.3 模糊粒度聚類基礎(chǔ)3.4 基于模糊粒度計算的文本聚類3.5 基于模糊粒度計算的農(nóng)業(yè)經(jīng)濟劃分3.6 基于模糊粒度計算的K-means優(yōu)化算法3.7 小結(jié)4 基于粒網(wǎng)絡(luò)生成規(guī)則的文本分類4.1 引言4.2 基于集合論的粒度分類基礎(chǔ)4.3 基于規(guī)則的機器學習4.4 基于粒度計算的分類4.5 基于粒網(wǎng)絡(luò)生成規(guī)則的分類模型4.6 基于粒網(wǎng)絡(luò)生成規(guī)則的文本情感分類4.7 小結(jié)5 基于信息粒度的不完備系統(tǒng)遺漏值補齊5.1 引言5.2 粗糙集理論基本概念5.3 知識發(fā)現(xiàn)中的不完備信息問題5.4 不完備信息系統(tǒng)5.5 不完備信息系統(tǒng)粒度模型構(gòu)建5.6 基于信息粒度的遺漏值補齊5.7 決策規(guī)則的不確定性表示與度量5.8 實驗結(jié)果和分析5.9 小結(jié)6 結(jié)論參考文獻附錄后記

章節(jié)摘錄

  概念歸納(Concept Induction)方法。這種方法來源于機器學習。我們知道,典型的示例學習把樣本分成正樣本和負樣本,學習的結(jié)果就是形成覆蓋所有正樣本但不覆蓋任何負樣本的概念描述。關(guān)于這類學習算法可以在經(jīng)典的機器學習的教程中找到,這里不再贅述。但是,要把這種思想應(yīng)用到數(shù)據(jù)挖掘中要解決兩個關(guān)鍵問題。第一,必須擴大樣本集的容量和范圍。傳統(tǒng)的機器學習希望是精練的小樣本集,而數(shù)據(jù)挖掘系統(tǒng)必須忠實于源數(shù)據(jù),是面向大容量數(shù)據(jù)庫等存儲數(shù)據(jù)集的。所以,擴大后的樣本集可能難于有效地精確實現(xiàn)“覆蓋所有正樣本但不覆蓋任何負樣本”的概念歸納目標。要結(jié)合概率統(tǒng)計方法,在檢驗部分正樣本或負樣本情況下得到概念的描述。因此,最大限度地使用樣本進行歸納就是必須解決的關(guān)鍵問題之一。第二,對于數(shù)據(jù)挖掘系統(tǒng)來說,正樣本來自源數(shù)據(jù)庫,而負樣本是不可能在源數(shù)據(jù)庫中直接存儲的,但是缺乏對比類信息的概念歸納是不可靠的。因此,從源數(shù)據(jù)庫中形成負樣本(或區(qū)別性信息)以及相關(guān)的評價區(qū)別的度量方法等也是要解決的另一個重要問題?! 、诙嗑S數(shù)據(jù)分析可以看做一種廣義知識挖掘的有效方法。數(shù)據(jù)分析的經(jīng)常性工作是數(shù)據(jù)的聚集,諸如計數(shù)、求和、平均、最大值等。既然很多聚集函數(shù)需經(jīng)常重復計算,而且這類操作的計算量一般又特別大,因此一種很自然的想法是,把這些匯總的操作結(jié)果預(yù)先計算并存儲起來,以便于高級數(shù)據(jù)分析使用。最流行的存儲匯集數(shù)據(jù)類的方法是多維數(shù)據(jù)庫(Multi-dimension Database)技術(shù)。多維數(shù)據(jù)庫總是提供不同抽象層次上的數(shù)據(jù)視圖。例如,可以存放每周的數(shù)據(jù),也可在月底形成月數(shù)據(jù),月數(shù)據(jù)又能形成年數(shù)據(jù)。關(guān)于多維數(shù)據(jù)模型的操作,已經(jīng)被很好研究,許多文獻可能和數(shù)據(jù)倉庫、OLAP聯(lián)系起來。其實,這種模型,特別是它操作的完備性(如上鉆、下鉆等),可以成為廣義知識發(fā)現(xiàn)的基礎(chǔ)。  ……

編輯推薦

  《粒度計算在數(shù)據(jù)挖掘中的應(yīng)用研究》是信息處理的一種新的概念和計算范式,覆蓋了所有和粒度相關(guān)的理論、方法、技術(shù)和工具的信息,主要用于描述和處理不確定的、模糊的、不完整的和海量的信息以及提供一種基于粒和粒間關(guān)系的問題求解方法。作為一個新興領(lǐng)域的研究,國內(nèi)外相關(guān)研究人員提供了一些粒度計算的理論基礎(chǔ),并且為檢驗知識發(fā)現(xiàn)過程的有效性、解決實際問題提供了一條可行途徑。

圖書封面

評論、評分、閱讀與下載


    粒度計算在數(shù)據(jù)挖掘中的應(yīng)用研究 PDF格式下載


用戶評論 (總計0條)

 
 

 

250萬本中文圖書簡介、評論、評分,PDF格式免費下載。 第一圖書網(wǎng) 手機版

京ICP備13047387號-7