粒度計(jì)算在數(shù)據(jù)挖掘中的應(yīng)用研究

出版時(shí)間：2011-7 出版社：中國(guó)物資出版社作者：張霞頁數(shù)：153

內(nèi)容概要

　　《粒度計(jì)算在數(shù)據(jù)挖掘中的應(yīng)用研究》是對(duì)模糊粒度計(jì)算在文本軟聚類中的應(yīng)用進(jìn)行了深入研究，提出了一種基于模糊粒度計(jì)算的聚類方法，并且利用該聚類方法對(duì)K-means算法進(jìn)行了優(yōu)化?；谀：６扔?jì)算的聚類是通過歸一化的距離函數(shù)將聚類問題映射到距離空間，調(diào)節(jié)粒度產(chǎn)生對(duì)文本集合D的動(dòng)態(tài)聚類劃分?！　?dòng)態(tài)聚類既可以作為一個(gè)單獨(dú)的聚類結(jié)果，也可以作為其他算法的一個(gè)預(yù)處理步驟。K-means算法是一種經(jīng)典的聚類算法，速度快、消耗資源小，但是算法對(duì)初始聚類中心點(diǎn)敏感，容易陷入局部最小值。《粒度計(jì)算在數(shù)據(jù)挖掘中的應(yīng)用研究》將基于模糊粒度計(jì)算的聚類方法作為K-means算法的預(yù)處理步驟，實(shí)驗(yàn)結(jié)果證明，這種預(yù)處理有效地消除了K-means算法的初始值敏感問題，優(yōu)化了K-means算法。

作者簡(jiǎn)介

　　張霞，女，河北省石家莊市人。曾先后于蘭州商學(xué)院經(jīng)濟(jì)信息管理系獲得工學(xué)學(xué)士、北京科技大學(xué)信息工程學(xué)院獲得工學(xué)碩士。2004年師從尹怡欣教授，就讀于北京科技大學(xué)信息工程學(xué)院控制理論與控制工程專業(yè)，并于2009年6月獲工學(xué)博士學(xué)位。自1998年至今，在河北經(jīng)貿(mào)大學(xué)從事計(jì)算機(jī)教學(xué)的工作。曾主持河北省教育廳科研計(jì)劃項(xiàng)目、河北省科學(xué)技術(shù)研究與發(fā)展計(jì)劃項(xiàng)目：參與河北省科技支撐計(jì)劃項(xiàng)目、河北省教育廳教改課題以及河北省哲學(xué)社會(huì)科學(xué)規(guī)劃辦公室等多項(xiàng)課題；發(fā)表近20篇核心期刊學(xué)術(shù)論文，其中4篇為EI收錄論文。主要研究方向：數(shù)據(jù)挖掘、模式識(shí)別。

書籍目錄

1 緒論1.1 課題背景和意義1.2 課題研究?jī)?nèi)容1.3 主要?jiǎng)?chuàng)新點(diǎn)1.4 本書的邏輯結(jié)構(gòu)2 文獻(xiàn)綜述2.1 數(shù)據(jù)挖掘概述2.2 粒度計(jì)算在數(shù)據(jù)挖掘中的應(yīng)用2.3 粒度計(jì)算數(shù)據(jù)挖掘研究中需要進(jìn)一步解決的問題2.4 本書的研究?jī)?nèi)容及特點(diǎn)2.5 小結(jié)3 基于模糊粒度計(jì)算的聚類3.1 引言3.2 模糊聚類分析3.3 模糊粒度聚類基礎(chǔ)3.4 基于模糊粒度計(jì)算的文本聚類3.5 基于模糊粒度計(jì)算的農(nóng)業(yè)經(jīng)濟(jì)劃分3.6 基于模糊粒度計(jì)算的K-means優(yōu)化算法3.7 小結(jié)4 基于粒網(wǎng)絡(luò)生成規(guī)則的文本分類4.1 引言4.2 基于集合論的粒度分類基礎(chǔ)4.3 基于規(guī)則的機(jī)器學(xué)習(xí)4.4 基于粒度計(jì)算的分類4.5 基于粒網(wǎng)絡(luò)生成規(guī)則的分類模型4.6 基于粒網(wǎng)絡(luò)生成規(guī)則的文本情感分類4.7 小結(jié)5 基于信息粒度的不完備系統(tǒng)遺漏值補(bǔ)齊5.1 引言5.2 粗糙集理論基本概念5.3 知識(shí)發(fā)現(xiàn)中的不完備信息問題5.4 不完備信息系統(tǒng)5.5 不完備信息系統(tǒng)粒度模型構(gòu)建5.6 基于信息粒度的遺漏值補(bǔ)齊5.7 決策規(guī)則的不確定性表示與度量5.8 實(shí)驗(yàn)結(jié)果和分析5.9 小結(jié)6 結(jié)論參考文獻(xiàn)附錄后記

章節(jié)摘錄

　　概念歸納（Concept Induction）方法。這種方法來源于機(jī)器學(xué)習(xí)。我們知道，典型的示例學(xué)習(xí)把樣本分成正樣本和負(fù)樣本，學(xué)習(xí)的結(jié)果就是形成覆蓋所有正樣本但不覆蓋任何負(fù)樣本的概念描述。關(guān)于這類學(xué)習(xí)算法可以在經(jīng)典的機(jī)器學(xué)習(xí)的教程中找到，這里不再贅述。但是，要把這種思想應(yīng)用到數(shù)據(jù)挖掘中要解決兩個(gè)關(guān)鍵問題。第一，必須擴(kuò)大樣本集的容量和范圍。傳統(tǒng)的機(jī)器學(xué)習(xí)希望是精練的小樣本集，而數(shù)據(jù)挖掘系統(tǒng)必須忠實(shí)于源數(shù)據(jù)，是面向大容量數(shù)據(jù)庫等存儲(chǔ)數(shù)據(jù)集的。所以，擴(kuò)大后的樣本集可能難于有效地精確實(shí)現(xiàn)“覆蓋所有正樣本但不覆蓋任何負(fù)樣本”的概念歸納目標(biāo)。要結(jié)合概率統(tǒng)計(jì)方法，在檢驗(yàn)部分正樣本或負(fù)樣本情況下得到概念的描述。因此，最大限度地使用樣本進(jìn)行歸納就是必須解決的關(guān)鍵問題之一。第二，對(duì)于數(shù)據(jù)挖掘系統(tǒng)來說，正樣本來自源數(shù)據(jù)庫，而負(fù)樣本是不可能在源數(shù)據(jù)庫中直接存儲(chǔ)的，但是缺乏對(duì)比類信息的概念歸納是不可靠的。因此，從源數(shù)據(jù)庫中形成負(fù)樣本（或區(qū)別性信息）以及相關(guān)的評(píng)價(jià)區(qū)別的度量方法等也是要解決的另一個(gè)重要問題?！　、诙嗑S數(shù)據(jù)分析可以看做一種廣義知識(shí)挖掘的有效方法。數(shù)據(jù)分析的經(jīng)常性工作是數(shù)據(jù)的聚集，諸如計(jì)數(shù)、求和、平均、最大值等。既然很多聚集函數(shù)需經(jīng)常重復(fù)計(jì)算，而且這類操作的計(jì)算量一般又特別大，因此一種很自然的想法是，把這些匯總的操作結(jié)果預(yù)先計(jì)算并存儲(chǔ)起來，以便于高級(jí)數(shù)據(jù)分析使用。最流行的存儲(chǔ)匯集數(shù)據(jù)類的方法是多維數(shù)據(jù)庫（Multi-dimension Database）技術(shù)。多維數(shù)據(jù)庫總是提供不同抽象層次上的數(shù)據(jù)視圖。例如，可以存放每周的數(shù)據(jù)，也可在月底形成月數(shù)據(jù)，月數(shù)據(jù)又能形成年數(shù)據(jù)。關(guān)于多維數(shù)據(jù)模型的操作，已經(jīng)被很好研究，許多文獻(xiàn)可能和數(shù)據(jù)倉庫、OLAP聯(lián)系起來。其實(shí)，這種模型，特別是它操作的完備性（如上鉆、下鉆等），可以成為廣義知識(shí)發(fā)現(xiàn)的基礎(chǔ)。　　……

編輯推薦

　　《粒度計(jì)算在數(shù)據(jù)挖掘中的應(yīng)用研究》是信息處理的一種新的概念和計(jì)算范式，覆蓋了所有和粒度相關(guān)的理論、方法、技術(shù)和工具的信息，主要用于描述和處理不確定的、模糊的、不完整的和海量的信息以及提供一種基于粒和粒間關(guān)系的問題求解方法。作為一個(gè)新興領(lǐng)域的研究，國(guó)內(nèi)外相關(guān)研究人員提供了一些粒度計(jì)算的理論基礎(chǔ)，并且為檢驗(yàn)知識(shí)發(fā)現(xiàn)過程的有效性、解決實(shí)際問題提供了一條可行途徑。

圖書封面

評(píng)論、評(píng)分、閱讀與下載

還沒讀過(85)
勉強(qiáng)可看(616)
一般般(105)
內(nèi)容豐富(4361)
強(qiáng)力推薦(357)

粒度計(jì)算在數(shù)據(jù)挖掘中的應(yīng)用研究 PDF格式下載

用戶評(píng)論 (總計(jì)0條)

粒度計(jì)算在數(shù)據(jù)挖掘中的應(yīng)用研究

用戶評(píng)論 (總計(jì)0條)

推薦圖書

相關(guān)圖書