出版時(shí)間:2011-1 出版社:清華大學(xué)出版社 作者:史忠植 頁數(shù):491
Tag標(biāo)簽:無
前言
第一臺(tái)電子計(jì)算機(jī)誕生于20世紀(jì)40年代。到目前為止,計(jì)算機(jī)的發(fā)展已遠(yuǎn)遠(yuǎn)超出了其創(chuàng)始者的想象。計(jì)算機(jī)的處理能力越來越強(qiáng),應(yīng)用面越來越廣,應(yīng)用領(lǐng)域也從單純的科學(xué)計(jì)算滲透到社會(huì)生活的方方面面:從工業(yè)、國防、醫(yī)療、教育、娛樂直至人們的日常生活,計(jì)算機(jī)的影響可謂無處不在。計(jì)算機(jī)之所以能取得上述地位并成為全球最具活力的產(chǎn)業(yè),原因在于其高速的計(jì)算能力、龐大的存儲(chǔ)能力以及友好、靈活的用戶界面。而這些新技術(shù)及其應(yīng)用有賴于研究人員多年不懈的努力。學(xué)術(shù)研究是應(yīng)用研究的基礎(chǔ),也是技術(shù)發(fā)展的動(dòng)力。自1 992年起,清華大學(xué)出版社與廣西科學(xué)技術(shù)出版社為促進(jìn)我國計(jì)算機(jī)科學(xué)技術(shù)與產(chǎn)業(yè)的發(fā)展,推動(dòng)計(jì)算機(jī)科技著作的出版,設(shè)立了“計(jì)算機(jī)學(xué)術(shù)著作出版基金”,并將資助出版的著作列為中國計(jì)算機(jī)學(xué)會(huì)的學(xué)術(shù)著作叢書。時(shí)至今日,本套叢書已出版學(xué)術(shù)專著近50種,產(chǎn)生了很好的社會(huì)影響,有的專著具有很高的學(xué)術(shù)水平,有的則奠定了一類學(xué)術(shù)研究的基礎(chǔ)。中國計(jì)算機(jī)學(xué)會(huì)一直將學(xué)術(shù)著作的出版作為學(xué)會(huì)的一項(xiàng)主要工作。
內(nèi)容概要
知識(shí)發(fā)現(xiàn)是從數(shù)據(jù)集中識(shí)別出有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程。知識(shí)發(fā)現(xiàn)將信息變?yōu)橹R(shí),從數(shù)據(jù)資源中發(fā)現(xiàn)知識(shí)寶藏,將為知識(shí)創(chuàng)新和知識(shí)經(jīng)濟(jì)的發(fā)展作出貢獻(xiàn)。 本書全面而又系統(tǒng)地介紹了知識(shí)發(fā)現(xiàn)的方法和技術(shù),反映了當(dāng)前知識(shí)發(fā)現(xiàn)研究的最新成果和進(jìn)展。全書共分15章。第1章是緒論,概述知識(shí)發(fā)現(xiàn)的重要概念和發(fā)展過程。下面三章重點(diǎn)討論分類問題,包括決策樹、支持向量機(jī)和遷移學(xué)習(xí)。第5章闡述聚類分析。第6章是關(guān)聯(lián)規(guī)則。第7章討論粗糙集和粒度計(jì)算。第8章介紹神經(jīng)網(wǎng)絡(luò),書中著重介紹幾種實(shí)用的算法。第9章探討貝葉斯網(wǎng)絡(luò)。第10章討論隱馬爾可夫模型。第11章探討圖挖掘。第12章討論進(jìn)化計(jì)算和遺傳算法。第13章探討分布式知識(shí)發(fā)現(xiàn),它使海量數(shù)據(jù)挖掘成為可能。最后兩章以web知識(shí)發(fā)現(xiàn)、認(rèn)知神經(jīng)科學(xué)為例,介紹知識(shí)發(fā)現(xiàn)的應(yīng)用?! ”緯鴥?nèi)容新穎,認(rèn)真總結(jié)了作者的科研成果,取材國內(nèi)外最新資料,反映了當(dāng)前該領(lǐng)域的研究水平。論述力求概念清晰,表達(dá)準(zhǔn)確,算法豐富,突出理論聯(lián)系實(shí)際,富有啟發(fā)性?! ”緯梢杂米鞲叩仍盒S嘘P(guān)專業(yè)的研究生和高年級(jí)本科生的知識(shí)發(fā)現(xiàn)、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等課程教材,也可供從事知識(shí)發(fā)現(xiàn)、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、智能信息處理、模式識(shí)別、智能控制研究和知識(shí)管理的科技人員閱讀參考。
書籍目錄
第1章 緒論 1.1 知識(shí) 1.2 知識(shí)發(fā)現(xiàn)的過程 1.3 知識(shí)發(fā)現(xiàn)的任務(wù) 1.4 知識(shí)發(fā)現(xiàn)的方法 1.4.1 統(tǒng)計(jì)方法 1.4.2 機(jī)器學(xué)習(xí) 1.4.3 神經(jīng)計(jì)算 1.4.4 可視化 1.5 知識(shí)發(fā)現(xiàn)的對(duì)象 1.5.1 數(shù)據(jù)庫 1.5.2 文本 1.5.3 Web信息 1.5.4 空間數(shù)據(jù) 1.5.5 圖像和視頻數(shù)據(jù) 1.6 知識(shí)發(fā)現(xiàn)系統(tǒng)第2章 決策樹 2.1 歸納學(xué)習(xí) 2.2 決策樹學(xué)習(xí) 2.3 CLS學(xué)習(xí)算法 2.4 ID3學(xué)習(xí)算法 2.4.1 信息論簡介 2.4.2 信息論在決策樹學(xué)習(xí)中的意義及應(yīng)用 2.4.3 ID3算法 2.4.4 ID3算法應(yīng)用舉例 2.4.5 C4.5算法 2.5 決策樹的改進(jìn)算法 2.5.1 二叉樹判定算法 2.5.2 按信息比值進(jìn)行估計(jì)的方法 2.5.3 按分類信息估值 2.5.4 按劃分距離估值的方法 2.6 決策樹的評(píng)價(jià) 2.7 簡化決策樹 2.7.1 簡化決策樹的動(dòng)機(jī) 2.7.2 決策樹過大的原因 2.7.3 控制樹的大小 2.7.4 修改測試屬性空間 2.7.5 改進(jìn)測試屬性選擇方法 2.7.6 對(duì)數(shù)據(jù)進(jìn)行限制 2.7.7 改變數(shù)據(jù)結(jié)構(gòu) 2.8 連續(xù)性屬性離散化 2.9 基于偏置變換的決策樹學(xué)習(xí)算法BSDT 2.9.1 偏置的形式化 2.9.2 表示偏置變換 2.9.3 算法描述 2.9.4 過程偏置變換 2.9.5 基于偏置變換的決策樹學(xué)習(xí)算法BSDT 2.9.6 經(jīng)典案例庫維護(hù)算法TCBM 2.9.7 偏置特征抽取算法 2.9.8 改進(jìn)的決策樹生成算法GSD 2.9.9 實(shí)驗(yàn)結(jié)果 2.10 單變量決策樹的并行處理 2.10.1 并行決策樹算法 ……第3章 支持向量機(jī)第4章 遷移學(xué)習(xí)第5章 聚類分析第6章 關(guān)聯(lián)規(guī)則第7章 粗糙集第8章 神經(jīng)網(wǎng)絡(luò)第9章 貝葉斯網(wǎng)絡(luò)第10章 隱馬爾可夫模型第11章 圖挖掘第12章 進(jìn)化計(jì)算第13章 分布式知識(shí)發(fā)現(xiàn)第14章 Web知識(shí)發(fā)現(xiàn)第15章 認(rèn)知神經(jīng)科學(xué)知識(shí)發(fā)現(xiàn)參考文獻(xiàn)
章節(jié)摘錄
插圖:不同的分類器有不同的特點(diǎn)。有三種分類器評(píng)價(jià)或比較尺度:①預(yù)測準(zhǔn)確度;②計(jì)算復(fù)雜度;③模型描述的簡潔度。預(yù)測準(zhǔn)確度是用得最多的一種比較尺度,特別是對(duì)于預(yù)測型分類任務(wù),目前公認(rèn)的方法是10趟分層交叉驗(yàn)證法。計(jì)算復(fù)雜度依賴于具體的實(shí)現(xiàn)細(xì)節(jié)和硬件環(huán)境,在數(shù)據(jù)挖掘中,由于操作對(duì)象是巨量的數(shù)據(jù)庫,因此空間和時(shí)間的復(fù)雜度問題將是一個(gè)非常重要的環(huán)節(jié)。對(duì)于描述型的分類任務(wù),模型描述越簡潔越受歡迎。例如,采用規(guī)則表示的分類器構(gòu)造法就更有用,而神經(jīng)網(wǎng)絡(luò)方法產(chǎn)生的結(jié)果就難以理解。另外要注意的是,分類的效果一般和數(shù)據(jù)的特點(diǎn)有關(guān),有的數(shù)據(jù)噪聲大,有的有缺值,有的分布稀疏,有的字段或?qū)傩蚤g相關(guān)性強(qiáng),有的屬性是離散的而有的是連續(xù)值或混合式的。目前普遍認(rèn)為不存在某種方法能適合于所有不同特點(diǎn)的數(shù)據(jù)。4.聚類根據(jù)數(shù)據(jù)的不同特征,將其劃分為不同的數(shù)據(jù)類。它的目的是使得屬于同一類別的個(gè)體之間的距離盡可能小,而不同類別上的個(gè)體間的距離盡可能大。聚類方法包括統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法和面向數(shù)據(jù)庫的方法。在統(tǒng)計(jì)方法中,聚類亦稱聚類分析,它是多元數(shù)據(jù)分析的三大方法之一(其他兩種是回歸分析和判別分析)。它主要研究基于幾何距離的聚類,如歐氏距離、明考斯基距離等。傳統(tǒng)的統(tǒng)計(jì)聚類分析方法包括系統(tǒng)聚類法、分解法、加入法、動(dòng)態(tài)聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。這種聚類方法是一種基于全局比較的聚類,它需要考察所有的個(gè)體才能決定類的劃分。因此它要求所有的數(shù)據(jù)必須預(yù)先給定,而不能動(dòng)態(tài)增加新的數(shù)據(jù)對(duì)象。聚類分析方法不具有線性的計(jì)算復(fù)雜度,難以適用于數(shù)據(jù)庫非常大的情況。在機(jī)器學(xué)習(xí)中,聚類稱為無監(jiān)督或無教師歸納。因?yàn)楹头诸悓W(xué)習(xí)相比,分類學(xué)習(xí)的例子或數(shù)據(jù)對(duì)象有類別標(biāo)記,而要聚類的例子則沒有標(biāo)記,需要由聚類學(xué)習(xí)算法來自動(dòng)確定。在很多人工智能文獻(xiàn)中,聚類也稱概念聚類,因?yàn)檫@里的距離不再是統(tǒng)計(jì)方法中的幾何距離,而是根據(jù)概念的描述來確定的。當(dāng)聚類對(duì)象可以動(dòng)態(tài)增加時(shí),概念聚類則稱為概念生成。
編輯推薦
《知識(shí)發(fā)現(xiàn)(第2版)》:中國計(jì)算機(jī)學(xué)會(huì)學(xué)術(shù)著作叢書
圖書封面
圖書標(biāo)簽Tags
無
評(píng)論、評(píng)分、閱讀與下載