出版時間:2009-3 出版社:電子工業(yè)出版社 作者:陳建斌 頁數(shù):217
Tag標(biāo)簽:無
前言
計(jì)算機(jī)技術(shù)的發(fā)展總是伴隨著企業(yè)計(jì)算技術(shù)的應(yīng)用,企業(yè)需求又進(jìn)一步刺激了計(jì)算機(jī)等信息科學(xué)技術(shù)的高速發(fā)展,數(shù)據(jù)庫技術(shù)在企業(yè)業(yè)務(wù)中發(fā)揮了重要作用。信息系統(tǒng)產(chǎn)生的數(shù)據(jù)量日益增多,企業(yè)應(yīng)用中的業(yè)務(wù)數(shù)據(jù)在發(fā)揮了當(dāng)期效用后,作為歷史資料大量積存起來。這些歷史數(shù)據(jù)中是否蘊(yùn)藏著豐富的知識呢?這些知識能否被利用來為企業(yè)決策服務(wù)呢?這個問題在企業(yè)界和學(xué)術(shù)界受到越來越多的關(guān)注。 隨著知識經(jīng)濟(jì)的發(fā)展,社會經(jīng)濟(jì)生活發(fā)生了翻天覆地的變化,企業(yè)在日常決策中感受到的壓力越來越大。這種壓力來自于:(1)決策速度的壓力。面對競爭激烈的市場,企業(yè)需要快速決策,需要對市場快速作出反應(yīng);(2)決策成本的壓力??焖侔l(fā)展中的企業(yè),決策不容失誤,否則后果嚴(yán)重;(3)決策難度的壓力。面對紛繁復(fù)雜的市場信息,需要處理的信息繁多,需要考慮的因素眾多,決策難度顯著增加。企業(yè)決策者面臨前所未有的壓力?! ∽詮男畔⒓夹g(shù)在企業(yè)實(shí)踐中得到廣泛應(yīng)用以來,人們一直在尋找決策支持系統(tǒng)的良好解決方案,希望信息技術(shù)的優(yōu)勢能在決策領(lǐng)域發(fā)揮重要作用。這種決策輔助在今天顯得尤為迫切。在決策支持領(lǐng)域,傳統(tǒng)的方法是由專家或信息技術(shù)人員總結(jié)并描述知識或規(guī)則,從外部輸入系統(tǒng),形成知識庫、模型庫和方法庫,結(jié)合數(shù)據(jù)庫進(jìn)行決策輔助的活動。然而,由于知識太多而且具有復(fù)雜性和模糊性,難以準(zhǔn)確描述和有效利用,模型又難以精確地表述具體的應(yīng)用,導(dǎo)致許多決策支持系統(tǒng)失敗。數(shù)據(jù)庫知識發(fā)現(xiàn)技術(shù)(Knowledge Discovery in Database, KDD)的出現(xiàn)扭轉(zhuǎn)了這種局面。KDD是從一個系統(tǒng)內(nèi)部自動獲取知識,從大量數(shù)據(jù)中尋找蘊(yùn)涵其中但尚未被發(fā)現(xiàn)的知識,這種數(shù)據(jù)應(yīng)用技術(shù)的出現(xiàn),必然會更有力地支持企業(yè)的戰(zhàn)略決策?! ?shù)據(jù)庫知識發(fā)現(xiàn)是一個很新的研究領(lǐng)域,由于其具有為企業(yè)創(chuàng)造巨大經(jīng)濟(jì)效益的潛力,因而備受國內(nèi)外研究人員關(guān)注。聚類分析是數(shù)據(jù)知識發(fā)現(xiàn)的關(guān)鍵技術(shù)之一,高維數(shù)據(jù)又是當(dāng)前的重要應(yīng)用領(lǐng)域之一,研究高維數(shù)據(jù)的聚類知識發(fā)現(xiàn),具有重要的理論意義和現(xiàn)實(shí)意義。本書正是基于這種考慮,緊緊圍繞高維聚類的關(guān)鍵技術(shù)進(jìn)行研究,提出了一整套高維聚類方法,其中包括高維數(shù)據(jù)相似性的定義、高維聚類算法(包括硬聚類和軟聚類)、離群點(diǎn)檢測和高維聚類結(jié)果表示方法等,為聚類知識發(fā)現(xiàn)提供了一種新的思路。全書共分為9章,內(nèi)容包括:知識發(fā)現(xiàn)與KDD、聚類知識發(fā)現(xiàn)及其關(guān)鍵技術(shù)、高維數(shù)據(jù)相似性的定義、基于粗圖模型的聚類算法研究、高維二元數(shù)據(jù)的映射聚類算法、基于螞蟻行為的聚類算法、高維數(shù)據(jù)空間的離群點(diǎn)檢測方法、高維數(shù)據(jù)聚類結(jié)果的表示和聚類知識發(fā)現(xiàn)數(shù)據(jù)建模及應(yīng)用等?! ”緯m用于數(shù)據(jù)庫知識發(fā)現(xiàn)領(lǐng)域的研究和應(yīng)用人員,也可作為相關(guān)領(lǐng)域博士生、碩士生和高年級本科生的參考書。 在本書寫作過程中,獲得了北京聯(lián)合大學(xué)商務(wù)學(xué)院“供應(yīng)鏈知識管理與創(chuàng)新”科研基地建設(shè)項(xiàng)目資助,在此表示感謝。陳云飛對本書第6章有重要貢獻(xiàn),在此表示感謝。本書在寫作中參閱了大量文獻(xiàn),在此向這些文獻(xiàn)的作者們表示感謝!
內(nèi)容概要
知識發(fā)現(xiàn)是從數(shù)據(jù)集中抽取和精化新的模式的過程,基于數(shù)據(jù)庫的知識發(fā)現(xiàn)(Knowledge Discovery in Database,KDD))是知識發(fā)現(xiàn)研究的主體和熱點(diǎn),而聚類知識發(fā)現(xiàn)又是知識發(fā)現(xiàn)的重要方面。如何有效處理巨量、高維的數(shù)據(jù),是當(dāng)前聚類分析的關(guān)鍵技術(shù)。本書圍繞高維數(shù)據(jù)的聚類問題展開研究,在討論高維數(shù)據(jù)相似I生尤其是高維二元數(shù)據(jù)相似性定義的基礎(chǔ)上,提出了基于粗圖模型的硬聚類和軟聚類算法、高維二元數(shù)據(jù)的映射聚類算法、基于螞蟻行為的聚類算法等,并進(jìn)一步提出基于映射聚類的離群點(diǎn)檢測方法;還特別討論了高維聚類結(jié)果的表示方法問題,提出了應(yīng)用粗糙集高效表達(dá)聚類結(jié)果的方法;最后探討了聚類知識發(fā)現(xiàn)數(shù)據(jù)建模的基本步驟,給出了聚類知識發(fā)現(xiàn)的典型應(yīng)用案例。 本書學(xué)術(shù)性、知識性并重,可供從事數(shù)據(jù)倉庫與數(shù)據(jù)挖掘教學(xué)、研究的師生、學(xué)者閱讀,也可以為從事數(shù)據(jù)挖掘、知識發(fā)現(xiàn)系統(tǒng)等軟件工程技術(shù)人員提供參考。
作者簡介
陳建斌,男,山西長治人。2005年獲計(jì)算機(jī)應(yīng)用專業(yè)博士學(xué)位。國家職業(yè)技能鑒定專家委員會企業(yè)信息管理專家組組長,中國機(jī)械工業(yè)企業(yè)管理協(xié)會專家委員會委員,北京聯(lián)合大學(xué)商務(wù)學(xué)院副教授、電子商務(wù)研究所所長,高級企業(yè)信息管理師。主要研究方向?yàn)槠髽I(yè)信息化管理與運(yùn)作、電子商務(wù)與電子政務(wù)和商務(wù)智能。
作者多年來秉承系統(tǒng)工程思想,開展企業(yè)信息化管理的研究與實(shí)踐,主編了《企業(yè)信息管理師培訓(xùn)教程》、《ERP工程師培訓(xùn)教程》、《電子商務(wù)與電子政務(wù)》、《電子商務(wù)與現(xiàn)代物流》和《信息經(jīng)濟(jì)學(xué)》等多部著作,參與國家自然科學(xué)基金項(xiàng)目多項(xiàng),主持省部級科研項(xiàng)目多項(xiàng),在國內(nèi)核心期刊及國際學(xué)術(shù)會議上發(fā)表論文三十余篇。作為高級顧問和專家組組長,主講和輔導(dǎo)中央企業(yè)信息管理師職業(yè)資格培訓(xùn)數(shù)十期;參與多項(xiàng)企業(yè)信息化戰(zhàn)略規(guī)劃,數(shù)據(jù)倉庫規(guī)劃與建設(shè)和企業(yè)診斷等項(xiàng)目。
書籍目錄
第1章 知識發(fā)現(xiàn)與KDD 1.1 知識與知識發(fā)現(xiàn) 1.1.1 知識 1.1.2 知識發(fā)現(xiàn)和KDD 1.1.3 知識發(fā)現(xiàn)的過程 1.2 數(shù)據(jù)庫知識發(fā)現(xiàn)——KDD 1.2.1 KDD的產(chǎn)生與發(fā)展 1.2.2 KDD的一般機(jī)理和理論基礎(chǔ) 1.2.3 KDD系統(tǒng)的基本框架 1.2.4 KDD的主要任務(wù)第2章 聚類知識發(fā)現(xiàn)及其關(guān)鍵技術(shù) 2.1 聚類問題的主要方法 2.2 聚類問題的關(guān)鍵技術(shù) 2.2.1 數(shù)據(jù)倉庫技術(shù) 2.2.2 高維聚類技術(shù) 2.3 高維聚類關(guān)鍵技術(shù)研究 2.3.1 高維聚類的主要算法 2.3.2 高維聚類算法的關(guān)鍵技術(shù)第3章 高維數(shù)據(jù)相似性的定義 3.1 數(shù)據(jù)相似關(guān)系 3.1.1 基于距離的相似性定義 3.1.2 基于密度的相似性定義 3.1.3 基于連接的相似性定義 3.2 高維數(shù)據(jù)相似關(guān)系的定義 3.3 二元數(shù)據(jù)相似性的定義 3.3.1 屬性分布特征向量 3.3.2 對象間屬性分布相似性 3.4 小結(jié)第4章 基于粗圖模型的聚類算法 4.1 圖論基礎(chǔ)概念 4.2 基于圖論的聚類算法 4.2.1 聚集型圖論聚類 4.2.2 多層粗圖法 4.2.3 基于二部圖的方法 4.3 圖劃分的關(guān)鍵技術(shù) 4.3.1 圖的多層二分劃(Multilevel Graph Biseeti011) 4.3.2 增強(qiáng)譜分割算法 4.3.3 圖的非平衡劃分技術(shù) 4.4 多層粗圖聚類算法的改進(jìn) 4.4.1 聚類算法 4.4.2 圖分割的精化算法 4.4.3 聚類質(zhì)量評價 4.4.4 實(shí)驗(yàn)結(jié)果 4.4.5 算法評價 4.5 基于粗圖模型的軟聚類方法 4.5.1 引言 4.5.2 軟聚類算法 4.5.3 基于圖劃分法的軟聚類GPSC算法 4.5.4 實(shí)驗(yàn)分析 4.5.5 軟聚類方法的評價 4.6 小結(jié) 第5章 高維二元數(shù)據(jù)的映射聚類算法第6章 基于螞蟻行為的聚類方法第7章 高維數(shù)據(jù)空間的離群點(diǎn)檢測方法第8章 高維數(shù)據(jù)聚類結(jié)果的表示第9章 聚類知識發(fā)現(xiàn)數(shù)據(jù)建模及應(yīng)用參考文獻(xiàn)
章節(jié)摘錄
1.2.2KDD的一般機(jī)理和理論基礎(chǔ) 1.一般機(jī)理 推理、聯(lián)想和學(xué)習(xí)是人類智能活動的三大主要功能,推理和聯(lián)想的功能必須通過學(xué)習(xí)才能不斷完善、充實(shí),因而學(xué)習(xí)是一切智能活動的基礎(chǔ)。使計(jì)算機(jī)系統(tǒng)具有某些程度的學(xué)習(xí)能力,能夠模擬人類的學(xué)習(xí)活動,一直是人工智能領(lǐng)域所追求的目標(biāo)?! Υ嬖跀?shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù),是對現(xiàn)實(shí)世界某種程度上符號化和數(shù)據(jù)化的抽象,是對現(xiàn)實(shí)世界事物某一程度、某一側(cè)面的映射,所使用的抽象方式和抽象層次主要取決于具體的應(yīng)用模式??紤]到數(shù)據(jù)采集過程中可能引入誤差,因而要求數(shù)據(jù)庫至少能夠在總體上反映現(xiàn)實(shí)世界,否則數(shù)據(jù)庫就不能使用。數(shù)據(jù)庫中的元組可以認(rèn)為是一些低抽象程度的判斷?! ?.主要研究方法 KDD的主要實(shí)施對象是關(guān)系數(shù)據(jù)庫。這是因?yàn)殛P(guān)系數(shù)據(jù)庫具有歸一化的組織結(jié)構(gòu)、一體化的查詢語言、方便的用戶接口和能進(jìn)行集合處理的優(yōu)點(diǎn),而且在各行業(yè)中應(yīng)用最廣泛。另外,關(guān)系數(shù)據(jù)庫中各關(guān)系之間、各屬性之間都是平等的,有利于知識發(fā)現(xiàn)過程中的并行計(jì)算。由于KDD的研究對象比較特殊,一般都是大型數(shù)據(jù)庫,其中的數(shù)據(jù)容量往往是一般人工智能系統(tǒng)所不能比擬的,因此,KDD的研究方法及技術(shù)策略就有其鮮明的特色?! ∈紫?,在研究上遵循認(rèn)識的基本過程,即實(shí)踐一認(rèn)識一再實(shí)踐一再認(rèn)識。KDD一改過去以演繹邏輯為主的策略,在本質(zhì)上以歸納邏輯為主,采用從個別到一般,從感性到理性的知識抽象過程。當(dāng)然,在知識發(fā)現(xiàn)過程中,也不能完全拋棄演繹,而是歸納和演繹相結(jié)合。
編輯推薦
學(xué)術(shù)性、知識性并重,可供從事數(shù)據(jù)倉庫與數(shù)據(jù)挖掘教學(xué)、研究的師生、學(xué)者閱讀,也可以為從事數(shù)據(jù)挖掘、知識發(fā)現(xiàn)系統(tǒng)等軟件工程技術(shù)人員提供參考。
圖書封面
圖書標(biāo)簽Tags
無
評論、評分、閱讀與下載
高維聚類知識發(fā)現(xiàn)關(guān)鍵技術(shù)研究及應(yīng)用 PDF格式下載