出版時(shí)間:2006-7 出版社:高等教育出版社(藍(lán)色暢想) 作者:崔雷 頁(yè)數(shù):221
Tag標(biāo)簽:無(wú)
內(nèi)容概要
本書(shū)是國(guó)內(nèi)第一部關(guān)于醫(yī)學(xué)數(shù)據(jù)挖掘的教材。包括基礎(chǔ)篇、核心篇和應(yīng)用篇三個(gè)部分。基礎(chǔ)篇介紹數(shù)據(jù)挖掘的基本概念和理論,核心篇介紹數(shù)據(jù)挖掘的主要算法和工具,應(yīng)用篇?jiǎng)t分別介紹數(shù)據(jù)挖掘在醫(yī)學(xué)臨床、分子生物學(xué)、預(yù)防醫(yī)學(xué)、醫(yī)院管理、文本和web挖掘中的具體應(yīng)用。 本書(shū)首先強(qiáng)調(diào)數(shù)據(jù)挖掘的基本概念和基本方法,重點(diǎn)介紹該領(lǐng)域的基本概念、基本過(guò)程和方法;各種算法以介紹其適用條件和原理為主,盡量少涉及具體算法的數(shù)學(xué)公式。其次,本書(shū)以應(yīng)用為主,介紹數(shù)據(jù)挖掘方法在醫(yī)學(xué)研究和服務(wù)中的應(yīng)用實(shí)例,為學(xué)生今后進(jìn)一步從事這一方面的深入研究提供基礎(chǔ)。最后,本書(shū)在內(nèi)容組織上力求全面系統(tǒng),突出重點(diǎn)。由淺入深、突出交叉學(xué)科的特色的同時(shí),注重所介紹知識(shí)的層次,適合不同水平讀者的學(xué)習(xí)需要。
書(shū)籍目錄
基礎(chǔ)篇 第一章 概述 第一節(jié) 數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)的基本概念 一、數(shù)據(jù)挖掘的產(chǎn)生 二、什么是數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn) 三、數(shù)據(jù)挖掘的知識(shí)表示 第二節(jié) 知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘的步驟、算法與工具 一、知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘的基本步驟 二、知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘的算法 三、數(shù)據(jù)挖掘的工具 第三節(jié) 數(shù)據(jù)挖掘系統(tǒng)的體系結(jié)構(gòu) 一、數(shù)據(jù)庫(kù)管理模塊 二、挖掘前處理模塊 三、挖掘操作模塊 四、模式評(píng)估模塊 五、知識(shí)輸出模塊 第四節(jié) 數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的應(yīng)用 一、數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)在科學(xué)研究中的應(yīng)用 二、數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)在商業(yè)上的應(yīng)用 三、Web挖掘 第二章 數(shù)據(jù)挖掘的對(duì)象 第一節(jié) 關(guān)系型數(shù)據(jù)庫(kù) 一、關(guān)系型數(shù)據(jù)庫(kù)的定義 二、關(guān)系組成與性質(zhì) 三、關(guān)系型數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘 第二節(jié) 數(shù)據(jù)倉(cāng)庫(kù) 一、數(shù)據(jù)倉(cāng)庫(kù)的定義和結(jié)構(gòu) 二、數(shù)據(jù)倉(cāng)庫(kù)的特征 三、多維數(shù)據(jù)模型 四、數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)挖掘 第三節(jié) 文本數(shù)據(jù)庫(kù) 一、語(yǔ)種識(shí)別 二、特征提取 三、文本聚類 四、文本分類 第四節(jié) 復(fù)雜類型數(shù)據(jù)庫(kù) 一、空間數(shù)據(jù)庫(kù) 二、Web數(shù)據(jù)庫(kù) 三、時(shí)序數(shù)據(jù)庫(kù) 第三章 數(shù)據(jù)挖掘的步驟 第一節(jié) 跨行業(yè)數(shù)據(jù)挖掘過(guò)程標(biāo)準(zhǔn) 一、產(chǎn)生背景 二、CRISP-DM過(guò)程模型 三、數(shù)據(jù)挖掘工具 第二節(jié) 業(yè)務(wù)理解 一、確定商業(yè)目標(biāo) 二、狀況評(píng)估 三、確定數(shù)據(jù)挖掘目標(biāo) 四、建立項(xiàng)目計(jì)劃 第三節(jié) 數(shù)據(jù)準(zhǔn)備 一、理解數(shù)據(jù) 二、數(shù)據(jù)選擇 三、數(shù)據(jù)清洗 四、數(shù)據(jù)轉(zhuǎn)換 五、數(shù)據(jù)集成 六、數(shù)據(jù)歸約 第四節(jié) 模型建立和評(píng)估 一、模型的種類 二、模型的精確度 三、模型評(píng)估核心篇 第四章 關(guān)聯(lián)規(guī)則與關(guān)聯(lián)分析 第五章 聚類分析 第六章 決策樹(shù) 第七章 內(nèi)容概括相關(guān)技術(shù) 第八章 人工神經(jīng)網(wǎng)絡(luò) 第九章 遺傳算法 第十章 粗糙集理論及其應(yīng)用應(yīng)用篇 第十一章 數(shù)據(jù)挖掘在臨床領(lǐng)域中的應(yīng)用 第十二章 數(shù)據(jù)挖掘在分子生物學(xué)領(lǐng)域中的應(yīng)用 第十三章 數(shù)據(jù)挖掘在預(yù)防醫(yī)學(xué)領(lǐng)域中的應(yīng)用 第十四章 時(shí)間序列數(shù)據(jù)挖掘及其在醫(yī)院管理中的應(yīng)用 第十五章 文本挖掘及其在生物醫(yī)學(xué)領(lǐng)域中的應(yīng)用 第十六章 Web挖掘 第十七章 數(shù)據(jù)挖掘工具概述參考文獻(xiàn)
章節(jié)摘錄
實(shí)表,即“死亡現(xiàn)象”,其中包含四個(gè)維的關(guān)鍵字,即地區(qū)碼、時(shí)間碼、性別碼和死因碼;兩個(gè)對(duì)事實(shí)的度量,即死亡數(shù)和死亡年齡。在星型模式中每一個(gè)維只用一個(gè)表表示,每個(gè)表包含一組屬性。比如,地區(qū)維表包括大區(qū)、省份、地市以及縣等屬性。四、數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)挖掘大部分情況下,數(shù)據(jù)挖掘都要先把數(shù)據(jù)從數(shù)據(jù)倉(cāng)庫(kù)中拿到數(shù)據(jù)挖掘庫(kù)或數(shù)據(jù)集市(DataMart)中。數(shù)據(jù)集市或數(shù)據(jù)挖掘庫(kù)是完整的數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)邏輯子集,常常在一個(gè)組織的部門(mén)級(jí)為滿足決策分析而建立,所以俗稱為“部門(mén)級(jí)的數(shù)據(jù)倉(cāng)庫(kù)”。所有數(shù)據(jù)集市有機(jī)地結(jié)合在一起就構(gòu)成了數(shù)據(jù)倉(cāng)庫(kù)。在沒(méi)有建立數(shù)據(jù)倉(cāng)庫(kù)的情形下,為了進(jìn)行數(shù)據(jù)挖掘可以把一個(gè)或者幾個(gè)事務(wù)數(shù)據(jù)庫(kù)導(dǎo)人一個(gè)只讀數(shù)據(jù)庫(kù)里,將其看作數(shù)據(jù)集市進(jìn)行挖掘,但是數(shù)據(jù)倉(cāng)庫(kù)的建立會(huì)給數(shù)據(jù)挖掘帶來(lái)不少的便利?! 慕M織角度看,數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是集成化、綜合性的。數(shù)據(jù)挖掘要實(shí)現(xiàn)的是一個(gè)組織全局模式的知識(shí)發(fā)現(xiàn)。因此,基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)挖掘能更好地滿足高層戰(zhàn)略決策的要求,而且數(shù)據(jù)倉(cāng)庫(kù)建立的過(guò)程中本身就包括了對(duì)數(shù)據(jù)的預(yù)處理過(guò)程。數(shù)據(jù)在裝載之前,需要進(jìn)行清洗、集成、變換和歸約等處理,有些還要進(jìn)行初步的分析處理。在數(shù)據(jù)挖掘的整個(gè)流程中,數(shù)據(jù)的預(yù)處理過(guò)程是最費(fèi)時(shí)、費(fèi)力的,往往占到整個(gè)挖掘時(shí)間消耗量的一半以上。以數(shù)據(jù)倉(cāng)庫(kù)為挖掘?qū)ο?,?shù)據(jù)的噪聲問(wèn)題、缺失值問(wèn)題、不一致性問(wèn)題得到解決,可以提高挖掘的成本效果性?! ?shù)據(jù)倉(cāng)庫(kù)是面向主題的,對(duì)人們關(guān)心的問(wèn)題具有強(qiáng)大的決策分析支持功能。因此其體系結(jié)構(gòu)能夠保證實(shí)時(shí)進(jìn)行查詢分析活動(dòng);而一般的聯(lián)機(jī)事務(wù)處理系統(tǒng)則主要針對(duì)更新的實(shí)時(shí)性,對(duì)查詢分析功能針對(duì)性較弱。除此之外,數(shù)據(jù)倉(cāng)庫(kù)采用更加接近人類思維的數(shù)據(jù)模型,擁有可視化的用戶界面,加上對(duì)查詢功能的強(qiáng)大支持,能使數(shù)據(jù)挖掘效率更高,并在挖掘過(guò)程中做到實(shí)時(shí)交互,使決策者有可能發(fā)現(xiàn)更深入、更有價(jià)值的知識(shí)。 但是,數(shù)據(jù)倉(cāng)庫(kù)在給挖掘帶來(lái)便利的同時(shí),也給數(shù)據(jù)挖掘帶來(lái)了挑戰(zhàn)。首先,大型的數(shù)據(jù)倉(cāng)庫(kù)來(lái)自于異種數(shù)據(jù)源(HeterogeneousDatabase)。這些數(shù)據(jù)源來(lái)源于龐大的、分布式的和異種數(shù)據(jù)庫(kù),具有結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)語(yǔ)義。比如遺產(chǎn)數(shù)據(jù)庫(kù)(IegacyDatabase),由關(guān)系型數(shù)據(jù)庫(kù)、層次數(shù)據(jù)庫(kù)、電子表格、網(wǎng)絡(luò)數(shù)據(jù)庫(kù)、多媒體數(shù)據(jù)庫(kù)等組合在一起,其中的數(shù)據(jù)規(guī)律一般很難被簡(jiǎn)單的查詢分析發(fā)現(xiàn)。這要求數(shù)據(jù)挖掘的算法必須更快、更有效。其次,數(shù)據(jù)倉(cāng)庫(kù)包含了大量陳舊歷史的數(shù)據(jù)。這種數(shù)據(jù)在時(shí)間軸上的特征也增加了數(shù)據(jù)挖掘的難度?! 〉谌?jié) 文本數(shù)據(jù)庫(kù) 隨著信息技術(shù)的不斷進(jìn)步,對(duì)超大文本集合的電子存儲(chǔ)已經(jīng)成為可能,于是形成了文本數(shù)據(jù)庫(kù)(TextDatabase)或者稱全文數(shù)據(jù)庫(kù)(Full.!rextDatabase)。文本數(shù)據(jù)庫(kù)包含計(jì)算機(jī)能夠讀取的整個(gè)文本,或者從文獻(xiàn)里有目的節(jié)選的摘要,比如新聞數(shù)據(jù)庫(kù)、電子郵件數(shù)據(jù)庫(kù)、學(xué)術(shù)期刊數(shù)據(jù)庫(kù)等。由于整個(gè)社會(huì)信息化程度的不斷提高,人們?cè)絹?lái)越依賴使用電子文本記錄和發(fā)表信息,同時(shí)為方便查詢和檢索,歷史沉積下來(lái)的各類印刷文本正在不斷地被電子化,再加上網(wǎng)絡(luò)技術(shù)的普及,以電子文本為載體保存下來(lái)的信息越來(lái)越多。大多數(shù)文本數(shù)據(jù)庫(kù)所存放的數(shù)據(jù)都是半結(jié)構(gòu)化數(shù)據(jù)(semi-structuredata),即它們既不是完全結(jié)構(gòu)化也不是完全無(wú)結(jié)構(gòu)的。比如,一個(gè)文檔可能包含結(jié)構(gòu)字段,諸如標(biāo)題、作者、出版時(shí)間、長(zhǎng)度和圖書(shū)分類號(hào)等;也可能包含大量無(wú)結(jié)構(gòu)的文本成分,諸如摘要和內(nèi)容等。近年來(lái)在數(shù)據(jù)庫(kù)研究領(lǐng)域?qū)Π虢Y(jié)構(gòu)化數(shù)據(jù)集進(jìn)行建模和操作已有許多研究成果。此外信息檢索技術(shù),如文本索引方法,也已應(yīng)用到非結(jié)構(gòu)化文檔的處理上?! ∪藗兪褂梦谋緮?shù)據(jù)庫(kù)主要基于三個(gè)基本的目的:首先,用戶需要便利地獲得全文文本,即文獻(xiàn)檢索。
圖書(shū)封面
圖書(shū)標(biāo)簽Tags
無(wú)
評(píng)論、評(píng)分、閱讀與下載
醫(yī)學(xué)數(shù)據(jù)挖掘 PDF格式下載
250萬(wàn)本中文圖書(shū)簡(jiǎn)介、評(píng)論、評(píng)分,PDF格式免費(fèi)下載。 第一圖書(shū)網(wǎng) 手機(jī)版