出版時(shí)間:2010-9 出版社:電子工業(yè) 作者:薛薇//陳歡歌 頁數(shù):303
Tag標(biāo)簽:無
前言
數(shù)據(jù)挖掘是當(dāng)前數(shù)據(jù)分析領(lǐng)域中最活躍最前沿的地帶。任何事物都有定性和定量?jī)蓚€(gè)方面,定量則產(chǎn)生數(shù)據(jù)。從數(shù)據(jù)分析入手是我們認(rèn)識(shí)事物本質(zhì)的基本手段。任何事物都是互相關(guān)聯(lián)著的,從數(shù)據(jù)分析入手是我們把握事物之間聯(lián)系的基本方法。任何事物都在永恒地變化發(fā)展著,從數(shù)據(jù)分析入手是我們探索事物發(fā)展規(guī)律的基本思路。所以我們進(jìn)行數(shù)據(jù)分析,既是一種世界觀,也是一種方法論。我們?cè)谘芯恐S富多彩的客觀世界的同時(shí),也體現(xiàn)著分析者主觀的智慧和自身的價(jià)值。隨著中國(guó)社會(huì)經(jīng)濟(jì)的蓬勃發(fā)展,在錯(cuò)綜復(fù)雜的宏觀、中觀和微觀的共同作用下,戰(zhàn)略決策和戰(zhàn)術(shù)選擇都顯得敏感而關(guān)鍵,越來越多的人們加入到數(shù)據(jù)分析的行列中來。這是一個(gè)非常富有挑戰(zhàn)性的工作,不但有意思而且有意義。IBM公司于2009年1月公布了其“智慧地球”戰(zhàn)略。該戰(zhàn)略的主要思想是,將傳感設(shè)備或智能儀表嵌入到建筑、電力、交通、管道等各種物體中,進(jìn)行數(shù)據(jù)自動(dòng)采集,之后基于互聯(lián)網(wǎng)形成物物相聯(lián)的物聯(lián)網(wǎng),然后通過超級(jí)計(jì)算機(jī)和云計(jì)算將數(shù)據(jù)整合,進(jìn)行智能化分析和建模,從而實(shí)現(xiàn)社會(huì)與物理世界的融合。這是一個(gè)未來理想化的信息世界圖景。在這個(gè)智慧系統(tǒng)中,其核心是數(shù)據(jù)處理。為此,IBM公司于2009年7月斥資12億美元收購(gòu)了著名的SPSS統(tǒng)計(jì)分析軟件公司,將其應(yīng)用廣泛的SPSS統(tǒng)計(jì)分析軟件和Clementine數(shù)據(jù)挖掘軟件納入麾下。同時(shí)對(duì)軟件產(chǎn)品進(jìn)行了整合,將Clementine更新命名為PASW(Predictive Analytics Software)Modeler,并快速推向市場(chǎng)。目前,SPSS Clementine軟件已經(jīng)連續(xù)若干年蟬聯(lián)數(shù)據(jù)挖掘應(yīng)用的王者,而業(yè)界對(duì)于PASW Modeler的認(rèn)知?jiǎng)t剛剛開始。所以本書繼續(xù)沿用為廣大讀者所熟悉的Clementine這個(gè)名字。Clementine軟件不但將計(jì)算機(jī)科學(xué)中許多機(jī)器學(xué)習(xí)的優(yōu)秀算法帶入到數(shù)據(jù)分析中來,同時(shí)也綜合了一些行之有效的數(shù)據(jù)挖掘方法,成為內(nèi)容最為全面、功能最為強(qiáng)大的數(shù)據(jù)挖掘產(chǎn)品。Clementine軟件充分利用計(jì)算機(jī)系統(tǒng)的運(yùn)算處理能力和圖形展現(xiàn)能力,將方法、應(yīng)用與工具有機(jī)地融合為一體,是解決數(shù)據(jù)挖掘問題的最理想工具。Clementine軟件繼續(xù)保持了SPSS產(chǎn)品的一貫風(fēng)格:界面友好且容易使用。復(fù)雜的數(shù)學(xué)算法和冗余的輸出結(jié)果被軟件隱藏在程序系統(tǒng)內(nèi)部。
內(nèi)容概要
數(shù)據(jù)挖掘是當(dāng)前數(shù)據(jù)分析領(lǐng)域中最活躍最前沿的地帶。本書以數(shù)據(jù)挖掘的實(shí)踐過程為主線,通過生動(dòng)的應(yīng)用案例,從數(shù)據(jù)挖掘?qū)嵤┙嵌?,系統(tǒng)介紹了經(jīng)典的數(shù)據(jù)挖掘方法和利用Clementine實(shí)現(xiàn)數(shù)據(jù)挖掘的全部過程,講解方法從易到難,說明問題從淺至深。本書力求以最通俗的方式闡述數(shù)據(jù)挖掘方法的核心思想與基本原理,同時(shí)配合Clementine軟件操作的說明,希望讀者能夠直觀了解方法本質(zhì),盡快掌握Clementine軟件使用,并應(yīng)用到數(shù)據(jù)挖掘?qū)嵺`中。為方便讀者學(xué)習(xí),書中所有數(shù)據(jù)和案例與所附光盤內(nèi)容一致。 本書適合于從事數(shù)據(jù)分析各應(yīng)用領(lǐng)域的讀者,尤其適合于商業(yè)管理、財(cái)政經(jīng)濟(jì)、金融保險(xiǎn)、社會(huì)研究、人文教育等行業(yè)的相關(guān)人員。同時(shí),也能夠作為高等院校計(jì)算機(jī)類、財(cái)經(jīng)類、管理類專業(yè)本科生和研究生的數(shù)據(jù)挖掘教材。
書籍目錄
第1章 數(shù)據(jù)挖掘和Clementine概述 1.1 數(shù)據(jù)挖掘的產(chǎn)生背景 1.1.1 海量數(shù)據(jù)的分析需求催生數(shù)據(jù)挖掘 1.1.2 應(yīng)用對(duì)理論的挑戰(zhàn)催生數(shù)據(jù)挖掘 1.2 什么是數(shù)據(jù)挖掘 1.2.1 數(shù)據(jù)挖掘的概念 1.2.2 數(shù)據(jù)挖掘能做什么 1.2.3 數(shù)據(jù)挖掘得到的知識(shí)形式 1.2.4 數(shù)據(jù)挖掘的算法分類 1.3 Clementine軟件概述 1.3.1 Clementine的窗口 1.3.2 數(shù)據(jù)流的基本管理和執(zhí)行 1.3.3 數(shù)據(jù)流的其他管理 1.3.4 從一個(gè)示例看Clementine的使用第2章 Clementine數(shù)據(jù)的讀入 2.1 變量的類型 2.1.1 從數(shù)據(jù)挖掘角度看變量類型 2.1.2 從數(shù)據(jù)存儲(chǔ)角度看變量類型 2.2 讀入數(shù)據(jù) 2.2.1 讀自由格式的文本文件 2.2.2 讀Excel電子表格數(shù)據(jù) 2.2.3 讀SPSS格式文件 2.2.4 讀數(shù)據(jù)庫(kù)文件 2.3 生成實(shí)驗(yàn)方案數(shù)據(jù) 2.4 合并數(shù)據(jù) 2.4.1 數(shù)據(jù)的縱向合并 2.4.2 數(shù)據(jù)的橫向合并第3章 Clementine變量的管理 3.1 變量說明 3.1.1 取值范圍和缺失值的說明 3.1.2 變量取值有效性檢查和修正 3.1.3 變量角色的說明 3.2 變量值的重新計(jì)算 3.2.1 CLEM表達(dá)式 3.2.2 變量值重新計(jì)算示例 3.3 變量類別值的調(diào)整 3.4 生成新變量 3.5 變量值的離散化處理 3.5.1 常用的分箱方法 3.5.2 變量值的離散化處理示例 3.6 生成樣本集分割變量 3.6.1 樣本集分割的意義和常見方法 3.6.2 生成樣本集分割變量的示例第4章 Clementine樣本的管理 4.1 樣本的排序 4.2 樣本的條件篩選 4.3 樣本的隨機(jī)抽樣 4.4 樣本的濃縮處理 4.5 樣本的分類匯總 4.6 樣本的平衡處理 4.7 樣本的其他管理 4.7.1 數(shù)據(jù)轉(zhuǎn)置 4.7.2 數(shù)據(jù)的重新組織第5章 Clementine數(shù)據(jù)的基本分析 5.1 數(shù)據(jù)質(zhì)量的探索 5.1.1 數(shù)據(jù)的基本描述與質(zhì)量探索 5.1.2 離群點(diǎn)和極端值的修正 5.1.3 缺失值的替補(bǔ) 5.1.4 數(shù)據(jù)質(zhì)量管理的其他功能 5.2 基本描述分析 5.2.1 計(jì)算基本描述統(tǒng)計(jì)量 5.2.2 繪制散點(diǎn)圖 5.3 變量分布的探索 5.4 兩分類變量相關(guān)性的研究 5.4.1 兩分類變量相關(guān)性的圖形分析 5.4.2 兩分類變量相關(guān)性的數(shù)值分析 5.5 兩總體的均值比較 5.5.1 兩總體均值比較的圖形分析 5.5.2 獨(dú)立樣本的均值檢驗(yàn) 5.5.3 配對(duì)樣本的均值檢驗(yàn) 5.6 變量重要性的分析 5.6.1 變量重要性分析的一般方法 5.6.2 變量重要性分析的應(yīng)用示例第6章 分類預(yù)測(cè):Clementine的決策樹 6.1 決策樹算法概述 6.1.1 什么是決策樹 6.1.2 決策樹的幾何理解 6.1.3 決策樹的核心問題 6.2 Clementine的C5.0算法及應(yīng)用 6.2.1 信息熵和信息增益 6.2.2 C5.0的決策樹生長(zhǎng)算法 6.2.3 C5.0的剪枝算法 6.2.4 C5.0的推理規(guī)則集 6.2.5 C5.0的基本應(yīng)用示例 6.2.6 C5.0的損失矩陣和Boosting技術(shù) 6.2.7 C5.0的模型評(píng)價(jià) 6.2.8 C5.0的其他話題:推理規(guī)則、交叉驗(yàn)證和未剪枝的決策樹 6.3 Clementine的分類回歸樹及應(yīng)用 6.3.1 分類回歸樹的生長(zhǎng)過程 6.3.2 分類回歸樹的剪枝過程 6.3.3 損失矩陣對(duì)分類樹的影響 6.3.4 分類回歸樹的基本應(yīng)用示例 6.3.5 分類回歸樹的交互建模 6.3.6 分類回歸樹的模型評(píng)價(jià) 6.4 Clementine的CHAID算法及應(yīng)用 6.4.1 CHAID分組變量的預(yù)處理和選擇策略 6.4.2 Exhaustive CHAID算法 6.4.3 CHAID的剪枝 6.4.4 CHAID的應(yīng)用示例 6.5 Clementine的QUEST算法及應(yīng)用 6.5.1 QUEST算法確定最佳分組變量和分割點(diǎn)的方法 6.5.2 QUEST算法的應(yīng)用示例 6.6 決策樹算法評(píng)估的圖形比較 6.6.1 不同模型的誤差對(duì)比 6.6.2 不同模型收益的對(duì)比第7章 分類預(yù)測(cè):Clementine的人工神經(jīng)網(wǎng)絡(luò) 7.1 人工神經(jīng)網(wǎng)絡(luò)算法概述 7.1.1 人工神經(jīng)網(wǎng)絡(luò)的概念和種類 7.1.2 人工神經(jīng)網(wǎng)絡(luò)中的節(jié)點(diǎn)和意義 7.1.3 人工神經(jīng)網(wǎng)絡(luò)建立的一般步驟 7.2 Clementine的B-P反向傳播網(wǎng)絡(luò) 7.2.1 感知機(jī)模型 7.2.2 B-P反向傳播網(wǎng)絡(luò)的特點(diǎn) 7.2.3 B-P反向傳播算法 7.2.4 B-P反向傳播網(wǎng)絡(luò)的其他問題 7.3 Clementine的B-P反向傳播網(wǎng)絡(luò)的應(yīng)用 7.3.1 基本操作說明 7.3.2 計(jì)算結(jié)果說明 7.3.3 提高模型預(yù)測(cè)精度 7.4 Clementine的徑向基函數(shù)網(wǎng)絡(luò)及應(yīng)用 7.4.1 徑向基函數(shù)網(wǎng)絡(luò)中的隱節(jié)點(diǎn)和輸出節(jié)點(diǎn) 7.4.2 徑向基函數(shù)網(wǎng)絡(luò)的學(xué)習(xí)過程 7.4.3 徑向基函數(shù)網(wǎng)絡(luò)的應(yīng)用示例第8章 分類預(yù)測(cè):Clementine的統(tǒng)計(jì)方法 8.1 Clementine的Logistic回歸分析及應(yīng)用 8.1.1 二項(xiàng)Logistic回歸方程 8.1.2 二項(xiàng)Logistic回歸方程系數(shù)的含義 8.1.3 二項(xiàng)Logistic回歸方程的檢驗(yàn) 8.1.4 二項(xiàng)Logistic回歸分析的應(yīng)用示例 8.1.5 多項(xiàng)Logistic回歸分析的應(yīng)用示例 8.2 Clementine的判別分析及應(yīng)用 8.2.1 距離判別法 8.2.2 Fisher判別法 8.2.3 貝葉斯判別法 8.2.4 判別分析的應(yīng)用示例第9章 探索內(nèi)部結(jié)構(gòu):Clementine的關(guān)聯(lián)分析 9.1 簡(jiǎn)單關(guān)聯(lián)規(guī)則及其有效性 9.1.1 簡(jiǎn)單關(guān)聯(lián)規(guī)則的基本概念 9.1.2 簡(jiǎn)單關(guān)聯(lián)規(guī)則的有效性和實(shí)用性 9.2 Clementine的Apriori算法及應(yīng)用 9.2.1 產(chǎn)生頻繁項(xiàng)集 9.2.2 依據(jù)頻繁項(xiàng)集產(chǎn)生簡(jiǎn)單關(guān)聯(lián)規(guī)則 9.2.3 Apriori算法的應(yīng)用示例 9.3 Clementine的GRI算法及應(yīng)用 9.3.1 GRI算法基本思路 9.3.2 GRI算法的具體策略 9.3.3 GRI算法的應(yīng)用示例 9.4 Clementine的序列關(guān)聯(lián)及應(yīng)用 9.4.1 序列關(guān)聯(lián)中的基本概念 9.4.2 Sequence算法 9.4.3 序列關(guān)聯(lián)的時(shí)間約束 9.4.4 序列關(guān)聯(lián)分析的應(yīng)用示例第10章 探索內(nèi)部結(jié)構(gòu):Clementine的聚類分析 10.1 聚類分析的一般問題 10.1.1 聚類分析的提出 10.1.2 聚類分析的算法 10.2 Clementine的K-Means聚類及應(yīng)用 10.2.1 K-Means對(duì)“親疏程度”的測(cè)度 10.2.2 K-Means聚類過程 10.2.3 K-Means聚類的應(yīng)用示例 10.3 Clementine的兩步聚類及應(yīng)用 10.3.1 兩步聚類對(duì)“親疏程度”的測(cè)度 10.3.2 兩步聚類過程 10.3.3 聚類數(shù)目的確定 10.3.4 兩步聚類的應(yīng)用示例 10.4 Clementine的Kohonen網(wǎng)絡(luò)聚類及應(yīng)用 10.4.1 Kohonen網(wǎng)絡(luò)的聚類機(jī)理 10.4.2 Kohonen網(wǎng)絡(luò)的聚類過程 10.4.3 Kohonen網(wǎng)絡(luò)聚類的示例 10.5 基于聚類分析的離群點(diǎn)探索及應(yīng)用 10.5.1 多維空間基于聚類的診斷方法 10.5.2 多維空間基于聚類的診斷方法應(yīng)用示例參考文獻(xiàn)
章節(jié)摘錄
插圖:數(shù)據(jù)挖掘,作為20世紀(jì)90年代中后期興起的,具有鮮明跨學(xué)科色彩的應(yīng)用和研究領(lǐng)域,因其注重減少數(shù)據(jù)分析方法對(duì)數(shù)據(jù)的限制性和約束性,注重與計(jì)算機(jī)技術(shù)結(jié)合以實(shí)現(xiàn)數(shù)據(jù)的可管理性以及分析的易操作性,已成為數(shù)據(jù)分析應(yīng)用實(shí)踐的新生代。同時(shí),隨著數(shù)據(jù)挖掘方法的不斷成熟及其應(yīng)用的日益普及化,數(shù)據(jù)挖掘軟件的研發(fā)也取得了令人可喜的成果。目前,以Clementine為代表的數(shù)據(jù)挖掘軟件,因其有效地將束之高閣的數(shù)據(jù)挖掘理論成果解放到數(shù)據(jù)分析實(shí)踐中,已普遍應(yīng)用于商業(yè)、社會(huì)、經(jīng)濟(jì)、教育、金融、醫(yī)學(xué)等領(lǐng)域,并成為數(shù)據(jù)分析的主流工具,得到數(shù)據(jù)分析相關(guān)領(lǐng)域的極大關(guān)注。1.1 數(shù)據(jù)挖掘的產(chǎn)生背景數(shù)據(jù)挖掘的產(chǎn)生和興起是在計(jì)算機(jī)數(shù)據(jù)庫(kù)技術(shù)蓬勃發(fā)展,人工智能技術(shù)應(yīng)用領(lǐng)域不斷拓展,統(tǒng)計(jì)分析方法不斷豐富過程中,為有效迎合數(shù)據(jù)分析的實(shí)際需求而逐步形成和發(fā)展起來的一門具有鮮明跨學(xué)科色彩的應(yīng)用研究領(lǐng)域。1.1.1 海量數(shù)據(jù)的分析需求催生數(shù)據(jù)挖掘20世紀(jì)80年代以來,隨著計(jì)算機(jī)數(shù)據(jù)庫(kù)技術(shù)和產(chǎn)品的日益成熟以及計(jì)算機(jī)應(yīng)用的普及深化,各行業(yè)部門的數(shù)據(jù)采集能力得到了前所未有的提高,組織通過各自內(nèi)部的業(yè)務(wù)處理系統(tǒng)、管理信息系統(tǒng)以及外部網(wǎng)絡(luò)系統(tǒng),獲得并積累了浩如煙海的數(shù)據(jù)。以商業(yè)領(lǐng)域?yàn)槔?,美?guó)著名的連鎖超市Wal-Mart的數(shù)據(jù)庫(kù)中已積累了TB級(jí)以上的顧客購(gòu)買行為數(shù)據(jù)和其他銷售數(shù)據(jù)。隨著互聯(lián)網(wǎng)和電子商務(wù)的普及,各類網(wǎng)上書店、網(wǎng)上銀行、網(wǎng)上營(yíng)業(yè)廳和網(wǎng)上商城等積累的Web點(diǎn)擊流數(shù)據(jù),存儲(chǔ)容量也多高達(dá)GB級(jí)。另外,國(guó)家政府部門所積累的數(shù)據(jù)量也令人瞠目。例如,一次全國(guó)經(jīng)濟(jì)普查或人口普查所采集和處理數(shù)據(jù)量均在千萬級(jí)以上。同時(shí),各經(jīng)濟(jì)行業(yè)的企業(yè)內(nèi)部也擁有大量的業(yè)務(wù)數(shù)據(jù)、財(cái)務(wù)數(shù)據(jù)和人事數(shù)據(jù)。在嚴(yán)酷的市場(chǎng)競(jìng)爭(zhēng)壓力下,企業(yè)為更客觀地把握自身和市場(chǎng)狀況,提升內(nèi)部管理和決策水平,管理者們面對(duì)如此豐富的海量數(shù)據(jù),分析需求越來越強(qiáng)烈。
編輯推薦
《Clementine數(shù)據(jù)挖掘方法及應(yīng)用》由電子工業(yè)出版社出版。
圖書封面
圖書標(biāo)簽Tags
無
評(píng)論、評(píng)分、閱讀與下載
Clementine數(shù)據(jù)挖掘方法及應(yīng)用 PDF格式下載