數(shù)據(jù)挖掘:實(shí)用案例分析

出版社:機(jī)械工業(yè)出版社  作者:張良均,陳俊德,劉名軍,陳榮  
Tag標(biāo)簽:無  

前言

前    言為什么要寫這本書  現(xiàn)在,什么程序員最稀缺?什么技術(shù)最火?回答:數(shù)據(jù)挖掘!  數(shù)據(jù)挖掘是從大量數(shù)據(jù)(包括文本)中挖掘出隱含的、先前未知的、對決策有潛在價(jià)值的關(guān)系、模式和趨勢,并用這些知識和規(guī)則建立用于決策支持的模型,提供預(yù)測性決策支持的方法、工具和過程。數(shù)據(jù)挖掘有助于企業(yè)發(fā)現(xiàn)業(yè)務(wù)的趨勢,揭示已知的事實(shí),預(yù)測未知的結(jié)果,因此“數(shù)據(jù)挖掘”已成為企業(yè)保持競爭力的必要方法。  近年來企業(yè)所處理的數(shù)據(jù)每五年就會(huì)呈現(xiàn)倍數(shù)增長。大部分的企業(yè)并沒有數(shù)據(jù)不足的問題,過度的數(shù)據(jù)重復(fù)與不一致才是大問題,這使得企業(yè)在使用、有效管理以及將這些數(shù)據(jù)用于決策過程方面都遭遇到了問題。因此未來幾年,隨著大數(shù)據(jù)迅速發(fā)展,數(shù)據(jù)挖掘?qū)⑹菢O為重要的成長領(lǐng)域,其應(yīng)用會(huì)越來越廣泛,可以說,只要企業(yè)掌握有分析價(jià)值的數(shù)據(jù)源,皆可進(jìn)行高價(jià)值的數(shù)據(jù)挖掘分析。目前數(shù)據(jù)挖掘主要應(yīng)用在電信、零售、農(nóng)業(yè)、互聯(lián)網(wǎng)、金融、電力、生物、化工和醫(yī)療等行業(yè)。典型的應(yīng)用如:客戶細(xì)分、流失預(yù)警、價(jià)值評估、交叉銷售、欺詐發(fā)現(xiàn)、精準(zhǔn)營銷、故障診斷等?! 】偟膩碚f,跟國外相比,我國由于信息化程度不太高、企業(yè)內(nèi)部信息不完整,零售業(yè)、銀行、保險(xiǎn)、證券等對數(shù)據(jù)挖掘的應(yīng)用并不太理想。但隨著市場競爭的加劇,各行業(yè)應(yīng)用數(shù)據(jù)挖掘技術(shù)的意愿越來越強(qiáng)烈,可以預(yù)計(jì),未來幾年各行業(yè)的數(shù)據(jù)分析應(yīng)用一定會(huì)從傳統(tǒng)的統(tǒng)計(jì)分析發(fā)展到大規(guī)模數(shù)據(jù)挖掘應(yīng)用?! ”緯髡邚膶?shí)踐出發(fā),結(jié)合大量數(shù)據(jù)挖掘工程案例,總結(jié)出數(shù)據(jù)挖掘建模過程應(yīng)完成的任務(wù)主要包括:數(shù)據(jù)探索、數(shù)據(jù)預(yù)處理、分類與回歸、聚類分析、時(shí)序預(yù)測、關(guān)聯(lián)規(guī)則挖掘、偏差檢測等。因此,本書的編排以解決某個(gè)應(yīng)用的挖掘目標(biāo)為前提,先介紹案例背景,再闡述分析方法與過程,最后完成模型構(gòu)建,在介紹建模過程的同時(shí)穿插操作訓(xùn)練,把相關(guān)的知識點(diǎn)嵌入相應(yīng)的操作過程中?! ”緯獗P中附數(shù)據(jù)挖掘建模案例數(shù)據(jù)文件、數(shù)據(jù)挖掘算法工具包源程序及使用說明。讀者對象* 需求分析及系統(tǒng)設(shè)計(jì)人員?! ∵@類人員可以在理解數(shù)據(jù)挖掘原理及建模過程的基礎(chǔ)上,結(jié)合數(shù)據(jù)挖掘案例完成精確營銷、客戶分群、交叉銷售、客戶流失分析、客戶信用記分、欺詐發(fā)現(xiàn)等數(shù)據(jù)挖掘應(yīng)用的需求分析和設(shè)計(jì)。* 數(shù)據(jù)挖掘開發(fā)人員。  這類人員可以在理解數(shù)據(jù)挖掘應(yīng)用需求和設(shè)計(jì)方案的基礎(chǔ)上,結(jié)合本書提供的基于第三方接口快速完成數(shù)據(jù)挖掘應(yīng)用的編程實(shí)現(xiàn)。* 開設(shè)有數(shù)據(jù)挖掘課程的高校教師和學(xué)生。  目前國內(nèi)不少高校將數(shù)據(jù)挖掘引入本科教學(xué)中,在數(shù)學(xué)、自動(dòng)化、電子信息、金融等專業(yè)開設(shè)了數(shù)據(jù)挖掘技術(shù)相關(guān)的課程。目前這一課程的教學(xué)仍主要限于理論介紹,因?yàn)檫^于抽象,學(xué)生理解起來往往比較困難,教學(xué)效果不甚理想。本書提供的基于實(shí)戰(zhàn)案例和建模實(shí)踐的教學(xué),能夠使師生充分發(fā)揮互動(dòng)性和創(chuàng)造性,理論聯(lián)系實(shí)際,從而獲得最佳的教學(xué)效果。* 進(jìn)行數(shù)據(jù)挖掘應(yīng)用研究的科研人員?! ≡S多科研院所為了更好地對科研工作進(jìn)行管理,紛紛開發(fā)了適應(yīng)自身特點(diǎn)的科研業(yè)務(wù)管理系統(tǒng),并在使用過程中積累了大量的科研信息數(shù)據(jù)。但是,這些科研業(yè)務(wù)管理系統(tǒng)一般沒有對這些數(shù)據(jù)進(jìn)行深入分析的功能,對數(shù)據(jù)所隱藏的價(jià)值并沒有充分挖掘利用。科研人員需要數(shù)據(jù)挖掘建模工具及有關(guān)方法論來深挖科研信息的價(jià)值,從而提高科研水平。* 關(guān)注高級數(shù)據(jù)分析的人員?! I(yè)務(wù)報(bào)告和商業(yè)智能解決方案對于了解過去和現(xiàn)在的狀況是非常有用的。但是,數(shù)據(jù)挖掘的預(yù)測分析解決方案還能使這類人員預(yù)見未來的發(fā)展?fàn)顩r,讓他們的機(jī)構(gòu)能夠先發(fā)制人,而不是處于被動(dòng)。因?yàn)閿?shù)據(jù)挖掘的預(yù)測分析解決方案將復(fù)雜的統(tǒng)計(jì)方法和機(jī)器學(xué)習(xí)技術(shù)應(yīng)用到數(shù)據(jù)之中,通過使用預(yù)測分析技術(shù)來揭示隱藏在交易系統(tǒng)或企業(yè)資源計(jì)劃(ERP)、結(jié)構(gòu)數(shù)據(jù)庫和普通文件中的模式和趨勢,從而為這類人員的決策提供科學(xué)依據(jù)。如何閱讀本書  本書共12章,分三個(gè)部分,通過對一個(gè)個(gè)真實(shí)案例深入淺出的剖析,使讀者在不知不覺中能快速領(lǐng)悟看似深不可測的數(shù)據(jù)挖掘理論。讀者在閱讀過程中,應(yīng)充分利用隨書配套的案例建模數(shù)據(jù),借助相關(guān)的數(shù)據(jù)挖掘建模工具,通過動(dòng)手實(shí)踐,幫助快速理解相關(guān)知識和理論?! 〉谝徊糠质腔A(chǔ)篇(第1~4章),主要對數(shù)據(jù)挖掘的基本概念、應(yīng)用分類、建模方法及常用的建模工具進(jìn)行了介紹;第4章對本書所用到的數(shù)據(jù)挖掘建模平臺TipDM進(jìn)行了說明?! 〉诙糠质菍?shí)戰(zhàn)篇(第5~10章),其中第5~9章為案例部分,重點(diǎn)對數(shù)據(jù)挖掘技術(shù)在金融、電信、電力、互聯(lián)網(wǎng)、生產(chǎn)制造以及公共服務(wù)等行業(yè)的應(yīng)用場景進(jìn)行了討論。在過程組織上,按照先介紹案例背景、挖掘目標(biāo),再闡述分析方法與過程,最后完成模型構(gòu)建的順序進(jìn)行,在介紹建模過程的同時(shí)穿插操作訓(xùn)練,把相關(guān)的知識點(diǎn)嵌入相應(yīng)的操作過程中;第10章為實(shí)驗(yàn)部分,讀者可以通過本章介紹的方法,動(dòng)手實(shí)踐以鞏固數(shù)據(jù)挖掘知識及建模過程。  第三部分是高級篇(第11~12章),其中第11章對基于第三方接口的數(shù)據(jù)挖掘二次開發(fā)技術(shù)進(jìn)行了說明,通過示例,介紹了如何基于WEKA和MATLAB等工具實(shí)現(xiàn)數(shù)據(jù)挖掘算法接口編程;第12章介紹了基于Hadoop框架開發(fā)的并行數(shù)據(jù)挖掘算法工具箱——TipCDM,并通過一個(gè)實(shí)際案例,介紹了基于云計(jì)算的海量數(shù)據(jù)挖掘的具體應(yīng)用及實(shí)現(xiàn)過程??闭`和支持  除封面署名外,參加本書編寫工作的還有:張益銘、周積榮、曹晶、蔣世忠、張秋妮、曹焱峰、余春迪、阮鵬、余燕團(tuán)、王軍曉等。由于作者的水平有限,加之編寫時(shí)間倉促,書中難免會(huì)出現(xiàn)一些錯(cuò)誤或者不準(zhǔn)確的地方,懇請讀者批評指正。為此,讀者可通過作者微博(http://t.qq.com/waveletz)或TipDM官網(wǎng)(www.tipdm.com)反饋有關(guān)問題。也可通過熱線電話(40068-40020)或企業(yè)QQ(40068-40020)進(jìn)行在線咨詢?! ∽x者可以將書中的錯(cuò)誤及遇到的任何問題反饋給我們,我們將盡量在線上為讀者提供最滿意的解答。隨書光盤中提供了全部建模數(shù)據(jù)文件及源程序,也可以從智能中國網(wǎng)站(www.5iai.com)下載,我們會(huì)將相應(yīng)的功能更新及時(shí)更正。如果您有更多的寶貴意見,也歡迎發(fā)送郵件至郵箱5iai2008@gmail.com,期待能夠得到你們的真摯反饋。致謝  本書的案例主要來自作者承擔(dān)的國家及省部級項(xiàng)目和與合作單位的研究應(yīng)用實(shí)踐,如獨(dú)立承擔(dān)的科技部中小企業(yè)創(chuàng)新基金項(xiàng)目——基于云計(jì)算和SOA架構(gòu)的海量數(shù)據(jù)挖掘平臺;與廣東省電科院合作的智能用電海量數(shù)據(jù)挖掘項(xiàng)目;與廣州翰思軟件有限公司合作的基于數(shù)據(jù)挖掘和GIS技術(shù)的房地產(chǎn)自動(dòng)評估系統(tǒng);與廣州因孚網(wǎng)絡(luò)科技有限公司合作的基于云計(jì)算的海量數(shù)據(jù)挖掘平臺的研發(fā)及應(yīng)用示范;與西南交通大學(xué)合作的數(shù)據(jù)挖掘技術(shù)在混合厭氧消化系統(tǒng)優(yōu)勢營養(yǎng)互補(bǔ)機(jī)制研究;與南京中醫(yī)藥大學(xué)合作的數(shù)據(jù)挖掘技術(shù)在乳腺癌證素變化規(guī)律及截?cái)喁煼ㄑ芯?;與華南師范大學(xué)合作的企業(yè)信息預(yù)測開發(fā)平臺;與廣東工業(yè)大學(xué)合作的應(yīng)用統(tǒng)計(jì)實(shí)踐教學(xué)基地建設(shè)項(xiàng)目;與廣東石油化工學(xué)院合作的云計(jì)算環(huán)境下Web結(jié)構(gòu)挖掘研究及應(yīng)用等?! ”緯帉戇^程中,得到了廣大企事業(yè)單位科研人員的大力支持!在此謹(jǐn)向廣東電力科學(xué)研究院、廣西電力科學(xué)研究院、廣東電信規(guī)劃設(shè)計(jì)院、珠江/黃海水產(chǎn)研究所、華南師范大學(xué)、廣東工業(yè)大學(xué)、西南交通大學(xué)、南京中醫(yī)藥大學(xué)、華南理工大學(xué)、湖南師范大學(xué)、廣州中醫(yī)藥大學(xué)、武漢理工大學(xué)、廣東石油化工學(xué)院、中山大學(xué)、浙江大學(xué)、廣州大學(xué)、河南理工大學(xué)、甘肅中醫(yī)學(xué)院、番禺職業(yè)技術(shù)學(xué)院、大連海事大學(xué)、廣州從興電子開發(fā)有限公司、廣州泰迪智能科技有限公司、廣州太普軟件科技有限公司、中科普開(北京)科技有限公司、EasyHadoop社區(qū)等單位給予支持的專家及師生致以深深的謝意?! ≡诒緯某霭孢^程中,得到了參與中國數(shù)據(jù)挖掘建模競賽(http://c.5iai.com)的眾多師生及機(jī)械工業(yè)出版社華章公司楊福川老師、白宇編輯等無私的幫助與支持,在此一并表示感謝。    張良均      2013年4月于廣州

內(nèi)容概要

《數(shù)據(jù)挖掘:實(shí)用案例分析》是數(shù)據(jù)挖掘?qū)崙?zhàn)領(lǐng)域頗具特色的一部作品,作者曾為10余個(gè)行業(yè)上百家大型企業(yè)提供數(shù)據(jù)挖掘服務(wù),本書是其在數(shù)據(jù)挖掘領(lǐng)域探索近10年的經(jīng)驗(yàn)總結(jié)之作。全書以實(shí)踐和實(shí)用為宗旨,深度與廣度兼顧,實(shí)踐與理論并舉。
《數(shù)據(jù)挖掘:實(shí)用案例分析》共12章,分三個(gè)部分。第一部分是基礎(chǔ)篇(第1~4章),主要對數(shù)據(jù)挖掘的基本概念、應(yīng)用分類、建模方法及常用的建模工具進(jìn)行了介紹,并對本書所用到的數(shù)據(jù)挖掘建模平臺TipDM進(jìn)行了說明。第二部分是實(shí)戰(zhàn)篇(第5~10章),以案例的形式對數(shù)據(jù)挖掘技術(shù)在金融、電信、電力、互聯(lián)網(wǎng)、生產(chǎn)制造以及公共服務(wù)等行業(yè)的應(yīng)用場景進(jìn)行了討論;首先介紹案例背景,然后闡述分析方法與過程,最后完成模型構(gòu)建;在介紹建模過程的同時(shí)穿插操作訓(xùn)練,把相關(guān)的知識點(diǎn)嵌入相應(yīng)的操作過程中;此外,第10章精心設(shè)計(jì)了6個(gè)實(shí)驗(yàn)項(xiàng)目,讀者可以通過本章介紹的方法動(dòng)手實(shí)踐,以鞏固數(shù)據(jù)挖掘知識,在分析建模過程的同時(shí),進(jìn)一步增強(qiáng)動(dòng)手能力。第三部分是高級篇(第11~12章),主要介紹基于第三方接口的數(shù)據(jù)挖掘二次開發(fā)技術(shù),重點(diǎn)對常用的WEKA和MATLAB數(shù)據(jù)挖掘算法接口進(jìn)行了探討;最后對基于Hadoop框架的海量數(shù)據(jù)挖掘進(jìn)行了說明,以滿足讀者更高層次的需求。
隨書光盤中提供了本書的相關(guān)資料和案例資源,以及6個(gè)動(dòng)手實(shí)驗(yàn)所使用的完整數(shù)據(jù),方便讀者動(dòng)手實(shí)踐書中所講解的案例。

作者簡介

張良均 資深數(shù)據(jù)挖掘?qū)<液湍J阶R別專家,有近10年的數(shù)據(jù)挖掘應(yīng)用與咨詢經(jīng)驗(yàn),8年多的數(shù)據(jù)倉庫系統(tǒng)管理與實(shí)施經(jīng)驗(yàn),超過10年的系統(tǒng)開發(fā)與設(shè)計(jì)經(jīng)驗(yàn)。為電信、電力、零售、農(nóng)業(yè)、銀行、電力、生物、化工、醫(yī)藥等多個(gè)行業(yè)上百家大型企業(yè)提供過數(shù)據(jù)挖掘應(yīng)用與咨詢服務(wù),實(shí)踐經(jīng)驗(yàn)非常豐富。此外,他精通Java EE企業(yè)級應(yīng)用開發(fā),是廣東工業(yè)大學(xué)和華南師范大學(xué)客座教授,著有《神經(jīng)網(wǎng)絡(luò)實(shí)用教程》一書。

書籍目錄

目    錄前  言第一部分  基  礎(chǔ)  篇第1章  初識數(shù)據(jù)挖掘 2   1.1  什么是數(shù)據(jù)挖掘 2   1.2  數(shù)據(jù)挖掘在企業(yè)商務(wù)智能應(yīng)用中的定位 2       1.2.1  數(shù)據(jù)挖掘給企業(yè)帶來最大的投資收益 3       1.2.2  數(shù)據(jù)挖掘從本質(zhì)上提升商務(wù)智能平臺的價(jià)值 3       1.2.3  數(shù)據(jù)挖掘讓商務(wù)智能流程真正形成閉環(huán) 4   1.3  信息類BI應(yīng)用與知識類BI應(yīng)用 5   1.4  數(shù)據(jù)挖掘現(xiàn)狀及應(yīng)用前景 5   1.5  本章小結(jié) 7第2章  數(shù)據(jù)挖掘的應(yīng)用分類 8   2.1  分類與回歸 8       2.1.1  分類與回歸建模原理 9       2.1.2  分類與回歸算法 10   2.2  聚類 11       2.2.1  聚類分析建模原理 11       2.2.2  聚類算法 12   2.3  關(guān)聯(lián)規(guī)則 13       2.3.1  什么是關(guān)聯(lián)規(guī)則 13       2.3.2  關(guān)聯(lián)規(guī)則算法 14   2.4  時(shí)序模式 14       2.4.1  什么是時(shí)序模式 14       2.4.2  時(shí)間序列的組合成分 15       2.4.3  時(shí)間序列的組合模型 15       2.4.4  時(shí)序算法 16   2.5  偏差檢測 16   2.6  本章小結(jié) 17第3章  數(shù)據(jù)挖掘建模 18   3.1  數(shù)據(jù)挖掘的過程 18   3.2  數(shù)據(jù)挖掘建模過程 18       3.2.1  定義挖掘目標(biāo) 18       3.2.2  數(shù)據(jù)取樣 19       3.2.3  數(shù)據(jù)探索 20       3.2.4  預(yù)處理 21       3.2.5  模式發(fā)現(xiàn) 23       3.2.6  模型構(gòu)建 23       3.2.7  模型評價(jià) 24   3.3  常用的建模工具 27   3.4  本章小結(jié) 29第4章  頂尖數(shù)據(jù)挖掘平臺TipDM 31   4.1  TipDM產(chǎn)品功能 31       4.1.1  TipDM平臺提供的數(shù)據(jù)探索及預(yù)處理算法 31       4.1.2  TipDM平臺提供的分類與回歸算法 32       4.1.3  TipDM平臺提供的時(shí)序模式算法 34       4.1.4  TipDM平臺提供的聚類分析算法 35       4.1.5  TipDM平臺提供的關(guān)聯(lián)規(guī)則算法 35   4.2  TipDM使用說明 37   4.3  TipDM產(chǎn)品特點(diǎn) 39       4.3.1  支持CRISP-DM數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程 39       4.3.2  提供豐富的數(shù)據(jù)挖掘模型和靈活算法 40       4.3.3  具有多模型的整合能力 40       4.3.4  提供靈活多樣的應(yīng)用開發(fā)接口 40       4.3.5  海量數(shù)據(jù)的處理能力 40       4.3.6  適應(yīng)不同類型層次人員需求 41   4.4  本章小結(jié) 42第二部分  實(shí)  戰(zhàn)  篇第5章  數(shù)據(jù)挖掘在金融電信行業(yè)的應(yīng)用 44   5.1  案例一:基于公司價(jià)值評價(jià)的證券策略投資 44       5.1.1  挖掘目標(biāo)的提出 44       5.1.2  分析方法與過程 44       5.1.3  建模仿真 51       5.1.4  核心知識點(diǎn) 52       5.1.5  拓展思考 53   5.2  案例二:電信3G客戶識別系統(tǒng) 54       5.2.1  挖掘目標(biāo)的提出 54       5.2.2  分析方法與過程 54       5.2.3  建模仿真 58       5.2.4  核心知識點(diǎn) 61       5.2.5  拓展思考 63   5.3  案例三:基于客戶分群的精準(zhǔn)智能營銷 64       5.3.1  挖掘目標(biāo)的提出 64       5.3.2  分析方法與過程 65       5.3.3  建模仿真 75       5.3.4  核心知識點(diǎn) 81       5.3.5  拓展思考 82   5.4  本章小結(jié) 83第6章  數(shù)據(jù)挖掘在電力行業(yè)的應(yīng)用 84   6.1  案例一:電力負(fù)荷預(yù)測 84       6.1.1  挖掘目標(biāo)的提出 84       6.1.2  分析方法與過程 85       6.1.3  建模仿真 90       6.1.4  核心知識點(diǎn) 94       6.1.5  拓展思考 95   6.2  案例二:自適應(yīng)防竊漏電實(shí)時(shí)診斷 96       6.2.1  挖掘目標(biāo)的提出 96       6.2.2  分析方法與過程 96       6.2.3  建模仿真 107       6.2.4  核心知識點(diǎn) 110       6.2.5  擴(kuò)展思考 111   6.3  本章小結(jié) 112第7章  數(shù)據(jù)挖掘在互聯(lián)網(wǎng)行業(yè)的應(yīng)用 113   7.1  案例一:商業(yè)零售行業(yè)中的購物籃分析 113       7.1.1  挖掘目標(biāo)的提出 113       7.1.2  分析方法與過程 113       7.1.3  建模仿真 118       7.1.4  核心知識點(diǎn) 120       7.1.5  拓展思考 121   7.2  案例二:電子商務(wù)網(wǎng)站用戶行為分析 124       7.2.1  挖掘目標(biāo)的提出 124       7.2.2  分析方法與過程 124       7.2.3  建模仿真 129       7.2.4  核心知識點(diǎn) 132       7.2.5  拓展思考 132   7.3  案例三:網(wǎng)絡(luò)入侵智能檢測 134       7.3.1  挖掘目標(biāo)的提出 134       7.3.2  分析方法與過程 136       7.3.3  建模仿真 137       7.3.4  核心知識點(diǎn) 141       7.3.5  拓展思考 141   7.4  案例四:基于用戶行為分析的定向網(wǎng)絡(luò)廣告投放 142       7.4.1  挖掘目標(biāo)的提出 142       7.4.2  分析方法與過程 143       7.4.3  建模仿真 146       7.4.4  結(jié)果及分析 158       7.4.5  核心知識點(diǎn) 159       7.4.6  拓展思考 160   7.5  案例五:企業(yè)信息系統(tǒng)用戶服務(wù)感知評價(jià) 161       7.5.1  挖掘目標(biāo)的提出 161       7.5.2  分析方法與過程 161       7.5.3  建模仿真 186       7.5.4  核心知識點(diǎn) 192       7.5.5  拓展思考 193   7.6  本章小結(jié) 194第8章  數(shù)據(jù)挖掘在生產(chǎn)制造行業(yè)中的應(yīng)用 195   8.1  案例一:基于小波變換的樁基完整性檢測 195       8.1.1  挖掘目標(biāo)的提出 195       8.1.2  分析方法與過程 196       8.1.3  仿真過程 202       8.1.4  核心知識點(diǎn) 204       8.1.5  拓展思考 204   8.2  案例二:基于水色圖像的水質(zhì)評價(jià) 205       8.2.1  挖掘目標(biāo)的提出 205       8.2.2  分析方法與過程 206       8.2.3  建模仿真 210       8.2.4  核心知識點(diǎn) 213       8.2.5  拓展思考 214   8.3  案例三:生物質(zhì)廢物混合厭氧消化優(yōu)勢組分互補(bǔ)機(jī)制 216       8.3.1  挖掘目標(biāo)的提出 216       8.3.2  分析方法與過程 217       8.3.3  建模仿真 221       8.3.4  核心知識點(diǎn) 223       8.3.5  拓展思考 224   8.4  案例四:基于RFM的企業(yè)客戶關(guān)系分析 224       8.4.1  挖掘目標(biāo)的提出 224       8.4.2  分析過程與方法 226       8.4.3  建模仿真 229       8.4.4  核心知識點(diǎn) 236       8.4.5  拓展思考 236   8.5  案例五:水產(chǎn)養(yǎng)殖投入產(chǎn)出多目標(biāo)優(yōu)化仿真 239       8.5.1  挖掘目標(biāo)的提出 239       8.5.2  分析方法與過程 240       8.5.3  建模仿真 244       8.5.4  核心知識點(diǎn) 249       8.5.5  拓展思考 250   8.6  本章小結(jié) 252第9章  數(shù)據(jù)挖掘在公共服務(wù)行業(yè)的應(yīng)用 253   9.1  案例一:乳腺癌證素變化規(guī)律及截?cái)喁煼?253       9.1.1  挖掘目標(biāo)的提出 253       9.1.2  分析方法與過程 255       9.1.3  建模仿真 265       9.1.4  核心知識點(diǎn) 274       9.1.5  拓展思考 274   9.2  案例二:卷煙消費(fèi)者購買行為分析 277       9.2.1  挖掘目標(biāo)的提出 277       9.2.2  分析過程與方法 278       9.2.3  挖掘建模 281       9.2.4  核心知識點(diǎn) 287       9.2.5  拓展思考 288   9.3  案例三:納稅人偷漏稅評估 288       9.3.1  挖掘目標(biāo)的提出 288       9.3.2  分析方法與過程 290       9.3.3  建模仿真 294       9.3.4  核心知識點(diǎn) 300       9.3.5  拓展思考 301   9.4  案例四:道路缺陷自動(dòng)識別 302       9.4.1  挖掘目標(biāo)的提出 302       9.4.2  分析方法與過程 304       9.4.3  建模仿真 319       9.4.4  核心知識點(diǎn) 322       9.4.5  拓展思考 322   9.5  案例五:航空公司客運(yùn)信息挖掘 322       9.5.1  挖掘目標(biāo)的提出 322       9.5.2  分析方法與過程 323       9.5.3  建模仿真 327       9.5.4  核心知識點(diǎn) 348       9.5.5  拓展思考 352   9.6  本章小結(jié) 353第10章  動(dòng)手實(shí)踐 354   10.1  實(shí)驗(yàn)一:數(shù)據(jù)探索及數(shù)據(jù)預(yù)處理 354   10.2  實(shí)驗(yàn)二:神經(jīng)網(wǎng)絡(luò)模型的構(gòu)建與使用 356   10.3  實(shí)驗(yàn)三:決策樹模型的構(gòu)建與使用 358   10.4  實(shí)驗(yàn)四:聚類算法的構(gòu)建與使用 360   10.5  實(shí)驗(yàn)五:關(guān)聯(lián)規(guī)則模型的構(gòu)建與使用 361   10.6  實(shí)驗(yàn)六:時(shí)間序列模型的構(gòu)建與使用 363   10.7  本章小結(jié) 364第三部分  高  級  篇第11章  基于第三方接口的數(shù)據(jù)挖掘二次開發(fā) 366   11.1  WEKA數(shù)據(jù)挖掘接口 366       11.1.1  WEKA功能及其算法 366       11.1.2  WEKA包結(jié)構(gòu) 367       11.1.3  WEKA算法入口 370       11.1.4  二次開發(fā)相關(guān)輸出 370   11.2  MATLAB數(shù)據(jù)挖掘接口 370   11.3  案例:基于MATLAB接口的數(shù)據(jù)挖掘二次開發(fā) 372       11.3.1  接口算法編程 372       11.3.2  用Java Builder創(chuàng)建Java組件 385       11.3.3  安裝MATLAB運(yùn)行時(shí)環(huán)境 386       11.3.4  JDK環(huán)境及設(shè)置 386   11.4  本章小結(jié) 389第12章  基于Hadoop框架的海量數(shù)據(jù)挖掘開發(fā) 390   12.1  基于云計(jì)算的海量數(shù)據(jù)挖掘技術(shù)特點(diǎn) 390   12.2  基于Hadoop的并行數(shù)據(jù)挖掘算法工具箱TipCDM 392   12.3  案例:基于海量計(jì)量數(shù)據(jù)的電力客戶在線分群方法 392       12.3.1  挖掘目標(biāo)的提出 392       12.3.2  分析方法與過程 393       12.3.3  建模仿真 399       12.3.4  核心知識點(diǎn) 400   12.4  本章小結(jié) 401參考文獻(xiàn) 402

編輯推薦

資深數(shù)據(jù)挖掘?qū)<?0余個(gè)行業(yè)、上百家大型企業(yè)、近10年數(shù)據(jù)挖掘應(yīng)用與咨詢經(jīng)驗(yàn)結(jié)晶

圖書封面

圖書標(biāo)簽Tags

評論、評分、閱讀與下載



用戶評論 (總計(jì)7條)

 
 

  •   說你是推銷軟件吧,連動(dòng)手實(shí)踐照書做都不下去。聯(lián)系你們企業(yè)QQ吧,從來沒看見你們客服。浪費(fèi)我?guī)资笤?/li>
  •   全是廣告,有點(diǎn)托的感覺,純粹給所謂的Tipcdm這款挖掘軟件打廣告了真正的大數(shù)據(jù)知識,數(shù)據(jù)挖掘知識并沒有深入講解。誤人子弟!
  •   沒有想要的內(nèi)容,很無趣。
  •   內(nèi)容還行,適合初學(xué)者學(xué)習(xí)。
  •   書不錯(cuò),包裝的也很好
  •   挺不錯(cuò),特別對于初學(xué)數(shù)據(jù)挖掘的入門者
  •   向用戶推薦是交易類網(wǎng)站常見功能,有些關(guān)系和概念常混淆或不甚了了。例如:支持度—>同時(shí)購買甲乙兩種相同物品的比率;置信度—>購買甲種物品中同時(shí)購乙種物品的比率,通過這兩個(gè)有關(guān)聯(lián)的指標(biāo),即可對“買甲種物品之后又多大可能購買乙種物品”的概率事件,進(jìn)行預(yù)測。
 

250萬本中文圖書簡介、評論、評分,PDF格式免費(fèi)下載。 第一圖書網(wǎng) 手機(jī)版

京ICP備13047387號-7