數(shù)據(jù)挖掘與應(yīng)用

出版時(shí)間:2009-6  出版社:北京大學(xué)出版社  作者:張俊妮  頁數(shù):185  
Tag標(biāo)簽:無  

前言

教材建設(shè)是大學(xué)人才培養(yǎng)和知識(shí)傳授的重要組成部分。對(duì)管理教育而言,教材建設(shè)尤為重要,一流的商學(xué)院不僅要有一流的師資力量、一流的生源、一流的教學(xué)管理水平,而且必須使用一流的教科書。一流的管理類教科書必須滿足以下標(biāo)準(zhǔn):第一,能把所在領(lǐng)域的基礎(chǔ)知識(shí)以全面、系統(tǒng)的方式和與讀者友好的語言呈獻(xiàn)給讀者;第二,必須有時(shí)代感,能把學(xué)科前沿的研究成果囊括進(jìn)去;第三,必須做到理論和實(shí)務(wù)(包括案例分析)相結(jié)合,有很強(qiáng)的實(shí)用性;第四,能夠啟發(fā)學(xué)生思考現(xiàn)實(shí)的管理問題,培養(yǎng)他們分析問題和解決問題的能力;第五,可以作為研究人員和管理人士的工具書。中國(guó)的管理教育是伴隨改革開放而產(chǎn)生的。真正意義上的管理教育在中國(guó)不過十多年的歷史,但巨大的市場(chǎng)需求使得管理教育成為中國(guó)高等教育各學(xué)科中發(fā)展最快的領(lǐng)域,管理類教科書市場(chǎng)異常繁榮。但總體而言,目前國(guó)內(nèi)市場(chǎng)上管理類教科書的水平仍不能令人滿意。國(guó)內(nèi)教科書作者大多數(shù)在所涉及領(lǐng)域并沒有真正的原創(chuàng)性研究和學(xué)術(shù)貢獻(xiàn),所撰寫的教科書普遍停留在對(duì)國(guó)外教科書的內(nèi)容進(jìn)行中國(guó)式排列組合的水平上;國(guó)外引進(jìn)的原版教科書雖然具有學(xué)術(shù)上的先進(jìn)性,但由于其寫作背景是外國(guó)的管理實(shí)踐和制度安排,案例也都是取自于西方發(fā)達(dá)國(guó)家,對(duì)中國(guó)讀者而言,總有一種隔靴搔癢的感覺。如何寫出一流的中國(guó)版的管理類教材,是中國(guó)管理教育發(fā)展面臨的重要任務(wù)。北京大學(xué)光華管理學(xué)院一直重視教材建設(shè)工作。1999年夏,我們?cè)c經(jīng)濟(jì)科學(xué)出版社簽約,以每本20萬元的稿酬,向全國(guó)征集MBA教科書作者。這個(gè)計(jì)劃公布之后,我們收到了十幾本教科書的寫作方案。

內(nèi)容概要

本書全面地介紹了數(shù)據(jù)挖掘的相關(guān)主題,包括數(shù)據(jù)理解與數(shù)據(jù)準(zhǔn)備、關(guān)聯(lián)規(guī)則挖掘、多元統(tǒng)計(jì)中的降維方法、聚類分析、神經(jīng)網(wǎng)絡(luò)、決策樹方法、模型評(píng)估等內(nèi)容。全書體系完整,文字精煉,注重對(duì)數(shù)據(jù)挖掘方法的直覺理解及其應(yīng)用;同時(shí),保持了一定的嚴(yán)謹(jǐn)性,為學(xué)生理解和運(yùn)用這些方法提供了堅(jiān)實(shí)的基礎(chǔ)。    本書實(shí)例豐富,并附有相應(yīng)SAS程序,以便于學(xué)生盡快理解相關(guān)內(nèi)容并用以解決實(shí)際問題。    本書配有教輔,可以免費(fèi)提供給任課教師使用。如需要,歡迎填寫書后的“教師反饋及課件申請(qǐng)表”索取。

作者簡(jiǎn)介

張俊妮,美國(guó)哈佛大學(xué)統(tǒng)計(jì)學(xué)博士,現(xiàn)為北京大學(xué)光華管理學(xué)院商務(wù)統(tǒng)計(jì)及經(jīng)濟(jì)計(jì)量系副教授。研究領(lǐng)域包括因果推斷、貝葉斯分析、蒙特卡洛方法、數(shù)據(jù)挖掘。

書籍目錄

第一章  數(shù)據(jù)挖掘概述  1.1  什么是數(shù)據(jù)挖掘  1.2  數(shù)據(jù)挖掘的應(yīng)用  1.3  數(shù)據(jù)挖掘方法論第二章  數(shù)據(jù)理解和數(shù)據(jù)準(zhǔn)備  2.1  數(shù)據(jù)理解  2.2  數(shù)據(jù)準(zhǔn)備  2.3  使用SAS進(jìn)行數(shù)據(jù)理解和數(shù)據(jù)準(zhǔn)備:FNBA信用卡數(shù)據(jù)第三章  關(guān)聯(lián)規(guī)則挖掘  3.1  關(guān)聯(lián)規(guī)則的實(shí)際意義  3.2  關(guān)聯(lián)規(guī)則的基本概念及Apriori算法  3.3  負(fù)關(guān)聯(lián)規(guī)則  3.4  序列關(guān)聯(lián)規(guī)則  3.5  使用SAS進(jìn)行關(guān)聯(lián)規(guī)則挖掘第四章  多元統(tǒng)計(jì)中的降維方法  4.1  主成分分析  4.2  探索性因子分析  4.3  多維標(biāo)度分析第五章  聚類分析  5.1  距離與相似度的度量  5.2  k均值聚類法  5.3  層次聚類法第六章  預(yù)測(cè)性建模的一些基本方法  6.1  判別分析  6.2  樸素貝葉斯分類算法  6.3  k近鄰法  6.4  線性模型與廣義線性模型第七章  神經(jīng)網(wǎng)絡(luò)  7.1  神經(jīng)網(wǎng)絡(luò)架構(gòu)及基本組成  7.2  誤差函數(shù)  7.3  神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法  7.4  提高神經(jīng)網(wǎng)絡(luò)模型的可推廣性  7.5  數(shù)據(jù)預(yù)處理  7.6  使用SAS建立神經(jīng)網(wǎng)絡(luò)模型  7.7  自組織圖第八章  決策樹  8.1  決策樹簡(jiǎn)介  8.2  決策樹的生長(zhǎng)與修剪  8.3  對(duì)缺失數(shù)據(jù)的處理  8.4  變量選擇  8.5  決策樹的優(yōu)缺點(diǎn)第九章  模型評(píng)估  9.1  因變量為二分變量的情形  9.2  因變量為多分變量的情形  9.3  因變量為連續(xù)變量的情形  9.4  使用SAS評(píng)估模型第十章  模型組合與兩階段模型  10.1  模型組合  10.2  隨機(jī)森林  10.3  兩階段模型參考文獻(xiàn)

章節(jié)摘錄

插圖:對(duì)于定序自變量,最常用的一種轉(zhuǎn)換是按各類別的序號(hào)直接將該變量轉(zhuǎn)換為數(shù)值自變量。對(duì)于名義自變量,最常用的轉(zhuǎn)換是將該變量轉(zhuǎn)換為啞變量。例如,對(duì)于性別而言,可以生成一個(gè)二元啞變量,取值1表示“女”,0表示“男”。對(duì)于有多個(gè)取值的名義自變量,可以生成一系列二元啞變量。例如,中國(guó)內(nèi)地有31個(gè)省、自治區(qū)和直轄市,可以據(jù)此生成30個(gè)啞變量。但是,如果一個(gè)名義自變量取值過多,生成過多的啞變量容易造成過度擬合。一個(gè)簡(jiǎn)單而有效的方法是只針對(duì)包含觀測(cè)比較多的類別生成啞變量,而將剩余的類別都?xì)w于“其他”這個(gè)大類別。還有一種方法是利用領(lǐng)域知識(shí),將各類別歸為幾個(gè)大類之后再生成啞變量,例如,將中國(guó)內(nèi)地31個(gè)省、自治區(qū)和直轄市歸為華北、華中、華東、華南、西北、東北、西南等地區(qū),再生成地區(qū)的啞變量。五、處理時(shí)間變量時(shí)間變量無法直接進(jìn)入建模數(shù)據(jù)集,因?yàn)闀r(shí)間是無限增長(zhǎng)的,在歷史數(shù)據(jù)中出現(xiàn)的時(shí)間肯定不同于將來模型所需應(yīng)用的數(shù)據(jù)集中出現(xiàn)的時(shí)間,所以直接使用歷史數(shù)據(jù)的時(shí)間建立的模型就無法應(yīng)用于將來的數(shù)據(jù)集。如果要在建模過程中考慮時(shí)間變量,就必須對(duì)其進(jìn)行轉(zhuǎn)換。常用的轉(zhuǎn)換有如下幾種:1.轉(zhuǎn)換為距某一基準(zhǔn)時(shí)間的時(shí)間長(zhǎng)短,例如,“距離××年××月××日的天數(shù)”、“距離下一次春節(jié)的周數(shù)”等。2.轉(zhuǎn)換為季節(jié)性信息,例如,一年中第幾季度或第幾個(gè)月,每個(gè)季度或月對(duì)應(yīng)于一個(gè)二元啞變量。很多情形下可以考慮對(duì)時(shí)間進(jìn)行多種轉(zhuǎn)換,把所有可能影響因變量的時(shí)間信息都放人建模過程中。例如,對(duì)于某些食品的購(gòu)買量而言,不僅存在節(jié)日效應(yīng),也存在季節(jié)性效應(yīng),這時(shí)就需要同時(shí)使用上述兩種轉(zhuǎn)換。六、異常值自變量的異常值對(duì)一些模型會(huì)產(chǎn)生很大影響。在圖2.2 的示例中,大部分?jǐn)?shù)據(jù)點(diǎn)的,值都分布在-2.2 和2.4 之間,但有一個(gè)數(shù)據(jù)點(diǎn)的x值為8,它對(duì)擬合的回歸線會(huì)有很大的影響;如果它落在點(diǎn)0或點(diǎn)6,擬合出的回歸線分別為線a和線b,它們的差別頗大。因變量的異常值同樣可能對(duì)模型有很大影響,在這里不贅述。第五章將介紹的聚類算法可以用來發(fā)現(xiàn)異常值,如果少數(shù)幾個(gè)觀測(cè)自成一類,它們很有可能是異常值。發(fā)現(xiàn)異常值后需要查看它們?yōu)槭裁串惓!?/pre>

編輯推薦

《數(shù)據(jù)挖掘與應(yīng)用》是張俊妮編寫的,由北京大學(xué)出版社出版。

圖書封面

圖書標(biāo)簽Tags

評(píng)論、評(píng)分、閱讀與下載


    數(shù)據(jù)挖掘與應(yīng)用 PDF格式下載


用戶評(píng)論 (總計(jì)4條)

 
 

  •   北京大學(xué)光學(xué)管理學(xué)院 張俊妮老師的著作,非常好
  •   第一次買書發(fā)現(xiàn)書也能少個(gè)十幾頁,還買的是正版書,實(shí)在是太過分了,當(dāng)時(shí)收到的時(shí)候沒仔細(xì)看,現(xiàn)在上課上到了,才發(fā)現(xiàn)書居然是漏頁了,真是太坑了。
  •   數(shù)學(xué)算法太多,有點(diǎn)難理解~~
  •   上課用的參考,感覺上挺好的,和另一本書配套買的。
 

250萬本中文圖書簡(jiǎn)介、評(píng)論、評(píng)分,PDF格式免費(fèi)下載。 第一圖書網(wǎng) 手機(jī)版

京ICP備13047387號(hào)-7