數(shù)據(jù)挖掘與應用

出版時間:2009-6  出版社:北京大學出版社  作者:張俊妮  頁數(shù):185  
Tag標簽:無  

前言

教材建設(shè)是大學人才培養(yǎng)和知識傳授的重要組成部分。對管理教育而言,教材建設(shè)尤為重要,一流的商學院不僅要有一流的師資力量、一流的生源、一流的教學管理水平,而且必須使用一流的教科書。一流的管理類教科書必須滿足以下標準:第一,能把所在領(lǐng)域的基礎(chǔ)知識以全面、系統(tǒng)的方式和與讀者友好的語言呈獻給讀者;第二,必須有時代感,能把學科前沿的研究成果囊括進去;第三,必須做到理論和實務(包括案例分析)相結(jié)合,有很強的實用性;第四,能夠啟發(fā)學生思考現(xiàn)實的管理問題,培養(yǎng)他們分析問題和解決問題的能力;第五,可以作為研究人員和管理人士的工具書。中國的管理教育是伴隨改革開放而產(chǎn)生的。真正意義上的管理教育在中國不過十多年的歷史,但巨大的市場需求使得管理教育成為中國高等教育各學科中發(fā)展最快的領(lǐng)域,管理類教科書市場異常繁榮。但總體而言,目前國內(nèi)市場上管理類教科書的水平仍不能令人滿意。國內(nèi)教科書作者大多數(shù)在所涉及領(lǐng)域并沒有真正的原創(chuàng)性研究和學術(shù)貢獻,所撰寫的教科書普遍停留在對國外教科書的內(nèi)容進行中國式排列組合的水平上;國外引進的原版教科書雖然具有學術(shù)上的先進性,但由于其寫作背景是外國的管理實踐和制度安排,案例也都是取自于西方發(fā)達國家,對中國讀者而言,總有一種隔靴搔癢的感覺。如何寫出一流的中國版的管理類教材,是中國管理教育發(fā)展面臨的重要任務。北京大學光華管理學院一直重視教材建設(shè)工作。1999年夏,我們曾與經(jīng)濟科學出版社簽約,以每本20萬元的稿酬,向全國征集MBA教科書作者。這個計劃公布之后,我們收到了十幾本教科書的寫作方案。

內(nèi)容概要

本書全面地介紹了數(shù)據(jù)挖掘的相關(guān)主題,包括數(shù)據(jù)理解與數(shù)據(jù)準備、關(guān)聯(lián)規(guī)則挖掘、多元統(tǒng)計中的降維方法、聚類分析、神經(jīng)網(wǎng)絡(luò)、決策樹方法、模型評估等內(nèi)容。全書體系完整,文字精煉,注重對數(shù)據(jù)挖掘方法的直覺理解及其應用;同時,保持了一定的嚴謹性,為學生理解和運用這些方法提供了堅實的基礎(chǔ)。    本書實例豐富,并附有相應SAS程序,以便于學生盡快理解相關(guān)內(nèi)容并用以解決實際問題。    本書配有教輔,可以免費提供給任課教師使用。如需要,歡迎填寫書后的“教師反饋及課件申請表”索取。

作者簡介

張俊妮,美國哈佛大學統(tǒng)計學博士,現(xiàn)為北京大學光華管理學院商務統(tǒng)計及經(jīng)濟計量系副教授。研究領(lǐng)域包括因果推斷、貝葉斯分析、蒙特卡洛方法、數(shù)據(jù)挖掘。

書籍目錄

第一章  數(shù)據(jù)挖掘概述  1.1  什么是數(shù)據(jù)挖掘  1.2  數(shù)據(jù)挖掘的應用  1.3  數(shù)據(jù)挖掘方法論第二章  數(shù)據(jù)理解和數(shù)據(jù)準備  2.1  數(shù)據(jù)理解  2.2  數(shù)據(jù)準備  2.3  使用SAS進行數(shù)據(jù)理解和數(shù)據(jù)準備:FNBA信用卡數(shù)據(jù)第三章  關(guān)聯(lián)規(guī)則挖掘  3.1  關(guān)聯(lián)規(guī)則的實際意義  3.2  關(guān)聯(lián)規(guī)則的基本概念及Apriori算法  3.3  負關(guān)聯(lián)規(guī)則  3.4  序列關(guān)聯(lián)規(guī)則  3.5  使用SAS進行關(guān)聯(lián)規(guī)則挖掘第四章  多元統(tǒng)計中的降維方法  4.1  主成分分析  4.2  探索性因子分析  4.3  多維標度分析第五章  聚類分析  5.1  距離與相似度的度量  5.2  k均值聚類法  5.3  層次聚類法第六章  預測性建模的一些基本方法  6.1  判別分析  6.2  樸素貝葉斯分類算法  6.3  k近鄰法  6.4  線性模型與廣義線性模型第七章  神經(jīng)網(wǎng)絡(luò)  7.1  神經(jīng)網(wǎng)絡(luò)架構(gòu)及基本組成  7.2  誤差函數(shù)  7.3  神經(jīng)網(wǎng)絡(luò)訓練算法  7.4  提高神經(jīng)網(wǎng)絡(luò)模型的可推廣性  7.5  數(shù)據(jù)預處理  7.6  使用SAS建立神經(jīng)網(wǎng)絡(luò)模型  7.7  自組織圖第八章  決策樹  8.1  決策樹簡介  8.2  決策樹的生長與修剪  8.3  對缺失數(shù)據(jù)的處理  8.4  變量選擇  8.5  決策樹的優(yōu)缺點第九章  模型評估  9.1  因變量為二分變量的情形  9.2  因變量為多分變量的情形  9.3  因變量為連續(xù)變量的情形  9.4  使用SAS評估模型第十章  模型組合與兩階段模型  10.1  模型組合  10.2  隨機森林  10.3  兩階段模型參考文獻

章節(jié)摘錄

插圖:對于定序自變量,最常用的一種轉(zhuǎn)換是按各類別的序號直接將該變量轉(zhuǎn)換為數(shù)值自變量。對于名義自變量,最常用的轉(zhuǎn)換是將該變量轉(zhuǎn)換為啞變量。例如,對于性別而言,可以生成一個二元啞變量,取值1表示“女”,0表示“男”。對于有多個取值的名義自變量,可以生成一系列二元啞變量。例如,中國內(nèi)地有31個省、自治區(qū)和直轄市,可以據(jù)此生成30個啞變量。但是,如果一個名義自變量取值過多,生成過多的啞變量容易造成過度擬合。一個簡單而有效的方法是只針對包含觀測比較多的類別生成啞變量,而將剩余的類別都歸于“其他”這個大類別。還有一種方法是利用領(lǐng)域知識,將各類別歸為幾個大類之后再生成啞變量,例如,將中國內(nèi)地31個省、自治區(qū)和直轄市歸為華北、華中、華東、華南、西北、東北、西南等地區(qū),再生成地區(qū)的啞變量。五、處理時間變量時間變量無法直接進入建模數(shù)據(jù)集,因為時間是無限增長的,在歷史數(shù)據(jù)中出現(xiàn)的時間肯定不同于將來模型所需應用的數(shù)據(jù)集中出現(xiàn)的時間,所以直接使用歷史數(shù)據(jù)的時間建立的模型就無法應用于將來的數(shù)據(jù)集。如果要在建模過程中考慮時間變量,就必須對其進行轉(zhuǎn)換。常用的轉(zhuǎn)換有如下幾種:1.轉(zhuǎn)換為距某一基準時間的時間長短,例如,“距離××年××月××日的天數(shù)”、“距離下一次春節(jié)的周數(shù)”等。2.轉(zhuǎn)換為季節(jié)性信息,例如,一年中第幾季度或第幾個月,每個季度或月對應于一個二元啞變量。很多情形下可以考慮對時間進行多種轉(zhuǎn)換,把所有可能影響因變量的時間信息都放人建模過程中。例如,對于某些食品的購買量而言,不僅存在節(jié)日效應,也存在季節(jié)性效應,這時就需要同時使用上述兩種轉(zhuǎn)換。六、異常值自變量的異常值對一些模型會產(chǎn)生很大影響。在圖2.2 的示例中,大部分數(shù)據(jù)點的,值都分布在-2.2 和2.4 之間,但有一個數(shù)據(jù)點的x值為8,它對擬合的回歸線會有很大的影響;如果它落在點0或點6,擬合出的回歸線分別為線a和線b,它們的差別頗大。因變量的異常值同樣可能對模型有很大影響,在這里不贅述。第五章將介紹的聚類算法可以用來發(fā)現(xiàn)異常值,如果少數(shù)幾個觀測自成一類,它們很有可能是異常值。發(fā)現(xiàn)異常值后需要查看它們?yōu)槭裁串惓!?/pre>

編輯推薦

《數(shù)據(jù)挖掘與應用》是張俊妮編寫的,由北京大學出版社出版。

圖書封面

圖書標簽Tags

評論、評分、閱讀與下載


    數(shù)據(jù)挖掘與應用 PDF格式下載


用戶評論 (總計4條)

 
 

  •   北京大學光學管理學院 張俊妮老師的著作,非常好
  •   第一次買書發(fā)現(xiàn)書也能少個十幾頁,還買的是正版書,實在是太過分了,當時收到的時候沒仔細看,現(xiàn)在上課上到了,才發(fā)現(xiàn)書居然是漏頁了,真是太坑了。
  •   數(shù)學算法太多,有點難理解~~
  •   上課用的參考,感覺上挺好的,和另一本書配套買的。
 

250萬本中文圖書簡介、評論、評分,PDF格式免費下載。 第一圖書網(wǎng) 手機版

京ICP備13047387號-7