出版時間:2010-5 出版社:機(jī)械工業(yè)出版社 作者:姚志勇 頁數(shù):345
Tag標(biāo)簽:無
前言
當(dāng)前國內(nèi)的諸多數(shù)據(jù)挖掘書籍幾乎都是基于理論說明,很少深入介紹數(shù)據(jù)挖掘?qū)嵺`,涉及SAS開發(fā)的更是少見。因此,從商業(yè)應(yīng)用出發(fā),基于實(shí)踐而不是基于理論的數(shù)據(jù)挖掘書籍呼之欲出。本書作者從商業(yè)需求出發(fā),以商業(yè)人士的眼光來看待企業(yè)數(shù)據(jù)挖掘,并給出大量的商業(yè)實(shí)踐案例。把主流的數(shù)據(jù)挖掘技術(shù)用真實(shí)案例來實(shí)現(xiàn)是本書出版的初衷,同時為了滿足初學(xué)者需求,作者也給出了數(shù)據(jù)挖掘必備的基礎(chǔ)編程知識模塊。全書共分兩部分。第一部分是SAS編程:第1章和第2章主要介紹SAS系統(tǒng)和編程基礎(chǔ),同時介紹SAS數(shù)據(jù)處理最核心的內(nèi)容——數(shù)據(jù)指針和PDV流程。該核心內(nèi)容貫穿第一部分,是已出版的其他SAS圖書沒有的。第3~9章主要介紹SAS的數(shù)據(jù)處理技術(shù),也是第一部分的主要內(nèi)容,包括數(shù)據(jù)集處理、變量處理和觀測處理等多種數(shù)據(jù)處理技術(shù),同時也介紹了循環(huán)控制等稍難的內(nèi)容,重要的是給出了諸多實(shí)際案例及商業(yè)應(yīng)用。盡管第3~9章從表面上看和諸多已經(jīng)出版的SAS圖書沒有什么大的不同,但是這些章節(jié)最大的亮點(diǎn)是作者對每一個示例和案例從數(shù)據(jù)指針和PDV流程的角度給予了最詳細(xì)的程序解讀,讓讀者真正讀懂程序,而不是停留在程序的表面。第10章是第一部分r的難點(diǎn)。作者還是站在商業(yè)實(shí)踐的角度逐一介紹宏最常用的部分,同時也給出了非常詳細(xì)的程序解讀。第11章介紹SOL過程。有關(guān)內(nèi)容在國內(nèi)同類書中都出現(xiàn)過,但是作者獨(dú)辟蹊徑,融合了項目實(shí)踐中諸多真正有用的語句,同時也給出了諸多開發(fā)建議和應(yīng)注意的問題。第12章介紹數(shù)據(jù)處理實(shí)踐。該章共包括四個方面的內(nèi)容,幾乎都是目前國內(nèi)沒有出現(xiàn)過的,如HASH對象及商業(yè)應(yīng)用、正則表達(dá)式等。隨機(jī)抽樣也是數(shù)據(jù)處理經(jīng)常面臨的問題,這里作者開發(fā)了在SAS系統(tǒng)中如何處理分層不等比例抽樣的代碼,這也是目前國內(nèi)其他SAS圖書沒有介紹過的。第二部分是數(shù)據(jù)挖掘商業(yè)案例:第13章主要介紹數(shù)據(jù)挖掘概念和流程。數(shù)據(jù)挖掘流程尤其是商業(yè)流程是本章的重點(diǎn)。該流程告訴讀者一個真正的商業(yè)數(shù)據(jù)挖掘流程在商業(yè)環(huán)境中是如何實(shí)施的。第14章重點(diǎn)介紹響應(yīng)模型。響應(yīng)模型是商業(yè)實(shí)踐中最常用的預(yù)測模型,基于第13章的流程規(guī)范給出了一個具體的商業(yè)案例研究。第15章是客戶行為分析。該章有目前全球最流行的行為分析,包括“行為年齡”和“行為性別”(注意完全不同于具有自然屬性特征的“真實(shí)年齡”和“真實(shí)性別”),作者運(yùn)用NaiveBayesian技術(shù)開發(fā)出一整套模型,并對該模型擁有完全自主知識產(chǎn)權(quán)。第16章介紹文本挖掘。該章首先介紹了文本挖掘的流程,然后開發(fā)出基于NaiveBayesian文本分類算法和EM迭代思想的大型代碼,并成功應(yīng)用于商業(yè)實(shí)踐。
內(nèi)容概要
從PDV角度詳盡剖析Base SAS常用語句代碼及應(yīng)用,數(shù)據(jù)挖掘理論和商業(yè)應(yīng)用緊密結(jié)合,原創(chuàng)相互貝葉斯文本分類和EM迭代算法代碼,三個典型的數(shù)據(jù)挖掘商業(yè)案例分析?! ”緯亲髡叨嗄陙碓谄髽I(yè)實(shí)踐工作中的經(jīng)驗(yàn)總結(jié),詳細(xì)講解了使用SAS進(jìn)行商業(yè)數(shù)據(jù)挖掘的方法,其中包含了目前公開出版的諸多SAS教材沒有的大量實(shí)戰(zhàn)內(nèi)容。 本書內(nèi)容全面、新穎獨(dú)創(chuàng)、綜合性強(qiáng),適合企業(yè)人員使用,也可作為數(shù)學(xué)、統(tǒng)計學(xué)、金融、電子商務(wù)、醫(yī)藥等專業(yè)的本科生、碩士生學(xué)習(xí)SAS編程和數(shù)據(jù)挖掘的參考資料。
作者簡介
姚志勇,南開大學(xué)企業(yè)管理碩士,進(jìn)修統(tǒng)計學(xué)碩士?,F(xiàn)供職于全球500強(qiáng)商業(yè)公司,從事SAS數(shù)據(jù)挖掘工作8年,有豐富的項目實(shí)踐經(jīng)驗(yàn)。管理并自主開發(fā)多個大型數(shù)據(jù)挖掘算法源代碼,成功應(yīng)用于商業(yè)實(shí)踐。
書籍目錄
出版說明前言第1章 SAS系統(tǒng)簡介1.1 系統(tǒng)簡介1.1.1 SAS系統(tǒng)與商務(wù)智能系統(tǒng)1.1.2 SAS系統(tǒng)與其他數(shù)據(jù)庫的數(shù)據(jù)交換1.1.3 SAS語言與SAS系統(tǒng)1.1.4 SAS9瀏覽窗口簡介1.2 一個簡單的編程實(shí)例1.2.1 編寫一個SAS程序1.2.2 提交一個SAS程序1.2.3 保存和打開一個SAS程序1.3 DATA步的數(shù)據(jù)指針和PDV流程1.3.1 數(shù)據(jù)指針和PDV流程1.3.2 DATA步執(zhí)行次數(shù)第2章 SAS編程基礎(chǔ)2.1 SAS邏輯庫2.1.1 創(chuàng)建SAS邏輯庫2.1.2 刪除SAS邏輯庫2.1.3 永久邏輯庫和臨時邏輯庫2.2 SAS數(shù)據(jù)集2.2.1 SAS數(shù)據(jù)集命名規(guī)則2.2.2 永久SAS數(shù)據(jù)集和臨時SAS數(shù)據(jù)集2.2.3 SAS數(shù)據(jù)集結(jié)構(gòu)2.2.4 SAS數(shù)據(jù)集形式2.3 SAS索引2.3.1 創(chuàng)建索引2.3.2 刪除索引2.4 SAS目錄2.5 數(shù)據(jù)字典2.6 SAS變量2.6.1 變量屬性2.6.2 變量列表2.6.3 自動變量第3章 數(shù)據(jù)獲取與數(shù)據(jù)集操作3.1 數(shù)據(jù)獲取3.1.1 LIBNAME方式3.1.2 PASSTHROUGH方式3.1.3 IMPORT方式3.1.4 INPUT方式3.2 SET語句3.2.1 語法說明3.2.2 實(shí)例詳解3.2.3 商業(yè)實(shí)踐3.3 BY語句3.3.1 語法說明3.3.2 實(shí)例詳解3.4 MERGE語句3.4.1 語法說明3.4.2 實(shí)例詳解3.5 UPDATE語句3.5.1 語法說明3.5.2 實(shí)例詳解3.6 MODIFY語句3.6.1 語法說明3.6.2 實(shí)例詳解3.6.3 商業(yè)實(shí)踐3.7 PUT語句3.7.1 語法說明3.7.2 實(shí)例詳解3.7.3 商業(yè)實(shí)踐3.8 FILE語句3.8.1 語法說明3.8.2 實(shí)例詳解3.8.3 商業(yè)實(shí)踐3.9 1INFLE語句3.9.1 語法說明3.9.2 實(shí)例詳解3.9.3 商業(yè)實(shí)踐第4章 SAS變量操作4.1 賦值語句和累加語句4.1.1 賦值語句4.1.2 累加語句4.2 KEEP語句和DROP語句4.2.1 KEEP語句4.2.2 DROP語句4.3 IRETAIN語句4.3.1 語法說明4.3.2 實(shí)例詳解4.3.3 商業(yè)實(shí)踐4.4 ARRAY語句4.4.1 語法說明4.4.2 實(shí)例詳解4.4.3 商業(yè)實(shí)踐4.5 其他語句4.5.1 RENAME語句4.5.2 LENGTH語句4.5.3 LABEI。語句第5章 SAS觀測值操作5.1 OUTPUT語句5.1.1 語法說明5.1.2 實(shí)例詳解5.2 子集IF語句5.2.1 語法說明5.2.2 實(shí)例詳解5.2.3 子集IF與OUTPUT語句比較5.3 WHERE語句5.3.1 語法說明5.3.2 實(shí)例詳解5.3.3 子集IF與WIIERE語句比較5.4 REPLACE語句和REMOVE語句5.4.1 REPLACE語句5.4.2 REMOVE語句5.4.3 REPLACE、REM0vE與OUTPUT應(yīng)用5.5 DELETE語句與STOP語句5.5.1 DELETE語句5.5.2 STOP語句第6章 SAS數(shù)據(jù)集管理6.1 APPEND過程6.1.1 語法說明6.1.2 實(shí)例詳解6.2 SORT過程6.2.1 語法說明6.2.2 實(shí)例詳解6.2.3 商業(yè)實(shí)踐6.3 TRANSPOSE過程6.3.1 語法說明6.3.2 實(shí)例詳解6.4 CONTENTS過程6.4.1 語法說明6.4.2 實(shí)例詳解6.5 DATASETS過程6.5.1 語法說明6.5.2 實(shí)例詳解第7章 DAIA步循環(huán)與控制7.1 IF.THEN/ELSE語句與SELECT語句7.1.1 lF.THEN/ELSE語句7.1.2 SELECT語句7.2 DO語句7.2.1 D0組語句7.2.2 D0循環(huán)語句7.2.3 DOWHILE語句7.2.4 DOUNTIL語句7.2.5 DOOVER語句7.2.6 商業(yè)實(shí)踐7.3 各種控制語句7.3.1 GOT0語句7.3.2 CONTINUE語句與LEAVE語句7.3.3 RETIJRN語句第8章 常用全程語句8.1 COMMENT語句8.2 X語句8.3 FILENAME語句8.4 %INCLUDE語句8.5 TITLE語句8.6 FOOTNOTE語句第9章 輸出控制9.1 LOG窗口輸出控制9.2 OUTPUT窗口輸出控制9.3 常用ODS輸出控制9.3.1 ODSLISTING9.3.2 ODSRESUTS9.3.3 ODSTRACE9.3.4 ODS0UTPUT9.3.5 ODSHTML9.3.6 ODSCSVALL9.3.7 ODSSELECT9.3.8 ODSEXCLUDE第10章 SAS宏變量10.1 宏運(yùn)行的內(nèi)在機(jī)制10.2 宏變量10.2.1 定義宏變量10.2.2 顯示宏變量10.2.3 引用宏變量10.3 宏程序10.3.1 定義宏10.3.2 調(diào)用宏10.3.3 宏內(nèi)宏10.3.4 宏存儲10.4 宏參數(shù)10.4.1 創(chuàng)建參數(shù)10.4.2 參數(shù)賦值10.5 宏函數(shù)10.5.1 通配函數(shù)10.5.2 計算函數(shù)10.5.3 字符函數(shù)10.5.4 引用函數(shù)10.6 宏語句10.6.1 %IF.%TIIEN/%ELSE語句10.6.2 %DO組語句10.6.3 %DO循環(huán)語句10.6.4 %DO%WHILE循環(huán)語句10.6.5 %D0%UNTIL循環(huán)語句10.7 宏應(yīng)用10.7.1 創(chuàng)建宏變量的八種方法10.7.2 宏程序一般應(yīng)用10.7.3 宏程序高級應(yīng)用第11章 SQL過程11.1 單表操作11.2 多表操作11.2.1 多表關(guān)聯(lián)11.2.2 子查詢11.2.3 合并查詢11.2.4 MERGE與SQL比較11.3 創(chuàng)建、更新與刪除表操作11.3.1 創(chuàng)建表11.3.2 行操作11.3.3 列操作11.3.4.刪除表11.4 使用SQL注意的幾個問題第12章 數(shù)據(jù)處理實(shí)踐12.1 隨機(jī)抽樣12.1.1 簡單無重復(fù)隨機(jī)抽樣12.1.2 分層等比例隨機(jī)抽樣12.1.3 分層不等比例隨機(jī)抽樣12.1.4 隨機(jī)抽樣MACRO12.2 HASH對象12.2.1 HASH對象的引例12.2.2 HASH對象的語法12.2.3 HITER對象的引例12.2.4 HITER對象的語法12.2.5 商業(yè)實(shí)踐12.3 FORMAT綜述12.3.1 PROC步創(chuàng)建12.3.2 DATA步創(chuàng)建12.3.3 永久存儲及調(diào)用12.4 正則表達(dá)式12.4.1 語法說明12.4.2 常用函數(shù)12.4.3 實(shí)例詳解12.5 宏在SAS與Excel轉(zhuǎn)換中的應(yīng)用12.5.1 SAS數(shù)據(jù)集轉(zhuǎn)換成Excel12.5.2 Excel轉(zhuǎn)換成SAS數(shù)據(jù)集第13章 數(shù)據(jù)挖掘概念、任務(wù)和流程13.1 數(shù)據(jù)挖掘概念13.2 數(shù)據(jù)挖掘任務(wù)13.3 數(shù)據(jù)挖掘流程13.3.1 定義商業(yè)目標(biāo)13.3.2 編制需求文檔13.3.3 選擇數(shù)據(jù)源13.3.4 建模流程圖13.4 LOGISTIC建模及結(jié)果詳解13.4.1 數(shù)學(xué)模型13.4.2 參數(shù)估計13.4.3 模型評價指標(biāo)13.4.4 回歸系數(shù)13.4.5 變量篩選方法13.4.6 應(yīng)用舉例及輸出結(jié)果詳解13.4.7 多值LOGISTIC模型第14章 響應(yīng)模型:定位新客戶14.1 前期準(zhǔn)備14.1.1 商業(yè)需求14.1.2 定義目標(biāo)14.1.3 選擇變量14.2 數(shù)據(jù)獲取與數(shù)據(jù)處理14.2.1 創(chuàng)建建模數(shù)據(jù)集14.2.2 變量首次篩選14.2.3 數(shù)據(jù)探索14.2.4 數(shù)據(jù)清洗14.2.5 變量二次篩選14.2.6 變量三次篩選14.2.7 字符變量壓縮14.3 模型開發(fā)14.3.1 全模型法選擇所有候選模型14.3.2 逐步回歸法篩選候選模型14.3.3 創(chuàng)建兩個重要數(shù)據(jù)集14.3.4 創(chuàng)建LIFT圖14.3.5 創(chuàng)建評分卡文件14.4 模型驗(yàn)證14.4.1 評分卡文件導(dǎo)入14.4.2 LIFT圖比較14.4.3 模型確認(rèn)14.5 模型實(shí)施與監(jiān)控14.5.1 模型實(shí)施14.5.2 模型監(jiān)控14.6 小結(jié)第15章 行為建模:客戶行為屬性分析15.1 前期準(zhǔn)備15.1.1 商業(yè)需求15.1.2 定義目標(biāo)15.1.3 選擇建模方法15.2 數(shù)據(jù)獲取與處理15.3 模型開發(fā)15.4 模型驗(yàn)證15.5 模型打分15.6 模型預(yù)測15.7 模型實(shí)施15.8 小結(jié)第16章 文本挖掘:Web文本分析16.1 文本挖掘概念與流程16.1.1 文本挖掘概念16.1.2 文本挖掘流程16.2 商業(yè)案例16.2.1 商業(yè)需求16.2.2 建??蚣茉O(shè)計16.2.3 結(jié)合樸素貝葉斯文本分類的EM迭代16.2.4 數(shù)據(jù)獲取與數(shù)據(jù)預(yù)處理……參考文獻(xiàn)
章節(jié)摘錄
插圖:6.流失在商業(yè)領(lǐng)域,流失意味著利潤的減少甚至賬戶關(guān)閉,主要發(fā)生在電信行業(yè)和銀行業(yè)。由于競爭對手的存在,流失會經(jīng)常發(fā)生。如果能夠通過建立一個比較健壯的流失模型,能夠?qū)δ切┛赡茉谖磥淼膸讉€月內(nèi)流失的客戶做出準(zhǔn)確的預(yù)測,則從營銷角度就可以提前做好一些準(zhǔn)備,如通過一些營銷手段來挽留這些客戶。從技術(shù)上,流失模型本質(zhì)上和風(fēng)險模型是一樣的,只是目標(biāo)定義可能會有所不同。一種常見的流失定義是:在過去的6個月內(nèi)賬戶余額皇現(xiàn)減少趨勢,并在第6個月余額低于公司規(guī)定的閾值或比例。注意:響應(yīng)模型是基于時間點(diǎn)的模型,而風(fēng)險模型和流失模型是基于時間段的模型。7.提升銷售和交叉銷售提升銷售是指預(yù)測客戶購買更多同樣產(chǎn)品的可能性。交叉銷售是指預(yù)測客戶購買公司不同產(chǎn)品的可能性。提升銷售和交叉銷售對于縱向挖掘一個客戶的潛在利潤是非常重要的。從技術(shù)上來說,關(guān)聯(lián)規(guī)則也許能夠幫助公司發(fā)現(xiàn)客戶的特征,著名的“啤酒和尿布”就是多數(shù)數(shù)據(jù)挖掘圖書“言必稱希臘”的經(jīng)典案例,但是在作者看來,“啤酒和尿布”如同“尼斯湖怪獸”一樣并非值得絕對信賴。在提升和交叉銷售領(lǐng)域,更多的關(guān)注應(yīng)該是客戶消費(fèi)對象本身的關(guān)聯(lián)性以及客戶的消費(fèi)心理,這是更偏向于定性分析的技術(shù),而不是定量分析的方法。事實(shí)上,以上列舉的商業(yè)需求只是千千萬萬個商業(yè)需求中的部分代表,讀者能夠從中得到這樣的啟發(fā):所有的數(shù)據(jù)挖掘技術(shù)都是商業(yè)目標(biāo)的一個實(shí)現(xiàn),或簡單,或復(fù)雜。而商業(yè)應(yīng)用的最高原則就是“效率、效果”。13.3.2.編制需求文檔在明確了商業(yè)目標(biāo)之后,接下來就需要分析師編制需求文檔。需求文檔是商業(yè)目標(biāo)的細(xì)化。完整的需求文檔應(yīng)包括以下幾個部分:項目計劃文檔(PPT)。方法論設(shè)計文檔(Word)。變量需求文檔(Excel)。這三個項目涵蓋了商業(yè)客戶需求、團(tuán)隊頭腦風(fēng)暴成果、項目數(shù)據(jù)收集指標(biāo)三個重要內(nèi)容。1.項目計劃文檔項目計劃文檔是指實(shí)現(xiàn)客戶需求而制定的需求框架、計劃內(nèi)容、路線圖和資源。由于該部分內(nèi)容主要呈現(xiàn)給商業(yè)客戶,因此一般以PPT形式,幻燈片盡量控制在10張以下。
圖書封面
圖書標(biāo)簽Tags
無
評論、評分、閱讀與下載
SAS編程與數(shù)據(jù)挖掘商業(yè)案例 PDF格式下載