出版時間:2009-1 出版社:中國人民大學出版社 作者:呂曉玲,謝邦昌 頁數(shù):238
Tag標簽:無
前言
隨著社會經(jīng)濟的不斷發(fā)展、科學技術的不斷進步,統(tǒng)計方法越來越成為人們必不可少的式具和手段。在教學過程中,老師們也越來越感到運用統(tǒng)計方法解決實際問題的重要,不少人在探索如何運用統(tǒng)計軟件介紹和學習統(tǒng)計方法。謝邦昌教授、黃登源教授在多年的教學中,積累了豐富的經(jīng)驗,他們熱情倡議,將他們的講稿提供出來并編寫成教材,供更多的人學習和使用。這正與我們的初衷不謀而合。2005年開始著手這套系列教材的編寫,經(jīng)過不斷討論、反復的論證,形成了現(xiàn)在的模式。由于有許多研究生的幫忙,又有幾位年輕老師的辛勞,這套書終于問世?! ≡谖覀兛磥?,掌握統(tǒng)計方法不僅要理論上弄明白,更重要的在于能夠正確有效地運用這些方法,分析說明實際問題。這套書正是試圖利用實際數(shù)據(jù),通過統(tǒng)計軟件的實際操作,將所能夠使用的統(tǒng)汁方法加以說明,使讀者不僅能夠了解相應的統(tǒng)計方法,而且能夠通過計算機操作學會運用這些方法處理分析實際數(shù)據(jù)。希望本套書的出版能夠為讀者提供這樣學習的工具?! ∮捎谒接邢?,難免有不足之處。懇請讀者朋友們提出寶貴意見。我們也會循著這樣的思路,在教學以及和讀者的交流溝通中不斷積累、不斷提高、不斷完善,奉獻給讀者更多更好的成果?! 「兄x為這套書的編寫付出汗水的研究生,感謝兒位認真用心的年輕老師,感謝中國人民大學出版社的大力支持。謝謝讀者,希望能夠加強溝通和聯(lián)系,為提高統(tǒng)計方法實際運用的能力和水平共同努力。
內(nèi)容概要
隨著信息技術的飛速發(fā)展,數(shù)據(jù)的產(chǎn)生和存儲達到了空前繁榮的階段。如何從海量的數(shù)據(jù)中提取潛在的有用信息,給傳統(tǒng)的數(shù)據(jù)處理技術提出了嚴峻的考驗,數(shù)據(jù)挖掘方法應運而生。數(shù)據(jù)挖掘是一個多學科的交叉研究領域,不僅大學里的學術人員在研究它,商業(yè)公司的專家和技術人員也在密切地關注它和使用它;它不僅涉及人工智能領域以及統(tǒng)計學的應用,而且涉及數(shù)據(jù)庫的管理和使用。從技術上來講,數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的,但又潛在有用的信息和知識的過程。從商業(yè)應用來講,數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術,其主要特點是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務數(shù)據(jù)進行抽取、轉(zhuǎn)換、分析和其他模式化的處理,從中提取輔助商業(yè)決策的關鍵性數(shù)據(jù)?! ”緯?章對數(shù)據(jù)挖掘進行了概述,包括數(shù)據(jù)挖掘的定義、重要性、功能、步驟和常用方法等。第2章和第3章介紹了兩種數(shù)據(jù)挖掘中常用的指導的學習算法、關聯(lián)規(guī)則和聚類分析,它們處理的數(shù)據(jù)的特點是沒有獨立的需要預測或分類的變量,而只是試圖從數(shù)據(jù)中發(fā)現(xiàn)一些固有的模式。關聯(lián)規(guī)則就是要發(fā)現(xiàn)兩個或多個事物之間的聯(lián)系;聚類分析就是要把數(shù)據(jù)中具有相似性質(zhì)的放在一類,而不同類之間盡量做到有較大的不同。第4章和第5章介紹了兩種數(shù)據(jù)挖掘中常用的指導的學習算法、決策樹和神經(jīng)網(wǎng)絡。它們處理的數(shù)據(jù)含有獨立的需要預測或 分類的變量,它們的目的就是尋找一些自變量的函數(shù)或算法對數(shù)據(jù)進行準確的預測或分類。決策樹方法在對數(shù)據(jù)處理的過程中,將數(shù)據(jù)按照樹狀結(jié)構分成若干分枝形成決策規(guī)則;神經(jīng)網(wǎng)絡在一定程度上模仿了人腦神經(jīng)系統(tǒng)處理信息,存儲以及檢索的功能,它是一個非線性的映射系統(tǒng)。第6章和第7章介紹了兩種數(shù)據(jù)挖掘中常用的傳統(tǒng)統(tǒng)計的方法,回歸分析和時間序列?;貧w分析是尋找自變量和因變量之間關系的預測模型,包括線性回歸和Logistic回歸;時間序列分析,顧名思義,是處理以時間為序的觀測數(shù)據(jù)的方法。本書的一個特點是不僅對上述方法作了理論的闡述,還結(jié)合案例分析講述了如何應用STATISTICA軟件實現(xiàn)上述方法對數(shù)據(jù)的分析,是一本理論和實踐相結(jié)合的理論性和應用性都很強的書。
作者簡介
呂曉玲,1977年8月生?! W歷: 博士(管理科學),香港城市大學管理科學系,中國香港,2004.9–2007.8 碩士(概率論與數(shù)理統(tǒng)計),南開大學數(shù)學系,中國天津,1999.9–2002.7 學士(概率論與數(shù)理統(tǒng)計),南開大學數(shù)學系,中國天津,1995.9–1999.7 學術經(jīng)歷: 科研助理:香港城市大學管理科學系:數(shù)據(jù)挖掘中心,統(tǒng)計咨詢中心,2001-2004 訪問學者:DepartmentofAppliedStatistics,JohannesKeplerUniversityofLinz,奧地利,2007年2月至6月 科研方向: 應用數(shù)理統(tǒng)計:數(shù)據(jù)挖掘;電視觀眾收視行為統(tǒng)計建模(博士論文方向);電子商務客戶,網(wǎng)絡用戶行為統(tǒng)計分析;消費者行為數(shù)量分析,滿意度研究,客戶關系管理;貝葉斯預測;離散選擇模型;隨機系數(shù)模型等 榮譽與獎勵: TheOutstandingAcademicPerformanceAwardforResearchDegreeStudents,香港城市大學(2006) ResearchTuitionScholarship,香港城市大學(2005,2006) 光華獎學金(一等),南開大學(2000) 免試保送研究生,南開大學(1999) 校三好學生,南開大學(1996,1997,1998,1999) 寶潔獎學金,南開大學(1998) 校二等獎學金,南開大學(1998) “九章”基礎數(shù)學獎學金,南開大學(1996,1997) 校一等獎學金,南開大學(1996,1997) 學術論文: Lo,H.P.,Z.NGandXiaolingLu(2003),MiningLoyalCustomers:APracticalUseoftheRepeatBuyingTheory,inWai-KiChingandMichaelKwok-PoNg(2003),AdvancesinDataMiningandModeling,WorldScientific,p167-181 Lu,XiaolingandHing-PoLo(2007),TelevisionAudienceSatisfaction:AntecedentsandConsequences,JournalofAdvertisingResearch,47(3),354-363 Lu,XiaolingandHing-PoLo(2007),ModelingDiffusionPatternsofTelevisionPrograms,IndustrialMarketingManagement,underreview
書籍目錄
第1章 數(shù)據(jù)挖掘概述1.1 數(shù)據(jù)挖掘定義1.1.1 數(shù)據(jù)挖掘的技術定義1.1.2 數(shù)據(jù)挖掘的商業(yè)定義1.2 數(shù)據(jù)挖掘的重要性及意義1.3 數(shù)據(jù)挖掘功能1.4 數(shù)據(jù)挖掘步驟和標準1.4.1 數(shù)據(jù)挖掘步驟1.4.2 數(shù)據(jù)挖掘需要的人員1.5 數(shù)據(jù)挖掘常用方法1.5.1 數(shù)據(jù)挖掘的對象1.5.2 數(shù)據(jù)挖掘的常用方法練習題第2章 關聯(lián)規(guī)則2.1 關聯(lián)規(guī)則介紹2.2 關聯(lián)規(guī)則種類2.2.1 一般意義上的關聯(lián)規(guī)則2.2.2 帶有時間性的序列關聯(lián)分析2.3 關聯(lián)規(guī)則算法2.3.1 普通的關聯(lián)規(guī)則算法2.3.2 序列關聯(lián)規(guī)則算法2.4 S7ATISTICA中的關聯(lián)規(guī)則2.5 案例分析練習題第3章 聚類分析3.1 聚類分析介紹3.2 距離定義3.2.1 點之間的距離3.2.2 類之間的距離3.3 聚類分析算法3.3.1 層次聚類3.3.2 基于劃分的聚類3.3.3 EM聚類3.4 STATISTICA中的聚類分析3.5 案例分析練習題第4章 決策樹建模4.1 決策樹介紹4.1.1 決策樹的基本知識4.1.2 決策樹的應用和發(fā)展趨勢4.2 樹的建模過程4.2.1 數(shù)據(jù)要求4.2.2 樹的生長4.2.3 有效性和風險性4.2.4 屬性選擇4.3 S7ATISTICA中的決策樹4.4 案例分析練習題第5章 神經(jīng)網(wǎng)絡建模5.1 神經(jīng)網(wǎng)絡介紹5.2 神經(jīng)網(wǎng)絡的基本概念和原理5.2.1 基本組成單元5.2.2 神經(jīng)網(wǎng)絡的訓練過程5.2.3 基本的神經(jīng)網(wǎng)絡模型5.3 STATISTICA中的神經(jīng)網(wǎng)絡模型5.4 案例分析練習題第6章 回歸分析6.1 回歸分析介紹6.2 線性回歸模型6.2.1 模型的建立及未知參數(shù)的估計6.2.2 回歸方程與回歸參數(shù)的檢驗及變量的選擇問題6.2.3 回歸診斷和決定系數(shù)6.3 1ogistic回歸模型6.3.1 1ogistic回歸模型的建立6.3.2 1ogistic回歸模型的參數(shù)估計6.3.3 1ogistic回歸模型的檢驗及診斷6.3.4 1ogistic回歸模型結(jié)果的解釋6.3.5 1ogistic回歸模型的擴展6.4 STATISTICA中的回歸6.5 案例分析練習題第7章 時間序列7.1 時間序列介紹7.2 時間序列算法7.2.1 傳統(tǒng)時間序列分析7.2.2 ARIMA模型7.3 STATISTICA中的時間序列7.4 案例分析練習題參考文獻
章節(jié)摘錄
第1章 數(shù)據(jù)挖掘概述 1.1 數(shù)據(jù)挖掘定義 數(shù)據(jù)挖掘是一個多學科交叉研究領域,不僅大學里的專門研究人員在使用它,商業(yè)公司的專家和技術人員也在密切地關注它;它不僅涉及人工智能領域以及統(tǒng)計學的應用,而且也涉及數(shù)據(jù)庫的使用。不同領域的人從不同的研究背景出發(fā)研究不同行業(yè)的數(shù)據(jù),也就給了數(shù)據(jù)挖掘不同的內(nèi)容和定義。這里我們就數(shù)據(jù)挖掘的技術定義以及商業(yè)定義展開討論。 1.1 數(shù)據(jù)挖掘的技術定義數(shù)據(jù)挖掘(data mining,DM)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中.提取隱含在其中的、人們事先不知道的,但又是潛在有用的信息和知識的過程。與數(shù)據(jù)挖掘相近的同義詞有數(shù)據(jù)融合、數(shù)據(jù)分析和決策支持等?! ∵@個定義包括以下幾層含義: (1)數(shù)據(jù)源必須是真實的、大量的、含噪聲的; ?。?)發(fā)現(xiàn)的是用戶感興趣的知識; (3)發(fā)現(xiàn)的知識要可接受、可理解、可運用;
編輯推薦
《數(shù)據(jù)挖掘方法與應用》的一個特點是不僅對上述方法作了理論的闡述,還結(jié)合案例分析講述了如何應用STATISTICA軟件實現(xiàn)上述方法對數(shù)據(jù)的分析,是一本理論和實踐相結(jié)合的理論性和應用性都很強的書。
圖書封面
圖書標簽Tags
無
評論、評分、閱讀與下載