出版時(shí)間:2009-1 出版社:中國(guó)人民大學(xué)出版社 作者:呂曉玲,謝邦昌 頁(yè)數(shù):238
Tag標(biāo)簽:無(wú)
前言
隨著社會(huì)經(jīng)濟(jì)的不斷發(fā)展、科學(xué)技術(shù)的不斷進(jìn)步,統(tǒng)計(jì)方法越來(lái)越成為人們必不可少的式具和手段。在教學(xué)過程中,老師們也越來(lái)越感到運(yùn)用統(tǒng)計(jì)方法解決實(shí)際問題的重要,不少人在探索如何運(yùn)用統(tǒng)計(jì)軟件介紹和學(xué)習(xí)統(tǒng)計(jì)方法。謝邦昌教授、黃登源教授在多年的教學(xué)中,積累了豐富的經(jīng)驗(yàn),他們熱情倡議,將他們的講稿提供出來(lái)并編寫成教材,供更多的人學(xué)習(xí)和使用。這正與我們的初衷不謀而合。2005年開始著手這套系列教材的編寫,經(jīng)過不斷討論、反復(fù)的論證,形成了現(xiàn)在的模式。由于有許多研究生的幫忙,又有幾位年輕老師的辛勞,這套書終于問世?! ≡谖覀兛磥?lái),掌握統(tǒng)計(jì)方法不僅要理論上弄明白,更重要的在于能夠正確有效地運(yùn)用這些方法,分析說明實(shí)際問題。這套書正是試圖利用實(shí)際數(shù)據(jù),通過統(tǒng)計(jì)軟件的實(shí)際操作,將所能夠使用的統(tǒng)汁方法加以說明,使讀者不僅能夠了解相應(yīng)的統(tǒng)計(jì)方法,而且能夠通過計(jì)算機(jī)操作學(xué)會(huì)運(yùn)用這些方法處理分析實(shí)際數(shù)據(jù)。希望本套書的出版能夠?yàn)樽x者提供這樣學(xué)習(xí)的工具?! ∮捎谒接邢?,難免有不足之處。懇請(qǐng)讀者朋友們提出寶貴意見。我們也會(huì)循著這樣的思路,在教學(xué)以及和讀者的交流溝通中不斷積累、不斷提高、不斷完善,奉獻(xiàn)給讀者更多更好的成果?! 「兄x為這套書的編寫付出汗水的研究生,感謝兒位認(rèn)真用心的年輕老師,感謝中國(guó)人民大學(xué)出版社的大力支持。謝謝讀者,希望能夠加強(qiáng)溝通和聯(lián)系,為提高統(tǒng)計(jì)方法實(shí)際運(yùn)用的能力和水平共同努力。
內(nèi)容概要
隨著信息技術(shù)的飛速發(fā)展,數(shù)據(jù)的產(chǎn)生和存儲(chǔ)達(dá)到了空前繁榮的階段。如何從海量的數(shù)據(jù)中提取潛在的有用信息,給傳統(tǒng)的數(shù)據(jù)處理技術(shù)提出了嚴(yán)峻的考驗(yàn),數(shù)據(jù)挖掘方法應(yīng)運(yùn)而生。數(shù)據(jù)挖掘是一個(gè)多學(xué)科的交叉研究領(lǐng)域,不僅大學(xué)里的學(xué)術(shù)人員在研究它,商業(yè)公司的專家和技術(shù)人員也在密切地關(guān)注它和使用它;它不僅涉及人工智能領(lǐng)域以及統(tǒng)計(jì)學(xué)的應(yīng)用,而且涉及數(shù)據(jù)庫(kù)的管理和使用。從技術(shù)上來(lái)講,數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的,但又潛在有用的信息和知識(shí)的過程。從商業(yè)應(yīng)用來(lái)講,數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對(duì)商業(yè)數(shù)據(jù)庫(kù)中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模式化的處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)?! ”緯?章對(duì)數(shù)據(jù)挖掘進(jìn)行了概述,包括數(shù)據(jù)挖掘的定義、重要性、功能、步驟和常用方法等。第2章和第3章介紹了兩種數(shù)據(jù)挖掘中常用的指導(dǎo)的學(xué)習(xí)算法、關(guān)聯(lián)規(guī)則和聚類分析,它們處理的數(shù)據(jù)的特點(diǎn)是沒有獨(dú)立的需要預(yù)測(cè)或分類的變量,而只是試圖從數(shù)據(jù)中發(fā)現(xiàn)一些固有的模式。關(guān)聯(lián)規(guī)則就是要發(fā)現(xiàn)兩個(gè)或多個(gè)事物之間的聯(lián)系;聚類分析就是要把數(shù)據(jù)中具有相似性質(zhì)的放在一類,而不同類之間盡量做到有較大的不同。第4章和第5章介紹了兩種數(shù)據(jù)挖掘中常用的指導(dǎo)的學(xué)習(xí)算法、決策樹和神經(jīng)網(wǎng)絡(luò)。它們處理的數(shù)據(jù)含有獨(dú)立的需要預(yù)測(cè)或 分類的變量,它們的目的就是尋找一些自變量的函數(shù)或算法對(duì)數(shù)據(jù)進(jìn)行準(zhǔn)確的預(yù)測(cè)或分類。決策樹方法在對(duì)數(shù)據(jù)處理的過程中,將數(shù)據(jù)按照樹狀結(jié)構(gòu)分成若干分枝形成決策規(guī)則;神經(jīng)網(wǎng)絡(luò)在一定程度上模仿了人腦神經(jīng)系統(tǒng)處理信息,存儲(chǔ)以及檢索的功能,它是一個(gè)非線性的映射系統(tǒng)。第6章和第7章介紹了兩種數(shù)據(jù)挖掘中常用的傳統(tǒng)統(tǒng)計(jì)的方法,回歸分析和時(shí)間序列?;貧w分析是尋找自變量和因變量之間關(guān)系的預(yù)測(cè)模型,包括線性回歸和Logistic回歸;時(shí)間序列分析,顧名思義,是處理以時(shí)間為序的觀測(cè)數(shù)據(jù)的方法。本書的一個(gè)特點(diǎn)是不僅對(duì)上述方法作了理論的闡述,還結(jié)合案例分析講述了如何應(yīng)用STATISTICA軟件實(shí)現(xiàn)上述方法對(duì)數(shù)據(jù)的分析,是一本理論和實(shí)踐相結(jié)合的理論性和應(yīng)用性都很強(qiáng)的書。
作者簡(jiǎn)介
呂曉玲,1977年8月生?! W(xué)歷: 博士(管理科學(xué)),香港城市大學(xué)管理科學(xué)系,中國(guó)香港,2004.9–2007.8 碩士(概率論與數(shù)理統(tǒng)計(jì)),南開大學(xué)數(shù)學(xué)系,中國(guó)天津,1999.9–2002.7 學(xué)士(概率論與數(shù)理統(tǒng)計(jì)),南開大學(xué)數(shù)學(xué)系,中國(guó)天津,1995.9–1999.7 學(xué)術(shù)經(jīng)歷: 科研助理:香港城市大學(xué)管理科學(xué)系:數(shù)據(jù)挖掘中心,統(tǒng)計(jì)咨詢中心,2001-2004 訪問學(xué)者:DepartmentofAppliedStatistics,JohannesKeplerUniversityofLinz,奧地利,2007年2月至6月 科研方向: 應(yīng)用數(shù)理統(tǒng)計(jì):數(shù)據(jù)挖掘;電視觀眾收視行為統(tǒng)計(jì)建模(博士論文方向);電子商務(wù)客戶,網(wǎng)絡(luò)用戶行為統(tǒng)計(jì)分析;消費(fèi)者行為數(shù)量分析,滿意度研究,客戶關(guān)系管理;貝葉斯預(yù)測(cè);離散選擇模型;隨機(jī)系數(shù)模型等 榮譽(yù)與獎(jiǎng)勵(lì): TheOutstandingAcademicPerformanceAwardforResearchDegreeStudents,香港城市大學(xué)(2006) ResearchTuitionScholarship,香港城市大學(xué)(2005,2006) 光華獎(jiǎng)學(xué)金(一等),南開大學(xué)(2000) 免試保送研究生,南開大學(xué)(1999) 校三好學(xué)生,南開大學(xué)(1996,1997,1998,1999) 寶潔獎(jiǎng)學(xué)金,南開大學(xué)(1998) 校二等獎(jiǎng)學(xué)金,南開大學(xué)(1998) “九章”基礎(chǔ)數(shù)學(xué)獎(jiǎng)學(xué)金,南開大學(xué)(1996,1997) 校一等獎(jiǎng)學(xué)金,南開大學(xué)(1996,1997) 學(xué)術(shù)論文: Lo,H.P.,Z.NGandXiaolingLu(2003),MiningLoyalCustomers:APracticalUseoftheRepeatBuyingTheory,inWai-KiChingandMichaelKwok-PoNg(2003),AdvancesinDataMiningandModeling,WorldScientific,p167-181 Lu,XiaolingandHing-PoLo(2007),TelevisionAudienceSatisfaction:AntecedentsandConsequences,JournalofAdvertisingResearch,47(3),354-363 Lu,XiaolingandHing-PoLo(2007),ModelingDiffusionPatternsofTelevisionPrograms,IndustrialMarketingManagement,underreview
書籍目錄
第1章 數(shù)據(jù)挖掘概述1.1 數(shù)據(jù)挖掘定義1.1.1 數(shù)據(jù)挖掘的技術(shù)定義1.1.2 數(shù)據(jù)挖掘的商業(yè)定義1.2 數(shù)據(jù)挖掘的重要性及意義1.3 數(shù)據(jù)挖掘功能1.4 數(shù)據(jù)挖掘步驟和標(biāo)準(zhǔn)1.4.1 數(shù)據(jù)挖掘步驟1.4.2 數(shù)據(jù)挖掘需要的人員1.5 數(shù)據(jù)挖掘常用方法1.5.1 數(shù)據(jù)挖掘的對(duì)象1.5.2 數(shù)據(jù)挖掘的常用方法練習(xí)題第2章 關(guān)聯(lián)規(guī)則2.1 關(guān)聯(lián)規(guī)則介紹2.2 關(guān)聯(lián)規(guī)則種類2.2.1 一般意義上的關(guān)聯(lián)規(guī)則2.2.2 帶有時(shí)間性的序列關(guān)聯(lián)分析2.3 關(guān)聯(lián)規(guī)則算法2.3.1 普通的關(guān)聯(lián)規(guī)則算法2.3.2 序列關(guān)聯(lián)規(guī)則算法2.4 S7ATISTICA中的關(guān)聯(lián)規(guī)則2.5 案例分析練習(xí)題第3章 聚類分析3.1 聚類分析介紹3.2 距離定義3.2.1 點(diǎn)之間的距離3.2.2 類之間的距離3.3 聚類分析算法3.3.1 層次聚類3.3.2 基于劃分的聚類3.3.3 EM聚類3.4 STATISTICA中的聚類分析3.5 案例分析練習(xí)題第4章 決策樹建模4.1 決策樹介紹4.1.1 決策樹的基本知識(shí)4.1.2 決策樹的應(yīng)用和發(fā)展趨勢(shì)4.2 樹的建模過程4.2.1 數(shù)據(jù)要求4.2.2 樹的生長(zhǎng)4.2.3 有效性和風(fēng)險(xiǎn)性4.2.4 屬性選擇4.3 S7ATISTICA中的決策樹4.4 案例分析練習(xí)題第5章 神經(jīng)網(wǎng)絡(luò)建模5.1 神經(jīng)網(wǎng)絡(luò)介紹5.2 神經(jīng)網(wǎng)絡(luò)的基本概念和原理5.2.1 基本組成單元5.2.2 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程5.2.3 基本的神經(jīng)網(wǎng)絡(luò)模型5.3 STATISTICA中的神經(jīng)網(wǎng)絡(luò)模型5.4 案例分析練習(xí)題第6章 回歸分析6.1 回歸分析介紹6.2 線性回歸模型6.2.1 模型的建立及未知參數(shù)的估計(jì)6.2.2 回歸方程與回歸參數(shù)的檢驗(yàn)及變量的選擇問題6.2.3 回歸診斷和決定系數(shù)6.3 1ogistic回歸模型6.3.1 1ogistic回歸模型的建立6.3.2 1ogistic回歸模型的參數(shù)估計(jì)6.3.3 1ogistic回歸模型的檢驗(yàn)及診斷6.3.4 1ogistic回歸模型結(jié)果的解釋6.3.5 1ogistic回歸模型的擴(kuò)展6.4 STATISTICA中的回歸6.5 案例分析練習(xí)題第7章 時(shí)間序列7.1 時(shí)間序列介紹7.2 時(shí)間序列算法7.2.1 傳統(tǒng)時(shí)間序列分析7.2.2 ARIMA模型7.3 STATISTICA中的時(shí)間序列7.4 案例分析練習(xí)題參考文獻(xiàn)
章節(jié)摘錄
第1章 數(shù)據(jù)挖掘概述 1.1 數(shù)據(jù)挖掘定義 數(shù)據(jù)挖掘是一個(gè)多學(xué)科交叉研究領(lǐng)域,不僅大學(xué)里的專門研究人員在使用它,商業(yè)公司的專家和技術(shù)人員也在密切地關(guān)注它;它不僅涉及人工智能領(lǐng)域以及統(tǒng)計(jì)學(xué)的應(yīng)用,而且也涉及數(shù)據(jù)庫(kù)的使用。不同領(lǐng)域的人從不同的研究背景出發(fā)研究不同行業(yè)的數(shù)據(jù),也就給了數(shù)據(jù)挖掘不同的內(nèi)容和定義。這里我們就數(shù)據(jù)挖掘的技術(shù)定義以及商業(yè)定義展開討論。 1.1 數(shù)據(jù)挖掘的技術(shù)定義數(shù)據(jù)挖掘(data mining,DM)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中.提取隱含在其中的、人們事先不知道的,但又是潛在有用的信息和知識(shí)的過程。與數(shù)據(jù)挖掘相近的同義詞有數(shù)據(jù)融合、數(shù)據(jù)分析和決策支持等?! ∵@個(gè)定義包括以下幾層含義: (1)數(shù)據(jù)源必須是真實(shí)的、大量的、含噪聲的; ?。?)發(fā)現(xiàn)的是用戶感興趣的知識(shí); ?。?)發(fā)現(xiàn)的知識(shí)要可接受、可理解、可運(yùn)用;
編輯推薦
《數(shù)據(jù)挖掘方法與應(yīng)用》的一個(gè)特點(diǎn)是不僅對(duì)上述方法作了理論的闡述,還結(jié)合案例分析講述了如何應(yīng)用STATISTICA軟件實(shí)現(xiàn)上述方法對(duì)數(shù)據(jù)的分析,是一本理論和實(shí)踐相結(jié)合的理論性和應(yīng)用性都很強(qiáng)的書。
圖書封面
圖書標(biāo)簽Tags
無(wú)
評(píng)論、評(píng)分、閱讀與下載
數(shù)據(jù)挖掘方法與應(yīng)用 PDF格式下載