基于統(tǒng)計視角的數(shù)據(jù)挖掘研究

出版時間:2010-12  出版社:浙江工商大學出版社  作者:徐雪琪  頁數(shù):186  字數(shù):170000  
Tag標簽:無  

內(nèi)容概要

筆者認為數(shù)據(jù)挖掘的出現(xiàn),正是統(tǒng)計學適應這一變化的新的發(fā)展方向,數(shù)據(jù)挖掘并不是為了替代傳統(tǒng)的統(tǒng)計分析技術,而是統(tǒng)計分析方法的延伸和擴展。本書從統(tǒng)計學視角研究數(shù)據(jù)挖掘,以期從統(tǒng)計學角度對數(shù)據(jù)挖掘理論的研究有所突破和創(chuàng)新,同時對統(tǒng)計學理論在數(shù)據(jù)挖掘方向的發(fā)展做出探索。

作者簡介

徐雪琪,女,1974年10月生,浙江慈溪人。經(jīng)濟學博士,現(xiàn)為浙江工商大學統(tǒng)計與數(shù)學學院講師。主要學習與研究領域為社會經(jīng)濟統(tǒng)計方法與應用、數(shù)據(jù)挖掘。先后主持廳級科研項目1項,作為主要成員參與多項國家級科研項目和省(部)級科研項目的研究工作。在《統(tǒng)計研究》、《科研管理》、《數(shù)據(jù)分析》等學術期刊上公開發(fā)表論文多篇。

書籍目錄

前言
第一章 緒論
第一節(jié) 選題意義
第二節(jié) 研究動態(tài)與文獻綜述
第三節(jié) 論文結構與研究方法
第四節(jié) 難點和創(chuàng)新
第二章 基于統(tǒng)計視角的數(shù)據(jù)挖掘理論體系
第一節(jié) 數(shù)據(jù)挖掘與統(tǒng)計學
第二節(jié) 基于統(tǒng)計視角的數(shù)據(jù)挖掘理論體系
第三節(jié) 本章小結
第三章 數(shù)據(jù)挖掘統(tǒng)計方法綜述
第一節(jié) 數(shù)據(jù)挖掘基本問題界定
第二節(jié) 關聯(lián)挖掘統(tǒng)計方法綜述
第三節(jié) 聚類挖掘統(tǒng)計方法綜述
第四節(jié) 分類挖掘統(tǒng)計方法綜述
第五節(jié) 回歸挖掘統(tǒng)計方法綜述
第六節(jié) 本章小結
第四章 數(shù)據(jù)挖掘統(tǒng)計方法進一步研究
第一節(jié) 特征描述統(tǒng)計方法研究
第二節(jié) 聚類挖掘距離函數(shù)和相似系數(shù)研究
第三節(jié) 本章小結
第五章 數(shù)據(jù)挖掘質(zhì)量問題研究
第一節(jié) 數(shù)據(jù)挖掘質(zhì)量問題分類
第二節(jié) 源數(shù)據(jù)質(zhì)量問題的處理方法
第三節(jié) 數(shù)據(jù)集成時質(zhì)量問題的處理方法
第四節(jié) 數(shù)據(jù)分析時質(zhì)量問題的處理方法
第五節(jié) 本章小結
第六章 可視化數(shù)據(jù)挖掘原型實現(xiàn)
第一節(jié) 數(shù)據(jù)挖掘原型設計基礎
第二節(jié) 可視化數(shù)據(jù)挖掘框架系統(tǒng)設計
第三節(jié) 本章小結
第七章 數(shù)據(jù)挖掘在實際數(shù)據(jù)庫上的應用示例
第一節(jié) 實驗數(shù)據(jù)庫介紹
第二節(jié) 客戶特征描述——誰是最有價值的客戶
第三節(jié) 鈴音關聯(lián)挖掘
第四節(jié) 本章小結
第八章 總結及研究展望
第一節(jié) 總結
第二節(jié) 研究展望
參考文獻
后記

章節(jié)摘錄

 ?。ǘ┺D(zhuǎn)換性問題  聚類方法、神經(jīng)網(wǎng)絡方法、遺傳方法、決策樹方法等都可作為數(shù)據(jù)挖掘方法,不同的方法對數(shù)據(jù)有不同的要求,如神經(jīng)網(wǎng)絡方法要求所有的輸入變量都必須是(0,1)或(-1,+1)之間的實數(shù),而決策樹方法擅長處理非數(shù)值型數(shù)據(jù),甚至有些決策樹算法專為處理非數(shù)值型數(shù)據(jù)而設計,所以數(shù)據(jù)分析時首先必須把數(shù)據(jù)轉(zhuǎn)換成符合算法具體要求的形式。如果數(shù)據(jù)未轉(zhuǎn)換成所需的形式或轉(zhuǎn)換不當都會產(chǎn)生轉(zhuǎn)換性問題?! 。ㄈ┥尚詥栴}  為了數(shù)據(jù)分析的需要,有時要對已給定的屬性進行運算以生成新的屬性,用以發(fā)現(xiàn)數(shù)據(jù)屬性間相互關聯(lián)的信息,并能提高對高維數(shù)據(jù)結構的理解和分析精度。如,可運用統(tǒng)計方法對數(shù)據(jù)進行匯總、求平均數(shù)、求百分位數(shù)等生成新的屬性。在運用統(tǒng)計方法時若對數(shù)據(jù)的統(tǒng)計含義不夠理解,如在時間數(shù)列中數(shù)據(jù)為時點指標,但卻作為時期指標來求平均數(shù)等便會產(chǎn)生生成性問題?! 。ㄋ模┠J交蚰P瓦x擇性問題、數(shù)據(jù)挖掘中模式或模型選擇性問題也可稱為模式或模型評價問題。數(shù)據(jù)挖掘中的模式(patters)是指在一個數(shù)據(jù)挖掘庫中出現(xiàn)頻率足以揭示它們之間有關聯(lián)的一系列事件。對于每一次數(shù)據(jù)挖掘任務,不管是采用一種數(shù)據(jù)分析方法還是采用多種不同的數(shù)據(jù)分析方法,其結果都有可能產(chǎn)生大量的模式,若選擇了不利于決策的模式而放棄了有利于決策的模式,便會產(chǎn)生模式選擇性問題。另外數(shù)據(jù)挖掘方法中許多是基于計算或統(tǒng)計方法的。例如,線性模型,依據(jù)解釋變量個數(shù)的不同而不同;圖模型,依據(jù)約束條件(圖的邊數(shù))個數(shù)的不同而不同;樹模型,依據(jù)葉子個數(shù)的不同而不同;多層感知器,依據(jù)隱含層和節(jié)點個數(shù)的不同而不同。因此當一類模型被確立后,從中找到“最佳的”模型就成為急需解決的問題。而且,一個特定的數(shù)據(jù)問題可以用許多方法來解決。例如,在預測分類問題中,可以使用Iogistic回歸、決策樹模型和神經(jīng)網(wǎng)絡等方法,如何從各種方法產(chǎn)生的模型中找到“最佳的”模型也成為急需解決的問題。

圖書封面

圖書標簽Tags

評論、評分、閱讀與下載


    基于統(tǒng)計視角的數(shù)據(jù)挖掘研究 PDF格式下載


用戶評論 (總計1條)

 
 

  •   這本書寫的沒有一點技術含量,**透頂
 

250萬本中文圖書簡介、評論、評分,PDF格式免費下載。 第一圖書網(wǎng) 手機版

京ICP備13047387號-7