數(shù)據(jù)預(yù)處理

出版時(shí)間:2011-3  出版社:廈門大學(xué)出版社  作者:劉云霞  頁數(shù):130  字?jǐn)?shù):120000  
Tag標(biāo)簽:無  

內(nèi)容概要

數(shù)據(jù)歸約是數(shù)據(jù)挖掘過程的關(guān)鍵環(huán)節(jié),因此對數(shù)據(jù)歸約技術(shù)的研究具有重要的意義。當(dāng)前已有的數(shù)據(jù)歸約方法多偏重于有監(jiān)督學(xué)習(xí),而無監(jiān)督情形下歸約方法的研究還相對不夠豐富。鑒于這種情況,劉云霞編著的《數(shù)據(jù)預(yù)處理——數(shù)據(jù)歸約的統(tǒng)計(jì)方法研究及應(yīng)用》的重點(diǎn)內(nèi)容是嘗試對無監(jiān)督數(shù)據(jù)歸約的統(tǒng)計(jì)方法及其應(yīng)用進(jìn)行研究。
在《數(shù)據(jù)預(yù)處理——數(shù)據(jù)歸約的統(tǒng)計(jì)方法研究及應(yīng)用》第一章中,首先闡述了選題的研究背景和研究意義。之后,在概述相關(guān)背景知識和總結(jié)國內(nèi)外數(shù)據(jù)歸約研究方法現(xiàn)狀的基礎(chǔ)上,明確了本書的研究內(nèi)容及創(chuàng)新之處。
數(shù)據(jù)歸約兩項(xiàng)重要的基礎(chǔ)工作——缺失值填補(bǔ)和異常值探測是第二章探討的內(nèi)容。在本章,根據(jù)對統(tǒng)計(jì)學(xué)中常用的各種缺失值填補(bǔ)和異常值探測方法的分析,總結(jié)出了一些適合數(shù)據(jù)挖掘使用的方法。此外,通過將幾種異常值探測方法應(yīng)用在某地區(qū)移動通信用戶繳費(fèi)數(shù)據(jù)庫上,對手機(jī)用戶的消費(fèi)行為進(jìn)行了實(shí)證分析。
數(shù)據(jù)歸約包括元組的歸約和屬性的歸約。本書在第三章探討了元組歸約的兩種主要方法——連續(xù)屬性離散化和概念分層。在對當(dāng)前的離散化方法和概念分層中面向?qū)傩詺w納方法綜述的基礎(chǔ)上,提出了兩種從獨(dú)立性角度考慮的連續(xù)屬性離散化方法,分別是基于可辨識矩陣的離散化方法和基于似然比假設(shè)檢驗(yàn)的離散化方法。并通過在Iris樣本集上對這兩種方法進(jìn)行模擬,驗(yàn)證了它們的有效性。
屬性重要性排序以及屬性的提取和屬性子集的選擇是屬性歸約的兩類方法。本書在第四章探討了屬性重要性的排序問題。數(shù)據(jù)挖掘中目前常見的排序問題是有監(jiān)督屬性的排序,本章首先對它們作了介紹和比較。然后在無監(jiān)督屬性重要性的排序方面,提出了單向有序列聯(lián)資料的屬性排序方法——改進(jìn)秩和法和基于因子分析的無監(jiān)督屬性排序方法,這兩種方法分別在一份調(diào)查問卷的列聯(lián)資料和全國居民人均消費(fèi)支出樣本集的模擬中,取得了較為滿意的結(jié)果。
第五章探討的是屬性的提取和屬性子集的選擇問題。首先對目前在數(shù)據(jù)挖掘中用于屬性線性提取的幾種統(tǒng)計(jì)學(xué)和其他學(xué)科的方法作了介紹和評價(jià)。然后是本章的重點(diǎn)內(nèi)容——屬性子集的選擇,在對屬性子集選擇的基本知識及目前已有的研究成果詳細(xì)闡述和分析之后,提出了逐步向前的無監(jiān)督屬性選擇方法,并通過實(shí)例驗(yàn)證了該方法的有效性。
第六章對全書的主要工作進(jìn)行了總結(jié),并指出了有待進(jìn)一步改進(jìn)和完善的地方。
本書的創(chuàng)新之處主要有以下四個(gè)方面:
(1)提出了分別基于可辨識矩陣和基于似然比假設(shè)檢驗(yàn)的兩種連續(xù)屬性離散化方法。
(2)提出了單向有序列聯(lián)資料屬性排序的方法——改進(jìn)秩和法。
(3)提出了基于因子分析的無監(jiān)督屬性重要性的排序方法。
(4)提出了逐步向前的無監(jiān)督屬性選擇方法。

書籍目錄

摘要
第一章 緒論
第一節(jié) 選題的研究背景和研究意義
第二節(jié) 相關(guān)背景知識
一、數(shù)據(jù)挖掘的發(fā)展概況
二、數(shù)據(jù)歸約的主要內(nèi)容
三、數(shù)據(jù)歸約的重要作用
第三節(jié) 國內(nèi)外研究現(xiàn)狀
一、屬性離散化方法研究的現(xiàn)狀
二、屬性排序和屬性子集選擇方法研究的現(xiàn)狀
第四節(jié) 本書的研究內(nèi)容及創(chuàng)新點(diǎn)
一、本書的研究內(nèi)容和結(jié)構(gòu)
二、本書的創(chuàng)新點(diǎn)
第二章 缺失值的填補(bǔ)與異常值的探測
第一節(jié) 缺失值的填補(bǔ)
一、單一填補(bǔ)法和多重填補(bǔ)法
二、基于距離的填補(bǔ)方法
三、貝葉斯填補(bǔ)方法
第二節(jié) 異常值的探測
一、異常值及形成原因
二、異常值的探測方法
三、異常值探測的步驟及應(yīng)用
第三節(jié) 移動通訊用戶消費(fèi)行為的分析
一、單個(gè)屬性異常值探測的應(yīng)用及分析
二、多個(gè)屬性的異常值探測方法的應(yīng)用及分析
第三章 數(shù)據(jù)挖掘中元組的歸約
第一節(jié) 面向?qū)傩詺w納
一、面向?qū)傩詺w納
二、面向?qū)傩詺w納的步驟
三、面向?qū)傩詺w納的算法
第二節(jié) 連續(xù)屬性離散化方法及分類
一、離散化方法的分類
二、典型離散化的過程及結(jié)果評價(jià)
三、相關(guān)的離散化方法
第三節(jié) 基于可辨識矩陣的連續(xù)屬性離散化方法
一、基于可辨識矩陣離散化方法的基本思路
二、基于可辨識矩陣離散化方法的框架
三、基于可辨識矩陣離散化方法的統(tǒng)計(jì)模擬
第四節(jié) 基于似然比假設(shè)檢驗(yàn)的連續(xù)屬性離散化方法
一、基于似然比假設(shè)檢驗(yàn)的離散化方法
二、基于似然比假設(shè)檢驗(yàn)離散化方法的步驟
三、基于似然比假設(shè)檢驗(yàn)離散化方法的驗(yàn)證
四、兩種離散化方法結(jié)果的比較
第四章 屬性重要性的排序
第一節(jié) 有監(jiān)督屬性重要性的排序
一、粗糙集理論中屬性重要性的排序方法
二、信息論和決策樹中屬性重要性的排序方
三、神經(jīng)網(wǎng)絡(luò)中屬性重要性的排序方法
四、三種方法的比較
第二節(jié) 單向有序列聯(lián)資料的屬性重要性的排序
一、單向有序列聯(lián)表
二、以秩效應(yīng)為標(biāo)準(zhǔn)的方法
三、改進(jìn)秩和法
四、改進(jìn)秩和法對一份調(diào)查問卷的分析
五、以秩效應(yīng)為標(biāo)準(zhǔn)的方法和改進(jìn)秩和法的比較
第三節(jié) 基于因子分析的無監(jiān)督屬性重要性的排序
一、基于因子分析的屬性重要性排序方法
二、基于因子分析的屬性重要性排序方法的步驟
三、基于因子分析排序方法的框架
四、基于因子分析屬性重要性排序方法的驗(yàn)證
五、值得注意的問題和局限性
第五章 屬性的提取與屬性子集的選擇
第一節(jié) 屬性的提取
一、小波變換
二、投影尋蹤
三、多維標(biāo)度
四、多元統(tǒng)計(jì)分析方法
五、幾種屬性提取方法的比較
第二節(jié) 屬性子集的選擇
一、屬性子集選擇方法的兩個(gè)組成部分
二、屬性子集選擇方法的兩種模式
三、基于各學(xué)科知識的屬性子集選擇方法
四、關(guān)于模式識別中基于距離的評價(jià)函數(shù)的思考
第三節(jié) 逐步向前無監(jiān)督屬性子集的選擇方法
一、逐步選擇方法的不足
二、逐步向前無監(jiān)督屬性子集選擇方法的思路
三、逐步向前無監(jiān)督屬性子集選擇方法的基本框架
四、統(tǒng)計(jì)模擬及方法驗(yàn)證
五、逐步向前無監(jiān)督屬性子集選擇方法的合理性和局限性
第六章 全書的總結(jié)
第一節(jié) 全書的主要工作
第二節(jié) 尚需研究的問題
參考文獻(xiàn)
后記
攻讀博士學(xué)位期間發(fā)表的論文

圖書封面

圖書標(biāo)簽Tags

評論、評分、閱讀與下載


    數(shù)據(jù)預(yù)處理 PDF格式下載


用戶評論 (總計(jì)2條)

 
 

  •   這書不值這個(gè)價(jià)
  •   主要想看缺失值處理的,不過我可能找錯(cuò)書了,適合統(tǒng)計(jì)學(xué)的人看。
 

250萬本中文圖書簡介、評論、評分,PDF格式免費(fèi)下載。 第一圖書網(wǎng) 手機(jī)版

京ICP備13047387號-7