數(shù)據(jù)預處理

出版時間:2011-3  出版社:廈門大學出版社  作者:劉云霞  頁數(shù):130  字數(shù):120000  
Tag標簽:無  

內容概要

數(shù)據(jù)歸約是數(shù)據(jù)挖掘過程的關鍵環(huán)節(jié),因此對數(shù)據(jù)歸約技術的研究具有重要的意義。當前已有的數(shù)據(jù)歸約方法多偏重于有監(jiān)督學習,而無監(jiān)督情形下歸約方法的研究還相對不夠豐富。鑒于這種情況,劉云霞編著的《數(shù)據(jù)預處理——數(shù)據(jù)歸約的統(tǒng)計方法研究及應用》的重點內容是嘗試對無監(jiān)督數(shù)據(jù)歸約的統(tǒng)計方法及其應用進行研究。
在《數(shù)據(jù)預處理——數(shù)據(jù)歸約的統(tǒng)計方法研究及應用》第一章中,首先闡述了選題的研究背景和研究意義。之后,在概述相關背景知識和總結國內外數(shù)據(jù)歸約研究方法現(xiàn)狀的基礎上,明確了本書的研究內容及創(chuàng)新之處。
數(shù)據(jù)歸約兩項重要的基礎工作——缺失值填補和異常值探測是第二章探討的內容。在本章,根據(jù)對統(tǒng)計學中常用的各種缺失值填補和異常值探測方法的分析,總結出了一些適合數(shù)據(jù)挖掘使用的方法。此外,通過將幾種異常值探測方法應用在某地區(qū)移動通信用戶繳費數(shù)據(jù)庫上,對手機用戶的消費行為進行了實證分析。
數(shù)據(jù)歸約包括元組的歸約和屬性的歸約。本書在第三章探討了元組歸約的兩種主要方法——連續(xù)屬性離散化和概念分層。在對當前的離散化方法和概念分層中面向屬性歸納方法綜述的基礎上,提出了兩種從獨立性角度考慮的連續(xù)屬性離散化方法,分別是基于可辨識矩陣的離散化方法和基于似然比假設檢驗的離散化方法。并通過在Iris樣本集上對這兩種方法進行模擬,驗證了它們的有效性。
屬性重要性排序以及屬性的提取和屬性子集的選擇是屬性歸約的兩類方法。本書在第四章探討了屬性重要性的排序問題。數(shù)據(jù)挖掘中目前常見的排序問題是有監(jiān)督屬性的排序,本章首先對它們作了介紹和比較。然后在無監(jiān)督屬性重要性的排序方面,提出了單向有序列聯(lián)資料的屬性排序方法——改進秩和法和基于因子分析的無監(jiān)督屬性排序方法,這兩種方法分別在一份調查問卷的列聯(lián)資料和全國居民人均消費支出樣本集的模擬中,取得了較為滿意的結果。
第五章探討的是屬性的提取和屬性子集的選擇問題。首先對目前在數(shù)據(jù)挖掘中用于屬性線性提取的幾種統(tǒng)計學和其他學科的方法作了介紹和評價。然后是本章的重點內容——屬性子集的選擇,在對屬性子集選擇的基本知識及目前已有的研究成果詳細闡述和分析之后,提出了逐步向前的無監(jiān)督屬性選擇方法,并通過實例驗證了該方法的有效性。
第六章對全書的主要工作進行了總結,并指出了有待進一步改進和完善的地方。
本書的創(chuàng)新之處主要有以下四個方面:
(1)提出了分別基于可辨識矩陣和基于似然比假設檢驗的兩種連續(xù)屬性離散化方法。
(2)提出了單向有序列聯(lián)資料屬性排序的方法——改進秩和法。
(3)提出了基于因子分析的無監(jiān)督屬性重要性的排序方法。
(4)提出了逐步向前的無監(jiān)督屬性選擇方法。

書籍目錄

摘要
第一章 緒論
第一節(jié) 選題的研究背景和研究意義
第二節(jié) 相關背景知識
一、數(shù)據(jù)挖掘的發(fā)展概況
二、數(shù)據(jù)歸約的主要內容
三、數(shù)據(jù)歸約的重要作用
第三節(jié) 國內外研究現(xiàn)狀
一、屬性離散化方法研究的現(xiàn)狀
二、屬性排序和屬性子集選擇方法研究的現(xiàn)狀
第四節(jié) 本書的研究內容及創(chuàng)新點
一、本書的研究內容和結構
二、本書的創(chuàng)新點
第二章 缺失值的填補與異常值的探測
第一節(jié) 缺失值的填補
一、單一填補法和多重填補法
二、基于距離的填補方法
三、貝葉斯填補方法
第二節(jié) 異常值的探測
一、異常值及形成原因
二、異常值的探測方法
三、異常值探測的步驟及應用
第三節(jié) 移動通訊用戶消費行為的分析
一、單個屬性異常值探測的應用及分析
二、多個屬性的異常值探測方法的應用及分析
第三章 數(shù)據(jù)挖掘中元組的歸約
第一節(jié) 面向屬性歸納
一、面向屬性歸納
二、面向屬性歸納的步驟
三、面向屬性歸納的算法
第二節(jié) 連續(xù)屬性離散化方法及分類
一、離散化方法的分類
二、典型離散化的過程及結果評價
三、相關的離散化方法
第三節(jié) 基于可辨識矩陣的連續(xù)屬性離散化方法
一、基于可辨識矩陣離散化方法的基本思路
二、基于可辨識矩陣離散化方法的框架
三、基于可辨識矩陣離散化方法的統(tǒng)計模擬
第四節(jié) 基于似然比假設檢驗的連續(xù)屬性離散化方法
一、基于似然比假設檢驗的離散化方法
二、基于似然比假設檢驗離散化方法的步驟
三、基于似然比假設檢驗離散化方法的驗證
四、兩種離散化方法結果的比較
第四章 屬性重要性的排序
第一節(jié) 有監(jiān)督屬性重要性的排序
一、粗糙集理論中屬性重要性的排序方法
二、信息論和決策樹中屬性重要性的排序方
三、神經(jīng)網(wǎng)絡中屬性重要性的排序方法
四、三種方法的比較
第二節(jié) 單向有序列聯(lián)資料的屬性重要性的排序
一、單向有序列聯(lián)表
二、以秩效應為標準的方法
三、改進秩和法
四、改進秩和法對一份調查問卷的分析
五、以秩效應為標準的方法和改進秩和法的比較
第三節(jié) 基于因子分析的無監(jiān)督屬性重要性的排序
一、基于因子分析的屬性重要性排序方法
二、基于因子分析的屬性重要性排序方法的步驟
三、基于因子分析排序方法的框架
四、基于因子分析屬性重要性排序方法的驗證
五、值得注意的問題和局限性
第五章 屬性的提取與屬性子集的選擇
第一節(jié) 屬性的提取
一、小波變換
二、投影尋蹤
三、多維標度
四、多元統(tǒng)計分析方法
五、幾種屬性提取方法的比較
第二節(jié) 屬性子集的選擇
一、屬性子集選擇方法的兩個組成部分
二、屬性子集選擇方法的兩種模式
三、基于各學科知識的屬性子集選擇方法
四、關于模式識別中基于距離的評價函數(shù)的思考
第三節(jié) 逐步向前無監(jiān)督屬性子集的選擇方法
一、逐步選擇方法的不足
二、逐步向前無監(jiān)督屬性子集選擇方法的思路
三、逐步向前無監(jiān)督屬性子集選擇方法的基本框架
四、統(tǒng)計模擬及方法驗證
五、逐步向前無監(jiān)督屬性子集選擇方法的合理性和局限性
第六章 全書的總結
第一節(jié) 全書的主要工作
第二節(jié) 尚需研究的問題
參考文獻
后記
攻讀博士學位期間發(fā)表的論文

圖書封面

圖書標簽Tags

評論、評分、閱讀與下載


    數(shù)據(jù)預處理 PDF格式下載


用戶評論 (總計2條)

 
 

  •   這書不值這個價
  •   主要想看缺失值處理的,不過我可能找錯書了,適合統(tǒng)計學的人看。
 

250萬本中文圖書簡介、評論、評分,PDF格式免費下載。 第一圖書網(wǎng) 手機版

京ICP備13047387號-7