高維數(shù)據(jù)挖掘技術(shù)研究

出版時間:2007-12  出版社:東南大學(xué)出版社  作者:楊風(fēng)召  頁數(shù):126  
Tag標簽:無  

內(nèi)容概要

本書從高維數(shù)據(jù)的特性出發(fā),指出了高維數(shù)據(jù)給數(shù)據(jù)挖掘帶來的影響以及高維數(shù)據(jù)挖掘的研究方向。對高維數(shù)據(jù)挖掘中的相似性搜索、高維數(shù)據(jù)聚類、高維數(shù)據(jù)異常檢測、高維數(shù)據(jù)頻繁模式發(fā)現(xiàn)及電子商務(wù)中的協(xié)同過濾技術(shù)進行了研究,提出了相關(guān)的解決方案和相應(yīng)算法?! ”緯m用于從事數(shù)據(jù)挖掘和商業(yè)智能研究的高校教師、研究生、科研院所的科研人員以及從事商業(yè)智能項目開發(fā)的工程技術(shù)人員。

書籍目錄

1 緒論 1.1 研究背景  1.1.1 數(shù)據(jù)挖掘技術(shù)的產(chǎn)生和發(fā)展  1.1.2 高維數(shù)據(jù)挖掘的概念 1.2 高維數(shù)據(jù)挖掘所遇到的困難  1.2.1 高維數(shù)據(jù)的特點  1.2.2 維災(zāi)(the curse of dimensionality)   1.2.3 高維對數(shù)據(jù)挖掘的影響 1.3 高維數(shù)據(jù)挖掘的主要研究方向  1.3.1 高維空間中的距離函數(shù)或相似性度量函數(shù)  1.3.2 高效的高維數(shù)據(jù)相似性搜索算法  1.3.3 高效的高維數(shù)據(jù)挖掘算法  1.3.4 在高維空間中對失效的問題的處理  1.3.5 選維和降維 1.4 術(shù)語和符號約定  1.4.1 基本術(shù)語  1.4.2 符號約定 1.5 本書結(jié)2 高維數(shù)據(jù)的相似性查詢處理 2.1 相似性查詢 2.2 維歸約  2.2.1 選維  2.2.2 降維 2.3 高維索引結(jié)構(gòu) 2.4 相似性查詢方法  2.4.1 RKV算法  2.4.2 HS算法  2.4.3 其他高維數(shù)據(jù)的相似性搜索算法 2.5 高維數(shù)據(jù)相似性搜索方法的討論  2.5.1 維歸約技術(shù)的局限  2.5.2 高維索引結(jié)構(gòu)在性能上的局限 2.6 本章小結(jié)3 一種新的高維數(shù)據(jù)相似性度量函數(shù)Hsim() 3.1 最近鄰查詢的不穩(wěn)定性 3.2 高維空間中的最近鄰特性 3.3 高維空間中的Lk-范數(shù)特性的深入探討 3.4 高維空間距離函數(shù)的重新設(shè)計 3.5 Hsim()函數(shù)的討論  3.5.1 Hsim()函數(shù)的推廣  3.5.2 數(shù)據(jù)的規(guī)范化  3.5.3 對高維數(shù)據(jù)中空值的處理 3.6 Hsim()與其他相似性度量方法的比較  3.6.1 由距離度量轉(zhuǎn)換來的相似性度量  3.6.2 Cosine度量  3.6.3 PearSOEl相關(guān)系數(shù)  3.6.4 Jaccard系數(shù) 3.7 本章小結(jié)4 量化交易數(shù)據(jù)的相似性搜索 4.1 量化交易數(shù)據(jù) 4.2 量化交易數(shù)據(jù)的相似性度量 4.3 索引結(jié)構(gòu)的建立  4.3.1 特征表  4.3.2 特征劃分 4.4 相似性搜索算法 4.5 舉例 4.6 性能分析 4.7 本章小結(jié)5 一種基于評分的協(xié)同過濾算法 5.1 相關(guān)研究工作  5.1.1 基于用戶的推薦算法  5.1.2 基于項的推薦算法  5.1.3 兩種推薦算法的比較  5.1.4 維歸約技術(shù) 5.2 基于特征表的評分數(shù)據(jù)協(xié)同過濾算法[Yzs03]  5.2.1 相似性度量  5.2.2 基于特征表的協(xié)同過濾算法 5.3 實驗評價  5.3.1 數(shù)據(jù)集  5.3.2 評價指標  5.3.3 實驗結(jié)果 5.4 本章小結(jié)6 高維數(shù)據(jù)聚類算法分析 6.1 一般聚類算法概述  6.1.1 分層法  6.1.2 劃分法  6.1.3 基于密度的方法  6.1.4 基于網(wǎng)格的方法 6.2 高維對聚類算法的影響及高維數(shù)據(jù)聚類方法  6.2.1 高維對聚類算法效率的影響  6.2.2 高維可能導(dǎo)致傳統(tǒng)的聚類概念失去意義  6.2.3 高維數(shù)據(jù)聚類方法 6.3 子空間聚類  6.3.1 重疊劃分子空間聚類算法  6.3.2 無重疊劃分子空間聚類算法  6.3.3 最優(yōu)投影聚類算法  6.3.4 子空間聚類算法的推廣 6.4 優(yōu)化的網(wǎng)格分割聚類方法  6.4.1 優(yōu)化的網(wǎng)格分割  6.4.2 優(yōu)化的網(wǎng)格分割算法  6.4.3 優(yōu)化的網(wǎng)格分割算法性能的改進 6.5 高維類別數(shù)據(jù)聚類算法 6.6 基于對象相似性的高維數(shù)據(jù)聚類算法  6.6.1 基于對象相似性的聚類算法框架  6.6.2 基于SL樹的圖分割算法  6.6.3 HETIS算法  6.6.4 應(yīng)用分析 6.7 本章小結(jié)7 高維數(shù)據(jù)異常檢測 7.1 異常檢測算法分析  7.1.1 基于統(tǒng)計的算法  7.1.2 基于深度的算法  7.1.3 基于偏差的算法  7.1.4 基于距離的算法  7.1.5 基于密度的算法 7.2 高維對異常檢測算法的影響   7.2.1 高維對基于統(tǒng)計算法的影響  7.2.2 高維對基于深度算法的影響  7.2.3 高維對基于距離算法的影響  7.2.4 高維對基于密度算法的影響  7.2.5 高維異常檢測的問題與出路 7.3 投影異常的概念及其檢測算法  7.3.1 投影異常的定義  7.3.2 蠻力搜索算法  7.3.3 遺傳算法 7.4 動態(tài)環(huán)境下局部異常的增量挖掘算法IncLOF  7.4.1 受影響對象  7.4.2 數(shù)據(jù)插入  7.4.3 數(shù)據(jù)刪除  7.4.4 IncLOF的算法復(fù)雜度分析  7.4.5 性能分析 7.5 本章小結(jié)8 高維數(shù)據(jù)的頻繁模式挖掘 8.1 頻繁模式挖掘問題  8.1.1 關(guān)聯(lián)規(guī)則挖掘問題的提出   8.1.2 頻繁模式和頻繁封閉模式挖掘 8.2 定義和術(shù)語 8.3 基于特征計數(shù)的頻繁封閉模式挖掘算法 8.4 基于行計數(shù)的頻繁封閉模式挖掘算法  8.4.1 自底向上深度優(yōu)先搜索算法  8.4.2 自頂向下深度優(yōu)先搜索算法 8.5 基于行計數(shù)和特征計數(shù)的混合計數(shù)頻繁封閉模式挖掘算法  8.5.1 動態(tài)計數(shù)樹  8.5.2 算法[PTCX04]  8.5.3 轉(zhuǎn)換條件 8.6 本章小結(jié)參考文獻

章節(jié)摘錄

  1.1 研究背景  1.1.1 數(shù)據(jù)挖掘技術(shù)的產(chǎn)生和發(fā)展  在過去的三十年,隨著計算機硬件技術(shù)、數(shù)據(jù)收集技術(shù)和數(shù)據(jù)存儲技術(shù)的快速發(fā)展,各行各業(yè)都逐步建立起各自的數(shù)據(jù)庫體系。在這些數(shù)據(jù)庫中存放著大量的數(shù)據(jù),如何能有效地利用這些信息,使之能為生產(chǎn)實踐所利用,成為人們所關(guān)注的問題。但相對于堆積成山的豐富的數(shù)據(jù)而言,人們?nèi)狈娪辛Φ姆治鍪侄魏头治龉ぞ?,因而造成了“?shù)據(jù)豐富而信息缺乏”的狀況。顯然,數(shù)據(jù)庫的檢索和查詢難以滿足人們的需要,雖然伴隨著數(shù)據(jù)倉庫出現(xiàn)的聯(lián)機分析處理(On—Line Ana—lytical Processing,OIAP)技術(shù)具有總結(jié)、概化和聚集的功能,可以從不同角度來觀察數(shù)據(jù),支持多維分析和決策支持,但它不能進行更深層次的分析,挖掘出大量數(shù)據(jù)背后所蘊藏的知識。在這種情況下,數(shù)據(jù)挖掘技術(shù)便應(yīng)運而生?! ?shù)據(jù)挖掘指的是從大量的數(shù)據(jù)中提取人們感興趣的知識,這些知識是隱含的、事先未知的、并且是潛在有用的信息[FPSU96]。它是計算機技術(shù)研究中的一個很有應(yīng)用價值的新領(lǐng)域,融合了數(shù)據(jù)庫、人工智能、機器學(xué)習(xí)、統(tǒng)計學(xué)等多個領(lǐng)域的理論和技術(shù),目前已成為國際上數(shù)據(jù)庫和信息決策領(lǐng)域中最前沿的研究方向之一,引起了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。一些國際上高級別的工業(yè)研究實驗室,例如IBM Almaden和GTE,眾多的學(xué)術(shù)單位,例如UC Berkeley,都在這個領(lǐng)域開展了各種各樣的研究計劃。其研究的主要目標是發(fā)展有關(guān)的方法論、理論和工具,以支持從大量數(shù)據(jù)中提取有用的和讓人感興趣的知識和模式?! ?shù)據(jù)挖掘,也叫數(shù)據(jù)庫中發(fā)現(xiàn)知識(Knowledge Discovery in Databases,KDD)。KDD一詞首次出現(xiàn)在1989年8月舉行的第11屆國際聯(lián)合人工智能學(xué)術(shù)會議上。隨著KDD在學(xué)術(shù)界和工業(yè)界的影響越來越大,國際KDD組委會于1995年把專題討論會更名為國際會議,在加拿大蒙特利爾市召開了第1屆KDD國際學(xué)術(shù)會議,以后每年召開一次。迄今為止,由美國人工智能協(xié)會主辦的KDD國際研討會已經(jīng)召開了13次,規(guī)模由原來的專題討論會發(fā)展成為國際學(xué)術(shù)大會。   ……

圖書封面

圖書標簽Tags

評論、評分、閱讀與下載


    高維數(shù)據(jù)挖掘技術(shù)研究 PDF格式下載


用戶評論 (總計4條)

 
 

  •   非常詳盡的一本有關(guān)高維數(shù)據(jù)挖掘技術(shù)的論著,可惜出版時間有點早,最新的進展沒有包括進去。
  •   對高維度數(shù)據(jù)挖掘進行了分析
  •   正在學(xué)習(xí)當中,希望有用!
  •   這本書全文寫得相當簡單,既無具體的理論介紹、推導(dǎo),也沒有詳細的研究案例,絕對是一本沒有價值的書,而且還要價這么高!
 

250萬本中文圖書簡介、評論、評分,PDF格式免費下載。 第一圖書網(wǎng) 手機版

京ICP備13047387號-7