出版時間:2013-2 出版社:電子工業(yè)出版社 作者:蔣盛益 頁數(shù):284
Tag標簽:無
內容概要
《高等學校計算機規(guī)劃教材:數(shù)據(jù)挖掘原理與實踐》分為數(shù)據(jù)挖掘理論和數(shù)據(jù)挖掘實踐兩大部分?;A理論部分的主要內容包括數(shù)據(jù)挖掘的基本概念、數(shù)據(jù)挖掘的預處理、聚類分析、分類與回歸、關聯(lián)規(guī)則挖掘、例外點檢測。數(shù)據(jù)挖掘實踐部分討論了數(shù)據(jù)挖掘在通信行業(yè)、文本挖掘等方面的實際應用;通過四個案例展示了在通信行業(yè)中如何利用數(shù)據(jù)挖掘進行客戶細分、客戶流失分析、客戶社會關系挖掘、業(yè)務交叉銷售;通過跨語言智能學術搜索系統(tǒng)和基于內容的垃圾郵件識別兩個案例展示了數(shù)據(jù)挖掘在文本挖掘方面的應用?! 陡叩葘W校計算機規(guī)劃教材:數(shù)據(jù)挖掘原理與實踐》可作為高等院校計算機電子商務及相關專業(yè)的學生相關的教材或參考書,也可供從事數(shù)據(jù)挖掘研究、設計等工作的科研、技術人員參考。
書籍目錄
上篇 理論篇第1章 緒 論 1.1 數(shù)據(jù)挖掘產生的背景 1.2 數(shù)據(jù)挖掘任務及過程 1.2.1 數(shù)據(jù)挖掘定義 1.2.2 數(shù)據(jù)挖掘對象 1.2.3 數(shù)據(jù)挖掘任務 1.2.4 數(shù)據(jù)挖掘過程 1.2.5 數(shù)據(jù)挖掘常用軟件簡介 1.3 數(shù)據(jù)挖掘應用 1.3.1 數(shù)據(jù)挖掘在商業(yè)領域中的應用 1.3.2 數(shù)據(jù)挖掘在計算機領域中的應用 1.3.3 其他領域中的應用 1.4 數(shù)據(jù)挖掘技術的前景、研究熱點 1.4.1 數(shù)據(jù)挖掘技術的價值和前景 1.4.2 數(shù)據(jù)挖掘的研究熱點 1.4.3 數(shù)據(jù)挖掘的未來發(fā)展 本章小結 習題1 第2章 數(shù)據(jù)處理基礎 2.1 數(shù)據(jù) 2.1.1 數(shù)據(jù)及數(shù)據(jù)類型 2.1.2 數(shù)據(jù)集的類型 2.2 數(shù)據(jù)統(tǒng)計特性 2.2.1 數(shù)據(jù)的中心度量 2.2.2 數(shù)據(jù)散布程度度量 2.3 數(shù)據(jù)預處理 2.3.1 數(shù)據(jù)清理 2.3.2 數(shù)據(jù)聚合 2.3.3 數(shù)據(jù)變換 2.3.4 數(shù)據(jù)歸約 2.4 相似性度量 2.4.1 屬性之間的相似性度量 2.4.2 對象之間的相似性度量 2.5 本章小結 習題2 第3章 分類與回歸 3.1 概述 3.2 決策樹分類方法 3.2.1 決策樹的基本概念 3.2.2 決策樹的構建 3.2.3 ID3分類算法 3.2.4 C4.5分類算法 3.2.5 CART算法 3.3 貝葉斯分類方法 3.3.1 貝葉斯定理 3.3.2 樸素貝葉斯分類算法 3.4 K-最近鄰分類方法 3.4.1 K-最近鄰分類算法基本概念 3.4.2 K-最近鄰分類算法描述 3.4.3 k-最近鄰分類算法的優(yōu)缺點 3.5 神經網絡分類方法 3.5.1 人工神經網絡的基本概念 3.5.2 典型神經網絡模型介紹 3.5.3 神經網絡的優(yōu)缺點 3.6 支持向量機 3.7 集成學習法 3.8 不平衡類問題 3.9 分類模型的評價 3.9.1 分類模型性能評價指標 3.9.2 分類模型的過分擬合 3.9.3 評估分類模型性能的方法 3.10 回歸 3.10.1 線性回歸 3.10.2 非線性回歸 3.10.3 邏輯回歸 3.11 本章小結 習題3 第4章 聚類分析 4.1 概述 4.1.1 聚類分析研究的主要內容 4.1.2 數(shù)據(jù)挖掘對聚類算法的要求 4.1.3 典型聚類方法簡介 4.2 基于劃分的聚類算法 4.2.1 基本k-means聚類算法 4.2.2 二分k-means算法 4.2.3 k-means聚類算法的拓展 4.2.4 k-medoids算法 4.3 層次聚類算法 4.3.1 BIRCH算法 4.3.2 CURE算法 4.3.3 ROCK算法 4.4 基于密度的聚類算法 4.5 基于圖的聚類算法 4.5.1 Chameleon聚類算法 4.5.2 基于SNN的聚類算法 4.6 一趟聚類算法 4.6.1 算法描述 4.6.2 聚類閾值的選擇策略 4.7 基于模型的聚類算法 4.7.1 期望最大化方法EM 4.7.2 概念聚類 4.7.3 SOM方法 4.8 聚類算法評價 本章小結 習題4 第5章 關聯(lián)分析 5.1 概述 5.2 頻繁項集發(fā)現(xiàn)算法 5.2.1 Apriori 算法 5.2.2 Fp-growth算法 5.3 關聯(lián)規(guī)則的生成 5.4 非二元屬性的關聯(lián)規(guī)則挖掘 5.5 關聯(lián)規(guī)則的評價 5.5.1 支持度和置信度 5.5.2 相關性分析 5.5.3 辛普森悖論 5.6 序列模式 5.6.1 問題描述 5.6.2 序列模式發(fā)現(xiàn)算法 5.7 本章小結 習題 第6章 離群點挖掘 6.1 概述 6.2 基于統(tǒng)計的方法 6.3 基于距離的方法 6.4 基于相對密度的方法 6.5 基于聚類的方法 6.5.1 基于對象離群因子的方法 6.5.2 基于簇的離群因子方法 6.5.3 基于聚類的動態(tài)數(shù)據(jù)離群點檢測 6.6 離群點挖掘方法的評估 6.7 本章小結 習題 下篇 實踐篇第7章 數(shù)據(jù)挖掘在電信業(yè)中的應用 7.1 數(shù)據(jù)挖掘在電信業(yè)的應用概述 7.1.1 客戶細分 7.1.2 客戶流失預測分析 7.1.3 客戶社會關系挖掘 7.1.4 業(yè)務交叉銷售 7.1.5 欺詐客戶識別 7.2 案例一: 客戶通話模式分析 7.2.1 概述 7.2.2 數(shù)據(jù)描述 7.2.3 數(shù)據(jù)預處理 7.2.4 發(fā)現(xiàn)之旅 7.3 案例二:基于通話數(shù)據(jù)的社會網絡分析 7.3.1 概述 7.3.2 客戶呼叫圖的構建 7.3.3 客戶呼叫圖的一般屬性及其應用 7.3.4 客戶呼叫圖的社區(qū)發(fā)現(xiàn)及應用 7.4 案例三:客戶細分與流失分析 7.4.1 概述 7.4.2 數(shù)據(jù)準備 7.4.3 數(shù)據(jù)預處理 7.4.4 客戶聚類分析 7.4.5 建立分類預測模型 7.4.6 模型評估與調整優(yōu)化 7.5 案例四:移動業(yè)務關聯(lián)分析 7.5.1 概述 7.5.2 數(shù)據(jù)準備 7.5.3 數(shù)據(jù)預處理 7.5.4 關聯(lián)規(guī)則挖掘過程 7.5.5 規(guī)則的優(yōu)化 7.5.5 模型的應用 7.6 本章小結 第8章 文本挖掘與Web數(shù)據(jù)挖掘 8.1 文本挖掘 8.1.1 分詞 8.1.2 文本表示與詞權重計算 8.1.3 文本特征選擇 8.1.4 文本分類 8.1.5 文本聚類 8.1.6 文檔自動摘要 8.2 Web數(shù)據(jù)挖掘 8.2.1 Web內容挖掘 8.2.2 Web使用挖掘 8.2.3 Web結構挖掘 8.3 案例五——跨語言智能學術搜索系統(tǒng) 8.3.1 混合語種文本分詞 8.3.2 基于機器翻譯的跨語言信息檢索 8.3.3 不同語種文本的搜索結果聚類 8.3.4 基于聚類的個性化信息檢索 8.3.5 基于聚類的查詢擴展 8.3.6 其他檢索便利工具 8.3.7 系統(tǒng)性能評估 8.4 案例六——基于內容的垃圾郵件識別 8.4.1 垃圾郵件識別方法簡介 8.4.2 基于內容的垃圾郵件識別方法工作原理 8.4.3 一種基于聚類的垃圾郵件識別方法 8.5 本章小結 參考文獻
章節(jié)摘錄
版權頁:插圖:客戶信用風險分析和欺詐行為預測對企業(yè)的財務安全非常重要,利用數(shù)據(jù)挖掘中的關聯(lián)分析、離群點檢測技術對企業(yè)經營管理數(shù)據(jù)進行分析,如何預測可能將發(fā)生的風險?判定哪些因素會導致風險?這些風險主要來自于何處?通過準確、及時地對各種信用風險進行監(jiān)視、評價、預警和管理,評價這些風險的嚴重性、發(fā)生的可能性及控制這些風險的成本,進而采取有效的規(guī)避和監(jiān)督措施,在信用風險發(fā)生之前對其進行預警和控制,趨利避害,防范信用風險。(3)市場分析和管理數(shù)據(jù)挖掘技術可以用于市場營銷,其基本假定是“消費者過去的行為是其今后消費傾向的最好說明”,通過收集、加工和處理,能夠反映消費者消費行為的大量信息,來確定特定消費群體或個體的興趣、消費習慣、消費傾向和消費需求,進而推斷出相應消費群體或個體下一步的消費行為,然后以此為基礎,對識別出的消費群體進行特定內容的定向營銷。這與傳統(tǒng)的不區(qū)分消費對象特征的大規(guī)模營銷手段相比,大大節(jié)省了營銷成本,提高了營銷效果,從而為企業(yè)帶來更多的利潤。商業(yè)消費信息來自市場中的各種渠道。例如,當客戶使用信用卡消費時,商業(yè)企業(yè)就可以在信用卡結算過程中收集商業(yè)消費信息,記錄下客戶消費的時間、地點、感興趣的商品或服務、愿意接收的價格水平和支付能力等數(shù)據(jù);當客戶在申辦信用卡、辦理駕駛執(zhí)照、填寫商品保修單等其他需要填寫表格的場合時,客戶的個人信息就存入了相應的業(yè)務數(shù)據(jù)庫。企業(yè)除了自行收集相關業(yè)務信息之外,還可以從其他公司或機構購買此類信息為己所用。這些來自各種渠道的數(shù)據(jù)信息通過融合,商家可以挖掘出能夠用于向特定消費群體或個體進行定向營銷的決策信息。在市場經濟比較發(fā)達的國家和地區(qū),許多公司都開始在原有信息系統(tǒng)的基礎上通過數(shù)據(jù)挖掘對業(yè)務信息進行深度加工,以構筑自己的競爭優(yōu)勢,擴大自己的市場份額?;跀?shù)據(jù)挖掘的營銷對我國當前的市場競爭具有啟發(fā)意義,我們經??吹椒比A商業(yè)街上一些廠商對來往行人不分對象地散發(fā)大量商品宣傳廣告,其結果是不需要的人隨手丟棄資料,而需要的人并不一定能夠輕松得到。如果家電維修服務公司向在商店中剛剛購買家電的消費者郵寄維修服務廣告,藥品廠商向醫(yī)院特定門診就醫(yī)的病人郵寄廣告,那么其營銷效果肯定會比漫無目的的營銷效果要好很多。(4)企業(yè)危機管理危機管理是管理領域新出現(xiàn)的研究熱點,是以市場競爭中危機的出現(xiàn)為研究起點,分析企業(yè)危機產生的原因和過程,研究企業(yè)預防危機、應付危機、解決危機的手段和策略,以增強企業(yè)的免疫力、應變力和競爭力,使管理者能夠及時、準確地獲取所需要的信息,迅速捕捉到企業(yè)可能發(fā)生危機的一切可能事件和先兆,進而采取有效的規(guī)避措施。在危機發(fā)生之前對其進行控制,趨利避害,從而使企業(yè)能夠適應迅速變化的市場環(huán)境,保持長久的競爭優(yōu)勢。但是由于危機產生的原因復雜,種類繁多,許多因素難以量化,很多因素由于沒有歷史數(shù)據(jù)和相應的統(tǒng)計資料,很難進行科學的計算和評估。數(shù)據(jù)挖掘技術在危機識別、分析和控制等方面都可以發(fā)揮作用。
編輯推薦
《數(shù)據(jù)挖掘原理與實踐》是高等學校計算機規(guī)劃教材之一。
圖書封面
圖書標簽Tags
無
評論、評分、閱讀與下載