出版時間:2012-3 出版社:清華大學出版社 作者:李航 頁數(shù):235
Tag標簽:無
內(nèi)容概要
統(tǒng)計學習是計算機及其應(yīng)用領(lǐng)域的一門重要的學科。本書全面系統(tǒng)地介紹了統(tǒng)計學習的主要方法,特別是監(jiān)督學習方法,包括感知機、k近鄰法、樸素貝葉斯法、決策樹、邏輯斯諦回歸與最大熵模型、支持向量機、提升方法、em算法、隱馬爾可夫模型和條件隨機場等。除第1章概論和最后一章總結(jié)外,每章介紹一種方法。敘述從具體問題或?qū)嵗胧?,由淺入深,闡明思路,給出必要的數(shù)學推導,便于讀者掌握統(tǒng)計學習方法的實質(zhì),學會運用。為滿足讀者進一步學習的需要,書中還介紹了一些相關(guān)研究,給出了少量習題,列出了主要參考文獻。
《統(tǒng)計學習方法》是統(tǒng)計學習及相關(guān)課程的教學參考書,適用于高等院校文本數(shù)據(jù)挖掘、信息檢索及自然語言處理等專業(yè)的大學生、研究生,也可供從事計算機應(yīng)用相關(guān)專業(yè)的研發(fā)人員參考。
作者簡介
李航,日本京都大學電氣工程系畢業(yè),日本東京大學計算機科學博士。曾任職于日本NEC公司中央研究所,現(xiàn)任微軟亞洲研究院高級研究員及主任研究員。北京大學、南開大學、西安交通大學客座教授。研究方向包括信息檢索、自然語言處理、統(tǒng)計機器學習及數(shù)據(jù)挖掘。
書籍目錄
第1章 統(tǒng)計學習方法概論
1.1 統(tǒng)計學習
1.2 監(jiān)督學習
1.3 統(tǒng)計學習三要素
1.4 模型評估與模型選擇
1.5 i~則化與交叉驗證
1.6 泛化能力
1.7 生成模型與判別模型
1.8 分類問題
1.9 標注問題
1.10 回歸問題
本章概要
繼續(xù)閱讀
習題
參考文獻
第2章 感知機
2.1 感知機模型
2.2 感知機學習策略
2.3 感知機學習算法
本章概要
繼續(xù)閱讀
習題
參考文獻
第3章眾近鄰法
3.1 k近鄰算法
3.2 k近鄰模型
3.3 k近鄰法的實現(xiàn):kd樹
本章概要
繼續(xù)閱讀
習題
參考文獻
第4章 樸素貝葉斯法
4.1 樸素貝葉斯法的學習與分類
4.2 樸素貝葉斯法的參數(shù)估計
本章概要
繼續(xù)閱讀
習題
參考文獻
第5章 決策樹
第6章 邏輯斯諦回歸與最大熵模型
第7章 支持向量機
第8章 提升方法
第9章 em算法及其推廣
第10章 隱馬爾可夫模型
第11章 條件隨機場
第12章 統(tǒng)計學習方法總結(jié)
附錄a 梯度下降法
附錄b 牛頓法和擬牛頓法
附錄c 拉格朗日對偶性
索引
章節(jié)摘錄
版權(quán)頁: 插圖: 第1章 統(tǒng)計學習方法概論 本章簡要敘述統(tǒng)計學習方法的一些基本概念.這是對全書內(nèi)容的概括,也是全書內(nèi)容的基礎(chǔ).首先敘述統(tǒng)計學習的定義、研究對象與方法;然后敘述監(jiān)督學習,這是本書的主要內(nèi)容;接著提出統(tǒng)計學習方法的三要素:模型、策略和算法;介紹模型選擇,包括正則化、交叉驗證與學習的泛化能力;介紹生成模型與判別模型;最后介紹監(jiān)督學習方法的應(yīng)用:分類問題、標注問題與回歸問題. 1.1 統(tǒng)計學習 1.統(tǒng)計學習的特點 統(tǒng)計學習(statistical learning)是關(guān)于計算機基于數(shù)據(jù)構(gòu)建概率統(tǒng)計模型并運用模型對數(shù)據(jù)進行預測與分析的一門學科.統(tǒng)計學習也稱為統(tǒng)計機器學習(statistical machine learning). 統(tǒng)計學習的主要特點是:(1)統(tǒng)計學習以計算機及網(wǎng)絡(luò)為平臺,是建立在計算機及網(wǎng)絡(luò)之上的;(2)統(tǒng)計學習以數(shù)據(jù)為研究對象,是數(shù)據(jù)驅(qū)動的學科;(3)統(tǒng)計學習的目的是對數(shù)據(jù)進行預測與分析;(4)統(tǒng)計學習以方法為中心,統(tǒng)計學習方法構(gòu)建模型并應(yīng)用模型進行預測與分析;(5)統(tǒng)計學習是概率論、統(tǒng)計學、信息論、計算理論、最優(yōu)化理論及計算機科學等多個領(lǐng)域的交叉學科,并且在發(fā)展中逐步形成獨自的理論體系與方法論. 赫爾伯特?西蒙(Herbert A.Simon)曾對“學習”給出以下定義:“如果一個系統(tǒng)能夠通過執(zhí)行某個過程改進它的性能,這就是學習.”按照這一觀點,統(tǒng)計學習就是計算機系統(tǒng)通過運用數(shù)據(jù)及統(tǒng)計方法提高系統(tǒng)性能的機器學習.現(xiàn)在,當人們提及機器學習時,往往是指統(tǒng)計機器學習. 2.統(tǒng)計學習的對象 統(tǒng)計學習的對象是數(shù)據(jù)(data).它從數(shù)據(jù)出發(fā),提取數(shù)據(jù)的特征,抽象出數(shù)據(jù)的模型,發(fā)現(xiàn)數(shù)據(jù)中的知識,又回到對數(shù)據(jù)的分析與預測中去.作為統(tǒng)計學習的對象,數(shù)據(jù)是多樣的,包括存在于計算機及網(wǎng)絡(luò)上的各種數(shù)字、文字、圖像、視頻、音頻數(shù)據(jù)以及它們的組合. 統(tǒng)計學習關(guān)于數(shù)據(jù)的基本假設(shè)是同類數(shù)據(jù)具有一定的統(tǒng)計規(guī)律性,這是統(tǒng)計學習的前提.這里的同類數(shù)據(jù)是指具有某種共同性質(zhì)的數(shù)據(jù),例如英文文章、互聯(lián)網(wǎng)網(wǎng)頁、數(shù)據(jù)庫中的數(shù)據(jù)等.由于它們具有統(tǒng)計規(guī)律性,所以可以用概率統(tǒng)計方法來加以處理.比如,可以用隨機變量描述數(shù)據(jù)中的特征,用概率分布描述數(shù)據(jù)的統(tǒng)計規(guī)律. 在統(tǒng)計學習過程中,以變量或變量組表示數(shù)據(jù).數(shù)據(jù)分為由連續(xù)變量和離散變量表示的類型.本書以討論離散變量的方法為主.另外,本書只涉及利用數(shù)據(jù)構(gòu)建模型及利用模型對數(shù)據(jù)進行分析與預測,對數(shù)據(jù)的觀測和收集等問題不作討論。
編輯推薦
《統(tǒng)計學習方法》是統(tǒng)計學習及相關(guān)課程的教學參考書,適用于高等院校文本數(shù)據(jù)挖掘、信息檢索及自然語言處理等專業(yè)的大學生、研究生,也可供從事計算機應(yīng)用相關(guān)專業(yè)的研發(fā)人員參考。
圖書封面
圖書標簽Tags
無
評論、評分、閱讀與下載