分層強化學(xué)習(xí)理論與方法

出版時間:2007-12  出版社:哈爾濱工程大學(xué)  作者:沈晶 編  頁數(shù):141  

前言

強化學(xué)習(xí)通過試錯與環(huán)境交互獲得策略的改進,其自學(xué)習(xí)和在線學(xué)習(xí)的特點使其成為機器學(xué)習(xí)研究的一個重要分支。但是,強化學(xué)習(xí)一直被維數(shù)災(zāi)難所困擾。近年來,分層強化學(xué)習(xí)在克服維數(shù)災(zāi)難方面取得了顯著進展,典型的成果有Option,HAM和MAXQ等方法,其中Option和MAXQ方法在目前使用較為廣泛。Option方法便于自動劃分子任務(wù)(尤其分區(qū)或分段子任務(wù)),且子任務(wù)粒度易于控制,但利用先驗知識劃分子任務(wù)時,任務(wù)劃分結(jié)果表達不夠明晰,且子任務(wù)內(nèi)部策略難于確定;MAXQ方法在線學(xué)習(xí)能力強,但自動分層能力較弱,且分層粒度不夠精細,難以對一些規(guī)模很大的子任務(wù)作出進一步的分解。本書在系統(tǒng)地介紹了強化學(xué)習(xí)、分層強化學(xué)習(xí)的理論基礎(chǔ)和學(xué)習(xí)算法之后,探討了一種集成Option和MAXQ的分層強化學(xué)習(xí)新方法-OMQ,并深入研究集成過程中所涉及的理論與計算問題,以及該方法在動態(tài)環(huán)境、多智能體環(huán)境中應(yīng)用時需要進一步解決的問題。本書得到了總裝備部預(yù)研基金及哈爾濱工程大學(xué)基礎(chǔ)研究基金(HEUFl07022,HEUFr05021,HEUFT05068)的資助,在編寫過程中,得到了哈爾濱工程大學(xué)計算機科學(xué)與技術(shù)學(xué)院顧國昌教授和張國印教授的悉心指導(dǎo),以及劉海波博士的鼎力相助,張汝波教授審閱了本書初稿,提出了寶貴的意見,哈爾濱工程大學(xué)出版社的編輯老師付出了艱辛的勞動,在此一并表示感謝!

內(nèi)容概要

強化學(xué)習(xí)通過試錯與環(huán)境交互獲得策略的改進,其自學(xué)習(xí)和在線學(xué)習(xí)的特點使其成為機器學(xué)習(xí)研究的一個重要分支。但是,強化學(xué)習(xí)一直被維數(shù)災(zāi)難所困擾,近年來,分層強化學(xué)習(xí)在克服維數(shù)災(zāi)難方面取得了顯著進展。本書系統(tǒng)地介紹了強化學(xué)習(xí)、分層強化學(xué)習(xí)的理論基礎(chǔ)和學(xué)習(xí)算法以及作者在分層強化學(xué)習(xí)領(lǐng)域的研究成果和該領(lǐng)域的最新研究進展。     本書可作為高等院校和科研機構(gòu)從事計算機應(yīng)用、人工智能和機器學(xué)習(xí)等相關(guān)專業(yè)和方向的教師、研究人員、研究生及高年級本科生參考使用。

作者簡介

第1章  緒論
分層強化學(xué)習(xí)是在強化學(xué)習(xí)的基礎(chǔ)上通過增加“抽象機制”而形成的一種效率更高的機器學(xué)習(xí)方法。本章將對機器學(xué)習(xí)、強化學(xué)習(xí)、分層強化學(xué)習(xí)的定義以及研究現(xiàn)狀進行介紹。
1.1 機器學(xué)習(xí)
1.1.1 機器學(xué)習(xí)的定義
機器學(xué)習(xí)(Machine Learning)的

書籍目錄

第1章 緒論 1.1 機器學(xué)習(xí)  1.1.1 機器學(xué)習(xí)的定義  1.1.2 機器學(xué)習(xí)的發(fā)展史  1.1.3 機器學(xué)習(xí)系統(tǒng)的基本模型  1.1.4 機器學(xué)習(xí)的主要策略  1.2 強化學(xué)習(xí)  1.2.1 強化學(xué)習(xí)的定義  1.2.2 強化學(xué)習(xí)的發(fā)展史 1.3 分層強化學(xué)習(xí)  1.3.1 分層強化學(xué)習(xí)的定義  1.3.2 研究現(xiàn)狀與發(fā)展趨勢第2章 強化學(xué)習(xí) 2.1 強化學(xué)習(xí)的基本原理 2.2 強化學(xué)習(xí)的基本方法 2.3 部分可觀測馬氏過程第3章 分層強化學(xué)習(xí) 3.1 半馬氏過程  3.2 分層與抽象  3.3 典型分層強化學(xué)習(xí)方法  3.3.1 Option分層強化學(xué)習(xí)方法  3.3.2 HAM分層強化學(xué)習(xí)方法  3.3.3 MAXQ分層強化學(xué)習(xí)方法  3.3.4 典型分層強化學(xué)習(xí)方法的比較分析 3.4 OMQ分層強化學(xué)習(xí)方法  3.4.1 測試用例描述  3.4.2 OMQ理論框架  3.4.3 OMQ學(xué)習(xí)算法  3.4.4 OMQ學(xué)習(xí)算法最優(yōu)性分析  3.4.5 OMQ學(xué)習(xí)算法收斂性證明  3.4.6 OMQ學(xué)習(xí)算法實驗分析第4章 動態(tài)分層強化學(xué)習(xí) 4.1 學(xué)習(xí)任務(wù)的自動分層  4.1.1 瓶頸和路標(biāo)狀態(tài)法  4.1.2 共用子空間法  4.1.3 多維狀態(tài)法  4.1.4 馬氏空間法  4.1.5 其他有關(guān)方法  4.1.6 任務(wù)自動分層方法評價 4.2 基于免疫聚類的自動分層算法  4.2.1 免疫原理剖析  4.2.2 基于免疫聚類的Option自動生成算法 4.3 基于二次應(yīng)答機制的動態(tài)分層算法  4.3.1 算法描述  4.3.2 實驗分析 4.4 未知動態(tài)環(huán)境中的分層強化學(xué)習(xí)方法  4.4.1 移動機器人路徑規(guī)劃問題  4.4.2 未知動態(tài)環(huán)境中的OMQ分層強化學(xué)習(xí)算法  4.4.3 實驗分析 ……第5章 多智能體分層強化學(xué)習(xí)參考文獻

章節(jié)摘錄

插圖:分層強化學(xué)習(xí)是在強化學(xué)習(xí)的基礎(chǔ)上通過增加“抽象機制”而形成的一種效率更高的機器學(xué)習(xí)方法。本章將對機器學(xué)習(xí)、強化學(xué)習(xí)、分層強化學(xué)習(xí)的定義以及研究現(xiàn)狀進行介紹。 1.1 機器學(xué)習(xí) 1.1.1 機器學(xué)習(xí)的定義 機器學(xué)習(xí)(Machine Learning)的核心是學(xué)習(xí)。學(xué)習(xí)是人類具有的一種重要智能行為,但究竟什么是學(xué)習(xí),長期以來卻眾說紛紜。這是因為進行這一研究的人們分別來自不同的學(xué)科,更重要的是學(xué)習(xí)是一種多側(cè)面、綜合性的心理活動,它與記憶、思維、知覺、感覺等多種心理行為都有著密切的聯(lián)系,人們難以把握學(xué)習(xí)的機理與實現(xiàn)。社會學(xué)家、邏輯學(xué)家和心理學(xué)家都各有其不同的看法。按照人工智能大師Simon的觀點,學(xué)習(xí)就是系統(tǒng)在不斷重復(fù)的工作中對本身能力的增強或者改進,使得系統(tǒng)在下一次執(zhí)行同樣任務(wù)或類似任務(wù)時,會比現(xiàn)在做得更好或效率更高。這一闡述包含過程、系統(tǒng)與改進性能這樣三個要點。學(xué)習(xí)的基本模型就是基于這一觀點建立起來的。 機器學(xué)習(xí)至今還沒有統(tǒng)一的定義,而且也很難得到一個公認的和準(zhǔn)確的定義。顧名思義,機器學(xué)習(xí)是研究如何使用機器來模擬人類學(xué)習(xí)活動的一門學(xué)科。稍微嚴(yán)格的提法:機器學(xué)習(xí)是一門研究機器獲取新知識和新技能,并識別現(xiàn)有知識的學(xué)問。

編輯推薦

《分層強化學(xué)習(xí)理論與方法》是由哈爾濱工程大學(xué)出版社出版社的。

圖書封面

評論、評分、閱讀與下載


    分層強化學(xué)習(xí)理論與方法 PDF格式下載


用戶評論 (總計0條)

 
 

 

250萬本中文圖書簡介、評論、評分,PDF格式免費下載。 第一圖書網(wǎng) 手機版

京ICP備13047387號-7