增強(qiáng)學(xué)習(xí)與近似動(dòng)態(tài)規(guī)劃

出版時(shí)間:2010-5  出版社:科學(xué)出版社  作者:徐昕  頁數(shù):212  
Tag標(biāo)簽:無  

前言

增強(qiáng)學(xué)習(xí)(reinforcement learning,RL)又稱為強(qiáng)化學(xué)習(xí)或再勵(lì)學(xué)習(xí),它是近年來機(jī)器學(xué)習(xí)和智能控制領(lǐng)域的前沿和熱點(diǎn),與監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)并列三大類機(jī)器學(xué)習(xí)方法之一。增強(qiáng)學(xué)習(xí)強(qiáng)調(diào)以不確定條件下序貫決策的優(yōu)化為目標(biāo),是復(fù)雜系統(tǒng)自適應(yīng)優(yōu)化控制的一類重要方法,具有與運(yùn)籌學(xué)、控制理論、機(jī)器人學(xué)等交叉綜合的特點(diǎn)。特別是近十年來,有關(guān)近似動(dòng)態(tài)規(guī)劃(approximate dynamicprogramming,ADP)的研究成為增強(qiáng)學(xué)習(xí)、運(yùn)籌學(xué)和優(yōu)化控制理論等相關(guān)領(lǐng)域的關(guān)注熱點(diǎn)。例如,美國國家科學(xué)基金會(huì)于2006年召開的近似動(dòng)態(tài)規(guī)劃論壇(NSF-ADP06),IEEE分別于2007年和2009年召開的近似動(dòng)態(tài)規(guī)劃與增強(qiáng)學(xué)習(xí)專題國際研討會(huì)(IEEE ADPRL 2007、IEEE ADPRL 2009)等。另外,IEEE計(jì)算智能學(xué)會(huì)于近年專門成立了近似動(dòng)態(tài)規(guī)劃與增強(qiáng)學(xué)習(xí)技術(shù)委員會(huì)(IEEE TC on ADPRL)。在以電梯調(diào)度、網(wǎng)絡(luò)路由控制等為代表的大規(guī)模優(yōu)化決策應(yīng)用中,增強(qiáng)學(xué)習(xí)顯示了相對(duì)傳統(tǒng)監(jiān)督學(xué)習(xí)和數(shù)學(xué)規(guī)劃方法的優(yōu)勢(shì)。在智能機(jī)器人系統(tǒng)、復(fù)雜不確定系統(tǒng)的優(yōu)化控制等領(lǐng)域,增強(qiáng)學(xué)習(xí)的應(yīng)用也正在不斷得到推廣。本書是作者多年從事增強(qiáng)學(xué)習(xí)與近似動(dòng)態(tài)規(guī)劃理論、算法與應(yīng)用研究的成果總結(jié),許多成果是近年來最新取得的研究成果,是一部系統(tǒng)探討增強(qiáng)學(xué)習(xí)與近似動(dòng)態(tài)規(guī)劃的學(xué)術(shù)著作。  本書有以下幾個(gè)特點(diǎn):(1)新穎性和前沿性。本書深入論述了增強(qiáng)學(xué)習(xí)與近似動(dòng)態(tài)規(guī)劃的核心與前沿研究課題——大規(guī)模連續(xù)空間Markov決策過程的值函數(shù)與策略逼近問題,對(duì)近年來取得的研究進(jìn)展進(jìn)行了充分討論。本書大多數(shù)理論、算法與實(shí)驗(yàn)結(jié)果都是作者近年來在研究工作中取得的成果。(2)多學(xué)科交叉。增強(qiáng)學(xué)習(xí)與近似動(dòng)態(tài)規(guī)劃的研究涉及機(jī)器學(xué)習(xí)、運(yùn)籌學(xué)、智能控制、機(jī)器人學(xué)等多個(gè)學(xué)科領(lǐng)域,具有較強(qiáng)的學(xué)科交叉特點(diǎn)和較寬的學(xué)科覆蓋面,對(duì)相關(guān)領(lǐng)域的學(xué)術(shù)創(chuàng)新起到了積極的促進(jìn)作用。(3)理論與應(yīng)用密切結(jié)合。本書在論述增強(qiáng)學(xué)習(xí)與近似動(dòng)態(tài)規(guī)劃理論和算法研究進(jìn)展的同時(shí),結(jié)合智能控制、機(jī)器人等領(lǐng)域的應(yīng)用實(shí)例,在算法研究和理論分析的基礎(chǔ)上,開展了大量的仿真和實(shí)驗(yàn)驗(yàn)證,有利于讀者盡快把握理論和應(yīng)用的結(jié)合點(diǎn)。

內(nèi)容概要

本書對(duì)增強(qiáng)學(xué)習(xí)與近似動(dòng)態(tài)規(guī)劃的理論、算法及應(yīng)用進(jìn)行了深入研究和論述。主要內(nèi)容包括:求解Markov鏈學(xué)習(xí)預(yù)測(cè)問題的時(shí)域差值學(xué)習(xí)算法和理論,求解連續(xù)空間Markov決策問題的梯度增強(qiáng)學(xué)習(xí)算法以及進(jìn)化一梯度混合增強(qiáng)學(xué)習(xí)算法,基于核的近似動(dòng)態(tài)規(guī)劃算法,增強(qiáng)學(xué)習(xí)在移動(dòng)機(jī)器人導(dǎo)航與控制中的應(yīng)用等。本書是作者在多個(gè)國家自然科學(xué)基金項(xiàng)目資助下取得的研究成果的總結(jié),意在推動(dòng)增強(qiáng)學(xué)習(xí)與近似動(dòng)態(tài)規(guī)劃理論與應(yīng)用的發(fā)展,對(duì)于智能科學(xué)的前沿研究和智能學(xué)習(xí)系統(tǒng)的應(yīng)用具有重要的科學(xué)意義。    本書可作為高等院校與科研院所中從事人工智能與智能信息處理、機(jī)器人與智能控制、智能決策支持系統(tǒng)等專業(yè)領(lǐng)域的研究和教學(xué)用書,也可作為自動(dòng)化、計(jì)算機(jī)與管理學(xué)領(lǐng)域其他相關(guān)專業(yè)師生及科研人員的參考書。

書籍目錄

《智能科學(xué)技術(shù)著作叢書》序前言第1章  緒論  1.1  引言  1.2  增強(qiáng)學(xué)習(xí)與近似動(dòng)態(tài)規(guī)劃的研究概況    1.2.1  增強(qiáng)學(xué)習(xí)研究的相關(guān)學(xué)科背景    1.2.2  增強(qiáng)學(xué)習(xí)算法的研究進(jìn)展    1.2.3  增強(qiáng)學(xué)習(xí)的泛化方法與近似動(dòng)態(tài)規(guī)劃    1.2.4  增強(qiáng)學(xué)習(xí)相關(guān)理論研究與多Agent增強(qiáng)學(xué)習(xí)    1.2.5  增強(qiáng)學(xué)習(xí)應(yīng)用的研究進(jìn)展  1.3  移動(dòng)機(jī)器人導(dǎo)航控制方法的研究現(xiàn)狀和發(fā)展趨勢(shì)    1.3.1  移動(dòng)機(jī)器人體系結(jié)構(gòu)的研究進(jìn)展    1.3.2  移動(dòng)機(jī)器人反應(yīng)式導(dǎo)航方法的研究概況    1.3.3  移動(dòng)機(jī)器人路徑跟蹤控制的研究概況  1.4  全書的組織結(jié)構(gòu)  參考文獻(xiàn)第2章  線性時(shí)域差值學(xué)習(xí)理論與算法  2.1  Markov鏈與多步學(xué)習(xí)預(yù)測(cè)問題    2.1.1  Markov鏈的基礎(chǔ)理論    2.1.2  基于Markov鏈的多步學(xué)習(xí)預(yù)測(cè)問題  2.2  TD(λ)學(xué)習(xí)算法    2.2.1  表格型TD(λ)學(xué)習(xí)算法    2.2.2  基于值函數(shù)逼近的TD(λ)學(xué)習(xí)算法  2.3  多步遞推最小二乘TD學(xué)習(xí)算法及其收斂性理論    2.3.1  多步遞推最小二乘TD(RLS-TD(λ)學(xué)習(xí)算法    2.3.2  RLS-TD(λ)學(xué)習(xí)算法的一致收斂性分析  2.4  多步學(xué)習(xí)預(yù)測(cè)的仿真研究    2.4.1  HlopWorld問題學(xué)習(xí)預(yù)測(cè)仿真    2.4.2  連續(xù)狀態(tài)隨機(jī)行走問題的學(xué)習(xí)預(yù)測(cè)仿真  2.5  小結(jié)  參考文獻(xiàn)第3章  基于核的時(shí)域差值學(xué)習(xí)算法  3.1  核方法與基于核的學(xué)習(xí)機(jī)器    3.1.1  核函數(shù)的概念與性質(zhì)    3.1.2  再生核Hilbert空間與核函數(shù)方法  3.2  核最小二乘時(shí)域差值學(xué)習(xí)算法    3.2.1  線性TD(λ)學(xué)習(xí)算法    3.2.2  KLS-TD(λ)學(xué)習(xí)算法    3.2.3  學(xué)習(xí)預(yù)測(cè)實(shí)驗(yàn)與比較  3.3  小結(jié)  參考文獻(xiàn)第4章  求解Markov決策問題的梯度增強(qiáng)學(xué)習(xí)算法  4.1  Markov決策過程與表格型增強(qiáng)學(xué)習(xí)算法    4.1.1  Markov決策過程及其最優(yōu)值函數(shù)    4.1.2  表格型增強(qiáng)學(xué)習(xí)算法及其收斂性理論  4.2  基于改進(jìn)CMAC的直接梯度增強(qiáng)學(xué)習(xí)算法    4.2.1  CMAC的結(jié)構(gòu)    4.2.2  基于C2MAC的直接梯度增強(qiáng)學(xué)習(xí)算法    4.2.3  兩種改進(jìn)的C2MAC編碼結(jié)構(gòu)及其應(yīng)用實(shí)例  4.3  基于值函數(shù)逼近的殘差梯度增強(qiáng)學(xué)習(xí)算法    4.3.1  多層前饋神經(jīng)網(wǎng)絡(luò)函數(shù)逼近器與已有的梯度增強(qiáng)學(xué)習(xí)算法    4.3.2  非平穩(wěn)策略殘差梯度(RGNP)增強(qiáng)學(xué)習(xí)算法    4.3.3  RGNP學(xué)習(xí)算法的收斂性和近似最優(yōu)策略性能的理論分析    4.3.4  Mountain-Car問題的仿真研究    4.3.5  Acrobot學(xué)習(xí)控制的仿真研究  4.4  求解連續(xù)行為空間Markov決策問題的快速AHC學(xué)習(xí)算法    4.4.1  AHC學(xué)習(xí)算法與Actor-Critic學(xué)習(xí)控制結(jié)構(gòu)    4.4.2  Fast-AHC學(xué)習(xí)算法    4.4.3  連續(xù)控制量條件下的倒立擺學(xué)習(xí)控制仿真研究    4.4.4  連續(xù)控制量條件下Acrobot系統(tǒng)的學(xué)習(xí)控制  4.5  小結(jié)  參考文獻(xiàn)第5章  求解Markov決策問題的進(jìn)化-梯度混合增強(qiáng)學(xué)習(xí)算法  5.1  進(jìn)化計(jì)算的基本原理和方法    5.1.1  進(jìn)化計(jì)算的基本原理和算法框架    5.1.2  進(jìn)化算法的基本要素    5.1.3  進(jìn)化算法的控制參數(shù)和性能評(píng)估  5.2  求解離散行為空間MDP的進(jìn)化-梯度混合算法    5.2.1  HERG算法的設(shè)計(jì)要點(diǎn)    5.2.2  HERG算法的流程    5.2.3  HtERG算法的應(yīng)用實(shí)例:Mountain-Car學(xué)習(xí)控制問題    5.2.4   Acrobot系統(tǒng)的進(jìn)化增強(qiáng)學(xué)習(xí)仿真  5.3  求解連續(xù)行為空間MDP的進(jìn)化-梯度混合增強(qiáng)學(xué)習(xí)算法    5.3.1  進(jìn)化AHC算法    5.3.2  連續(xù)控制量條件下Acrobot系統(tǒng)的進(jìn)化增強(qiáng)學(xué)習(xí)仿真  5.4  小結(jié)  參考文獻(xiàn)第6章  基于核的近似動(dòng)態(tài)規(guī)劃算法與理論  6.1  增強(qiáng)學(xué)習(xí)與近似動(dòng)態(tài)規(guī)劃的若干核心問題  6.2  基于核的近似策略迭代算法與收斂性理論    6.2.1  策略迭代與TD學(xué)習(xí)算法    6.2.2  核策略迭代算法KLSPI的基本框架    6.2.3  采用核稀疏化技術(shù)的KLSTD-Q時(shí)域差值算法    6.2.4  KLSPI算法的收斂性分析  6.3  核策略迭代算法的性能測(cè)試實(shí)驗(yàn)研究    6.3.1  具有20個(gè)狀態(tài)的隨機(jī)Markov鏈問題    6.3.2  具有50個(gè)狀態(tài)的隨機(jī)Markov決策問題    6.3.3  隨機(jī)倒立擺學(xué)習(xí)控制問題  6.4  小結(jié)  參考文獻(xiàn)第7章  基于增強(qiáng)學(xué)習(xí)的移動(dòng)機(jī)器人反應(yīng)式導(dǎo)航方法  7.1  基于分層學(xué)習(xí)的移動(dòng)機(jī)器人混合式體系結(jié)構(gòu)  7.2  基于增強(qiáng)學(xué)習(xí)的移動(dòng)機(jī)器人反應(yīng)式導(dǎo)航體系結(jié)構(gòu)與算法    7.2.1  未知環(huán)境中移動(dòng)機(jī)器人導(dǎo)航混合式體系結(jié)構(gòu)的具體設(shè)計(jì)    7.2.2  基于神經(jīng)網(wǎng)絡(luò)增強(qiáng)學(xué)習(xí)的反應(yīng)式導(dǎo)航算法  7.3  移動(dòng)機(jī)器人增強(qiáng)學(xué)習(xí)導(dǎo)航的仿真和實(shí)驗(yàn)研究    7.3.1  CIT-AVT-VI移動(dòng)機(jī)器人平臺(tái)的傳感器系統(tǒng)與仿真實(shí)驗(yàn)環(huán)境    7.3.2  增強(qiáng)學(xué)習(xí)導(dǎo)航的仿真研究    7.3.3 CIT-AVT-VI移動(dòng)機(jī)器人的實(shí)時(shí)學(xué)習(xí)導(dǎo)航控制實(shí)驗(yàn)  7.4  小結(jié)  參考文獻(xiàn)第8章  RL與ADP在移動(dòng)機(jī)器人運(yùn)動(dòng)控制中的應(yīng)用  8.1  基于增強(qiáng)學(xué)習(xí)的自適應(yīng)PID控制器  8.2  自動(dòng)駕駛汽車的側(cè)向增強(qiáng)學(xué)習(xí)控制    8.2.1  自動(dòng)駕駛汽車的動(dòng)力學(xué)模型    8.2.2  用于自動(dòng)駕駛汽車側(cè)向控制的增強(qiáng)學(xué)習(xí)PID控制器設(shè)計(jì)    8.2.3  自動(dòng)駕駛汽車直線路徑跟蹤仿真  8.3  基于在線增強(qiáng)學(xué)習(xí)的室內(nèi)移動(dòng)機(jī)器人路徑跟蹤控制    8.3.1  一類室內(nèi)移動(dòng)機(jī)器人系統(tǒng)的運(yùn)動(dòng)學(xué)和動(dòng)力學(xué)模型    8.3.2  增強(qiáng)學(xué)習(xí)路徑跟蹤控制器設(shè)計(jì)    8.3.3  參考路徑為直線時(shí)的仿真研究    8.3.4  參考路徑為圓弧時(shí)的仿真研究    8.3.5  CIT-AVT-VI移動(dòng)機(jī)器人實(shí)時(shí)在線學(xué)習(xí)路徑跟蹤實(shí)驗(yàn)  8.4  采用近似策略迭代的移動(dòng)機(jī)器人學(xué)習(xí)控制方法研究    8.4.1  基于近似策略迭代的學(xué)習(xí)控制方法與仿真研究    8.4.2  基于P3-AT平臺(tái)的學(xué)習(xí)控制器設(shè)計(jì)    8.4.3  直線跟隨實(shí)驗(yàn)    8.4.4  曲線跟隨實(shí)驗(yàn)  8.5  小結(jié)  參考文獻(xiàn)第9章  總結(jié)與展望

章節(jié)摘錄

插圖:1.3.3 移動(dòng)機(jī)器人路徑跟蹤控制的研究概況移動(dòng)機(jī)器人的路徑跟蹤控制是指在完成路徑規(guī)劃的條件下,通過設(shè)計(jì)反饋控制律實(shí)現(xiàn)移動(dòng)機(jī)器人對(duì)規(guī)劃路徑的閉環(huán)跟蹤控制。路徑跟蹤控制問題在許多移動(dòng)機(jī)器人的應(yīng)用場合具有重要的作用,如包括無人駕駛汽車在內(nèi)的自主地面車輛(ALV)和用于運(yùn)輸環(huán)境的自動(dòng)導(dǎo)引車輛(AGV)等。在上述應(yīng)用條件下,全局路徑往往可以事先規(guī)劃完成,移動(dòng)機(jī)器人對(duì)規(guī)劃路徑的高性能跟蹤成為有效完成導(dǎo)航任務(wù)的一個(gè)關(guān)鍵。目前針對(duì)移動(dòng)機(jī)器人的動(dòng)力學(xué)建模和路徑跟蹤控制問題已開展了大量的研究工作。移動(dòng)機(jī)器人作為一類具有非完整特性的機(jī)電系統(tǒng),難以建立其精確的動(dòng)力學(xué)模型,并且系統(tǒng)的動(dòng)力學(xué)特性還受到運(yùn)行速度和環(huán)境條件變化的影響,特別是對(duì)于高速運(yùn)行的無人駕駛汽車等移動(dòng)機(jī)器人系統(tǒng),其動(dòng)力學(xué)參數(shù)隨車速變化明顯。因此移動(dòng)機(jī)器人的路徑跟蹤控制成為控制理論和工程界的一個(gè)研究熱點(diǎn)和難點(diǎn)。已經(jīng)提出的移動(dòng)機(jī)器人路徑跟蹤控制方法包括PID控制、滑??刂?、非線性狀態(tài)反饋控制和智能控制方法等。PID控制是目前在實(shí)際系統(tǒng)中應(yīng)用較多的一種設(shè)計(jì)方法,該方法對(duì)系統(tǒng)模型依賴較少,且具有一定的魯棒性,但參數(shù)優(yōu)化困難,難以實(shí)現(xiàn)對(duì)模型變化的自適應(yīng)調(diào)節(jié)?;?刂坪头蔷€性反饋控制能夠在一定模型假設(shè)下通過離線設(shè)計(jì)保證系統(tǒng)的穩(wěn)定性,但存在對(duì)模型依賴性大、難以實(shí)現(xiàn)在線學(xué)習(xí)和自適應(yīng)的缺點(diǎn)。移動(dòng)機(jī)器人路徑跟蹤的智能控制方法是近年來得到普遍注意的一個(gè)研究領(lǐng)域,有關(guān)學(xué)者已提出了多種用于移動(dòng)機(jī)器人路徑跟蹤的智能控制方法,如模糊路徑跟蹤控制器、基于神經(jīng)網(wǎng)絡(luò)的路徑跟蹤控制和模糊神經(jīng)網(wǎng)絡(luò)控制器等。上述智能控制方法都具有不依賴于系統(tǒng)的動(dòng)力學(xué)模型,具有自適應(yīng)和學(xué)習(xí)能力等優(yōu)點(diǎn),但仍然需要解決知識(shí)自動(dòng)獲取的問題,即監(jiān)督學(xué)習(xí)的教師信號(hào)設(shè)計(jì)。增強(qiáng)學(xué)習(xí)方法作為一類基于機(jī)器學(xué)習(xí)的自適應(yīng)最優(yōu)控制方法,在復(fù)雜系統(tǒng)的控制器優(yōu)化設(shè)計(jì)方面具有廣泛的應(yīng)用前景,目前已成功地應(yīng)用于某些非線性系統(tǒng)的學(xué)習(xí)控制中。

圖書封面

圖書標(biāo)簽Tags

評(píng)論、評(píng)分、閱讀與下載


    增強(qiáng)學(xué)習(xí)與近似動(dòng)態(tài)規(guī)劃 PDF格式下載


用戶評(píng)論 (總計(jì)4條)

 
 

  •   剛買不久就降價(jià)了,不過值得這個(gè)價(jià),T_T~是一本好書。。
  •   一本舊書 大家不要上當(dāng)啊
  •   書不錯(cuò),有一定深度,價(jià)格太貴了
  •   整本書感覺是一堆論文堆砌在一起,沒有形成一體,整理得不好
 

250萬本中文圖書簡介、評(píng)論、評(píng)分,PDF格式免費(fèi)下載。 第一圖書網(wǎng) 手機(jī)版

京ICP備13047387號(hào)-7