馬爾可夫決策過程

1.馬爾可夫決策過程概述

馬爾可夫決策過程是基于馬爾可夫過程理論的隨機(jī)動(dòng)態(tài)系統(tǒng)的最優(yōu)決策過程。馬爾可夫決策過程是序貫決策的主要研究領(lǐng)域。它是馬爾可夫過程與確定性的動(dòng)態(tài)規(guī)劃相結(jié)合的產(chǎn)物，故又稱馬爾可夫型隨機(jī)動(dòng)態(tài)規(guī)劃，屬于運(yùn)籌學(xué)中數(shù)學(xué)規(guī)劃的一個(gè)分支。

馬爾可夫決策過程是指決策者周期地或連續(xù)地觀察具有馬爾可夫性的隨機(jī)動(dòng)態(tài)系統(tǒng)，序貫地作出決策。即根據(jù)每個(gè)時(shí)刻觀察到的狀態(tài)，從可用的行動(dòng)集合中選用一個(gè)行動(dòng)作出決策，系統(tǒng)下一步（未來）的狀態(tài)是隨機(jī)的，并且其狀態(tài)轉(zhuǎn)移概率具有馬爾可夫性。決策者根據(jù)新觀察到的狀態(tài)，再作新的決策，依此反復(fù)地進(jìn)行。馬爾可夫性是指一個(gè)隨機(jī)過程未來發(fā)展的概率規(guī)律與觀察之前的歷史無關(guān)的性質(zhì)。馬爾可夫性又可簡(jiǎn)單敘述為狀態(tài)轉(zhuǎn)移概率的無后效性。狀態(tài)轉(zhuǎn)移概率具有馬爾可夫性的隨機(jī)過程即為馬爾可夫過程。馬爾可夫決策過程又可看作隨機(jī)對(duì)策的特殊情形，在這種隨機(jī)對(duì)策中對(duì)策的一方是無意志的。馬爾可夫決策過程還可作為馬爾可夫型隨機(jī)最優(yōu)控制，其決策變量就是控制變量。

2.馬爾可夫決策過程的發(fā)展概況

50年代R.貝爾曼研究動(dòng)態(tài)規(guī)劃時(shí)和L.S.沙普利研究隨機(jī)對(duì)策時(shí)已出現(xiàn)馬爾可夫決策過程的基本思想。R.A.霍華德(1960)和D.布萊克韋爾(1962)等人的研究工作奠定了馬爾可夫決策過程的理論基礎(chǔ)。1965年，布萊克韋爾關(guān)于一般狀態(tài)空間的研究和E.B.丁金關(guān)于非時(shí)齊（非時(shí)間平穩(wěn)性）的研究，推動(dòng)了這一理論的發(fā)展。1960年以來，馬爾可夫決策過程理論得到迅速發(fā)展，應(yīng)用領(lǐng)域不斷擴(kuò)大。凡是以馬爾可夫過程作為數(shù)學(xué)模型的問題，只要能引入決策和效用結(jié)構(gòu)，均可應(yīng)用這種理論。

3.馬爾可夫決策過程的數(shù)學(xué)描述

周期地進(jìn)行觀察的馬爾可夫決策過程可用如下五元組來描述：{S，(A(i)，i∈S，q，γ，V},其中S 為系統(tǒng)的狀態(tài)空間（見狀態(tài)空間法）； A(i)為狀態(tài)i(i∈S)的可用行動(dòng)（措施，控制）集；q為時(shí)齊的馬爾可夫轉(zhuǎn)移律族，族的參數(shù)是可用的行動(dòng)；γ是定義在Γ(Г呏{(i，ɑ):a∈A(i)，i∈S}上的單值實(shí)函數(shù)；若觀察到的狀態(tài)為i，選用行動(dòng)a，則下一步轉(zhuǎn)移到狀態(tài) j的概率為q(j│i，ɑ)，而且獲得報(bào)酬γ(j，ɑ),它們均與系統(tǒng)的歷史無關(guān)；V是衡量策略優(yōu)劣的指標(biāo)（準(zhǔn)則）。

4.馬爾可夫決策過程的策略

策略是提供給決策者在各個(gè)時(shí)刻選取行動(dòng)的規(guī)則，記作π＝(π₀，π₁，π₂，…， π_n，π_n＋1…)，其中 $π n$ 是時(shí)刻 n選取行動(dòng)的規(guī)則。從理論上來說，為了在大范圍尋求最優(yōu)策略 $π n$ ，最好根據(jù)時(shí)刻 n以前的歷史，甚至是隨機(jī)地選擇最優(yōu)策略。但為了便于應(yīng)用，常采用既不依賴于歷史、又不依賴于時(shí)間的策略，甚至可以采用確定性平穩(wěn)策略。

5.馬爾可夫決策過程的指標(biāo)

衡量策略優(yōu)劣的常用指標(biāo)有折扣指標(biāo)和平均指標(biāo)。折扣指標(biāo)是指長(zhǎng)期折扣〔把 t時(shí)刻的單位收益折合成0時(shí)刻的單位收益的 $β t (β < 1)$ 倍〕期望總報(bào)酬；平均指標(biāo)是指單位時(shí)間的平均期望報(bào)酬。

采用折扣指標(biāo)的馬爾可夫決策過程稱為折扣模型。業(yè)已證明：若一個(gè)策略是β折扣最優(yōu)的，則初始時(shí)刻的決策規(guī)則所構(gòu)成的平穩(wěn)策略對(duì)同一β也是折扣最優(yōu)的，而且它還可以分解為若干個(gè)確定性平穩(wěn)策略，它們對(duì)同一β都是最優(yōu)的。現(xiàn)在已有計(jì)算這種策略的算法。

采用平均指標(biāo)的馬爾可夫決策過程稱為平均模型。業(yè)已證明：當(dāng)狀態(tài)空間S 和行動(dòng)集A(i)均為有限集時(shí)，對(duì)于平均指標(biāo)存在最優(yōu)的確定性平穩(wěn)策略；當(dāng)S和（或）A(i)不是有限的情況,必須增加條件，才有最優(yōu)的確定性平穩(wěn)策略。計(jì)算這種策略的算法也已研制出來。

評(píng)論 | 0條評(píng)論

評(píng)論

經(jīng)理人分享