馬爾可夫決策過程
1.馬爾可夫決策過程概述
馬爾可夫決策過程是基于馬爾可夫過程理論的隨機動態(tài)系統(tǒng)的最優(yōu)決策過程。馬爾可夫決策過程是序貫決策的主要研究領域。它是馬爾可夫過程與確定性的動態(tài)規(guī)劃相結合的產物,故又稱馬爾可夫型隨機動態(tài)規(guī)劃,屬于運籌學中數(shù)學規(guī)劃的一個分支。
馬爾可夫決策過程是指決策者周期地或連續(xù)地觀察具有馬爾可夫性的隨機動態(tài)系統(tǒng),序貫地作出決策。即根據(jù)每個時刻觀察到的狀態(tài),從可用的行動集合中選用一個行動作出決策,系統(tǒng)下一步(未來)的狀態(tài)是隨機的,并且其狀態(tài)轉移概率具有馬爾可夫性。決策者根據(jù)新觀察到的狀態(tài),再作新的決策,依此反復地進行。馬爾可夫性是指一個隨機過程未來發(fā)展的概率規(guī)律與觀察之前的歷史無關的性質。馬爾可夫性又可簡單敘述為狀態(tài)轉移概率的無后效性。狀態(tài)轉移概率具有馬爾可夫性的隨機過程即為馬爾可夫過程。馬爾可夫決策過程又可看作隨機對策的特殊情形,在這種隨機對策中對策的一方是無意志的。馬爾可夫決策過程還可作為馬爾可夫型隨機最優(yōu)控制,其決策變量就是控制變量。
2.馬爾可夫決策過程的發(fā)展概況
50年代R.貝爾曼研究動態(tài)規(guī)劃時和L.S.沙普利研究隨機對策時已出現(xiàn)馬爾可夫決策過程的基本思想。R.A.霍華德(1960)和D.布萊克韋爾(1962)等人的研究工作奠定了馬爾可夫決策過程的理論基礎。1965年,布萊克韋爾關于一般狀態(tài)空間的研究和E.B.丁金關于非時齊(非時間平穩(wěn)性)的研究,推動了這一理論的發(fā)展。1960年以來,馬爾可夫決策過程理論得到迅速發(fā)展,應用領域不斷擴大。凡是以馬爾可夫過程作為數(shù)學模型的問題,只要能引入決策和效用結構,均可應用這種理論。
3.馬爾可夫決策過程的數(shù)學描述
周期地進行觀察的馬爾可夫決策過程可用如下五元組來描述:{S,(A(i),i∈S,q,γ,V},其中S 為系統(tǒng)的狀態(tài)空間(見狀態(tài)空間法); A(i)為狀態(tài)i(i∈S)的可用行動(措施,控制)集;q為時齊的馬爾可夫轉移律族,族的參數(shù)是可用的行動;γ是定義在Γ(Г呏{(i,ɑ):a∈A(i),i∈S}上的單值實函數(shù);若觀察到的狀態(tài)為i,選用行動a,則下一步轉移到狀態(tài) j的概率為q(j│i,ɑ),而且獲得報酬γ(j,ɑ),它們均與系統(tǒng)的歷史無關;V是衡量策略優(yōu)劣的指標(準則)。
4.馬爾可夫決策過程的策略
策略是提供給決策者在各個時刻選取行動的規(guī)則,記作π=(π0,π1,π2,…, πn,πn+1…),其中πn是時刻 n選取行動的規(guī)則。從理論上來說,為了在大范圍尋求最優(yōu)策略πn,最好根據(jù)時刻 n以前的歷史,甚至是隨機地選擇最優(yōu)策略。但為了便于應用,常采用既不依賴于歷史、又不依賴于時間的策略,甚至可以采用確定性平穩(wěn)策略。
5.馬爾可夫決策過程的指標
衡量策略優(yōu)劣的常用指標有折扣指標和平均指標。折扣指標是指長期折扣〔把 t時刻的單位收益折合成0時刻的單位收益的βt(β < 1)倍〕期望總報酬;平均指標是指單位時間的平均期望報酬。
采用折扣指標的馬爾可夫決策過程稱為折扣模型。業(yè)已證明:若一個策略是β折扣最優(yōu)的,則初始時刻的決策規(guī)則所構成的平穩(wěn)策略對同一β也是折扣最優(yōu)的,而且它還可以分解為若干個確定性平穩(wěn)策略,它們對同一β都是最優(yōu)的?,F(xiàn)在已有計算這種策略的算法。
采用平均指標的馬爾可夫決策過程稱為平均模型。業(yè)已證明:當狀態(tài)空間S 和行動集A(i)均為有限集時,對于平均指標存在最優(yōu)的確定性平穩(wěn)策略;當S和(或)A(i)不是有限的情況,必須增加條件,才有最優(yōu)的確定性平穩(wěn)策略。計算這種策略的算法也已研制出來。