登錄

馬爾可夫決策過(guò)程

百科 > 經(jīng)營(yíng)決策 > 馬爾可夫決策過(guò)程

1.馬爾可夫決策過(guò)程概述

馬爾可夫決策過(guò)程是基于馬爾可夫過(guò)程理論的隨機(jī)動(dòng)態(tài)系統(tǒng)的最優(yōu)決策過(guò)程。馬爾可夫決策過(guò)程是序貫決策的主要研究領(lǐng)域。它是馬爾可夫過(guò)程與確定性的動(dòng)態(tài)規(guī)劃相結(jié)合的產(chǎn)物,故又稱(chēng)馬爾可夫型隨機(jī)動(dòng)態(tài)規(guī)劃,屬于運(yùn)籌學(xué)中數(shù)學(xué)規(guī)劃的一個(gè)分支。

馬爾可夫決策過(guò)程是指決策者周期地或連續(xù)地觀(guān)察具有馬爾可夫性的隨機(jī)動(dòng)態(tài)系統(tǒng),序貫地作出決策。即根據(jù)每個(gè)時(shí)刻觀(guān)察到的狀態(tài),從可用的行動(dòng)集合中選用一個(gè)行動(dòng)作出決策,系統(tǒng)下一步(未來(lái))的狀態(tài)是隨機(jī)的,并且其狀態(tài)轉(zhuǎn)移概率具有馬爾可夫性。決策者根據(jù)新觀(guān)察到的狀態(tài),再作新的決策,依此反復(fù)地進(jìn)行。馬爾可夫性是指一個(gè)隨機(jī)過(guò)程未來(lái)發(fā)展的概率規(guī)律與觀(guān)察之前的歷史無(wú)關(guān)的性質(zhì)。馬爾可夫性又可簡(jiǎn)單敘述為狀態(tài)轉(zhuǎn)移概率的無(wú)后效性。狀態(tài)轉(zhuǎn)移概率具有馬爾可夫性的隨機(jī)過(guò)程即為馬爾可夫過(guò)程。馬爾可夫決策過(guò)程又可看作隨機(jī)對(duì)策的特殊情形,在這種隨機(jī)對(duì)策中對(duì)策的一方是無(wú)意志的。馬爾可夫決策過(guò)程還可作為馬爾可夫型隨機(jī)最優(yōu)控制,其決策變量就是控制變量。

2.馬爾可夫決策過(guò)程的發(fā)展概況

50年代R.貝爾曼研究動(dòng)態(tài)規(guī)劃時(shí)和L.S.沙普利研究隨機(jī)對(duì)策時(shí)已出現(xiàn)馬爾可夫決策過(guò)程的基本思想。R.A.霍華德(1960)和D.布萊克韋爾(1962)等人的研究工作奠定了馬爾可夫決策過(guò)程的理論基礎(chǔ)。1965年,布萊克韋爾關(guān)于一般狀態(tài)空間的研究和E.B.丁金關(guān)于非時(shí)齊(非時(shí)間平穩(wěn)性)的研究,推動(dòng)了這一理論的發(fā)展。1960年以來(lái),馬爾可夫決策過(guò)程理論得到迅速發(fā)展,應(yīng)用領(lǐng)域不斷擴(kuò)大。凡是以馬爾可夫過(guò)程作為數(shù)學(xué)模型的問(wèn)題,只要能引入決策和效用結(jié)構(gòu),均可應(yīng)用這種理論。

3.馬爾可夫決策過(guò)程的數(shù)學(xué)描述

周期地進(jìn)行觀(guān)察的馬爾可夫決策過(guò)程可用如下五元組來(lái)描述:{S,(A(i),i∈S,q,γ,V},其中S 為系統(tǒng)的狀態(tài)空間(見(jiàn)狀態(tài)空間法); A(i)為狀態(tài)i(i∈S)的可用行動(dòng)(措施,控制)集;q為時(shí)齊的馬爾可夫轉(zhuǎn)移律族,族的參數(shù)是可用的行動(dòng);γ是定義在Γ(Г呏{(i,ɑ):a∈A(i),i∈S}上的單值實(shí)函數(shù);若觀(guān)察到的狀態(tài)為i,選用行動(dòng)a,則下一步轉(zhuǎn)移到狀態(tài) j的概率為q(j│i,ɑ),而且獲得報(bào)酬γ(j,ɑ),它們均與系統(tǒng)的歷史無(wú)關(guān);V是衡量策略?xún)?yōu)劣的指標(biāo)(準(zhǔn)則)。

4.馬爾可夫決策過(guò)程的策略

策略是提供給決策者在各個(gè)時(shí)刻選取行動(dòng)的規(guī)則,記作π=(π0,π1,π2,…, πn,πn+1…),其中πn是時(shí)刻 n選取行動(dòng)的規(guī)則。從理論上來(lái)說(shuō),為了在大范圍尋求最優(yōu)策略πn,最好根據(jù)時(shí)刻 n以前的歷史,甚至是隨機(jī)地選擇最優(yōu)策略。但為了便于應(yīng)用,常采用既不依賴(lài)于歷史、又不依賴(lài)于時(shí)間的策略,甚至可以采用確定性平穩(wěn)策略。

5.馬爾可夫決策過(guò)程的指標(biāo)

衡量策略?xún)?yōu)劣的常用指標(biāo)有折扣指標(biāo)和平均指標(biāo)。折扣指標(biāo)是指長(zhǎng)期折扣〔把 t時(shí)刻的單位收益折合成0時(shí)刻的單位收益的βt(β < 1)倍〕期望總報(bào)酬;平均指標(biāo)是指單位時(shí)間的平均期望報(bào)酬。

采用折扣指標(biāo)的馬爾可夫決策過(guò)程稱(chēng)為折扣模型。業(yè)已證明:若一個(gè)策略是β折扣最優(yōu)的,則初始時(shí)刻的決策規(guī)則所構(gòu)成的平穩(wěn)策略對(duì)同一β也是折扣最優(yōu)的,而且它還可以分解為若干個(gè)確定性平穩(wěn)策略,它們對(duì)同一β都是最優(yōu)的?,F(xiàn)在已有計(jì)算這種策略的算法。

采用平均指標(biāo)的馬爾可夫決策過(guò)程稱(chēng)為平均模型。業(yè)已證明:當(dāng)狀態(tài)空間S 和行動(dòng)集A(i)均為有限集時(shí),對(duì)于平均指標(biāo)存在最優(yōu)的確定性平穩(wěn)策略;當(dāng)S和(或)A(i)不是有限的情況,必須增加條件,才有最優(yōu)的確定性平穩(wěn)策略。計(jì)算這種策略的算法也已研制出來(lái)。

評(píng)論  |   0條評(píng)論