登錄

序貫決策

1.什么是序貫決策

序貫決策是用于隨機(jī)性或不確定性動(dòng)態(tài)系統(tǒng)最優(yōu)化的決策方法。

2.序貫決策的特點(diǎn)

序貫決策的特點(diǎn)是:

①所研究的系統(tǒng)是動(dòng)態(tài)的,即系統(tǒng)所處的狀態(tài)與時(shí)間有關(guān),可周期(或連續(xù))地對(duì)它觀察;

②決策是序貫地進(jìn)行的,即每個(gè)時(shí)刻根據(jù)所觀察到的狀態(tài)和以前狀態(tài)的記錄,從一組可行方案中選用一個(gè)最優(yōu)方案(即作最優(yōu)決策),使取決于狀態(tài)的某個(gè)目標(biāo)函數(shù)取最優(yōu)值(極大或極小值);

③系統(tǒng)下一步(或未來(lái))可能出現(xiàn)的狀態(tài)是隨機(jī)的或不確定的。

3.序貫決策的過(guò)程

序貫決策的過(guò)程是:從初始狀態(tài)開(kāi)始,每個(gè)時(shí)刻作出最優(yōu)決策后,接著觀察下一步實(shí)際出現(xiàn)的狀態(tài),即收集新的信息,然后再作出新的最優(yōu)決策,反復(fù)進(jìn)行直至最后。

系統(tǒng)在每次作出決策后下一步可能出現(xiàn)的狀態(tài)是不能確切預(yù)知的,存在兩種情況:

①系統(tǒng)下一步可能出現(xiàn)的狀態(tài)的概率分布是已知的,可用客觀概率的條件分布來(lái)描述。對(duì)于這類(lèi)系統(tǒng)的序貫決策研究得較完滿的是狀態(tài)轉(zhuǎn)移律具有無(wú)后效性的系統(tǒng),相應(yīng)的序貫決策稱(chēng)為馬爾可夫決策過(guò)程,它是將馬爾可夫過(guò)程理論與決定性動(dòng)態(tài)規(guī)劃相結(jié)合的產(chǎn)物。

②系統(tǒng)下一步可能出現(xiàn)的狀態(tài)的概率分布不知道,只能用主觀概率的條件分布來(lái)描述。用于這類(lèi)系統(tǒng)的序貫決策屬于決策分析的內(nèi)容。

評(píng)論  |   0條評(píng)論