登錄

對稱協(xié)調(diào)博弈

百科 > 博弈論 > 對稱協(xié)調(diào)博弈

1.什么是對稱協(xié)調(diào)博弈

對稱協(xié)調(diào)博弈是指無角色區(qū)分的參與之間進行的協(xié)調(diào)博弈,它表現(xiàn)在支付函數(shù)的對稱上,策略集是一樣的。從形式上看:對稱協(xié)調(diào)博弈就是博弈支付矩陣主對角線上的元素都是納什均衡博弈。協(xié)調(diào)博弈的均衡選擇并不涉及到激勵問題而依賴于參與人之間對博弈如何進行有充分相似的信念。正是由于信念形成是一個相對復(fù)雜的過程,所以對協(xié)調(diào)博弈均衡問題的研究也就顯得非常復(fù)雜,不同的信念形成過程動態(tài)就會產(chǎn)生不同的均衡。

2.對稱協(xié)調(diào)博弈的類型[1]

對稱協(xié)調(diào)博弈分成三類:支付占優(yōu)與風險占優(yōu)不一致;支付占優(yōu)與風險占優(yōu)一致(嚴格納什均衡可進行帕累托排序均衡)及無占優(yōu)性可比的協(xié)調(diào)博弈。

(1)支付占優(yōu)與風險占優(yōu)不一致的協(xié)調(diào)博弈

這類博弈最典型的例子就是獵鹿博弈。有兩個打獵人,他們可以合作去獵鹿也可以單獨去獵兔,如果合作獵鹿,那么兩個都可以分得4個單位的支付;如果一個人去獵鹿而另一個人去獵兔,那么前者支付為0(因為獵鹿需要兩個人合作可以成功)后者的支付為2;如果兩個人不合作都去獵兔,那么他們都可以得到3單位的支付。該博弈的支付矩陣如下:

獵鹿獵兔
獵鹿4,40,2
獵兔2,03,3

表一

顯然該博弈有兩個純策略嚴格納什均衡即要么兩個合作獵鹿,要么兩人去獵兔與一個混合策略納什均衡。按Harsayi and Selten(1988)[2]的定義,純策略獵鹿是支付占優(yōu)納什均衡、純策略獵兔是風險占優(yōu)納什均衡。獵兔策略是一個保險策略,而獵鹿博弈則是一個帕累托效率策略但由于策略的不確定性而使它具有較大的風險,因此,均衡選擇取決于參與人對風險的態(tài)度。

(2)支付占優(yōu)與風險占優(yōu)一致的協(xié)調(diào)博弈[3]

該類博弈典型例子就是中間值博弈、選美博弈或者平均意見博弈,策略值離中間值越遠則成本越大。博弈雙方的支付用代數(shù)式表示為: ,其中 。這種協(xié)調(diào)博弈中存在多當具有帕累托可比的嚴格納什均衡,并且博弈雙方的偏好具有一致性,嚴格納什均衡具有帕累托可比性。如下面支付矩陣所表示的協(xié)調(diào)博弈:

X1X2
X11,10,0
X20,02,2

表二

此類博弈有兩個嚴格納什均衡(X1,X1);(X2,X2),其中第二個均衡既是風險占優(yōu)又是支付占優(yōu)均衡,并且博弈雙方有完全一樣的偏好。

(3)無支付占優(yōu)與風險占優(yōu)區(qū)分的協(xié)調(diào)博弈

該類博弈最典型的例子就是左行右行博弈。兩個在一條路上相對而行的行人,如果都向左或者都向右那么他們就不會相碰,因此,都獲得支付1個單位.但如果兩個中一個向左前方,一個向右前方那么他們就可能相碰,走起來不方便。這種情況博弈雙方有完全相同的偏好,協(xié)調(diào)博弈中兩個嚴格納什均衡是無差異的,而該博弈的兩個嚴格納什均衡就是無差異的。

左行右行
左行1,10,0
右行0,01,1

表三

要解決協(xié)調(diào)博弈均衡選擇問題,首先需要解決各參與人對其他參與行為的預(yù)期問題。第二、三類博弈由于博弈雙方偏好完全一致,均衡選擇問題只取決于支付大小而與風險無關(guān),因此,可以通過博弈前的非約束、無成本的交流或者通過第三方提示而得到解決行為預(yù)期問題。第一類博弈風險性與收益性不同,由于參與人對風險與收益的不同看法而使得此類博弈的處理顯得特別復(fù)雜,也正因為如此,該類協(xié)調(diào)博弈成為了理論界研究的重點。

3.對稱協(xié)調(diào)博弈均衡選擇[1]

從已有的研究文獻來看,對稱協(xié)調(diào)博弈均衡選擇基本沿著兩條路徑來進行的。

一是實驗經(jīng)濟學(xué)方法,即通過對參與人真實行為的研究,重點探討影響協(xié)調(diào)博弈中均衡選擇的因素;

二是沿著純理論研究方法,通過構(gòu)建數(shù)學(xué)模型來解釋實驗結(jié)果,進一步完善進化博弈理論體系,以便更好地預(yù)測參與人的行為。實驗經(jīng)濟學(xué)研究協(xié)調(diào)博弈的目的就是為了尋找影響均衡選擇的因素,為理論研究提供現(xiàn)實的證據(jù),減少理論研究的盲目性,推動理論研究的發(fā)展。

(1)策略的顯著性影響協(xié)調(diào)博弈的均衡選擇

運用實驗方法來研究協(xié)調(diào)博弈均衡選擇問題至少可以追溯到托馬斯·克羅姆比·謝林(Thomas Crombie Schelling)(1960)[4]。Schelling通過一系列的實驗報告得出了第二類、第三類協(xié)調(diào)博弈的均衡選擇結(jié)果并發(fā)現(xiàn)參與人常常通過焦點來協(xié)調(diào)他們的行為。他認為:在現(xiàn)實中,參與人可能通過自己的經(jīng)驗、文化、心理等聯(lián)想而使一些均衡較之其他均衡更突出,并產(chǎn)生自動實施的預(yù)期而傾向于選擇那些“唯一”的均衡。正是因為一些策略可能比其他策略更突出或者更顯著,參與人的選擇結(jié)果更多地依賴于策略的顯著性而非博弈支付。博弈前的無成本、非約束、不可驗證的交流有助于解決第二類、第三類協(xié)調(diào)博弈的均衡選擇問題,并且系統(tǒng)會收斂于帕累托效率均衡?,F(xiàn)實中第二類、第三類協(xié)調(diào)博弈的情況是很少見的,多數(shù)情況下,參與人的偏好不會完全一致,存在風險與收益之間的權(quán)衡。在這種情況下,需要通過如法律、法規(guī)等強制性措施來使博弈收斂到特定的均衡。Schelling還研究了法律與顯著性即焦點之間的關(guān)系,并指出法律除了通過其制裁功能來改變博弈支付進而影響參與人行為以外,更重要的是由于其信息的公開性使得相應(yīng)策略具有焦點的功能,焦點使個人行為更快地收斂,即法律具有快速轉(zhuǎn)變已經(jīng)形成的秩序的功能。

schelling是較早運用實驗方法來研究協(xié)調(diào)博弈中均衡選擇問題的學(xué)者之一,不過他所用的實驗是非正式的且局限于小群體之中的,就連他自己也認為他所用的方法是“不科學(xué)”的。Judith Mehta, Chris Starmer, and Robert Sugden(1994)[5]模仿Schelling(1960)的實驗更正式地考察了Schelling(1960)所提出的焦點在簡單第二類、第三類協(xié)調(diào)博弈中對均衡選擇的作用。他們通過兩組實驗的比較,驗證了Schelling提出的“焦點對協(xié)調(diào)博弈中的均衡選擇起著非常重要的作用”的觀點。Aumman(1987)[6]認為博弈前無成本、非約束的交流會使協(xié)調(diào)收斂到效率均衡,而對第一類有風險性與收益性沖突的協(xié)調(diào)博弈,博弈前的交流不能使系統(tǒng)收斂于效率均衡,因為前者的交流是可置信的,而后者無成本、非約束交流是不可置信的。

(2)風險性影響協(xié)調(diào)博弈的均衡選擇

Van Huyck, Battailio and Beil (HBB,1990)[7]系統(tǒng)地研究了協(xié)調(diào)博弈的均衡選擇問題,目的是探討以下兩個問題:(1)在策略互動的博弈環(huán)境下,納什均衡是否是一個好的預(yù)測;(2)當存在多個納什均衡時,哪一個均衡最后會出現(xiàn)以及均衡的出現(xiàn)是否與博弈特定均衡的顯著性有關(guān)。他們進行了兩種試驗:一是參與人進行隨機匿名配對博弈,二是參與人可以自己選擇博弈對手。結(jié)果發(fā)現(xiàn),后者可以很快地達到支付占優(yōu)均衡,而前者卻很難達到此結(jié)果。顯然,納什均衡能夠很好地預(yù)測被觀察到的行為,這是不爭的事實。另外他們在實驗中發(fā)現(xiàn)參與人并不總是選擇帕累托占優(yōu)的均衡,多數(shù)情況下會選擇風險占優(yōu)均衡。該結(jié)果與一般認為帕累托均衡是一個自然的焦點的觀點不一致,即協(xié)調(diào)失敗可能會在實踐中出現(xiàn)。最后,在實驗中他們還證實了劣策略可能影響納什均衡選擇,因此在非合作博弈理論中的重復(fù)剔除嚴格劣策略的方法是值得商榷的。他們的實驗結(jié)果成為了后續(xù)理論研究的出發(fā)點。

(3)初始提示影響協(xié)調(diào)博弈的均衡選擇

Cooper et al.,(1992)[8]通過實驗驗證了博弈前的交流有利于參與人協(xié)調(diào)于支付占優(yōu)狀態(tài),Berninghaus and Van Huyck, Raymond Battalio and Richard Beil(1991)[9]通過實驗研究了平均意見協(xié)調(diào)博弈中參與人人數(shù)、支付占優(yōu)、保障水平及歷史事件的顯著性等對均衡選擇的影響。實驗結(jié)果發(fā)現(xiàn),在有唯一支付占優(yōu)均衡且有唯一保障性均衡的平均意見博弈[10]中,在支付占優(yōu)與保障性都不具有顯著性的情況下,重復(fù)互動產(chǎn)生了一個簡單的動態(tài)并且收斂到由初始中位數(shù)決定的無效率均衡。因此,如果給定一個初始中間值,那么在未來時期,這個中間值就變得可以預(yù)測了。因此,初始提示[2]是影響協(xié)調(diào)博弈中均衡選擇的重要因素。

(4)重復(fù)次數(shù)影響協(xié)調(diào)博弈的均衡選擇

Siegfried K. Berninghaus, Karl-Martin Ehrhart(1998)[11]通過實驗考察了參與人重復(fù)次數(shù)對協(xié)調(diào)博弈中均衡選擇的影響,他們是基于以下假說來進行試驗的:協(xié)調(diào)于帕累托均衡可以獲得更多支付,當博弈次數(shù)重復(fù)時,參與人為了長期支付而愿意在開始時犧牲短期支付,表現(xiàn)為更有耐心尋求協(xié)調(diào)于帕累托均衡。實驗結(jié)果發(fā)現(xiàn):當博弈重復(fù)次數(shù)為10次時,參與人常常選擇非帕累托效率均衡;當均衡重復(fù)次數(shù)為30次時,兩種均衡都有可能被選擇;當博弈重復(fù)次數(shù)為90次時,參與人常常選擇帕累托效率均衡。通過減少博弈的重復(fù)次數(shù)就得到了大群體時HBB(1990)的結(jié)論,當博弈重復(fù)次數(shù)足夠大時均衡結(jié)果就是帕累托優(yōu)勢均衡,該結(jié)論支持了學(xué)習導(dǎo)向理論。一種解釋就是參與人意識到效率均衡的存在,在重復(fù)博弈早期就會通過選擇而發(fā)出希望協(xié)調(diào)于支付占優(yōu)均衡的信號。另外,在實驗中他們通過改變協(xié)調(diào)失敗的成本,發(fā)現(xiàn)高協(xié)調(diào)失敗成本會阻礙風險厭惡參與人改變自己行動的可能性,這與Myerson,Roger(1978)[12]所指出的失敗成本越大,參與人犯錯誤的概率就越小的觀點是一致的。

(5)互動結(jié)構(gòu)影響協(xié)調(diào)博弈的均衡選擇

Claudia Keser, et. al. (1998)[13]通過了一系列實驗研究了局部互動結(jié)構(gòu)與均衡選擇的關(guān)系。他們比較了有局部互動結(jié)構(gòu)與沒有局部互動結(jié)構(gòu)的實驗。結(jié)果發(fā)現(xiàn)在三人群體且沒有局部互動結(jié)構(gòu)時,博弈很快就均衡于帕累托效率均衡,該結(jié)果與Van Huyck et al. (1990)的小群體結(jié)論是一樣的。當參與人處于局部互動結(jié)構(gòu)中時,他們發(fā)現(xiàn)博弈協(xié)調(diào)于風險占優(yōu)均衡。Huyck et al.(1997)[14]在另一次實驗中,比較了封閉鄰居與開放鄰居結(jié)構(gòu)對協(xié)調(diào)均衡選擇的影響。結(jié)果發(fā)現(xiàn),前者更易于協(xié)調(diào)于支付占優(yōu)狀態(tài),其原因在于開放鄰居中支付占優(yōu)的風險性大于封閉鄰居支付占優(yōu)的風險性。同時他們也發(fā)現(xiàn)當存在更多迭代時,博弈更多地協(xié)調(diào)于支付占優(yōu)均衡。因此,局部互動對協(xié)調(diào)博弈中的均衡選擇問題起著非常重要的作用。

(6)博弈前的“廉價磋商”影響協(xié)調(diào)博弈均衡選擇

Russell Cooper et. al (1992)[15]研究了博弈前的廉價磋商對協(xié)調(diào)博弈中均衡選擇的影響。他們考察第二類博弈[4]與獵鹿博弈。實驗發(fā)現(xiàn)在第二類博弈中,單向博弈前廉價磋商能夠提高帕累托占優(yōu)均衡出現(xiàn)的可能性,但雙向博弈前廉價磋商卻不一定會降低協(xié)調(diào)失敗的頻率。獵鹿博弈中雙邊博弈前廉價磋商總是會選擇帕累托占優(yōu)均衡而不是選擇風險占優(yōu)均衡,而單邊博弈前廉價磋商卻不會。也就是說,博弈前的廉價磋商是影響協(xié)調(diào)博弈均衡選擇的又一因素。

以上學(xué)者根據(jù)實驗分別從不同的角度研究了影響協(xié)調(diào)博弈中的均衡選擇問題的因素。從他們的研究中可以看出:博弈支付并不是影響均衡選擇的唯一因素,現(xiàn)實中影響協(xié)調(diào)博弈的均衡選擇因素是多方面的。因此,要較準確地描述參與人的行為就必須綜合考慮影響參與人決策過程的各種因素。

4.基于不變突變率的理論研究[1]

(1)不變突變率的理論研究成果

Michihiro Kandori, Greorge J. Mailath, Rafael Rob (KMR)1993首次運用Foster and Young(1990)[7]的方法考察了離散條件下系統(tǒng)的隨機穩(wěn)定性并給出了相應(yīng)的算法。他們的核心思想就是在模型中引入了確定性達爾文動態(tài),在此基礎(chǔ)上再引入了由正態(tài)分析描述的隨機影響因素,從而使得確定性動態(tài)過程變成了隨機動態(tài)過程。在此模型中,他們假定背景突變的存在及每個參與者都在任何時候都以相同的概率發(fā)生突變而選擇突變策略,由此便保證了馬爾可夫鏈的遍歷性,因此,隨機動態(tài)系統(tǒng)存在平穩(wěn)分布,他們采取了Freidlin, M. I and Wentzell, A . D. (1984)[16]提供的決策樹法來求系統(tǒng)平穩(wěn)分布即隨機穩(wěn)定狀態(tài)。決策樹法的基本邏輯如下:

一是引入一種狀態(tài)到另一種狀態(tài)的離開阻抗(也就是離開某狀態(tài)所需要的突變數(shù));

二是找到每一個常返狀態(tài)[8](Recurrent state)中吸引子(attractor)對應(yīng)的最小阻抗的路徑,由此研究吸引子的吸引域?qū)挾?,或者求出每個吸引子的隨機潛力;

最后,有最寬吸引域或者最小隨機潛力的吸引子就是隨機穩(wěn)定狀態(tài)。在KMR一文中,由于假定在任何狀態(tài)任何時間每個個體都以相同的非零突變率選擇其他策略,因此,離開阻抗直接可以通過突變者的個體數(shù)來描述。阻抗決定吸引域的半徑即寬度,吸引域的寬度決定系統(tǒng)回復(fù)到均衡的次數(shù),進而確定隨機穩(wěn)定狀態(tài)。正因為如此,KMR一文的所有定理的結(jié)論都是圍繞著“吸引域最寬的吸引子就是隨機穩(wěn)定狀態(tài)”這一結(jié)論而展開的。

Peyton Young(1993)應(yīng)用與KMR相同的方法研究了離散條件下對稱協(xié)調(diào)博弈的隨機穩(wěn)定性,他主要考察社會習俗的形成問題。他認為由于參與人有高昂的信息搜尋成本,每一個人都只能依據(jù)非常有限的博弈歷史來進行決策,均衡選擇并不是依據(jù)其本身所具有內(nèi)在顯著性,而是由系統(tǒng)演化的動態(tài)過程所決定的。動態(tài)過程也就是參與人對其他參與人行為的信念即預(yù)期形成的適應(yīng)性學(xué)習過程。只要信息充分不完全性并且參與人永不犯錯誤,那么滿足弱非循環(huán)博弈的適應(yīng)性學(xué)習過程以概率1會收斂到純策略嚴格納什均衡;不完全性可以有效防止博弈鎖定于次優(yōu)循環(huán),有限記憶則可以使參與人很快忘記過去協(xié)調(diào)失敗的行為,這兩個條件在一起實際上就是保證系統(tǒng)不會被粘住在一個均衡,也就是說隨機因素的影響使系統(tǒng)在不同吸引域之間不斷跳躍。Young(1993)在其模型引入了適應(yīng)性動態(tài)過程,在此基礎(chǔ)上來引入隨機因素,然后,通過Freidlin, M. I and Wentzell, A . D.提供的決策樹法來計算系統(tǒng)的隨機穩(wěn)定狀態(tài)。與KMR相比,兩者盡管在形式上不同,但都沒有超越“吸引域大的均衡就是長期隨機穩(wěn)定均衡”這一基本框架。另外,Young(1993)在文中給出了計算隨機穩(wěn)定狀態(tài)的步驟:

第一步求出在無擾動適應(yīng)性動態(tài)下的常返狀態(tài)。對一般的n人協(xié)調(diào)博弈,常返狀態(tài)的求法是非常復(fù)雜的,但如果協(xié)調(diào)博弈是弱非循環(huán)且樣本是充分不完全,那么常返狀態(tài)就是對應(yīng)于博弈中的嚴格納什均衡;

第二步計算從一個常返狀態(tài)到另一個常返狀態(tài)的最小阻抗。理論上說這就相當于解決一系列的最短路徑問題,但實際上可以直接通過博弈的支付矩陣來計算[9];

第三步依據(jù)以上的阻抗來構(gòu)建“方向樹”,并且尋找有最小阻抗的樹,除完全相同阻抗的情形外,隨機進化穩(wěn)定狀態(tài)一般都是唯一的。Young(1993)還是沒有跳出不變突變率的框架,盡管在處理方法不同于KMR,但核心思想是一樣的,

第一、文中的適應(yīng)性動態(tài)依然是支付單調(diào)的;

第二、與KMR一樣,文中假定突變率不變,因而突變率與吸引域的寬度無關(guān),突變的作用與KMR完全一樣,是為了使系統(tǒng)在不同狀態(tài)之間跳躍,系統(tǒng)狀態(tài)的吸引域半徑完全是由博弈支付決定的;

第三、結(jié)論與KMR一樣,只是說法不同,即吸引域?qū)捳呔褪情L期隨機穩(wěn)定狀態(tài)。

從以上兩文可以看出:引入動態(tài)過程是為了常返狀態(tài)的存在性;引入突變是為了使系統(tǒng)在不同常返狀態(tài)之間跳躍;引入不變突變率是為了簡化計算。有了前述的保證就可以得到“隨機穩(wěn)定狀態(tài)即是吸引域最寬的常返狀態(tài)”這一結(jié)論。正是因為這樣,Ellision(2000)直接假定以上三個條件直接從吸引域及其寬度出發(fā)來分析系統(tǒng)的隨機穩(wěn)定狀態(tài)。

Ellision(2000)直接從轉(zhuǎn)移矩陣出發(fā)來定義狀態(tài)的吸引域[11],抓住了求隨機穩(wěn)定狀態(tài)方法的核心思想,繞過了求不變分布,直接利用吸引域半徑來求解協(xié)調(diào)博弈中的均衡選擇問題。其結(jié)論為:如果離開常返狀態(tài)的阻抗大于進入常返狀態(tài)的阻抗,也就是說,當離開吸引域的阻抗大于進入吸引域的阻抗時,也就是離開的難度大于進入的難度,因此,系統(tǒng)的進化穩(wěn)定狀態(tài)就一定在此吸引子之中。當然,如果是對稱協(xié)調(diào)博弈,那么常返狀態(tài)就是由純策略嚴格納什均衡組成,隨機穩(wěn)定狀態(tài)就是最小隨機潛力的狀態(tài)。在Ellison模型中一步一步的演化比休克式演化的速度更快,為了在模型中體現(xiàn)這一點,他把系統(tǒng)向均衡狀態(tài)演化過程的成本減掉而定義了修進的共軛半徑,共軛半徑的修進無形地增加了向均衡靠攏的可能性也就是增加了吸引域的寬度。事實上,從分析可以看出,Ellison的結(jié)論依賴于參與人在任何時候任何狀態(tài)都有不變的突變率。因此,博弈的隨機穩(wěn)定狀態(tài)完成由博弈的支付確定的,并且有最大離開阻抗或者最小隨機潛力的就是隨機穩(wěn)定狀態(tài)。

(2)不變突變率理論研究的評述

以上三篇研究對稱協(xié)調(diào)博弈隨機穩(wěn)定性文章在學(xué)術(shù)界被多次引用,足以說明這些文章已經(jīng)得到了學(xué)者們的重視,其共同的特點就是假定突變率不隨時間與狀態(tài)的變化而變化,因而,把求隨機穩(wěn)定狀態(tài)直接轉(zhuǎn)化為求吸引子或者嚴格納什均衡的吸引域?qū)挾?,最寬吸引域所對?yīng)的吸引子就是隨機穩(wěn)定狀態(tài)。另外,不變突變率帶來的一個非常重要的結(jié)果就是吸引域完成是由博弈支付確定的,因而,只要確定了基礎(chǔ)博弈,系統(tǒng)的隨機穩(wěn)定狀態(tài)就已經(jīng)確定了。文中引入隨機動態(tài)的主要作用就是使系統(tǒng)在不同吸引子之間反復(fù)跳躍而不被粘住,從而達到求隨機穩(wěn)定狀態(tài)之目的。盡管形式不同,他們的結(jié)論卻是一樣的,即“在有風險占優(yōu)與帕累托占優(yōu)的協(xié)調(diào)博弈中”系統(tǒng)的長期隨機穩(wěn)定狀態(tài)是有較寬吸引域的風險占優(yōu)狀態(tài),具體地說:

a、動態(tài)過程與常返狀態(tài)的存在性。KMR的達爾文動態(tài)是典型的支付單調(diào)動態(tài),所謂支付單調(diào)動態(tài)就是指支付越多則選擇人數(shù)就越多,即參與人的行動是基于博弈支付而作出的,支付單調(diào)動態(tài)確保對稱協(xié)調(diào)博弈中常返狀態(tài)就是嚴格納什均衡集。 PY的適應(yīng)性動態(tài)(實際上就是一種相對群體分布的最優(yōu)反應(yīng)動態(tài)),在滿足弱非周期條件并且樣本不完全及參與人永遠不犯錯誤,那么適應(yīng)性動態(tài)就以概率1收斂到嚴格納什均衡;Ellison(2000)模型脫離了博弈的動態(tài)過程,他直接假定常返狀態(tài)的存在性(默認動態(tài)過程是支付單調(diào)的或者博弈滿足弱非周期性),并且認為在弱非周期條件下常返狀態(tài)就是嚴格納什均衡。

b、隨機因素的引入與遍歷性。KMR、PY與Ellison都是假定不變突變率,但他們沒有說明突變率不變的原因。不變突變率的隨機因素引入保證動態(tài)過程滿足遍歷性要求,從而系統(tǒng)不會被粘在某一處,即不會出現(xiàn)鎖定(lock in)的情況,保證系統(tǒng)在不同均衡狀態(tài)之間跳動。具體地說:為了保證不變分布的存在性,PY(1990)通過假定隨機因素的累積作用而保證遍歷性的存在;KMR則是假定狀態(tài)轉(zhuǎn)移矩陣各元素不為零而保證系統(tǒng)不會被粘??;PY(1993)與Ellison(2000)則是假定博弈滿足非周期條件而使系統(tǒng)收斂到嚴格納什均衡,同時假定樣本不完全或者有限記憶(也就是參與人很快會忘記過去而不會被鎖定)而保證系統(tǒng)不會被粘住。有了常返狀態(tài)存在性與遍歷性條件就可以保證系統(tǒng)存在一個平穩(wěn)分布,于是求隨機穩(wěn)定狀態(tài)問題就轉(zhuǎn)化為求平穩(wěn)分布。在此基礎(chǔ)上直接應(yīng)用Freidlin, M. I and Wentzell, A . D. (1984)的方法計算隨機穩(wěn)定狀態(tài)。BL與JO兩文沒有直接求隨機穩(wěn)定狀態(tài),只是從數(shù)理邏輯上證明了隨機因素可變時隨機穩(wěn)定狀態(tài)也是可變的。

c、實驗經(jīng)濟學(xué)、社會學(xué)及心理學(xué)的研究表明,參與人的突變率是隨著隨機動態(tài)系統(tǒng)狀態(tài)與時間變化而變化的,也就是說隨機動態(tài)系統(tǒng)的隨機穩(wěn)定狀態(tài)不僅依賴于吸引域的寬度,而且也依賴于吸引域的深度,如何度量吸引域的深度是值得理論界探討的。根據(jù)上面的模型,求解隨機穩(wěn)定狀態(tài)實際就是解決兩個問題:一是保證平穩(wěn)分布的存在性;二是保證系統(tǒng)的常返狀態(tài)的存在性。平穩(wěn)分布可以通過背景突變率的存在性而假定滿足遍歷性。常返狀態(tài)可假定基礎(chǔ)博弈是對稱協(xié)調(diào)博弈即得到滿足。有了這兩個假定,那么隨機穩(wěn)定狀態(tài)就完全由常返狀態(tài)的吸引域確定。因而,對吸引域的影響因素進行深入探討是解決協(xié)調(diào)博弈的隨機穩(wěn)定性一條很好的途徑。

5.基于可變突率的理論研究成果及評述[1]

(1)可變突變率的理論研究成果

首次對不變突變率假定提出挑戰(zhàn)的是James Bergin and Lipman(BL 1996),他們認為系統(tǒng)在不同狀態(tài)突變率應(yīng)該是不同的。特別是:如果突變來自于試驗,那么有理由認為在帕累托占優(yōu)的博弈中,處于帕累托狀態(tài)均衡會比其他均衡狀態(tài)的突變率更少;如果突變來自于參與經(jīng)驗的不足,那么重復(fù)次數(shù)更多的參與人犯錯誤概率就應(yīng)該少于一次性博弈;如果突變來自于環(huán)境的約束,那么隨著博弈的進行,參與人對環(huán)境的熟悉程度會不斷增加,因此,犯錯誤的概率也會應(yīng)該越來越少。只有深入到突變產(chǎn)生的過程中去才能更好地研究協(xié)調(diào)博弈中的隨機穩(wěn)定性。通過研究他們得到:隨機系統(tǒng)的穩(wěn)定性不僅依賴于博弈的支付,而且依賴于突變產(chǎn)生的過程,不同的突變率決定了不同的隨機穩(wěn)定狀態(tài)。因而,要準確地研究系統(tǒng)的穩(wěn)定性就必須深入到系統(tǒng)突變產(chǎn)生的過程中去。

Jack Robles(JR 1998) 認為增加不變突變率使系統(tǒng)得到唯一的隨機穩(wěn)定均衡是前面三篇文章的共同點,他們并沒有把突變產(chǎn)生的原因加入到模型中去,因而與現(xiàn)實是不相符合的。實驗證據(jù)表明隨著博弈重復(fù)次數(shù)的增加,策略選擇中的隨機因素的影響會不斷地減少;隨著博弈的重復(fù),參與人更為熟悉他們所處的環(huán)境并能夠更準備地預(yù)期對手未來的行為而減少試驗與錯誤的次數(shù)。因此,只有把把突變產(chǎn)生的原因即突變過程引入到博弈模型中去才可以更為準確地描述參與人的行為,即假定突變率隨時間而減少是合理的,突變率應(yīng)該是內(nèi)生性的。他們考察了突變率隨系統(tǒng)演化時間變化而變化的情況,認為突變率趨于零的速度不同就會使動態(tài)系統(tǒng)不滿足遍歷性要求。因而,難以通過已知的方法來求系統(tǒng)的隨機穩(wěn)定狀態(tài)。他得到如下結(jié)論:如果隨機動態(tài)滿足遍歷性要求,那么突變率趨于零時系統(tǒng)就會達到長期均衡,其結(jié)果與小的常突變率的極限行為是一樣。然而,突變率趨于零的速度不同而使得遍歷性這一要求很難滿足,因此考察突變率趨于零的不同的速度對協(xié)調(diào)博弈均衡選擇問題的影響是非常重要。由突變率下降速度不同而導(dǎo)致遍歷分布不存在時,他采用非平穩(wěn)馬爾可夫鏈來進行分析,并用了歷史依賴的弱遍歷性與強遍歷性兩個概念來描述其結(jié)論。他們并沒有得出均衡與突變率收斂零的速度之間的具體關(guān)系,只證明了突變率并不能決定系統(tǒng)的最終狀態(tài),隨機穩(wěn)定狀態(tài)是依賴于系統(tǒng)的初始條件的。

Sandholm, H.W. and Pauzner, A. (SP 1998)[17]研究了既有群體增長也有個體突變的情形。他認為KMR與PY等假定固定群體與現(xiàn)實是不相符的,現(xiàn)實中群體的規(guī)模隨著時間的演化是不斷增長的,要更現(xiàn)實地研究協(xié)調(diào)博弈中的均衡選擇問題就必須把群體增長率納入到模型中來。在演化過程中增加群體增長率會產(chǎn)生兩種效應(yīng):第一個效應(yīng)是直接的,群體增長使得在均衡之間跳躍隨時間的變化而變得越來越少,因此,當群體增長足夠快時,跳躍的可能性就會慢慢地消失;第二個效應(yīng)是相對的,當群體的增長率足夠大時,通過突變從風險占優(yōu)均衡跳到支付占優(yōu)均衡的困難就會越來越大,當群體為無窮大時,這種效應(yīng)就會非常明顯。群體的快速增長使得進化過程變得非平穩(wěn),因此,無法保證平穩(wěn)分布的存在性。他們通過引入伯努利動態(tài)來描述參與人修進自己的策略過程,并且假定群體按照對數(shù)增長率來增長,在此條件下他們證明了系統(tǒng)的均衡選擇是歷史依賴的。

Bhaskar, V. and Vega-Redondo, F. (BV 2004)[18]考察了多個有局部互動的地點的情況下協(xié)調(diào)博弈中均衡選擇問題。他們引入了兩種動態(tài):一是同一地點內(nèi)個體之間按模仿者動態(tài)進行選擇,二是地點之間個體按向高支付的地點遷移而引入遷移動態(tài)。并分別引入了突變率 與遷移率 ,最后他們證明了在這種情況下,動態(tài)系統(tǒng)長期均衡于效率均衡即支付占優(yōu)均衡。其實他們結(jié)論的道理很簡單,因為遷移的存在使得無效率均衡變得不穩(wěn)定,這與博弈前交流的作用是一樣的。

(2)可變突變率理論研究的評述

盡管可變突變率模型更現(xiàn)實地考察了參與人的行為,但也存在固有的缺陷:一是這些模型都沒有區(qū)分突變率與錯誤率,把突變率與錯誤率混為一談,突變是無目的性的,假定在任何狀態(tài)下任何時間都不變有一定道理,但錯誤率就能這樣假定;二是與可變突變率模型都沒有結(jié)合到現(xiàn)實中參與人行為,沒有結(jié)合社會學(xué)心理學(xué)等的研究成果,僅僅從數(shù)學(xué)理論上給予描述,難以應(yīng)用于描述現(xiàn)實人的行為,難以很好地應(yīng)用于研究協(xié)調(diào)博弈的隨機穩(wěn)定性。

6.進一步研究的方向評述[1]

實驗研究表明,對稱協(xié)調(diào)博弈不一定收斂到風險占優(yōu)均衡,但可能收斂到其他的均衡。支付只是影響均衡選擇的因素之一,不變突變率相關(guān)理論并不能很好地解釋現(xiàn)實中參與人的行為,其合理性是令人署凝的,

第一,人們常說的“習慣成自然”,即當某種行為被多次選擇時極可能內(nèi)化為參與人的行為指南,這時參與進行試驗或者發(fā)生錯誤的可能性就會大大減少,發(fā)生錯誤的可能性隨著選擇次數(shù)的增加而增加;

第二,消費理論中的“羊群行為”,即當某種行為被周圍大多數(shù)人所選擇時,在一定條件下參與人極可能陷入信息陷阱而忽視自己的信息,一旦達到這種狀態(tài)參與人發(fā)生錯誤的困難就會很大;

第三,Myersion (1991)[19]基于“越昂貴的策略犯錯誤的可能就越少”這一現(xiàn)實而提出相對均衡策略的穩(wěn)鍵策略概念,認為越昂貴的錯誤犯的可能性就會越少;宏觀經(jīng)濟學(xué)中的“效率工資理論” 說明高于平均工資的工資增加工人被解雇的機會成本,從而刺激工人努力工作而減少犯錯誤,大大降低了參與人選擇不可預(yù)見行為的可能性;

第四,在帕累托效率狀態(tài)時,參與人出現(xiàn)錯誤的可能性會少于其他狀態(tài),當然還有許多其他因素影響系統(tǒng)的均衡選擇??傊?,為了更好地描述參與人的行為,就需要分清哪是突變率,哪是錯誤率,在此基礎(chǔ)上再研究協(xié)調(diào)博弈的隨機穩(wěn)定性會更具現(xiàn)實意義。

評論  |   0條評論