對(duì)稱協(xié)調(diào)博弈

1什么是對(duì)稱協(xié)調(diào)博弈 2對(duì)稱協(xié)調(diào)博弈的類型[1] 3對(duì)稱協(xié)調(diào)博弈均衡選擇[1] 4基于不變突變率的理論研究[1] 5基于可變突率的理論研究成果及評(píng)述[1] 6進(jìn)一步研究的方向評(píng)述[1]

1.什么是對(duì)稱協(xié)調(diào)博弈

對(duì)稱協(xié)調(diào)博弈是指無角色區(qū)分的參與之間進(jìn)行的協(xié)調(diào)博弈，它表現(xiàn)在支付函數(shù)的對(duì)稱上，策略集是一樣的。從形式上看：對(duì)稱協(xié)調(diào)博弈就是博弈支付矩陣主對(duì)角線上的元素都是納什均衡的博弈。協(xié)調(diào)博弈的均衡選擇并不涉及到激勵(lì)問題而依賴于參與人之間對(duì)博弈如何進(jìn)行有充分相似的信念。正是由于信念形成是一個(gè)相對(duì)復(fù)雜的過程，所以對(duì)協(xié)調(diào)博弈均衡問題的研究也就顯得非常復(fù)雜，不同的信念形成過程動(dòng)態(tài)就會(huì)產(chǎn)生不同的均衡。

2.對(duì)稱協(xié)調(diào)博弈的類型[1]

對(duì)稱協(xié)調(diào)博弈分成三類：支付占優(yōu)與風(fēng)險(xiǎn)占優(yōu)不一致；支付占優(yōu)與風(fēng)險(xiǎn)占優(yōu)一致（嚴(yán)格納什均衡可進(jìn)行帕累托排序均衡）及無占優(yōu)性可比的協(xié)調(diào)博弈。

(1)支付占優(yōu)與風(fēng)險(xiǎn)占優(yōu)不一致的協(xié)調(diào)博弈

這類博弈最典型的例子就是獵鹿博弈。有兩個(gè)打獵人，他們可以合作去獵鹿也可以單獨(dú)去獵兔，如果合作獵鹿，那么兩個(gè)都可以分得4個(gè)單位的支付；如果一個(gè)人去獵鹿而另一個(gè)人去獵兔，那么前者支付為0（因?yàn)楂C鹿需要兩個(gè)人合作可以成功）后者的支付為2；如果兩個(gè)人不合作都去獵兔，那么他們都可以得到3單位的支付。該博弈的支付矩陣如下：

	獵鹿	獵兔
獵鹿	4，4	0，2
獵兔	2，0	3，3

表一

顯然該博弈有兩個(gè)純策略嚴(yán)格納什均衡即要么兩個(gè)合作獵鹿，要么兩人去獵兔與一個(gè)混合策略納什均衡。按Harsayi and Selten(1988)^[2]的定義，純策略獵鹿是支付占優(yōu)納什均衡、純策略獵兔是風(fēng)險(xiǎn)占優(yōu)納什均衡。獵兔策略是一個(gè)保險(xiǎn)策略，而獵鹿博弈則是一個(gè)帕累托效率策略但由于策略的不確定性而使它具有較大的風(fēng)險(xiǎn)，因此，均衡選擇取決于參與人對(duì)風(fēng)險(xiǎn)的態(tài)度。

(2)支付占優(yōu)與風(fēng)險(xiǎn)占優(yōu)一致的協(xié)調(diào)博弈^[3]

該類博弈典型例子就是中間值博弈、選美博弈或者平均意見博弈，策略值離中間值越遠(yuǎn)則成本越大。博弈雙方的支付用代數(shù)式表示為：，其中。這種協(xié)調(diào)博弈中存在多當(dāng)具有帕累托可比的嚴(yán)格納什均衡，并且博弈雙方的偏好具有一致性，嚴(yán)格納什均衡具有帕累托可比性。如下面支付矩陣所表示的協(xié)調(diào)博弈：

	X1	X2
X1	1，1	0，0
X2	0，0	2，2

表二

此類博弈有兩個(gè)嚴(yán)格納什均衡（X1，X1）；（X2，X2），其中第二個(gè)均衡既是風(fēng)險(xiǎn)占優(yōu)又是支付占優(yōu)均衡，并且博弈雙方有完全一樣的偏好。

(3)無支付占優(yōu)與風(fēng)險(xiǎn)占優(yōu)區(qū)分的協(xié)調(diào)博弈

該類博弈最典型的例子就是左行右行博弈。兩個(gè)在一條路上相對(duì)而行的行人，如果都向左或者都向右那么他們就不會(huì)相碰，因此，都獲得支付1個(gè)單位.但如果兩個(gè)中一個(gè)向左前方，一個(gè)向右前方那么他們就可能相碰，走起來不方便。這種情況博弈雙方有完全相同的偏好，協(xié)調(diào)博弈中兩個(gè)嚴(yán)格納什均衡是無差異的，而該博弈的兩個(gè)嚴(yán)格納什均衡就是無差異的。

	左行	右行
左行	1,1	0,0
右行	0,0	1,1

表三

要解決協(xié)調(diào)博弈均衡選擇問題，首先需要解決各參與人對(duì)其他參與行為的預(yù)期問題。第二、三類博弈由于博弈雙方偏好完全一致，均衡選擇問題只取決于支付大小而與風(fēng)險(xiǎn)無關(guān)，因此，可以通過博弈前的非約束、無成本的交流或者通過第三方提示而得到解決行為預(yù)期問題。第一類博弈風(fēng)險(xiǎn)性與收益性不同，由于參與人對(duì)風(fēng)險(xiǎn)與收益的不同看法而使得此類博弈的處理顯得特別復(fù)雜，也正因?yàn)槿绱?，該類協(xié)調(diào)博弈成為了理論界研究的重點(diǎn)。

3.對(duì)稱協(xié)調(diào)博弈均衡選擇[1]

從已有的研究文獻(xiàn)來看，對(duì)稱協(xié)調(diào)博弈均衡選擇基本沿著兩條路徑來進(jìn)行的。

一是實(shí)驗(yàn)經(jīng)濟(jì)學(xué)方法，即通過對(duì)參與人真實(shí)行為的研究，重點(diǎn)探討影響協(xié)調(diào)博弈中均衡選擇的因素；

二是沿著純理論研究方法，通過構(gòu)建數(shù)學(xué)模型來解釋實(shí)驗(yàn)結(jié)果，進(jìn)一步完善進(jìn)化博弈理論體系，以便更好地預(yù)測(cè)參與人的行為。實(shí)驗(yàn)經(jīng)濟(jì)學(xué)研究協(xié)調(diào)博弈的目的就是為了尋找影響均衡選擇的因素，為理論研究提供現(xiàn)實(shí)的證據(jù)，減少理論研究的盲目性，推動(dòng)理論研究的發(fā)展。

(1)策略的顯著性影響協(xié)調(diào)博弈的均衡選擇

運(yùn)用實(shí)驗(yàn)方法來研究協(xié)調(diào)博弈均衡選擇問題至少可以追溯到托馬斯·克羅姆比·謝林(Thomas Crombie Schelling)（1960）^[4]。Schelling通過一系列的實(shí)驗(yàn)報(bào)告得出了第二類、第三類協(xié)調(diào)博弈的均衡選擇結(jié)果并發(fā)現(xiàn)參與人常常通過焦點(diǎn)來協(xié)調(diào)他們的行為。他認(rèn)為：在現(xiàn)實(shí)中，參與人可能通過自己的經(jīng)驗(yàn)、文化、心理等聯(lián)想而使一些均衡較之其他均衡更突出，并產(chǎn)生自動(dòng)實(shí)施的預(yù)期而傾向于選擇那些“唯一”的均衡。正是因?yàn)橐恍┎呗钥赡鼙绕渌呗愿怀龌蛘吒@著，參與人的選擇結(jié)果更多地依賴于策略的顯著性而非博弈支付。博弈前的無成本、非約束、不可驗(yàn)證的交流有助于解決第二類、第三類協(xié)調(diào)博弈的均衡選擇問題，并且系統(tǒng)會(huì)收斂于帕累托效率均衡?，F(xiàn)實(shí)中第二類、第三類協(xié)調(diào)博弈的情況是很少見的，多數(shù)情況下，參與人的偏好不會(huì)完全一致，存在風(fēng)險(xiǎn)與收益之間的權(quán)衡。在這種情況下，需要通過如法律、法規(guī)等強(qiáng)制性措施來使博弈收斂到特定的均衡。Schelling還研究了法律與顯著性即焦點(diǎn)之間的關(guān)系，并指出法律除了通過其制裁功能來改變博弈支付進(jìn)而影響參與人行為以外，更重要的是由于其信息的公開性使得相應(yīng)策略具有焦點(diǎn)的功能，焦點(diǎn)使個(gè)人行為更快地收斂，即法律具有快速轉(zhuǎn)變已經(jīng)形成的秩序的功能。

schelling是較早運(yùn)用實(shí)驗(yàn)方法來研究協(xié)調(diào)博弈中均衡選擇問題的學(xué)者之一，不過他所用的實(shí)驗(yàn)是非正式的且局限于小群體之中的，就連他自己也認(rèn)為他所用的方法是“不科學(xué)”的。Judith Mehta, Chris Starmer, and Robert Sugden(1994)^[5]模仿Schelling(1960)的實(shí)驗(yàn)更正式地考察了Schelling(1960)所提出的焦點(diǎn)在簡單第二類、第三類協(xié)調(diào)博弈中對(duì)均衡選擇的作用。他們通過兩組實(shí)驗(yàn)的比較，驗(yàn)證了Schelling提出的“焦點(diǎn)對(duì)協(xié)調(diào)博弈中的均衡選擇起著非常重要的作用”的觀點(diǎn)。Aumman(1987)^[6]認(rèn)為博弈前無成本、非約束的交流會(huì)使協(xié)調(diào)收斂到效率均衡，而對(duì)第一類有風(fēng)險(xiǎn)性與收益性沖突的協(xié)調(diào)博弈，博弈前的交流不能使系統(tǒng)收斂于效率均衡，因?yàn)榍罢叩慕涣魇强芍眯诺?，而后者無成本、非約束交流是不可置信的。

（2）風(fēng)險(xiǎn)性影響協(xié)調(diào)博弈的均衡選擇

Van Huyck, Battailio and Beil (HBB，1990)^[7]系統(tǒng)地研究了協(xié)調(diào)博弈的均衡選擇問題，目的是探討以下兩個(gè)問題：（1）在策略互動(dòng)的博弈環(huán)境下，納什均衡是否是一個(gè)好的預(yù)測(cè)；（2）當(dāng)存在多個(gè)納什均衡時(shí)，哪一個(gè)均衡最后會(huì)出現(xiàn)以及均衡的出現(xiàn)是否與博弈特定均衡的顯著性有關(guān)。他們進(jìn)行了兩種試驗(yàn)：一是參與人進(jìn)行隨機(jī)匿名配對(duì)博弈，二是參與人可以自己選擇博弈對(duì)手。結(jié)果發(fā)現(xiàn)，后者可以很快地達(dá)到支付占優(yōu)均衡，而前者卻很難達(dá)到此結(jié)果。顯然，納什均衡能夠很好地預(yù)測(cè)被觀察到的行為，這是不爭的事實(shí)。另外他們?cè)趯?shí)驗(yàn)中發(fā)現(xiàn)參與人并不總是選擇帕累托占優(yōu)的均衡，多數(shù)情況下會(huì)選擇風(fēng)險(xiǎn)占優(yōu)均衡。該結(jié)果與一般認(rèn)為帕累托均衡是一個(gè)自然的焦點(diǎn)的觀點(diǎn)不一致，即協(xié)調(diào)失敗可能會(huì)在實(shí)踐中出現(xiàn)。最后，在實(shí)驗(yàn)中他們還證實(shí)了劣策略可能影響納什均衡選擇，因此在非合作博弈理論中的重復(fù)剔除嚴(yán)格劣策略的方法是值得商榷的。他們的實(shí)驗(yàn)結(jié)果成為了后續(xù)理論研究的出發(fā)點(diǎn)。

（3）初始提示影響協(xié)調(diào)博弈的均衡選擇

Cooper et al.,(1992)^[8]通過實(shí)驗(yàn)驗(yàn)證了博弈前的交流有利于參與人協(xié)調(diào)于支付占優(yōu)狀態(tài)，Berninghaus and Van Huyck, Raymond Battalio and Richard Beil(1991)^[9]通過實(shí)驗(yàn)研究了平均意見協(xié)調(diào)博弈中參與人人數(shù)、支付占優(yōu)、保障水平及歷史事件的顯著性等對(duì)均衡選擇的影響。實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)，在有唯一支付占優(yōu)均衡且有唯一保障性均衡的平均意見博弈^[10]中，在支付占優(yōu)與保障性都不具有顯著性的情況下，重復(fù)互動(dòng)產(chǎn)生了一個(gè)簡單的動(dòng)態(tài)并且收斂到由初始中位數(shù)決定的無效率均衡。因此，如果給定一個(gè)初始中間值，那么在未來時(shí)期，這個(gè)中間值就變得可以預(yù)測(cè)了。因此，初始提示^[2]是影響協(xié)調(diào)博弈中均衡選擇的重要因素。

（4）重復(fù)次數(shù)影響協(xié)調(diào)博弈的均衡選擇

Siegfried K. Berninghaus, Karl-Martin Ehrhart(1998)^[11]通過實(shí)驗(yàn)考察了參與人重復(fù)次數(shù)對(duì)協(xié)調(diào)博弈中均衡選擇的影響，他們是基于以下假說來進(jìn)行試驗(yàn)的：協(xié)調(diào)于帕累托均衡可以獲得更多支付，當(dāng)博弈次數(shù)重復(fù)時(shí)，參與人為了長期支付而愿意在開始時(shí)犧牲短期支付，表現(xiàn)為更有耐心尋求協(xié)調(diào)于帕累托均衡。實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)：當(dāng)博弈重復(fù)次數(shù)為10次時(shí)，參與人常常選擇非帕累托效率均衡；當(dāng)均衡重復(fù)次數(shù)為30次時(shí)，兩種均衡都有可能被選擇；當(dāng)博弈重復(fù)次數(shù)為90次時(shí)，參與人常常選擇帕累托效率均衡。通過減少博弈的重復(fù)次數(shù)就得到了大群體時(shí)HBB（1990）的結(jié)論，當(dāng)博弈重復(fù)次數(shù)足夠大時(shí)均衡結(jié)果就是帕累托優(yōu)勢(shì)均衡，該結(jié)論支持了學(xué)習(xí)導(dǎo)向理論。一種解釋就是參與人意識(shí)到效率均衡的存在，在重復(fù)博弈早期就會(huì)通過選擇而發(fā)出希望協(xié)調(diào)于支付占優(yōu)均衡的信號(hào)。另外，在實(shí)驗(yàn)中他們通過改變協(xié)調(diào)失敗的成本，發(fā)現(xiàn)高協(xié)調(diào)失敗成本會(huì)阻礙風(fēng)險(xiǎn)厭惡參與人改變自己行動(dòng)的可能性，這與Myerson，Roger(1978)^[12]所指出的失敗成本越大，參與人犯錯(cuò)誤的概率就越小的觀點(diǎn)是一致的。

（5）互動(dòng)結(jié)構(gòu)影響協(xié)調(diào)博弈的均衡選擇

Claudia Keser, et. al. (1998)^[13]通過了一系列實(shí)驗(yàn)研究了局部互動(dòng)結(jié)構(gòu)與均衡選擇的關(guān)系。他們比較了有局部互動(dòng)結(jié)構(gòu)與沒有局部互動(dòng)結(jié)構(gòu)的實(shí)驗(yàn)。結(jié)果發(fā)現(xiàn)在三人群體且沒有局部互動(dòng)結(jié)構(gòu)時(shí)，博弈很快就均衡于帕累托效率均衡，該結(jié)果與Van Huyck et al. (1990)的小群體結(jié)論是一樣的。當(dāng)參與人處于局部互動(dòng)結(jié)構(gòu)中時(shí)，他們發(fā)現(xiàn)博弈協(xié)調(diào)于風(fēng)險(xiǎn)占優(yōu)均衡。Huyck et al.（1997）^[14]在另一次實(shí)驗(yàn)中，比較了封閉鄰居與開放鄰居結(jié)構(gòu)對(duì)協(xié)調(diào)均衡選擇的影響。結(jié)果發(fā)現(xiàn)，前者更易于協(xié)調(diào)于支付占優(yōu)狀態(tài)，其原因在于開放鄰居中支付占優(yōu)的風(fēng)險(xiǎn)性大于封閉鄰居支付占優(yōu)的風(fēng)險(xiǎn)性。同時(shí)他們也發(fā)現(xiàn)當(dāng)存在更多迭代時(shí)，博弈更多地協(xié)調(diào)于支付占優(yōu)均衡。因此，局部互動(dòng)對(duì)協(xié)調(diào)博弈中的均衡選擇問題起著非常重要的作用。

（6）博弈前的“廉價(jià)磋商”影響協(xié)調(diào)博弈均衡選擇

Russell Cooper et. al (1992)^[15]研究了博弈前的廉價(jià)磋商對(duì)協(xié)調(diào)博弈中均衡選擇的影響。他們考察第二類博弈^[4]與獵鹿博弈。實(shí)驗(yàn)發(fā)現(xiàn)在第二類博弈中，單向博弈前廉價(jià)磋商能夠提高帕累托占優(yōu)均衡出現(xiàn)的可能性，但雙向博弈前廉價(jià)磋商卻不一定會(huì)降低協(xié)調(diào)失敗的頻率。獵鹿博弈中雙邊博弈前廉價(jià)磋商總是會(huì)選擇帕累托占優(yōu)均衡而不是選擇風(fēng)險(xiǎn)占優(yōu)均衡，而單邊博弈前廉價(jià)磋商卻不會(huì)。也就是說，博弈前的廉價(jià)磋商是影響協(xié)調(diào)博弈均衡選擇的又一因素。

以上學(xué)者根據(jù)實(shí)驗(yàn)分別從不同的角度研究了影響協(xié)調(diào)博弈中的均衡選擇問題的因素。從他們的研究中可以看出：博弈支付并不是影響均衡選擇的唯一因素，現(xiàn)實(shí)中影響協(xié)調(diào)博弈的均衡選擇因素是多方面的。因此，要較準(zhǔn)確地描述參與人的行為就必須綜合考慮影響參與人決策過程的各種因素。

4.基于不變突變率的理論研究[1]

（1）不變突變率的理論研究成果

Michihiro Kandori, Greorge J. Mailath, Rafael Rob (KMR)1993首次運(yùn)用Foster and Young（1990）^[7]的方法考察了離散條件下系統(tǒng)的隨機(jī)穩(wěn)定性并給出了相應(yīng)的算法。他們的核心思想就是在模型中引入了確定性達(dá)爾文動(dòng)態(tài)，在此基礎(chǔ)上再引入了由正態(tài)分析描述的隨機(jī)影響因素，從而使得確定性動(dòng)態(tài)過程變成了隨機(jī)動(dòng)態(tài)過程。在此模型中，他們假定背景突變的存在及每個(gè)參與者都在任何時(shí)候都以相同的概率發(fā)生突變而選擇突變策略，由此便保證了馬爾可夫鏈的遍歷性，因此，隨機(jī)動(dòng)態(tài)系統(tǒng)存在平穩(wěn)分布，他們采取了Freidlin, M. I and Wentzell, A . D. (1984)^[16]提供的決策樹法來求系統(tǒng)平穩(wěn)分布即隨機(jī)穩(wěn)定狀態(tài)。決策樹法的基本邏輯如下：

一是引入一種狀態(tài)到另一種狀態(tài)的離開阻抗（也就是離開某狀態(tài)所需要的突變數(shù)）；

二是找到每一個(gè)常返狀態(tài)^[8]（Recurrent state）中吸引子（attractor）對(duì)應(yīng)的最小阻抗的路徑，由此研究吸引子的吸引域?qū)挾?，或者求出每個(gè)吸引子的隨機(jī)潛力；

最后，有最寬吸引域或者最小隨機(jī)潛力的吸引子就是隨機(jī)穩(wěn)定狀態(tài)。在KMR一文中，由于假定在任何狀態(tài)任何時(shí)間每個(gè)個(gè)體都以相同的非零突變率選擇其他策略，因此，離開阻抗直接可以通過突變者的個(gè)體數(shù)來描述。阻抗決定吸引域的半徑即寬度，吸引域的寬度決定系統(tǒng)回復(fù)到均衡的次數(shù)，進(jìn)而確定隨機(jī)穩(wěn)定狀態(tài)。正因?yàn)槿绱?，KMR一文的所有定理的結(jié)論都是圍繞著“吸引域最寬的吸引子就是隨機(jī)穩(wěn)定狀態(tài)”這一結(jié)論而展開的。

Peyton Young（1993）應(yīng)用與KMR相同的方法研究了離散條件下對(duì)稱協(xié)調(diào)博弈的隨機(jī)穩(wěn)定性，他主要考察社會(huì)習(xí)俗的形成問題。他認(rèn)為由于參與人有高昂的信息搜尋成本，每一個(gè)人都只能依據(jù)非常有限的博弈歷史來進(jìn)行決策，均衡選擇并不是依據(jù)其本身所具有內(nèi)在顯著性，而是由系統(tǒng)演化的動(dòng)態(tài)過程所決定的。動(dòng)態(tài)過程也就是參與人對(duì)其他參與人行為的信念即預(yù)期形成的適應(yīng)性學(xué)習(xí)過程。只要信息充分不完全性并且參與人永不犯錯(cuò)誤，那么滿足弱非循環(huán)博弈的適應(yīng)性學(xué)習(xí)過程以概率1會(huì)收斂到純策略嚴(yán)格納什均衡；不完全性可以有效防止博弈鎖定于次優(yōu)循環(huán)，有限記憶則可以使參與人很快忘記過去協(xié)調(diào)失敗的行為，這兩個(gè)條件在一起實(shí)際上就是保證系統(tǒng)不會(huì)被粘住在一個(gè)均衡，也就是說隨機(jī)因素的影響使系統(tǒng)在不同吸引域之間不斷跳躍。Young（1993）在其模型引入了適應(yīng)性動(dòng)態(tài)過程，在此基礎(chǔ)上來引入隨機(jī)因素，然后，通過Freidlin, M. I and Wentzell, A . D.提供的決策樹法來計(jì)算系統(tǒng)的隨機(jī)穩(wěn)定狀態(tài)。與KMR相比，兩者盡管在形式上不同，但都沒有超越“吸引域大的均衡就是長期隨機(jī)穩(wěn)定均衡”這一基本框架。另外，Young（1993）在文中給出了計(jì)算隨機(jī)穩(wěn)定狀態(tài)的步驟：

第一步求出在無擾動(dòng)適應(yīng)性動(dòng)態(tài)下的常返狀態(tài)。對(duì)一般的n人協(xié)調(diào)博弈，常返狀態(tài)的求法是非常復(fù)雜的，但如果協(xié)調(diào)博弈是弱非循環(huán)且樣本是充分不完全，那么常返狀態(tài)就是對(duì)應(yīng)于博弈中的嚴(yán)格納什均衡；

第二步計(jì)算從一個(gè)常返狀態(tài)到另一個(gè)常返狀態(tài)的最小阻抗。理論上說這就相當(dāng)于解決一系列的最短路徑問題，但實(shí)際上可以直接通過博弈的支付矩陣來計(jì)算^[9]；

第三步依據(jù)以上的阻抗來構(gòu)建“方向樹”，并且尋找有最小阻抗的樹，除完全相同阻抗的情形外，隨機(jī)進(jìn)化穩(wěn)定狀態(tài)一般都是唯一的。Young（1993）還是沒有跳出不變突變率的框架，盡管在處理方法不同于KMR，但核心思想是一樣的，

第一、文中的適應(yīng)性動(dòng)態(tài)依然是支付單調(diào)的；

第二、與KMR一樣，文中假定突變率不變，因而突變率與吸引域的寬度無關(guān)，突變的作用與KMR完全一樣，是為了使系統(tǒng)在不同狀態(tài)之間跳躍，系統(tǒng)狀態(tài)的吸引域半徑完全是由博弈支付決定的；

第三、結(jié)論與KMR一樣，只是說法不同，即吸引域?qū)捳呔褪情L期隨機(jī)穩(wěn)定狀態(tài)。

從以上兩文可以看出：引入動(dòng)態(tài)過程是為了常返狀態(tài)的存在性；引入突變是為了使系統(tǒng)在不同常返狀態(tài)之間跳躍；引入不變突變率是為了簡化計(jì)算。有了前述的保證就可以得到“隨機(jī)穩(wěn)定狀態(tài)即是吸引域最寬的常返狀態(tài)”這一結(jié)論。正是因?yàn)檫@樣，Ellision（2000）直接假定以上三個(gè)條件直接從吸引域及其寬度出發(fā)來分析系統(tǒng)的隨機(jī)穩(wěn)定狀態(tài)。

Ellision（2000）直接從轉(zhuǎn)移矩陣出發(fā)來定義狀態(tài)的吸引域^[11]，抓住了求隨機(jī)穩(wěn)定狀態(tài)方法的核心思想，繞過了求不變分布，直接利用吸引域半徑來求解協(xié)調(diào)博弈中的均衡選擇問題。其結(jié)論為：如果離開常返狀態(tài)的阻抗大于進(jìn)入常返狀態(tài)的阻抗，也就是說，當(dāng)離開吸引域的阻抗大于進(jìn)入吸引域的阻抗時(shí)，也就是離開的難度大于進(jìn)入的難度，因此，系統(tǒng)的進(jìn)化穩(wěn)定狀態(tài)就一定在此吸引子之中。當(dāng)然，如果是對(duì)稱協(xié)調(diào)博弈，那么常返狀態(tài)就是由純策略嚴(yán)格納什均衡組成，隨機(jī)穩(wěn)定狀態(tài)就是最小隨機(jī)潛力的狀態(tài)。在Ellison模型中一步一步的演化比休克式演化的速度更快，為了在模型中體現(xiàn)這一點(diǎn)，他把系統(tǒng)向均衡狀態(tài)演化過程的成本減掉而定義了修進(jìn)的共軛半徑，共軛半徑的修進(jìn)無形地增加了向均衡靠攏的可能性也就是增加了吸引域的寬度。事實(shí)上，從分析可以看出，Ellison的結(jié)論依賴于參與人在任何時(shí)候任何狀態(tài)都有不變的突變率。因此，博弈的隨機(jī)穩(wěn)定狀態(tài)完成由博弈的支付確定的，并且有最大離開阻抗或者最小隨機(jī)潛力的就是隨機(jī)穩(wěn)定狀態(tài)。

（2）不變突變率理論研究的評(píng)述

以上三篇研究對(duì)稱協(xié)調(diào)博弈隨機(jī)穩(wěn)定性文章在學(xué)術(shù)界被多次引用，足以說明這些文章已經(jīng)得到了學(xué)者們的重視，其共同的特點(diǎn)就是假定突變率不隨時(shí)間與狀態(tài)的變化而變化，因而，把求隨機(jī)穩(wěn)定狀態(tài)直接轉(zhuǎn)化為求吸引子或者嚴(yán)格納什均衡的吸引域?qū)挾?，最寬吸引域所?duì)應(yīng)的吸引子就是隨機(jī)穩(wěn)定狀態(tài)。另外，不變突變率帶來的一個(gè)非常重要的結(jié)果就是吸引域完成是由博弈支付確定的，因而，只要確定了基礎(chǔ)博弈，系統(tǒng)的隨機(jī)穩(wěn)定狀態(tài)就已經(jīng)確定了。文中引入隨機(jī)動(dòng)態(tài)的主要作用就是使系統(tǒng)在不同吸引子之間反復(fù)跳躍而不被粘住，從而達(dá)到求隨機(jī)穩(wěn)定狀態(tài)之目的。盡管形式不同，他們的結(jié)論卻是一樣的，即“在有風(fēng)險(xiǎn)占優(yōu)與帕累托占優(yōu)的協(xié)調(diào)博弈中”系統(tǒng)的長期隨機(jī)穩(wěn)定狀態(tài)是有較寬吸引域的風(fēng)險(xiǎn)占優(yōu)狀態(tài)，具體地說：

a、動(dòng)態(tài)過程與常返狀態(tài)的存在性。KMR的達(dá)爾文動(dòng)態(tài)是典型的支付單調(diào)動(dòng)態(tài)，所謂支付單調(diào)動(dòng)態(tài)就是指支付越多則選擇人數(shù)就越多，即參與人的行動(dòng)是基于博弈支付而作出的，支付單調(diào)動(dòng)態(tài)確保對(duì)稱協(xié)調(diào)博弈中常返狀態(tài)就是嚴(yán)格納什均衡集。 PY的適應(yīng)性動(dòng)態(tài)（實(shí)際上就是一種相對(duì)群體分布的最優(yōu)反應(yīng)動(dòng)態(tài)），在滿足弱非周期條件并且樣本不完全及參與人永遠(yuǎn)不犯錯(cuò)誤，那么適應(yīng)性動(dòng)態(tài)就以概率1收斂到嚴(yán)格納什均衡；Ellison（2000）模型脫離了博弈的動(dòng)態(tài)過程，他直接假定常返狀態(tài)的存在性（默認(rèn)動(dòng)態(tài)過程是支付單調(diào)的或者博弈滿足弱非周期性），并且認(rèn)為在弱非周期條件下常返狀態(tài)就是嚴(yán)格納什均衡。

b、隨機(jī)因素的引入與遍歷性。KMR、PY與Ellison都是假定不變突變率，但他們沒有說明突變率不變的原因。不變突變率的隨機(jī)因素引入保證動(dòng)態(tài)過程滿足遍歷性要求，從而系統(tǒng)不會(huì)被粘在某一處，即不會(huì)出現(xiàn)鎖定（lock in）的情況，保證系統(tǒng)在不同均衡狀態(tài)之間跳動(dòng)。具體地說：為了保證不變分布的存在性，PY（1990）通過假定隨機(jī)因素的累積作用而保證遍歷性的存在；KMR則是假定狀態(tài)轉(zhuǎn)移矩陣各元素不為零而保證系統(tǒng)不會(huì)被粘??；PY（1993）與Ellison（2000）則是假定博弈滿足非周期條件而使系統(tǒng)收斂到嚴(yán)格納什均衡，同時(shí)假定樣本不完全或者有限記憶（也就是參與人很快會(huì)忘記過去而不會(huì)被鎖定）而保證系統(tǒng)不會(huì)被粘住。有了常返狀態(tài)存在性與遍歷性條件就可以保證系統(tǒng)存在一個(gè)平穩(wěn)分布，于是求隨機(jī)穩(wěn)定狀態(tài)問題就轉(zhuǎn)化為求平穩(wěn)分布。在此基礎(chǔ)上直接應(yīng)用Freidlin, M. I and Wentzell, A . D. (1984)的方法計(jì)算隨機(jī)穩(wěn)定狀態(tài)。BL與JO兩文沒有直接求隨機(jī)穩(wěn)定狀態(tài)，只是從數(shù)理邏輯上證明了隨機(jī)因素可變時(shí)隨機(jī)穩(wěn)定狀態(tài)也是可變的。

c、實(shí)驗(yàn)經(jīng)濟(jì)學(xué)、社會(huì)學(xué)及心理學(xué)的研究表明，參與人的突變率是隨著隨機(jī)動(dòng)態(tài)系統(tǒng)狀態(tài)與時(shí)間變化而變化的，也就是說隨機(jī)動(dòng)態(tài)系統(tǒng)的隨機(jī)穩(wěn)定狀態(tài)不僅依賴于吸引域的寬度，而且也依賴于吸引域的深度，如何度量吸引域的深度是值得理論界探討的。根據(jù)上面的模型，求解隨機(jī)穩(wěn)定狀態(tài)實(shí)際就是解決兩個(gè)問題：一是保證平穩(wěn)分布的存在性；二是保證系統(tǒng)的常返狀態(tài)的存在性。平穩(wěn)分布可以通過背景突變率的存在性而假定滿足遍歷性。常返狀態(tài)可假定基礎(chǔ)博弈是對(duì)稱協(xié)調(diào)博弈即得到滿足。有了這兩個(gè)假定，那么隨機(jī)穩(wěn)定狀態(tài)就完全由常返狀態(tài)的吸引域確定。因而，對(duì)吸引域的影響因素進(jìn)行深入探討是解決協(xié)調(diào)博弈的隨機(jī)穩(wěn)定性一條很好的途徑。

5.基于可變突率的理論研究成果及評(píng)述[1]

（1）可變突變率的理論研究成果

首次對(duì)不變突變率假定提出挑戰(zhàn)的是James Bergin and Lipman(BL 1996)，他們認(rèn)為系統(tǒng)在不同狀態(tài)突變率應(yīng)該是不同的。特別是：如果突變來自于試驗(yàn)，那么有理由認(rèn)為在帕累托占優(yōu)的博弈中，處于帕累托狀態(tài)均衡會(huì)比其他均衡狀態(tài)的突變率更少；如果突變來自于參與經(jīng)驗(yàn)的不足，那么重復(fù)次數(shù)更多的參與人犯錯(cuò)誤概率就應(yīng)該少于一次性博弈；如果突變來自于環(huán)境的約束，那么隨著博弈的進(jìn)行，參與人對(duì)環(huán)境的熟悉程度會(huì)不斷增加，因此，犯錯(cuò)誤的概率也會(huì)應(yīng)該越來越少。只有深入到突變產(chǎn)生的過程中去才能更好地研究協(xié)調(diào)博弈中的隨機(jī)穩(wěn)定性。通過研究他們得到：隨機(jī)系統(tǒng)的穩(wěn)定性不僅依賴于博弈的支付，而且依賴于突變產(chǎn)生的過程，不同的突變率決定了不同的隨機(jī)穩(wěn)定狀態(tài)。因而，要準(zhǔn)確地研究系統(tǒng)的穩(wěn)定性就必須深入到系統(tǒng)突變產(chǎn)生的過程中去。

Jack Robles(JR 1998) 認(rèn)為增加不變突變率使系統(tǒng)得到唯一的隨機(jī)穩(wěn)定均衡是前面三篇文章的共同點(diǎn)，他們并沒有把突變產(chǎn)生的原因加入到模型中去，因而與現(xiàn)實(shí)是不相符合的。實(shí)驗(yàn)證據(jù)表明隨著博弈重復(fù)次數(shù)的增加，策略選擇中的隨機(jī)因素的影響會(huì)不斷地減少；隨著博弈的重復(fù)，參與人更為熟悉他們所處的環(huán)境并能夠更準(zhǔn)備地預(yù)期對(duì)手未來的行為而減少試驗(yàn)與錯(cuò)誤的次數(shù)。因此，只有把把突變產(chǎn)生的原因即突變過程引入到博弈模型中去才可以更為準(zhǔn)確地描述參與人的行為，即假定突變率隨時(shí)間而減少是合理的，突變率應(yīng)該是內(nèi)生性的。他們考察了突變率隨系統(tǒng)演化時(shí)間變化而變化的情況，認(rèn)為突變率趨于零的速度不同就會(huì)使動(dòng)態(tài)系統(tǒng)不滿足遍歷性要求。因而，難以通過已知的方法來求系統(tǒng)的隨機(jī)穩(wěn)定狀態(tài)。他得到如下結(jié)論：如果隨機(jī)動(dòng)態(tài)滿足遍歷性要求，那么突變率趨于零時(shí)系統(tǒng)就會(huì)達(dá)到長期均衡，其結(jié)果與小的常突變率的極限行為是一樣。然而，突變率趨于零的速度不同而使得遍歷性這一要求很難滿足，因此考察突變率趨于零的不同的速度對(duì)協(xié)調(diào)博弈均衡選擇問題的影響是非常重要。由突變率下降速度不同而導(dǎo)致遍歷分布不存在時(shí)，他采用非平穩(wěn)馬爾可夫鏈來進(jìn)行分析，并用了歷史依賴的弱遍歷性與強(qiáng)遍歷性兩個(gè)概念來描述其結(jié)論。他們并沒有得出均衡與突變率收斂零的速度之間的具體關(guān)系，只證明了突變率并不能決定系統(tǒng)的最終狀態(tài)，隨機(jī)穩(wěn)定狀態(tài)是依賴于系統(tǒng)的初始條件的。

Sandholm, H.W. and Pauzner, A. (SP 1998)^[17]研究了既有群體增長也有個(gè)體突變的情形。他認(rèn)為KMR與PY等假定固定群體與現(xiàn)實(shí)是不相符的，現(xiàn)實(shí)中群體的規(guī)模隨著時(shí)間的演化是不斷增長的，要更現(xiàn)實(shí)地研究協(xié)調(diào)博弈中的均衡選擇問題就必須把群體增長率納入到模型中來。在演化過程中增加群體增長率會(huì)產(chǎn)生兩種效應(yīng)：第一個(gè)效應(yīng)是直接的，群體增長使得在均衡之間跳躍隨時(shí)間的變化而變得越來越少，因此，當(dāng)群體增長足夠快時(shí)，跳躍的可能性就會(huì)慢慢地消失；第二個(gè)效應(yīng)是相對(duì)的，當(dāng)群體的增長率足夠大時(shí)，通過突變從風(fēng)險(xiǎn)占優(yōu)均衡跳到支付占優(yōu)均衡的困難就會(huì)越來越大，當(dāng)群體為無窮大時(shí)，這種效應(yīng)就會(huì)非常明顯。群體的快速增長使得進(jìn)化過程變得非平穩(wěn)，因此，無法保證平穩(wěn)分布的存在性。他們通過引入伯努利動(dòng)態(tài)來描述參與人修進(jìn)自己的策略過程，并且假定群體按照對(duì)數(shù)增長率來增長，在此條件下他們證明了系統(tǒng)的均衡選擇是歷史依賴的。

Bhaskar, V. and Vega-Redondo, F. (BV 2004)^[18]考察了多個(gè)有局部互動(dòng)的地點(diǎn)的情況下協(xié)調(diào)博弈中均衡選擇問題。他們引入了兩種動(dòng)態(tài)：一是同一地點(diǎn)內(nèi)個(gè)體之間按模仿者動(dòng)態(tài)進(jìn)行選擇，二是地點(diǎn)之間個(gè)體按向高支付的地點(diǎn)遷移而引入遷移動(dòng)態(tài)。并分別引入了突變率與遷移率，最后他們證明了在這種情況下，動(dòng)態(tài)系統(tǒng)長期均衡于效率均衡即支付占優(yōu)均衡。其實(shí)他們結(jié)論的道理很簡單，因?yàn)檫w移的存在使得無效率均衡變得不穩(wěn)定，這與博弈前交流的作用是一樣的。

（2）可變突變率理論研究的評(píng)述

盡管可變突變率模型更現(xiàn)實(shí)地考察了參與人的行為，但也存在固有的缺陷：一是這些模型都沒有區(qū)分突變率與錯(cuò)誤率，把突變率與錯(cuò)誤率混為一談，突變是無目的性的，假定在任何狀態(tài)下任何時(shí)間都不變有一定道理，但錯(cuò)誤率就能這樣假定；二是與可變突變率模型都沒有結(jié)合到現(xiàn)實(shí)中參與人行為，沒有結(jié)合社會(huì)學(xué)心理學(xué)等的研究成果，僅僅從數(shù)學(xué)理論上給予描述，難以應(yīng)用于描述現(xiàn)實(shí)人的行為，難以很好地應(yīng)用于研究協(xié)調(diào)博弈的隨機(jī)穩(wěn)定性。

6.進(jìn)一步研究的方向評(píng)述[1]

實(shí)驗(yàn)研究表明，對(duì)稱協(xié)調(diào)博弈不一定收斂到風(fēng)險(xiǎn)占優(yōu)均衡，但可能收斂到其他的均衡。支付只是影響均衡選擇的因素之一，不變突變率相關(guān)理論并不能很好地解釋現(xiàn)實(shí)中參與人的行為，其合理性是令人署凝的，

第一，人們常說的“習(xí)慣成自然”，即當(dāng)某種行為被多次選擇時(shí)極可能內(nèi)化為參與人的行為指南，這時(shí)參與進(jìn)行試驗(yàn)或者發(fā)生錯(cuò)誤的可能性就會(huì)大大減少，發(fā)生錯(cuò)誤的可能性隨著選擇次數(shù)的增加而增加；

第二，消費(fèi)理論中的“羊群行為”，即當(dāng)某種行為被周圍大多數(shù)人所選擇時(shí)，在一定條件下參與人極可能陷入信息陷阱而忽視自己的信息，一旦達(dá)到這種狀態(tài)參與人發(fā)生錯(cuò)誤的困難就會(huì)很大；

第三，Myersion (1991)^[19]基于“越昂貴的策略犯錯(cuò)誤的可能就越少”這一現(xiàn)實(shí)而提出相對(duì)均衡策略的穩(wěn)鍵策略概念，認(rèn)為越昂貴的錯(cuò)誤犯的可能性就會(huì)越少；宏觀經(jīng)濟(jì)學(xué)中的“效率工資理論” 說明高于平均工資的工資增加工人被解雇的機(jī)會(huì)成本，從而刺激工人努力工作而減少犯錯(cuò)誤，大大降低了參與人選擇不可預(yù)見行為的可能性；

第四，在帕累托效率狀態(tài)時(shí)，參與人出現(xiàn)錯(cuò)誤的可能性會(huì)少于其他狀態(tài)，當(dāng)然還有許多其他因素影響系統(tǒng)的均衡選擇?？傊瑸榱烁玫孛枋鰠⑴c人的行為，就需要分清哪是突變率，哪是錯(cuò)誤率，在此基礎(chǔ)上再研究協(xié)調(diào)博弈的隨機(jī)穩(wěn)定性會(huì)更具現(xiàn)實(shí)意義。

評(píng)論 | 0條評(píng)論

評(píng)論

經(jīng)理人分享