第4章不完全信息动态博弈

第4章不完全信息动态博弈第4章不完全信息动态博弈第4章不完全信息动态博弈 4.1不完全信息动态博弈概念: 1、不完全信息:部分或全部参与人对博弈“规则”，或等价地对它的标准型(或扩展型)缺乏完全信息。例如，他们可能对其它参与人深知自己的支付函数，物资设备和其它参与人甚至他们自己可采用的策略，以及其它参与人对博弈状态的不同方面拥有的信息，等等，缺乏足够的了解。(J.C. Harsanyi 由“贝叶斯”参与人进行的不完全信息博弈) 2、动态性:博弈参与人的行动的跨期选择性，行动信号传递与否是动态与静态的区别标准。有些情况下，即...

第4章不完全信息动态博弈第4章不完全信息动态博弈 4.1不完全信息动态博弈概念: 1、不完全信息:部分或全部参与人对博弈“规则”，或等价地对它的标准型(或扩展型)缺乏完全信息。例如，他们可能对其它参与人深知自己的支付函数，物资设备和其它参与人甚至他们自己可采用的策略，以及其它参与人对博弈状态的不同方面拥有的信息，等等，缺乏足够的了解。(J.C. Harsanyi 由“贝叶斯”参与人进行的不完全信息博弈) 2、动态性:博弈参与人的行动的跨期选择性，行动信号传递与否是动态与静态的区别标准。有些情况下，即使参与人的行动在实际当中有先后，但是行动的信息并未传递给其它参与人，仍然是静态博弈。 3、不完全信息动态博弈表示法: 考虑上章应用1的阻吓进入(Entry Deterrence)博弈，但原厂商的建厂行动成为可以观察:原厂商先出招，新厂商观察对手行动后才出招，因此成为动态博弈了。例1: 进 y ( 0, -1 ) 高成本建 xH 2 不进 ( 2, 0 ) 1 进 y ( 2, 1 ) 不建 2 不进 ( 3, 0 ) N 进 y ( 1.5, -1 ) 建 xL 2 不进 ( 3.5, 0 ) 1 进 y ( 2, 1 ) 低成本不建 2 不进 ( 3, 0 ) y 进 ( 0, -1 ) 建 2 1-y 不进 ( 2, 0 ) 1 进 ( 2, 1 ) 不建 2 不进 ( 3, 0 ) N y 进 ( 1.5, -1 ) 建 2 1-y不进 ( 3.5, 0 ) 1 进 ( 2, 1 ) 不建 2 不进 ( 3, 0 ) 特征: 1)信息不完全; ( 需要说明的是，信息不完全，并不仅仅限于参与人互相之间的信息不对称，现实生活中，有很多例子属于自己对自己的特征不了解的情况。例如，帽子颜色博弈故事当中，自己就不能看到自己头上帽子的颜色。 “自知之明”的难能可贵～这些动态或序列博弈(dynamic or sequential games of incomplete information)在信息特征上属于不完全信息。类似上章不完全信息静态博弈的情况，也可经由Harsanyi转换表示为不完美信息动态博弈，或简称为动态贝叶斯博弈。 (2)和不完全信息静态博弈相比，虽然信息不完全，但是行动的顺序性使得后行动的参与人获得“额外”信息，从而有可能从行动特征中推测“不完全信息”的具体内容如何。对于参与人对自己信息处于不完全状态时，它可以在博弈过程中根据其它博弈方的行动来推测自己的信息特征(红帽子故事)。生活中此类例子也很普遍(军事谈判，商务谈判，谈对象等)。在上面“阻吓进入”博弈中，1的行动传递了其成本高低的讯号:原厂商低成本时一定会建厂，但观察到1的建厂行动尚不足确认1必定为低成本(因)，但是可能性很大(可能要用到事后机率的贝叶斯法则，后面再讨论)。总之，研究这样博弈要注意「观察对手行动」所带来的信息涵义。不完全信息动态博弈的难点也在于此。背景知识——贝叶斯法则: 全概率公式:设试验E的样本空间为S,A为E的事件(具体结果),B1,B2,„,Bn 为S的一个划分，且P(A)>0, P(Bi)>0 (i=1,2, „ ,n)，则 P(A)= P(A | B1) P(B1) + P(A | B2) P(B2) +„+P(A |Bn)P(Bn) 贝叶斯公式:设试验E的样本空间为S,A为E的事件(具体结果),B1,B2,„,Bn 为S的一个划分，且P(Bi)>0(i=1,2, „ ,n)，则 P(Bi |A)=, i=1,2, „ ,n 日常生活当中面临不确定事件时，我们的处理办法是，首先为事情的不确定性部分确定一个信念，或者信念。随着事情的发展，我们会根据新的信息修正原有信念。统计学中，原有信念称为先验概率(prior probability)，修正之后的信念称为事后概率(posterior probability)任何一个时点上。贝叶斯法则正是人们根据新的信息从先验概率得到事后概率的基本方法。具体到不完全信息动态博弈，贝叶斯法则的应用就是从类型的概率分布和行动的类型条件概率，计算类型的行动条件概率。好人偷钱概率0.1，坏人偷钱概率0.3，好人坏人的概率各为0.5。一个偷了钱，它是坏人的概率是 P(坏人|偷了钱)=P(坏人偷了钱)/ P(偷钱) = P(偷了钱|坏人) P(坏人)/ [P(偷了钱|坏人) P(坏人)+ P(偷了钱|好人) P(好人) =0.3*0.5/(0.3*0.5+0.1*0.5) =0.75 正常情况下，判断一个人好坏的信念只能是对半分;但他做出偷钱的行为后，可以以此信息对原有信念进行修正，由0.5变为0.75。 4.2精炼贝叶斯均衡(Perfect Bayesian Equilibrium，PBE)与范例: 动态博弈的中心问题:参与人策略的可信性，或者剔除不可信威胁、承诺和不合理纳什均衡。不合理均衡的性质是理论框架本身造成的。理论的目的在于解释、验证和预测直觉规律，或者为直觉提供逻辑基础。如果理论框架的结论与常识偏离太大，理论需要发展并提高经验一致性。所以，这里的不合理NE是由扩展式博弈分析框架带来的。在完全信息动态博弈中，为解决这个问题我们引入了子博弈精炼纳什均衡(SPNE)的概念。在不完全信息动态博弈中，存在同样的问题，解决的办法是引入(弱)精炼贝叶斯均衡。在上述“阻吓进入”博弈中，参赛者1对自己的类型拥有私人信息(private information)并且选择行动或混合行动 A。在博弈开始之前，参赛者2对于参赛者1的类型θ有先验信念p(prior belief);参赛者2形成事后机率(posterior 并选择或混合行动 A。 probability)μ 此博弈的精炼贝氏均衡(Perfect Bayesian Equilibrium，PBE)可定义如下: 一个完美贝氏均衡(PBE)是一组策略()与信念，满足以下条件: (i)以 (??|θ) 表示参赛者1的策略。参赛者 2知道 (且可能观察到a1)，并依照贝氏法则与先验信念p更新他的信念: μ(θ|a1),„„„„„„„........................(4.1) (ii)参赛者1 对于所有的θ，会选择 (??|θ) 以达到 u1(a1,9><>a2,θ); (iii)参赛者2 观察<>a2选择 (??| a1) 以达到 EMBED Equation.3 u2 (a1,<>a2,θ) ;其中 μ(θ|a1) 依照 (4.1)求得。上面的定义可转化为四个条件: C1. 在每一个信息集合中，可做选择的参赛者:对于之前的行动所能达到此信息集合中各个环节的可能性必须能够形成信念。(条件(i)的起始) C2. 给定参赛者的信念，他们的策略必定符合序列理性(sequential rationality)。亦即，在给定其它参赛者的策略之下，在每个信息集合都能选择最佳行动。(对应条件(ii)、(iii)) C3. 对在均衡路径(on the equilibrium path)上的信息集合而言，信念是由贝氏法则和参赛者的均衡策略所决定。(所谓均衡途径是指若使用均衡策略，则有正的机率会达到)。(条件(i)的意涵) C4. 对在非均衡路径(off the equilibrium path)上的信息集合而言，信念是由贝氏法则和(尽可能参照)参赛者的均衡策略来决定。(条件(i)的意涵) 定义:一个精炼贝叶斯均衡 (PBE)是满足C1到C4的一组策略和信念。一个弱势的完美贝氏均衡(weak PBE, WPBE)则满足C1到C3即可。例2:在吓阻进入博弈中考虑新进者(E)可采策略更丰富，可采强势进入或弱势进入，强势进入可能独吞市场，而原厂商(I)反而拥有较少信息。求解均衡: 合作 (c) 价格战 (f) 强势进入 3，0* -1，-1 以策略形式表示为弱势进入 2，1 -1，-1 不进入 0，2 0，2* 两个NE:((强势进入，合作)，(不进入，价格战))。显然(不进入，价格战)并不是一个合理的均衡状态(为什么,——价格战是一个不可信的威胁～)，而且该博弈没有子博弈，「子博弈精炼纳什均衡」尚无法去除任何均衡，SPNE=NE。应用PBE概念去除不合理纳什均衡: 应用条件C1——要求I要形成信念(belief)，认为知道E在进入的情况下，μ强势进入的概率为μ。应用条件C2——给定信念其支付为:，显然，上式一定大于下式。所以，I可以去除价格战的策略，只会采取合作战略，从而排除了(不进入，价格战)。给定I只会采取合作战略，E采取强势进入的收入为3，采取若是进入的支付为2，因此他只要进入，就一定会强势进入。给定进入支付为3，则必会选择进入——不进入支付为0。应用条件C3——I的信念要由观察E行动达到的信息集合和对E策略α(?)的了解来推估。令H,,x, x’,，信念μ=Prob (x?H, α),, E采取α，到了一个information set,x, x’,,H: 应用贝叶斯法则(Bayes’ Rule):已知达此信息集合H(在策略α之下)，I作信念更新得到事后概率μ(x |H,α),,=. 也就是说，用了C3以后，可确定μ值μ,1，只留一个均衡 ((强势进入，合作)，μ,1) 注意:(α，μ)合称为一个PBE;—定要列举出信念μ。例3:吓阻进入博弈的变化形式，来看何时用C4: C1给我们(μ,1,μ) I 若3μ,2,,1，即μ,，就选c 若μ,则选f 先用C1，C2，C3找WPBE: Weak PBE C4的应用——因为E选择c，则I的信息集处于非均衡路径上(正因为如此，C3的应用才不可以祛除这个不合理的均衡)，C4要求在非均衡路径上的信念由E的策略决定:(c if in) => ??=1，这和??<1矛盾，也就是说((out, c if in), f), μ<1/3)不能满足C1-C4，则可去除第二个均衡。 c if in => μ,1 => 只有一个PBE ((in, c if in), c), μ,1) 例4:对例2修改成以下博弈(假设γ,-1): 引用C1之后，I的支付若1,3μ,,1，即μ,时I选合作。此时E选强势进入。 (强势进入，合作，μ,):由E策略推知μ=1，不合C3，不是WPBE 若1,3μ,,1，即μ,时I选价格战。因γ,,1，则E选弱势进入 (弱势进入，价格战，μ,):由E策略推知μ=0，不合C3，不是WPBE。假设γ,,1成立当μ,时 I觉得合作与价格战一样好 I采混合策略 (αc,αf),(1,αf,αf)，使E采mixed strategy，E对强势进入与弱势进入无差异: 3(1,αf)-αf,2(1,αf)，γαf =>αf ,:I应采混合策略(,) E的策略()为(不进入，强势进入，弱势进入)的机率，需要与μ,相合才可满足C3，C4:μ与α之间要相配合。此时WPBE?PBE:(α*,β*),((α0,α1,α2),(αc,αf),μ),((0,, ),(,), μ,)，γ>-1。 PBE观念强调信念的重要性，均衡描述中不可缺少信念。例5: (D,D,D)配合当信念μ=1:纳什均衡考虑给定μ,1，D是参赛者3的最佳反应。给定其它参赛者的后续策略，D是参赛者2的最佳反应, 且 D 也是参赛者1 的最佳反应。但是这个纳什均衡不是一个SPNE: 子博弈可见(D,U)是子博弈的 NE，而SPNE是(U,D,U) 此SPNE 是一个 PBE (信念μ=0)，((U,D,U), μ=0)满足C1到C4。当μ=1时，再考虑(D,D,D):满足 C1到C3。因此，C1到 C3 并不保证参赛者的策略构成一个SPNE。因此C4是应该纳入要求的。在此均衡中，参赛者3的信念(μ,1)和参赛者2的策略(D)是相悖的，当博弈均衡为(D,D,D)时，此信息集合中要素并未被走到。C4 强迫参赛者3的信念必须由参赛者2的策略所决定:若2的策略是D，则3的信念必须为μ=0。但是当μ=0，由C2会使得3的策略变为U。因此当μ=1时，(D,D,D)并不满足C1到C4。 WPBE: (D,D,D) 当μ=1 PBE: (U,D,U) 当μ=0 (U,D,U) 当μ=0 也是SPNE. 直觉式理解:PBE均衡在整个博弈中构成BNE，并在每个「后续博弈」(Continuation game，指起于任何完整的信息集合(不论是singleton与否)且给定信念之下的部分博弈)亦为BNE。 4.3 信号传递博弈(signaling game)与信誉(reputation) 动态贝氏博弈中有信息的传递，也可表示为信号传递博弈(signaling game): 信号传递博弈可表示为:，博弈流程如下 1. 有两位参赛者，送讯者(Sender，S)与接讯者(Receiver，R) 大自然(Nature，N)在型态集合中选取送讯者的类型，其机率满足，，此先验机率p(t)为共同知识。 3. 送讯者(S)观察到(但接讯者不知)后，在集合中选取一讯号。接讯者(R)观察到(不是)，再选取行动。报酬，对S与R分别实现。 R t1 R m1 m2 ，机率 p N p m1 m2 R t2 R 柠檬市场解决机制之信号传递博弈买卖买摆摊开店，机率 p N 1- p 摆摊开店买卖买前面例1的「吓阻进入」的博弈也可用如此「马蹄型」扩展形式来表示，完全等同。原厂商(1)是送讯者，可能有两种型态(高成本，低成本)，所选行动可视为送出讯号(建，不建)，新厂商(2)是接讯者，再选择行动(进，不进)。虽然讯号(建，不建)未必能完全表露送讯者的私有信息(型态)，但有时也提供了部分信息，让接讯者在观察送讯者行动(亦可视为讯号)后再作最适反应。动态贝氏博弈很多可用信号传递博弈架构来分析。再考虑信誉博弈Trust Game: 若重复无穷多次，B可采Trigger Strategy，从开始就相信A，但A若背叛则永远不再相信A，A会努力工作回报，NE每期报酬(1，1)。但若无法在A与B间重复无穷多次，B每期面对新的A参与者，B可观察到A过去行为，只要新见面的A过去未曾背叛，则可从开始就相信A，一旦A背叛则永远不再相信A。如此状况下均衡仍为(1，1)。若A未曾背叛，则A有「好信誉」， B的均衡策略是「相信有好信誉的员工」，大致延续前面reciprocal rewards and punishments精神，但仍要求过去行为是可以观察到的。参与一方报酬不确定(不完全信息博弈)时，在Entry Deterrence Game 内，Incumbent可设法建立强悍的信誉。例6:以2期声誉(reputation)博弈为例:2期是T期的特例。厂商 1 (现任者) 采取动作 a1 (合作或战斗). 厂商2 (进入者) 若厂商 1 选择合作能获得D2，若厂商1选择战斗获得P2。 D2,0,P2。厂商 1 有2种类型 (理智或疯狂)，当其选择合作时得到D1，若选择战斗，则得到P1，D1,P1。若厂商1为独占，则得到M1,D1 p,厂商1是理智的先验机率 (1,p,疯狂(爱好战斗)的机率) 一个理智的厂商不会选择在第2期时战斗(没有要保持声誉的必要)。若厂商 2留下，此理智厂商会获得D1，若厂商2退出，则获得M1。疯狂厂商总是选择战斗。理智厂商可能会在第1期选择战斗以取得声誉。 1 I C F 2 E D2,D1 P2,P1 不延 0,M1 0,M2 10,50 -10,30 0,100 0,100 (1) 分离均衡(Seprating equilibrium):疯狂类型:战斗;理智类型:合作。厂商2在第2期时会有完整的信息，后验机率(posterior probability)为 μ(θ,理智|a1,合作),1, μ(θ,疯狂|a1,战斗),1. (2) 混同均衡(Pooling equilibrium):理智类型选择战斗。厂商2 无法修正他的信念，因为在第1期时两种类型都会战斗 μ(θ,理智|a1,战斗),p. (3) 半分离均衡(Semi-separation equilibrium):理智类型任意决定。 μ(θ,理智|a1,战斗) (0, p); μ(θ,理智|a1 ,合作),1. 就(1)而言:理智类型合作得到D1(1，δ), δ,折现因子，若他战斗则得到P1，δM1, 若在第1期战斗而使厂商2认为其是疯狂类型的必要条件为: δ(M1,D1)?(D1,P1) (1) 就(2)而言:只有当能诱使厂商2退出为正机率事件时，理智的现任者会选择战斗。也就是说，只有当进入者留下的第2期期望利润为负值时: ρD2，(1,ρ)P2,0 (2) 第1期:两种类型皆会战斗，进入者的后验机率如上所述。理智类型的报酬为 P1，δM1 当其战斗; D1(1，δ) 当其合作。若不符合(1)时，理智类型会战斗(所以为混同均衡)。就(3)而言:进入者观察到厂商1战斗时，会任意认定1的类型。当不符合(1)及(2)时，理智现任者会在战斗及合作随意选取。 D2，(1,)P2,0(prob χ,进入者在观察到厂商1作战斗行动后留下现任者会任意选取若 P1，δχM1，δ(1,χ)D1,D1(1，δ) δχ(M1,D1),D1,P1, 0,χ,1 (不符合(1)) 或 χ,(D1,P1),δ(M1,D1). 理智类型有 y机率选择战斗，1,y机率选择合作 ,厂商2在观察到战斗行为后，认为厂商1是理智类型的信念根据贝氏法则从p修正而得:,,p. (1为疯狂类型的信念?) 且, D2，(1,)P2,0 ( ,(回想 D2,0,P2), 0,,1. , 解 y 理智类型有 y机率选择战斗。进入者在观察到1的战斗行为后，将信念ρ修正为 (,ρ)，然后以χ机率选择退出。 4.4 序贯均衡(Sequential equilibrium): 定义:一组策略以及信念 (σ, μ) 是一个序列均衡(SE)若 (i) σ 在给定μ (如C2)之下为序列理性; (ii) μ和σ一致，对于每个信息集合H 以及每个x在H中，有一组完全混合策略σk ， σk ? σ，μ,, 而 μk(x),，i.e., μk 是策略组σk 使用贝氏法则得到的信念。说明:条件(ii)表示参赛者不会走到的信息集合，其信念可以由均衡策略产生的小颤抖来解释。 (在别的信息集合中，这些信念与均衡策略产生出的一致。) 例7: 弱 PBE ((进入, c 若进入),c) 是以下策略组的极限: (),(), (),() , 产生的信念为这验证了(σ, μ)为SE。例8: 我们可以检查此WPBE是否为以下策略组的极限: (),(), (),(), 产生的信念为: , 此 WPBE 同时也是 SE。同时检查其是否为WPBE: 给定信念 μ1, I 会战斗若 ,1?,2μ1，(1,μ1),1,3μ1, i.e. μ 1? 若 μ1,, I 有机率1会战斗，E 有机率1会采取I(r,,1)，和μ1,矛盾。若μ1,, I 有机率1会合作，E有机率1会采取I，和μ1,矛盾。唯一可能解为 “μ1,”。I 随意选取，使得E 在I与I无异: E’的报酬. 4.5 实例与应用:机制设计(Mechanism Design) 旧约上记载:所罗门王面对两位妇人争夺婴儿时，他设计一套机制能够判别真假母亲，以色列人都赞扬所罗门王的睿智。这套机制为何有用,是否有瑕疵, 2 妇人:Anna (A) and Bess (B) 私人信息:小孩对于A 与 B的重要性(CA and CB)。所罗门王的威胁:若双方意见分歧则将小孩切开，一人拿一半。所罗门王要求两人必须遵守他的规定。他们的信息 ? 分配:(机制设计)。问题:可能模仿对方的反应。替代方案 :所罗门王可以设计另一个规定。固定惩罚F。 A 先行，但如果B (A)有异议则A (B)必须付出F。If B challenges and bids E, then A has another round to match the challenge. (1) Suppose A is the mother and values the child more, CA,CB. Bess knows that the only way she can end up with the child is if she bid enough to force Anna’s payoffs to satisfy CA,E,F,,F, or CA,E. But we know CB,CA,E, Bess has to bid more than the child is worth to her:CB,E ,0. Anna will assert and Bess will accept. (2) Suppose B is the mother and CB,CA. Then Bess will bid as long as CB,E ,0 and CA,E,F,,F (or E,CA), Since CB,CA, Bess is able to find a bid E such that CB,E,CA. Anna will give up in the 1st stage. (SPNE) PAGE 4- PAGE 6

                    本文档为【第4章 不完全信息动态博弈】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

第4章 不完全信息动态博弈

你可能还喜欢

第4章不完全信息动态博弈