不完全信息动态博弈

不完全信息动态博弈不完全信息动态博弈 4 不完全信息动态博弈 4.1 精炼贝叶斯均衡概述不完全信息动态博弈就其基本要素来看是不完全信息与博弈的动态性质的一种综合。在处理不完全信息要素时，通过将某些参与人“类型”的不确定性作为信息不完全性的一种表征，这种方法将继续得以采用，即博弈中参与人面临的信息不完全性(无论它是指何种信息)将完全由某些参与人的“类型”的不确定性加以刻画。同时，作为动态博弈，“序贯理性”的思想将一直得到贯彻。我们在不完全信息动态博弈中将信息不完全程度削减到零，则不完全信息动态博弈就自然应退化成一种完全信息动态...

不完全信息动态博弈 4 不完全信息动态博弈 4.1 精炼贝叶斯均衡概述不完全信息动态博弈就其基本要素来看是不完全信息与博弈的动态性质的一种综合。在处理不完全信息要素时，通过将某些参与人“类型”的不确定性作为信息不完全性的一种表征，这种方法将继续得以采用，即博弈中参与人面临的信息不完全性(无论它是指何种信息)将完全由某些参与人的“类型”的不确定性加以刻画。同时，作为动态博弈，“序贯理性”的思想将一直得到贯彻。我们在不完全信息动态博弈中将信息不完全程度削减到零，则不完全信息动态博弈就自然应退化成一种完全信息动态博弈，其相应的精炼均衡概念就由精炼贝叶斯回到子博弈精炼均衡。从这种意义上来看，不完全信息动态博弈的精炼均衡概念是子博弈精炼均衡概念的一种推广，正如不完全信息动态博弈应被视作完全信息动态博弈的一种推广一样。例简单的非完全信息动态博弈 N t(p) t(1–p) 12 1 1 L R L R 2 2 L, R, L, R, L, R, L, R, u u u uu u u u 1111 1111 u u u u u u u u 2222 2222 参与人1的类型t为个人信息。参与人2 不知道t，但知道t的概率分布。博弈的时序: (1)参与人1选择行动a1 ,A; 1 (2)参与人2观察a，选择a ,A122 博弈的收益: u (a, a, t ), u (a, a, t ) 112212 精炼贝叶斯均衡博弈的纳什均衡是一种“僵持”状态的战略组合，当所有的参与人都选择该战略组合中给出的相应战略时，任何一个参与人都不会有单方面偏离这一选择的动机。作为动态博弈，一个战略是参与人在其可能进行行动选择的所有信息集上将作何选择的一整套规定或计划，而作为不完全信息博弈，这种规定或计划还是“类型依存”的，即不同类型的参与人将选择不同的战略规定。因此，一个不完全信息动态博弈的纳什均衡将是指这样的一种类型依存性的战略组合(或战略组合的族)，当给定其他参与人的战略时(其他参与人的战略是类型依存的，所以，说给定其他参与人的战略即指给定其他参与人的战略与类型的依存关系)，任一参与人在其任何类型下由该组合给出的类型依存战略是其最优的。显然，这里还需要附加一个条件，即给定一参与人对其他参与人的类型分布的先验概率密度，否则他将无法对选择的“最优性”加以判断。这种概率分布或密度来自于博弈开始之前参与人所拥有的信息，故称为“先验”信息或“先验”概率。定义一个人不完全信息动态博弈的参与人类型空间n i，条件概率，其中是参与人的类型，H,？,HP(,|,),i,1,？,n,1ni,iii i，的确定是通过Harsanyi转换实现的，因而参与人,,H,iii i知道而其他除参与人之外的参与人不一定知道。一个,,ii ****类型依存的战略组合是一个纳什S,(S(,),？,S(,),？,S(,))11iinn均衡，当且仅当有 ** S,(),argmaxP(,,|)u(S(,),S(,),,,,)i,1,？,n,,,,,iiiiiiiiiiii,S()ii,,i 条件概率是先验的，因为它是博弈所给定的条P(,|,)i,ii i件，来自博弈开始之前参与人关于其他参与人类型的相关 i信息。当然，“自然”这个“参与人”并不包括在由下标标记的个参与人之中，但由Harsanyi转换所假定的参与人“自n 然”首先行动，它决定每一个参与人的类型，但除每个参与人自己能“观察”到自己的类型外，对于其他参与人的类型，他是只具有不完全信息的。按照上式定义的纳什均衡被称为贝叶斯纳什均衡，它在本质上并未体现出不完全信息静态博弈与不完全信息动态博弈的区别。动态博弈与静态博弈的本质区别在于动态博弈均衡中存在对“序贯理性”的要求。这样，我们需要对上式给出的纳什均衡加以精炼，以剔除含有不可置信承诺和威胁的均衡，这就是下面将要引入的“精炼贝叶斯纳什均衡”。序贯理性在完全信息动态博弈中指的是参与人在任一子博弈上都选择最优的行动计划，而精炼均衡要求所有参与人的战略在任一子博弈上都是其在给定其他参与人战略选择下的该子博弈上的最优战略，即纳什均衡战略。在不完全信息动态博弈中，信息集不一定是单结的，因而真子博弈可能不存在。此时，序贯理性指的是任一参与人在从其任一信息集开始的随后的博弈中(后续博弈)所选择的行动计划都是最优的。对于任一参与人来说，当他处于某一信息集上h时，他对其他的每一个参与人的类型有一个概率判断。在不完全信息动态博弈中，他在此时并不准确知道其他参与人的类型是什么，但知道其他参与人的类型为每一种特定的类型组合的概率是多少。于是，假定所有参与人都是风险中性的，则他将根据这种概率分布来选择使他的期望支付最大化的行动计划。例: 市场进入博弈例: 不完美信息博弈的精炼贝叶斯均衡 1 R L M 1 3 p 2 1- p L, R, L, R, 2 0 0 0 1 0 2 1 标准式表示参与人 2 L, R, L 2， 1 0， 0 参与人 1 M 0, 2 0， 1 R 1, 3 1, 3 纯战略纳什均衡: (L，L,), (R，R,) 均为子博弈精炼纳什均衡 (唯一的子博弈是原博弈本身)。但是 (R, R,)不可信。排除不可信的纳什均衡: 要求 1参与人的战略必须满足序贯理性(sequentially rational). 要求 2参与人必须有一个推断(belief). 定义处于均衡路径上(on the equilibrium path)的信息集: 在均衡战略下，博弈以正的概率到达该集. 处于均衡路径之外 (off the equilibrium path)的信息集: 在均衡战略下，博弈不会到达此集. 要求 3 在处于均衡路径上的信息集上, 推断由贝叶斯法则和参与人的均衡战略决定。例要求3的说明参与人1的类型空间:{ t，t，t，t } 1234 行动空间:A= { L，R} N t(0.2) t(0.3) t(0.2) t (0.3) 12 3 4 1 1 1 1 L R L R L R L R p p p p q q q q 12341234 2 2 L, R, 推断p: 观察到L后，参与人1的类型是t的概率。 i i 推断q: 观察到R后，参与人1的类型是t的概率。 i i p + p + p + p = 1 1234 q + q + q + q= 1 1234 如果参与人1的战略: t选 L，t选 L， t选R，t 选R。 1234 参与人2对p 与 qi的推断: i 0.20.3p = = 0.4, p = = 0.6, p= 0, p=0; 123 4 0.2，0.30.2，0.3 0.20.3q = 0, q= 0, q== 0.4, q= = 0.6, 123 40.2，0.30.2，0.3 要求 4 在处于均衡路径之外的信息集上, 可能情况下，推断由贝叶斯法则和参与人的均衡战略决定。原文:At information sets off the equilibrium path, belie fs are determined by Bayes’ rule and the players’ equilibrium strategies where possible. 例 T = {t, t, t, t}, M = {m, m, m} 1234123 如果在均衡中，信号发送者的战略: m*(t) = m，m*(t) = m，m*(t) = m，m*(t) = m 11213242 则m3处于均衡路径以外，若用贝叶斯公式，分母为0。精炼贝叶斯均衡(perfect Bayesian equilibrium):在一个非完全信息的动态博弈中，满足要求1 – 4 的战略与推断构成的均衡。精炼贝叶斯均衡的正式定义如下: ~~在不完全信息动态博弈中，精,,G,u,？,u,P,？,P,H,？,H1n1n1n炼贝叶斯纳什均衡是一个类型依存战略组合 ~~~***及一个信念组合，满足S(,,？,,),(S(,),？,S(,))P,(P,？,P)1n1n11nn 如下条件: ~~(1)是先验概率的集合，即，P(,|,)PP,(P,？,P)i,ii1n ~i，是第个参与人在其进行行动选择的信息集上P,P(,|,)Pii,iii ~h所有信念组成的组合，记为他在其第个信息集上的信Pih hh念;若参与人在信息集上观察到的行动为，则记a,i~~h，。 P,P(,|a)i,1,？,n,,ihiii i(2)是参与人的类型空间，是他的一个类型;H,,Hiii i,1,？,n **i(3)是参与人的类型依存支付(效u,u(s(,)？s(,),,,,),ii1nnii 用)函数; i,1,？,n ih(4)在第个参与人的每一个信息集上，有 ~*h*S,(),argmaxP,(|a)u(s(,),s(,),,,,) ,,,,,,iiiiiiiiiiihh,S()ii,h,i i,1,？,n ~(5)在均衡路径上，是按照贝叶斯法则从先验概率Pih h*ihP(,|,)，参与人在信息集上观察到的行动和导出S(,)ai,ii,,,iii的。例:在下图中给出的一个不完全信息动态博弈中，“自然” ,,,,,N首先选择参与人1的两种类型中的某一种，但参与人1112 2对N的选择具有不完全信息，他只知道先验概率为P(,|,),P(,|,),0.5，参与人2的类型是对称的。 21122122 N 0.5 0.5 1 1 (,)(,)1112 L R L R h 2 2 f 2 2 a b a b a b a b (1,2) (0,1) (1,0) (2,1) (0,0) (2,4) (4,0) (1,3) 一个不完全信息动态博弈 *如果参与人1的类型依存战略为 S(,)11 * S(,),R111 * S(,),L112 试找出与此战略相对应的参与人2的一个类型依存战略 ****，使成为一个精炼贝叶斯均衡。 S(,)S,(s(,),s(,))221122 *解:参与人2的类型只有一个。给定，参与人2的2S(,)11 h个信息集和都是均衡路径上的。根据贝叶斯法则，在信息f ~~hhh集上，参与人的后验概率为，;同样，P(,|L),0P(,|L),1211212 ~~ff在信息集上，有，。给定这种信念，fP(,|R),1P(,|R),0211212 h参与人2在上的最优行动是，在上的最优行动是。 aaf h给定参与人2在其信息集、上的上述信念及最优行动f R选择，类型为的参与人1将选择，类型为的参与人1将,,1112 **选L，所以，和构成一个精炼贝叶斯纳什均衡。我S(,)S(,)1122 *们用表示这一均衡。其中，，[(R,L),(a,a),(0,1),(1,0)]S(,),(R,L)11 ~~*P,(1,0)，P,(0,1)，。 S(,),(a,a)2f2h22 4.2 信号博弈在经济学的研究文献中，信号博弈作为一种特殊的不完全信息动态博弈得到了最为广泛的应用。正是信号博弈以一种十分特别的视角去理解很多令人感到迷惑的经济现象，信号博弈以及博弈论作为一种方法论才在主流经济学中产生了巨大影响。信号博弈通常描绘的是二个参与人之间的二阶段不完全信息动态博弈，其中，第一顺序行动的参与人的类型不为第二行动的参与人所知，他只知道第一顺序行动参与人的不同类型的先验概率分布。第二顺序参与人试图从他所观察到的第一顺序行动参与人所选择的行动中对其类型作出概率判断，从而选择自己的最优行动。在这种博弈中，后行动者主要关心的是先行动者的类型可能是什么，而先行动者也知道这一点。因而他有动机或者试图告诉后行动者他的真实类型，或者相反，他可能会试图欺骗后行动者，而努力将其有关他的类型的虚假信息告诉后行动者。当然，先行动者可以直接告诉后行动者他的类型是什么，但仅凭这种口头的承诺并不能使后行动者真正相信他所说的。如果他要后行动者相信他的话，他就必须作出一种努力，这种努力会使他蒙受一定的损失或存在一种成本。这种成本是当他仅是这种类型时才能支付的，而如果他的类型不是这种类型，他不能承担这种成本。我们称这种成本支付是一种信号。通过它，先行动者能告诉后行动者他的真实类型。当然，说谎者也可以发出信号，并让后行动者难以准确判断其真实类型，如果这样做对先行动者是有利的话。譬如，文凭就是需要支付成本的一种信号，因为读书取得文凭是需要支付机会成本的一种活动，不同能力的人对这种成本的承受力是不同的。所以，雇主就可通过文凭去判断雇员的能力情况并据此支付不同的薪水。在金融市场上，如果一个企业需要在金融市场上融资，但投资者的对其真实的盈利能力具有不完全信息。于是，真正有高盈利能力的企业就可以通过向投资者支付较高的权益份额来将自己区别于低盈利能力的企业，从而让投资者识别出自己的真实类型而投资，而低盈利能力的企业由于对自己的真实盈利能力心知肚明，所以不敢模仿高盈利能力企业，它承诺的权益份额就较低，投资者不会将资金投入该企业。 4.2.A 信号博弈中的精炼贝叶斯均衡信号博弈的参与人:信号发送者S，接收者R。信号博弈的时间顺序自然按照概率分布为S产生一个t ,T S 观察 t，并选择 m ,M j R 观察 m 并选择 a,A k 收益 U(t，m，a)和U(t，m，a) SijkRijk 信号博弈 T = {t, t}, M = {m, m}, A = {a, a}, 121212 Pr{t} = p, Pr{t} = 1 - p。 12 发送者战略: 在类型为t信号与t2时发出的信号: 时发出的1 {m, m}, {m, m}, {m, m}, {m, m} 11122122 混同(pooling)战略: 所有的类型发出相同的信号: {m, m}, {m, m} 1122 分离(separating)战略:不同的类型发出不同的信号: {m, m}, {m, m} 1221 接收者战略: 在收到信号m1时与信号m2时选择的行动: { a, a}, {a, a}, {a, a}, {a, a} 11122122 1，2 a 发送者 a 3，1 12 m t m 112 a p a 22 2，0 2，0 接收者(h) 自然接收者(f) 3，0 a a 1，0 11 1-p m t m 122 1，1 a 发送者 a 2，2 22 要求 1: 接收者在观察信号mj后，必须对发送者的类型有一个推断 ,( t ,m) = 1 ij,t,Ti 要求 2R: 对每一mj, 接收者的行动 a*(m) 必须在给定推断 j,( t | m) 后，最大化他的期望效用, ij max,( t | m) U(t, m, a) ijRijk,a,Akt,Ti 要求 2S: 对每一ti, 在给定a*(m) 后，发送者的信号 m*()tj i 必须最大化他的效用 max U(t, m, a*(m)) Sijjm,Mj 要求 3: 对每一mj, 如果存在 t 使得 m*(t) = m , 则接收者iij的推断: ptpmt()()iji,( t | m) = ijptpmt()(),ijii 精炼贝叶斯均衡: 战略 (m*(), ta*(m))和推断 (t | m) 满足要求 ,ijij(1), (2R), (2S),和 (3)。例 1，3 u u 2，1 [p] L t R [q] 1 d .5 d 4，0 0，0 接收者(h) 自然接收者(f) 2，4 u u 1，0 .5 ] L t [1-p R [1-q] 2 0，1 d d 1，2 求精炼贝叶斯均衡:对4种情况逐一分析。 1. 混同于L? 发送者: (L, L). ～P如果为均衡 = 0.5 接收者收益分别为: 3.5(u)，或 0.5(d)。将选择u。发送者收益分别为:1 (t)，2 (t) 12 如果发送者发送 R, 当 q + (1 – q)×0 < q×0 + (1 – q)×2 ～q<2/3 接收者将选择d. 发送者收益为 0(t),和1(t), 小于发送L时分12别所得。～均衡: { (L, L), (u, d), = 0.5, < 2/3} ～Pq 2. 混同于R? 发送者: (R, R) 在信息集上，接收者不能从观察到的行动R上获取任f 何关于发送者类型的除先验概率之外的额外信息，故后验概率就等于先验概率，即 ff～～ PtRPtR(|)(|)0.5,,12 当接收者选择行动u时，其期望支付为 0.5，1，0.5，0,0.5 而当他选择行动d时，期望支付为 0.5，0，0.5，2,1,0.5 行动d。所以，接收者在信息集上选择f 现在，我们回到信息集。因为当发送者选择R时，他知f 道接收者会选择行d，故对于类型分别为、的发送者来tt21说，他选择R时的支付分别为0和1。对于混同均衡，如果它真是一个均衡，则在信息集(R,R) h上，由于是非均衡路径，信念不受贝叶斯法则限制，但要使是一个精炼均衡，对信念仍然存在限制。如果是精炼(R,R) 均衡，他就不会选择L，即一旦选择了L，支付应分别(R,R) t不大于0和1。显然，对于类型为的发送者来说，一旦他1选择了L，无论接收者作何选择，支付一定是大于0的(支付分别在接收者选u或d时为1和4)。所以，不会是精炼(R,R)均衡。 1，3 u u 2，1 [p] L t R [q] 1 d .5 d 4，0 0，0 接收者(h) 自然接收者(f) 2，4 u u 1，0 .5 [1-p] L t R [1-q] 2 0，1 d d 1，2 3. 分离 (L, R)? 发送者: (L, R). ～～接收者推断:= 1 , = 0 Pq hh此时，信息集和都在均衡路径上。在上，接收者会选f 择u，在上，接收者会选择d。发送者的收益分别为:1 (), 1 (tt)。 f12 但是，给定这种可能，类型为的发送者的最优选择为Lt2 R(得到2)而不是(得到1)。所以，不会是一个精炼均衡。 (L,R) 4. 分离 (R, L)? 发送者: (R, L)。～～接收者推断:P= 0, = 1，战略:(u, u) q 发送者的收益分别为:2(), 2 (tt) 12 如果发送者不这样, 收益将为 1(t1发送L)，和1(发送t2R)。分离精炼贝叶斯均衡: ～～P [(R, L), (u, u), = 0, = 1 ] q 市场进入问题在位者有两种类型，{高成本、低成本}。进入者只有一种类型，进入者只知道在位者类型的分布。假定在位者先选择价格，进入者可以通过在位者的定价，来修正自己的判断，因为价格会暴露一些成本信息。博弈的三阶段第一阶段:自然选择在位者的类型，类型空间{高成本，低成本}，概率分布{m, 1-m}为共同知识。第二阶段:在位者行动空间{p=4,p=5,p=6}，得益: U1(高成本)={2，6，7} U1(低成本)={6，9，8} 第三阶段:进入者行动空间{进入，不进入};若进入，必须支付进入成本2个单位，并且其生产成本与高成本在位者相同。在第三阶段，若进入者选择―进入‖，两企业进行Cournot博弈，分两种情况: 若在位者是高成本，此时两企业有相同的生产成本，均衡价格为p*=5;各获利3，但进入者扣除成本2，得1; 在位者是低成本时，非对称的Cournot博弈，均衡价格为p*=4，在位者得5，而进入者得1，扣除进入成本2，得-1。若选择―不进入‖，在位者在后期可以取得垄断利润，得7或 9。怎样求解, 如果进入者只能根据先验概率来判断是否选择进入;若在位者是高成本，进入者进入后得利1，若在位者是低成本的，则进入者进入后得利-1，因此进入者―进入‖的期望利润为:m*1+(1-m)*(-1)=2*m-1 如果 2*m-1>0, m>1/2, 则进入者选择进入。若m<1/2,则如下战略组合是一个贝叶斯均衡: 进入者:不管在位者选择什么价格，他总是认为在位者是高成本的概率为m < 1/2，总选择不进入; 在位者，高成本类型:p=6, 低成本类型:p=5, 这是单阶段最优垄断价格。该均衡没有考虑后验概率，不是理性行为，因而是不合理的。精炼贝叶斯Nash均衡要求: 每一个参与人的信息集上有一个概率分布; 给定概率分布和其他参与人的选择，每个参与人的战略是最优的; 概率分布是使用贝叶斯法则从最优战略和观测到的的行动得到的。在动态情况下，进入者可以根据在位者的价格选择来修正其先验概率。这当然也取决于他怎么―认为‖，如果他认为，低成本的在位者不会选择价格p=6，则他观察到p=6,就会得到后验概率:对手是高成本的概率是1。但是，另一方面，在位者也会知道自己对价格的选择，会给进入者提供自己真实类型的信息。因此，即使是高成本的在位者也不会选择价格为6。如，可模仿低成本在位者选5。假定先验概率m<1/2,可以验证如下战略组合构成精炼贝叶斯Nash均衡: 在位者:不论是高成本，还是低成本，都选择p=5; 进入者:只有当观测到p=6时，选择―进入‖，否则―不进入‖;其基于的判断是: p(H|6)=1 ，p(L|4)=1， p(H|5)<1/2 证明:给定进入者的战略和后验概率，看在位者的选择对高成本在位者若选择p=6, 进入者―进入‖，此时在位者的支付:7+3=10; 若选择p=5, 进入者―不进入‖，此时在位者的支付:6+7=13; 若选择p=4,进入者―不进入‖，此时在位者的支付:2+7=9; 可见高成本在位者的最佳选择是p=5. 对低成本在位者若选择p=6, 进入者―进入‖，此时在位者的支付:8+5=13; 若选择p=5,进入者―不进入‖，此时在位者的支付:9+9=18; 若选择p=4,进入者―不进入‖，此时在位者的支付:6+9=15; 可见低成本在位者的最佳选择是p=5. 给定在位者的行动和判断，看进入者的选择: 看到p=5时， p(H|5)=m<1/2，进入的期望得益为:m*(1)+(1-m)*(-1)=2m-1<0，最佳选择是―不进入‖; 如果看到p=4， p(L|4)=1，进入的期望得益为-1，选择―不进入‖; 如果看到p=6， p(H|6)=1 ，进入的期望得益为1，选择―进入‖。判断的形成均衡路径上:当在位者不论是高成本还是低成本，都选择p=5时，进入者依据p(5|L)=1, p(5|H)=1(即使在位者是高成本也会模仿低成本)。得到后验概率: m’=p(H|5)=m<1/2(即使进入者知道在位者有可能模仿，但无法得到贝叶斯修正)。非均衡路径上: 由于在位者即使是高成本也会模仿低成本，因此高成本在p(6|H)=0 ，p(4|H)=0， p(6|L)=0 ，p(4|L)=0, 给出与结论不想违背的判断判断p(H|6)=1 ，p(L|4)=1。其实p(H|6)?1/2都可以。这是一种混合均衡，先验概率m<1/2时，不同类型的在位者，选择相同的行动，在位者无法区分，高成本在位者成功隐藏自己的高成本信息，而低成本在位者也无须为传递自己的真实信息而付出成本。当先验概率m>1/2，则如下战略组合是精炼贝叶斯Nash均衡: 在位者:低成本类型，p=4; 高成本类型， p=6; 进入者:当观察到p=4,就―不进入‖;否则进入; 基于判断:p(H|4)=0，p(H|6)=1， p(H|5)?1/2 证明:给定进入者的战略和后验概率，看在位者的选择对高成本在位者若选择p=6, 进入者―进入‖，此时在位者的支付: 7+3=10; 若选择p=5,进入者―进入‖，此时在位者的支付:6+3=9; 若选择p=4,进入者―不进入‖，此时在位者的支付:2+7=9; 可见高成本在位者的最佳选择是p=6. 对低成本在位者若选择p=6, 进入者―进入‖，此时在位者的支付:8+3=11; 若选择p=5,进入者―进入‖，此时在位者的支付:9+5=14; 若选择p=4,进入者―不进入‖，此时在位者的支付:6+9=15; 可见低成本在位者的最佳选择是p=4. 给定在位者的选择和判断，看进入者的选择: 当观察到p=4时，根据进入者的判断m’=p(H|4)=0，进入的期望得益m’*(1)+(1-m’)*(-1)=-1<0，最佳选择是不―进入‖; 当观察到p= 6时，根据进入者的判断m’=p(H|6)=1, 进入的期望得益m’*(1)+(1-m’)*(-1)=1,最佳选择是―进入; 当观察到p= 5时，m’=p(H|5)>1/2，进入者的期望得益m’*(1)+(1-m’)*(-1)=1, 最佳选择是―进入‖ 判断的形成均衡路径上，p(4|H)=0，m’=p(H|4)=0 p(6|L)=0，m’=p(H|6)=1 非均衡路径上， m’=p(H|5)>1/2同均衡策略是相容的。分离均衡此时，在单阶段低成本在位者的垄断最优价格为p=5，但无法将自己与低成本的在位者区分，进入者将“进入”，因此，他用3个单位的现期利润换取下一阶段的4个利润。而高成本在位者单阶段垄断最优价格为p=6，之所以不选取p=4，是因为下阶段的4个利润不足以弥补现期损失5个单位。思考:为什么第二种情况下高成本和低成本在位者的收益都下降了, Milgrom–Roberts垄断限价模型 Milgrom和Roberts (1982)的垄断限制性定价模型(limit pricing model)是信号博弈在产业组织理论中的第一个应用，它也是信号博弈中的一个经典例子。该模型试图解释这样一个现象: 在现实中，有些垄断企业实际上并未按微观经济学给出的最优垄断价(即由边际成本等于边际收益决定的价格)定价，而是低于这种垄断价格。人们对该现象的一种十分自然的可能解释是:垄断企业为了阻止其它企业进入，故意将价格定得偏低，利润薄一些，使其它潜在企业看到无利可图，不进入该行业，从而避免竞争。但这种解释存在的缺陷是:如果垄断企业的成本函数是进入者已知的，那么，这种低价是不可置信的承诺，因为若垄断性的在位者是高成本，对进入者来说无论在位者如何制造假象，它也会进入(因它知道在位者是高成本)。Milgrom和Roberts给出的解释自然就是:可能是因为进入者不知道在位者的成本情况，而在位者就通过用低价来告诉进入者自己是低成本(即使在位者可能实际上是高成本)，进入是无利可图的。模型参与人:两阶段博弈企业1—在位者;企业2—进入者。企业1的战略空间:第一阶段选价格;第二阶段若进入p1 者不进入，则选短期垄断价，若进入，则选古诺博弈均衡价。企业2的战略空间:第二阶段决定是否进入，若进入，与在位者进行古诺博弈。不完全信息假定:企业1有两个可能类型: 高成本H,先验概率为u(H), ,低成本L,先验概率为1,u(H), ,期垄断利润为。记企业1选价格时的短pM(p),,,H,L111 ,,,,,用表示类型的最优垄断价格，表示最大短期pM,M(p)m11m HLHL,垄断利润，其中。假定是严格凹函数。p,p,M,MM(p)1111mm ,,,用和分别表示当企业1为类型时，企业1和2在第二DD12 ,阶段的利润(是扣除进入成本后的净利润)。 D2 HL,设(这样分析才有意义)。是共同的贴现因子。D,0,D22 显然，在完全信息下，当只当1是高成本时，2才会进入。因1 ,,希望保持垄断地位(因)，他想让2知自己是低成M,D11 本，但即使他真的是低成本，他也无法直接达到此目的。 L一个间接办法是定一个低价，但有时即使1是高成本也会p1 如此定一个低价将2阻止在市场外，只要一定条件满足即可。分离均衡在分离均衡中，高、低成本在位者的身份被进入者准确 HHp,p知道，故高成本在位者必选(短期最优价)，且进入1m HH者必进入，故高成本在位者的总利润为。 (M，,D)11 LL设此时低成本在位者选。对此，高成本在位者之所以pp11 不去模仿(此时是分离均衡)，必有条件 HLHHH M(p)，,M,M，,D11111 即模仿低成本在位者在分离均衡中可阻止进入者进入(分离均衡中，当在位者是低成本时，进入者不敢进入)，但其总利润还不如直接暴露自己高成本身份引致进入的利润来得大。记该条件为: HHHLH (1) M，,D,M(p)，,M11111 或 HHLHH (2) M,M(p),,(M,D)11111 L低成本在位者选并能阻止进入(分离均衡中)，其总p1 LLL利润为，若他选短期垄断价，其总利润为M(p)，,M111 LLL，在最坏情况下，进入者进入，，一般有，M，,xx,Dx,D111 LLL故必有。 M，,x,M，,D111 L他所以选而不是短期垄断价，必然是有 p1 LLLLL (3) M(p)，,M,M，,D11111 或 LLLLL (4) M,M(p),,(M,D)11111 条件(1)和(3)的含义 L是低成本在位者的这样一种价格，它低得使高成本模p1 仿无意义，因模仿尽管可阻止进入，却在总利润上比不模仿直接暴露自己高成本身份(从而引致进入)还低;它又足够高，使得低成本在位者自己的总利润比直接选短期垄断价而且造成进入者进入时带来的总利润高。 LL注意:这里原则上并未排除的情形，即低成本在位p,p1m 者直接选短期垄断价时，高成本在位者不敢模仿。但这里 LLLL假定不存在的分p,p离均衡，即p,p。这一假定即是说，11mm Lp不是条件(1)(2)的解，于是有 m HHLHH M,M(p),,(M,D) (5) 11m11 L为了求解，我们给出一种Spence–Mirrlees(分离条件)p1 条件(SM条件) ,HL ,,，，Mp,M(p),01111,p1 或 HL,,M(p)M(p)1111 ,,,pp11 ~~~当(SM)条件成立时，可证明存在区间，使任何都满,,p,p ~L~~足条件(1)和(3)，即构成一个分离均衡价格。另,,p,pp,1 L~可证条件(5)意味着，故为了得到分离均衡，低成本在位p,pm L者需要选一个足够低的价格(低于短期垄断价)使得高pm成本在位者模仿的成本太高。 SM条件是说:改变价格对不同类型企业的利润的影响是不同的。高成本企业比低成本企业更愿意选高价。该条件一般是满足的。假如边际成本为常数，分别为: LHHLCCC,C和，，需求函数为，则 Q(P)1 H,,,M(P)Q(P)HH111,,,，,,, ，，，，，，PCQPQ(P)PC1111,,,PPP111 L,,,M(P)Q(P)LL111,,,，,,,，，，，，，PCQPQ(P)PC1111,,,PPP111 HLC,C因，，故SM条件满足。 Q'(P),01 若成本类型是连续分布的，则SM条件变为 2,M(P,C),,Q(P)，，,,,P,CQ(P),,,0 ,P,C,P,C,P LLLHHLLSM条件使曲线与在空Y,M,M(P)Y,M,M(P)(P,Y)1111111间只交叉一次，见图。 HHLLLL M,M(P)M,M(P)111111 LL ,(M,D)11 HH ,(M,D)11 ~LH~L PP~ PPmm1， P P 垄断限价模型的分离均衡与混同均衡定价区域 ~~~L，，,P,PP显然，所有都满足分离均衡必要条件(2)和(4)。1,,，， ~~~L，，,P,PP下面证明还是分离均衡的充分条件。 1,,，， ~~~L，，,P,PP任给，将证在位者给定下述战略是一个最优战1,,，，略(对应于某一后验概率)。 H,高成本选P,P,1m,在位者战略 L,低成本选P,P11, HL~~，，，，uHP,P,1uHP,P,0后验概率:均衡路径，，(即111m L~，，uLP,P,1)，不难验证，它们满足贝叶斯法则。 11 非均衡路径:为了保证在位者战略是最优的，非均衡路径上的后验概率需要限制在某些范围，一个简单的办法 HL~，，uHP,P,P,1是:令，即观察到非均衡路径上的行动后都11m 认为是高成本，从而选进入，下面证明在位者战略在此后验概率上是最优的。 HHH若是高成本在位者，他选得总利润，他选得总PM，,Dm11 LHLH利润，由条件(1)知前者大于后者，故不会选PM(P)，,M1111 HLL。他若选其它，则由后验概率知进入者会进入，P,P,PP111m HH其总利润不会大于， M，,D11 H故他选为最优。 Pm LLLL若是低成本在位者，他选得总利润，他若选PM(P)，,M1111 HLHLLL得总P利润M(P)，,D,M，,D，由条件(3)知前者大于后m1111m H者，故他不会选P。 m HLP,P,P他若选其它，则给定后验概率意味着进入者进11m LLLL入，他的总利润为，条件(3)也意味着总M(P)，,D,M，,D11111 L利润没有他选时大。 P1 L故是低成本在位者的最优选择。 P1 原在位者战略在给定后验概率下是最优的，故是一个精炼贝叶斯均衡。这里只是给出一个特定的后验概率，与此在位者战略构成精炼贝叶斯均衡的后验概率还有许多。我们得到连续的无穷多个分离均衡，即高成本在位者 ~~~LLH~，，,P,PP选，低成本在位者选任何的，，，，uHP,0P11m,,，， L~，，。到底哪一个是最合理的均衡呢,恐怕应是uHP,P,111 ~L，因它使低成本在位者以最低的成本将自己与高成P,P1 本在位者区分开来，且不影响高成本在位者的利润(高成本 ~HL在位者总是选)，故是“帕累托最优”分离均衡价格。 PP,Pm1 只要，这样的连续分离均衡就存在，但当=0，u(H),0u(H) L低成本在位者就会选短期垄断价(因=0使贝叶斯法则对Pu(H)m 先验概率无影响)，这意味着，信息结构的小小变化就会导致均衡结果的很大不同:只要进入者认为在位者是高成本的先验概率>0，低成本在位者就不得不非连续地(即u(H) ~LL从一下下跳到)降低价格以显示自己是低成本。就PP,Pmm 是说，不完全信息博弈对信息结构是非常敏感的。混同均衡在混同均衡中，进入者从先行动者行动中得不到新的信息，高、低成本在位者又选择相同的价格，则进入者必不敢进入，因为若进入者进入，则高、低成本在位者也知进入者会进入的条件下，他们会分别在进入者给定要进入情况 HL下，选价格P和P，这就违反了混同均衡假定(高、低成本在mm 位者选同一价格)。故进入者得不到新信息下，认为在位者是高、低成本的后验概率分别等于先验概率u和(1–u)，他不敢进入说明有 HL (6) uD，(1,u)D,022 设是一个混同均衡价格。 P1 LL对于低成本在位者，他选的总利润为(在混同PM(P)，,M1111 LLL均衡中)，他选的总利润为，而，他在混同均PM，,xx,D11m ，故有衡中必选P1 LLLL (7) M(P)，,M,M，,D11111或 LLLL (8) M,M(P),,(M,D)11111这就是前述条件(4)(只不过这里是混同均衡价，那里P1 L的是分离均衡价)。 P1 对于高成本在位者，他选混同均衡价的利润为P1 HHH(混同均衡中)，他选的总利润为PM(P)，,Mm111 HH，故有 M，,x,x,D11 HHHH M(P)，,M,M，,D11111或 HHHH (9) M,M(P),,(M,D)11111 ~L，可证明:在条件(5)满足下，在周围存在一个区间P,,P,Pm ~，(见前图)，使所有都是式(8)和(9)的共同解。故是,,P,P,P11 ~~，，混同均衡的必要条件。下面证明还是充分条件。 ,,,,P,PP,P ~，在位者战略:高、低成本在位者都选，，后验概P,,P,P,P11 ~~，，uHP,u(H)，，uHP,P,1率:均衡路径，，不进入;非均衡路径，11~，，uLP,P,0()，进入。 1 HH对于高成本在位者，选时总利润P为，选其它M(P)，,M1111 ''HHHH价时总利润为，由条件(9)知前者大于M(P)，,D,M，,DP111111 P后者，故选最优。 1 LLP对于低成本在位者，选时总利润为，选其它M(P)，,M1111 ''LLLL价时总利润为，由条件(7)知前者大于M(P)，,D,M，,DP111111 P后者，故选最优。 1 ~，注意，还有其它一些后验概率与给定构成精炼贝,,P,P,P1 叶斯均衡。我们得到连续的无穷多个混同均衡。现代博弈论研究中正在寻找额外的理由来去掉其中大多数均衡，从而使合理的均衡保持少数(最好只有一个)，如在分离均衡中， ~LL帕累托最优价为，在混同均衡中，是帕累托优于P,PP,P11m LHH，()的，帕累托优于()，既然“混同”的真正意义P,PPP,P1mmm 是高成本在位者把自己混同于低成本在位者从而阻止进 L入，他们都选大于的价是很不合理的。 Pm 4.2.B斯宾塞就业市场中的文凭信号模型斯宾塞运用信号博弈模型对文凭的功用作了一种博弈论的解释，即文凭具有一种揭示雇员真实能力的信号传递功能(Spence, 1973)。斯宾塞作为三位信息经济学的创始人之一而荣获2001年的诺贝尔经济学奖，他所作出的这一模型事实上开创了广泛运用不完全信息动态博弈描述经济现象的先河。斯宾塞也是信号博弈研究的先驱者之一，他还是最早给出如精炼贝叶斯均衡等均衡概念定义的学者之一。斯宾塞模型是劳动经济学中的一个重要成果，它使我们对教育的功用有更多的认识。模型假定: 1(雇员的类型是其工作能力，自然决定雇员的能力,，以概率q为高H，以概率 1 – q 为低L。 e,Ee,02(雇员发出的信号是其教育水平，记为，。教育的成本为c(H，e)或c( L，e)。假设低能力的雇员与高能力雇员相比，要取得同样的教育水平(文凭)需花费较大的成本，即低能力雇员受教育的边际成本高于高能力雇员，即 c(L, e ) > c ( H, e) >0 ee c c(L, e ) ee c ( H, e) e e 3(企业观察到e，决定雇员的工资w。雇员的收益 w – c( ,，e) 雇员的无差异曲线 I(e, w) = w – c( ,，e) dIde/斜率 k = -= c edIdw/ w I L I H e y(e,，e)为类型为,且教育水平为的雇员的产出。企业的(边际)支付 y(,，e) – w 假设企业之间在劳动市场上是竞争性的，因而在信息完全下利润为零，即w = y( ,，e) w y(H, e) w* H y(L, e) w* L e* e* e LH 具有能力, 的雇员选择教育水平e使得 max w – c(,, e) e s. t. y(,, e) = w **,,yece(,)(,),,一阶条件:，最优解表示为e*(,)，对应的工资,,,ee w*(,) = y[,, e*(,)]。在劳动市场和企业之间是竞争性的条件下， **。 yece(,())(,()),,,,, 现在，我们在不完全信息假定下展开博弈分析。作为信号博弈，该模型在一定的条件下分别存在分离均衡、混同均衡等。对于分离均衡来说，要求低能力雇员不能模仿高能力雇员，即低能力雇员如果模仿高能力雇员取 *得高学历文凭，则即使因此而获取高工资率也不能W(H)补偿其过高的成本，于是有 w*(H) –w*(L)< c[L, e*(H)] – c[L, e*(L)] 或 w*(L) – c[L, e*(L)] > w*(H) – c[L, e*(H)] w y(H, e) w* H y(L, e) w* L e* e* e LH 在有冒充的情形，即存在混同均衡 w*(H) – c[L, e*(H)] > w*(L) – c[L, e*(L)] w w* H w* L e* e* e LH 1(混同均衡只有存在冒充时，才可能有混同均衡。两种雇员选择同一种教育水平ep，公司观察到ep后的断为判～，q是雇员类型为H的先验概率。 PHeq(|),P 支付的工资为 w = qy (H, e) + (1 – q) y(L, e) ppp 对于不在均衡路径上的判断，令 ~ e , eP(H|e),0p 工资支付为 w(e) = y(L，e) e , e p 于是有 qee ,,p～ PHe(|),,0 ee,,P 企业的最优行动选择为 w 在e,e的信息集上,PP W(e),,y(L,e) ee在,的信息集上P, IL w y(H,e) IH qy(H,e)+(1-q)y(L,e) w P y(L,e) *w(L)) ’ e e **” e(L) e=e(H) eP *当时，对于类型为H的雇员，当他选择时，他ee,e(H)pP 所处的无差异曲线为，而当他选择时，他所处的无Ie,eHP 差异曲线为上的点所处于的无差异曲线，显然效用小y(L,e) e于前者，故选为最优的。 p e对于类型为L的雇员，当他选择时，处于无差异曲线p，若他选择，则处于过上的无差异曲线，显然选是Ie,ey(L,e)PL *e最优的，因为选中的e,e最大化支付选择是，过的无e(L)pP **差异曲线在过的[e,w]无差异曲线的下方。显[e(L),w(L)]PP *然，对于图中的，以及图中的无差异曲线和生产函e,e(H)P *数来说，雇员选择信号构成一个混同均衡。从数学e,e(H)P *关系上看，混同均衡并不一定要求，还存在其它e,e(H)P e许多是混同均衡信号。 p 00其他的混同均衡:e: e < e < e,，类似给出公司的判断及p 工资的支付，也构成精炼贝叶斯均衡。仅仅改变非均衡路径上的信息，也可以获得另外的混同均衡e。 p 0 e , e, e , e p ,(H| e) = q e = e p q e > e, *,e其中是上述位于与之间的任一信号。企业战略ee(H)P 为: y(L, e) e , e, e , e p w(e) = w e = e pp w e > e, p 类型为H的雇员选时，位于过的无差异曲线，e(w,e)IPPHP ,,e,e但当他选择但时，位于过的无差异曲线，当他e,ey(L,e)P ,,e,e选择时，位于下方的无差异曲线。故选是最优IeHP的。对于类型为L的雇员，他选时位于无差异曲线上，eIPL ,,e,e但当他选且时，位于过的无差异曲线，当选e,ey(L,e)P ,,e,e时，位于下方的无差异曲线上。故选是最优的。 IeLP 2(分离均衡 (1)不存在冒充时:w*(L) – c[L, e*(L)] > w*(H) – c[L, e*(H)] e(L) = e*， e(H) = e*，此时，企业在观察到信号后的后验LH~~**概率为 P(H|e(L)),0和P(H|e(H)),1 在非均衡路径上的信念规定如下: *, eeH0,()~,P(H|e), ,*,1 e,e(H), 公司支付工资 w (e) = y(L，e)， e < e* H w (e) = y(H，e)， e , e* H 这是精炼贝叶斯均衡。 *对于类型为H的雇员，当他选时，位于无差异曲线Ie(H)H *上;当选，位于无差异曲线下方的无差异曲线上，Ie,e(H)H **故选劣于。当选时，收入为，此时他位于无差ey(L,e)e(H)e,e(H) 异曲线的下方，处于过曲线的较低位置的无差异曲Iy(L,e)H *线上。已知他在时的收入为，其效用也不如选y(H,e)e,e(H) **，所以，他选是最优的。 e(H)e(H) **对于类型为L的雇员，当他选且，收入为e,e(H)eeL,() **，必小于选时的效用，因是他的工资函数为时y(L,e)e(L)e(L) *的最优努力水平。当他选时，收入为，净w,y(L,e)yHe(,)e,e(H)收益即支付为，据图，该净收益(为负)显然小于选y(H,e),c(L,e) **的净收益(为零)。故选是最优的。 e(L)e(L) w y(H, e) w* H y(L, e) w* L e* e* e LH (2)存在冒充时:w*(H) – c[L, e*(H)] > w*(L) – c[L, e*(L)] *我们料想高能力雇员选才能构成分离均衡，在e,e(H)s *ee到之间的教育水平，如果低能力雇员效仿高能力雇e(H)s 员可令企业误认为他是高能力雇员，则低能力雇员有动机如此做。但是，当高能力雇员的信号等于时，低能力雇员es *在模仿高能力雇员选与暴露自己类型的选择之间ee(L)s *是无差异的，可假设此时他选。 e(L) w y(H, e ) s w* H w* L e* e* e e, e LHs 考虑 e, > e。 s 分离均衡: 高能力雇员选择e,，低能力雇员选择e*。 L 公司的判断及工资支付为 ,(H| e) = 0， e < e, ,(H| e) = 1， e , e, w (e) = y(L，e)， e < e, w (e) = y(H，e)， e , e, 这是精炼贝叶斯均衡。混杂均衡一种雇员以确定性选择一个教育水平，另一种随机选择前一种雇员的教育水平或另一个教育水平。考虑:高能力雇员选择一个教育水平eh，低能力雇员以概率, 选择e，以概率(1 – ,) 选择e。q为雇员为高能力类型hL 的先验概率公司观察到eh和eL后的判断 q,(H|e) = hqq，,(1), , (H|e) = 0 L 因，故，其含义为:由于高能力,(|)Heq,qqqq，,,，,,,(1)(1)1h雇员总选择，但低能力雇员只是以概率选择，故一旦ee,hh 观察到被选择，就说明雇员为高能力的概率比先验概率eh 有所提高。当趋于零时，低能力雇员几乎不会与高能力, 雇员混同，于是趋于1，即观察到后几乎可以肯定,(|)Heehh雇员是高能力的。当趋于1时，低能力雇员几乎总是与高,能力雇员混同，故趋于q。 ,(|)Heh 当低能力雇员选择与高能力雇员分离时，有，,(|)0He,eLL ，对低能力雇员来说，给定这种工资率，其则有W(e),y(L,e)LL **最优信号为。所以，必有。低能力雇员在与之间随e(L)e,e(L)L *机选择，据混合博弈最优战略性质有 ee(L)h ** W(L),C[L,e(L)],W,C(L,e)hh *即他在选择与之间无差异，其中。 eW,W(e)e(L)hhh qq(1),, WyHeyLe,，(,)(,)hhhqqPq，,，,(1)(1),, **给定eww，决定一个，若满足 W(L),C[L,e(L)],W,C(L,e)hhhhh y(L,e),W,y(H,e)，则式决定一hhh qq(1),,个唯一的,，否则不存在杂WyHeyLe,，(,)(,)hhhqqPq，,，,(1)(1),, 合均衡。 w w p w* L e* e e e Lhs **给定，为式的解，处于低ew(e,w)W(L),C[L,e(L)],W,C(L,e)hhhhhh **能力雇员通过的的无差异曲线上。 [e(L),w(L)] 是的解，且。所以w,ry(H,e)，(1,r)y(L,e)rHe,,(|)rhhhh P(1,r)。条件等价于，而是分离均衡中w,y(H,e)e,ee,,hhhssr(1,P) 高能力雇员选择的信号。当趋于时，趋于1，故趋于零。ee,rsh 所以，这里考虑的杂合均衡可如下描述: 令 0 ee,,h ,(|)He,,ree ,h, 企业战略为 y(L,e) e,e,hW(e), ,ry(H,e)(1r)y(L,e) ee，,,h, *对于低能力雇员，在下的最优信号为，且e,ee(L)h在下的最优信号为。对于高能力雇员，优于任何其他e,eeehhh信号。

                    本文档为【不完全信息动态博弈】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

不完全信息动态博弈

你可能还喜欢