首页 耶鲁大学公开课博弈论笔记(博弈论24讲)

耶鲁大学公开课博弈论笔记(博弈论24讲)

耶鲁大学公开课博弈论笔记(博弈论24讲)博弈论作业（博弈论24讲）数应专业一、1、理性人：指代这一类人，他们只关心自己的利益。2、如果选择a的结果严格优于b，那么就说a相对于b来说是一个严格优势策略。结论：不要选择严格略施策略。3、理性人的理性选择造成了次优的结果4、举例：囚徒困境、宿舍卫生打扫问题、企业打价格战等5、协和谬误收益很重要，“如欲得之，必先知之”6、要学会换位思考，站在别人的立场上看别人会怎么做，在考虑自己受益的同时，要注意别人会怎么选择二、1、打渔问题、全球气候变暖与碳排放问题2、博弈的要素：参与人、策略集合、收益...

博弈论作业（博弈论24讲）数应专业一、1、理性人：指代这一类人，他们只关心自己的利益。2、如果选择a的结果严格优于b，那么就说a相对于b来说是一个严格优势策略。结论：不要选择严格略施策略。3、理性人的理性选择造成了次优的结果4、举例：囚徒困境、宿舍卫生打扫问题、企业打价格战等5、协和谬误收益很重要，“如欲得之，必先知之”6、要学会换位思考，站在别人的立场上看别人会怎么做，在考虑自己受益的同时，要注意别人会怎么选择二、1、打渔问题、全球气候变暖与碳排放问题2、博弈的要素：参与人、策略集合、收益3、如果策略a严格劣于策略b，那么不管他人怎么选择，b总是更好的选择4、军队的入侵与防卫问题5、所有人都从1到100中选个数字，最接近所有人选的数字的均值的2/3者为胜，这个数字是多少呢？作为理性人，每个人都会选择67（100*2/3）以下的数，进一步假设你的对手也是理性的，你会选择45（100*4/9）以下的数……依据哲学观点，如果大家都是理性程度相当的，那么最后数字将为1，然而结果却是9，这说明博弈的复杂性6、共同知识与相互知识的区别三、1、利用迭代剔除法领悟中间选民问题2、迭代剔除法就是严格下策反复消去法，不断地把劣势策略剔除出去，最后只剩下相对优势的策略3、中间选民问题就是，在两党制中，政党表述施政纲领要吸引位于中间位置的选民，他们认为在选举中处于中间标度可以吸引左右两边的选民，并以此获得胜利。4、中间选民问题理论成立的条件是有两个参与人；政治立场能使选民相信。5、由此延伸出来的还有加油站选址问题，两家加油站不是在不同的路口选址，而是在不确定哪个位置较佳的时候会选在同一处，这也是“中间选民定理”的凸显6、在迭代剔除法不能运用时，比如说该博弈中博弈方1和2均没有严格下策，可以用二维坐标系画出选择策略之后的收益分布四、1、罚点球：一个经过模型简化的点球模型：罚球者可以选择左路，中路，右路3种路线去踢点球，门将可以选择向左扑救或者向右扑救（门将没有傻站着不动的option）。罚球者的收益很容易理解出来，其结论是，无论什么时候，罚球者向中路踢都不是一个最优的选择。（当门将向左扑的概率大于50%时，球员向右踢比较好；反正同理）。将其推广：2、不要选择一个在任何“信念”(belief)下都不是最优策略的策略。3、这里的信念(原文是belief)并不是指门将会向左扑或者向右扑，而是指概率。我的理解是对中庸之道的批判。所以本例中，虽然罚球者的3种策略里没有劣势策略，不过还是可以用以上原则剔除掉一个策略。4、上述模型忽略的2个地方，①一名惯用右脚的球员，他向左踢和向右踢的准确率是不同的（踢过球的童鞋们都有这种体会，右脚球员从左侧进攻射门的舒适度比从右侧射门要好很多）。②门将可以选择在中路(TOBECONTINUED)五、1、纳什均衡（简称NE）定义2、学习NE的动机：不为当时做出的决定后悔，因为已经采取了最佳策略。3、任何参与人都严格不会改变策略，改变策略严格不会使参与人获得增益。4、其他参与人不改变行为的前提下，自己改变行为并没有任何好处。5、严格劣势永远不是最佳策略，最佳策略才可以出现NE。6、博弈会朝着趋向于一个均衡的方向自然发展，结果不断趋向一个NE7、较劣的不投资均衡相当于较优的NE处于帕累托劣势8、协调之所以能达成在于他不同于囚徒困境，它没有去说服人们采取一个严格劣势策略。六、1、举一个例子“一起看电影”，它的博弈学名叫“性别大战”，属于协调博弈，但是不同的参与人偏爱不同2、古诺的双寡头模型，讲的是同一个市场中只有两家公司互相竞争，该博弈介于完全竞争和垄断的两种极端情况之中，所以使得该博弈变得很有趣，在该博弈中参与人是：两家公司，策略是：生产同质商品的产量，q1、q2表示策略，生产成本；c*q，边际成本实常数c，市场价格：p=a-b*（q1+q2），可以画出需求曲线，收益：u1=p*q1-c*q1，垄断产量：（a-c）/2b完全竞争产出：（a-c）/b古诺产出：（a-c）/3b3、它与合伙人博弈及投资博弈都不同，它不是策略互补博弈，而是策略替代博弈，就是我的策略实施的越多，你的策略就实施的越少4、有没有使市场利润达到最大化的双方的产量？当第一家公司产量为垄断产量时或第二家公司产量为垄断产量时，市场利润达到最大化5、当两家公司得产量为（a-c）/3b时，此时整个行业的总产出为2*（a-c）/3b，而完全竞争产量为（a-c）/b，，垄断产量为a-c）/2b，所以古诺产出介于两者之间。七、1、介绍了伯川德模型，该博弈中参与人：生产相同的产品的两个公司，成本是固定的边际成本，生产1个单位产品消耗成本c策略：定价，该例中用1p代表公司1的价格，用2p代表公司2的价格，注意此处不同于前面课程用s来表示参与人的策略，2、家庭作业，介绍了线性城市模型，一个路贯穿城市，两个公司分别坐落在0、1点，消费者y到公司1的距离为y，到公司2的距离为1-y，假设每个消费者买且只买一个产品。消费者会选择对他而言总成本最小的例如：在y点的消费者，如果从公司1购买则他们支付21pTy，产品的价格1p，和交通成本2Ty；到公司2购买则需要支付211pTy，交通成本以距离的平方的速率增长。3、候选人选民模型，首先做出一些假设，假设选民在线上平均分布，候选人数目不固定，候选人不能选择他们的政治立场，每个选民都是一个潜在的候选人，且选民会将选票投给离他最近的候选人。在该博弈中参与人：选民策略：是否参选（选民将选票给与最近的候选人，得票最多者当选，平局掷硬币）收益：获胜赢得奖励B，参选付出成本C，且B>2C；若选民不参选获胜者的立场距离该选民越远，则该选民将承受越重的负面效应，若该选民在线上X点，获胜者在Y点，则承担XY的成本，两点间距离的负向效应，也就是对方当选后给未参选的选民造成郁闷程度。八、1、原有左派1人和右派1人两派系，原本各占一半优势，如果左派又出现一个候选人，则左派将失去优势，右派获胜反之，右派出现新的候选人，亦可同理分析；2、原有极左、极右两人进行较量各占一半优势时，如果新进候选人持中立态度，则他/她有可能会成为获胜者；3、如果两个候选人极左、极右，则会出现新的候选人；4、种族隔离：大个子、矮个子选择居所问题：至少有三个纳什均衡存在，①是大个子住甲城，矮个子住乙城，②是大个子住乙城，矮个子住甲城，③混居且甲乙两成各占一半人口。其中①②为稳定均横，③为弱均衡；还有可能会出现一个均衡，那就是所有人选择了甲城/乙城，后被重新随机分配，这样的结果会趋于混居。5、一些看似不起眼的博弈规则可能是很重要的条件，有可能在短时间内说明问题，尤其在建模过程中不可忽视之6、不可轻易的根据可观察的东西来武断的下定义，比如说不能因为看到种族隔离，就认为人们喜欢种族隔离，它的存在可能与个人的偏好无关7、石头剪刀布游戏没有纯策略纳什均衡，在玩家双方均以（1/3,1/3,1/3）的混合策略选择时，才会出现唯一的纳什均衡九、1、混合策略的收益就是每个纯策略预期收益的加权平均值，该加权平均值一定位于混合策略所包含的纯策略预期收益之间2、如果一个混合策略是你的最优策略，那么该策略中的所有纯策略本身也都是最佳策略3、一个混合策略（P1*，P2*，……Pn*），是一个混合策略NE，当且仅当对任意参与人i，在面对P-i*时他的混合策略Pi*，是该参与人的BR4、混合策略在网球比赛中的应用：①本博弈不存在纯策略纳什均衡②如果V的混合策略均衡是纳什均衡，则策略L与R的预期收益相等，类似的，如果S的混合策略均衡是纳什均衡，则策略l与r的预期收益相等③混合策略纳什均衡NE：V（0.7,0.3）S（0.6,0.4）④如果S防左的概率大于0.6，那么V的BR是把球打向右侧如果S防左的概率小于0.6，那么V的BR是把球打向左侧十、1、我们只需考虑改选纯策略是否严格有利即可，如果不存在改选纯策略的严格有利改变，那么也就不存在改选混合策略的严格有利改变2、不存在改变纯策略的严格有利改变，则任何一个纯策略的收益都与混合策略的收益相等3、例子①applepicking摘苹果②YaleRepandseeplay耶鲁剧院去看戏③性别大战④税收问题纳税人的收益：对均衡纳税意愿有影响，决定着纳税人的混合策略是审计员的收益，不改变审计员的收益，当然也就不会改变纳税人的均衡混合策略。十一、1、进化论（Evolution）博弈论对生物学的重大影响，尤其在动物行为学中把基因看成策略，把遗传适应性当做收益，好的策略使种群不断壮大，即有适合基因的个体会繁衍，带有不适合基因的个体会灭绝。将动物的行为（策略）看做是天生，而不是自由选择简化模型，专注于种内竞争，通过双人对称博弈来进行研究，很大的种群，采取的策略与生俱来，对其进行随机配对。即采取相对成功策略的个体数量会增长，相反则会减少。不存在基因的重新分配。结论：①自然选择的进化结果是很糟的②如果一个策略是严格劣势策略，那么它就不是ES2、一个经济学案例：假设市场中存在这样的公司，这些公司并不关心什么策略能最大化利润，什么策略能尽可能降低成本，它们可能毫无科学根据地选择策略，在竞争激励的市场环境下，只有那些成本较低但利润颇丰适应环境的公司才能得以生存下来。公司倒闭和基因灭绝道理是类似的。十二、1、判定ES的方法：第一检验，对称NE（a，a）第二检验，是否是严格NE？（a，a）不是严格NE第三检验，a在偏移时的收益2、社会传统的进化（靠左行车还是靠右行车）可以有多种进化稳定的社会传统存在；社会没有绝对的高效率，习惯没有必要一样好3、自然界中混合均衡的两个解释①基因本身是随机的②稳定混合也意味着在ES中，以这种比例稳定存在4、鹰—鸽之争十三、1、帽子里的钱2、顺序博弈参与人2在作出决定之前知道参与人1的决策，且参与人1知道这种情况。…………关键问题是作出预测，沿着树形图向下看，站在后行动参与人的立场上思考，看下级参与人会有什么动机，找到他们的BR，再根据树形图倒回来。即向树的分枝看，然后在回到树的主干上来3、逆向归纳法4、希望得到一个更好的结果，某种动机却阻止我们达成更好的结局，称之为道德风险。典型的道德风险：选择限制项目的规模，或者说贷款额度，通过降低规模来降低被骗的风险。5、承诺（commitment）减少可选策略而改变其他人的行为，改变不了其他人的行为则毫无意义。十四、1、介绍了斯塔克伯格模型，探寻是先下手为强，还是等其他决策者决策后再决策更有优势，然后采用逆向归纳法来解决，得出结论，在斯塔克伯格模型下，厂家1不需要知道厂家2的产量也能有理由超过古诺产量继续生产，,因为这可以迫使对手减产，对厂家1是有利的，并且通过分析可以得出厂家1的利润将会高于古诺模型中的利润（双方取到纳什均衡解），而厂家2的利润将会低于古诺模型下取得的利润，还知道总生产量会上升，（视频中通过纯数学方法证明了上面所讨论的结论）。2、举了nbc和梅铎两家报纸公司建设厂房的例子，假设梅铎雇了间谍去nbc，并且nbc也知道有间谍，则nbc会选择建设一个很大的报纸厂房，说明有时获得更多的信息并不有利于决策，但是生活中也有很多后行者得利的例子，比如玩“石头，剪子，布”游戏时，大家都想在后面出手，除非你想输，在比如买家具，我可以让邻居先买，看他用的情况然后我在决定买不买，等等3、斯塔克伯格模型是一个先行者占优势的例子，完了“nim”的游戏，有两堆石头，有两个玩家，他们轮流去掉两堆石头里的石头，谁得到最后一个石头谁就获胜，这是一个既有先行优势，也有后行优势的博弈。（如果两个玩家都会玩这个游戏时，永远不要在两堆石头相等时获得选择权，如果你先选，就让两堆石头相等）。十五、1、策梅洛定理（Zermelotheorem）两个参与人，完全信息博弈，博弈有限节数三个结果参与人1win；loss；tie参与人1有赢策略，不论参与人2如何应对参与人1有平局策略，不论参与人2如何应对参与人2有赢策略，不论参与人1如何应对可以用数学归纳法证明之2、举例：Marienbad石子阵列，N行M列，可供选择的策略，被选中的点，其右、上的所有石子被拿走。参与人交替进行选择，拿到最后一个字的人输，根据策梅洛定理，无论N、M等于多少，此博弈都有解。4、所谓完全信息博弈就是在任意一个节点上或者说每个节点上被轮中的参与者，都知道自己处在整个博弈的哪个节点的博弈。这也暗示着，参与者知道如何到达该节点。十六、1、一个例子：Ent公司可以选择是否进入Inc公司的行业，Inc可以选择是否发动对Ent的反击。结论：不要相信声称会反击的人一定会反击；声称反击的人做到恐吓对手是建立在不可信的威胁之上的。2、对于上个例子，加入一些条件，一个公司，处于垄断地位，垄断了十个不同的市场，假如它们有顺序性，垄断者会对第一个尝试进入者发起攻击，从而威慑后面观望者，对于最后一个市场垄断者不会发起进攻，因为没有建立威慑的动机了。因为不可能去阻止第十个尝试进入者，所以第九个尝试进入者就成了最后一个，逆向归纳所有人都该进入市场。结论：①即使有1%的概率垄断者是疯狂的，他就可以用疯狂的名义吓退进入者；②即使在十个市场都处于垄断地位，人们也会进入并与之竞争，连锁店博弈。3、例子：决斗（投海绵）有时等待是一种好策略十七、1、参与人1，参与人2参与人1向参与人2给出一个分享1美元的条件，参与人1获得s，参与人2获得s-1，记作(s，s-1)。参与人2有两个选择，接受则按(s，s-1)分配，拒绝(0，0)结论：即使在非常简单的游戏中，使用逆向归纳的时候也必须小心。在现实世界当中，人们除了明显的收益还会关心其他东西。2、两期议价博弈模型中，由于资金具有时间价值，所以在博弈中有一个折损δ存在3、通过三期议价博弈得出以下结论：（1）轮流提议的议价过程，在特殊条件下，会得到平均分配，这需要满足三个条件①可能会出现无穷次议价②δ1可视为无折损3有相同的折损原因δ1=δ2（分析在折损率不同的情况下的结果）（2）快速给出的提议被接受，没有议价环节十八、1、定义：1完全信息博弈：书上所有的信息集合均只有一个节点的博弈，否则则是不完全信息博弈②纯策略：参与人i的纯策略是一个完全的行动计划，它告诉参与人i在他的每一个信息集合一定要如何行动。2、子博弈：子博弈是博弈的一部分，它满足以下三个条件。①子博弈必须从单个节点开始②它包含该节点的所有后代节点③它不能破坏任何信息集合3、如果（s1*，s2*，……sm*）能在任何一个字博弈中达到纳什均衡，那么它就是一个子博弈完美均衡；要成为一个子博弈完美均衡，它本身就是一个纳什均衡。十九、1、策略：它告诉每个参与人在不同信息集合下应该如何行动，即使有些博弈中信息集合无法获得，策略仍然为参与人在当前状况下提供指示。2、介绍人博弈：大卫倾向加迪斯的《冷战》妮娜倾向斯宾塞的《中国》3、一个投资案例，运用会计学（考虑折算、成本等）计算的结果与经济学（考略边际收益等于边际成本）计算的结果类似，然而运用博弈论得出的结果却与之相反。原因分析：会计师的答案，他们忽略了因为成本的降低，厂家会调整自己的产量；经济学答案的局限在于仅仅考虑了自身产量的变化。博弈论告诉我们每一个参与人的策略要依赖于其他参与人的策略。二十、1、决斗博弈两个参与人，每个阶段每个参与人可以选择攻击（Fight）或者退出（Quit），同时给出选择，直到一方退出后立即结束。如果对手退出，我方得到奖励1；如果双方都选择攻击，那么每人付出代价-0.75；如果双方都选择退出，那么每人获得0.2、结论：在消耗战为背景的博弈中，在理性参与人中有个一个均衡，更进一步说是一个合理的常识，即每个人都很理性，也知道其他人也是理性的，但却存在这样一个平衡，使人们不仅选择攻击而且一直攻击下去，在每个阶段他们有可能选择攻击。3、注意：本博弈分析中用到的方法是分析子博弈的收益，进行不断地回溯分析。二十一、1、主要讲重复互动（介绍了它的概念），重新讨论了囚徒困境，它的得益矩阵为合作背叛合作2,2-1,3背叛3，-10,0，考虑2阶段博弈，采用逆推归纳法，可以知道在第二阶段双方都会选择背叛，回到第一阶段，得益矩阵变为合作背叛合作2+0,2+0-1+0,3+0背叛3+0，-1+00+0,0+0因为没有一个将来的奖励，所以在第一阶段也会选择背叛。通过这个例子强调重复互动博弈的重点在于明确的未来会为现在的行动提供激励。并且提供了一种判别能否持续合作的方法，即当背叛的收益奖励的收益—惩罚的收益时，合作能持续下去。2、结论：如果一个重复的阶段博弈，有不止一个NE，可以通过预测不同策略造成的结果来未下一次行动提供激励，激励可视为奖励或者惩罚。3、介绍了恐怖和扳机策略，该博弈的特点是无法确定博弈何时结束，没有明确的最后阶段，那么参与人便无法确定在什么时候背叛来赢得最后阶段的更高收益。并且用1中提到的方法检验持续合作是否是纳什均衡。二十二、1、权衡良好行为带来的前景，和不良行为招致的损失，从而抑制我们作弊的念头。现在作弊的利益今后合作的利益承诺—今后欺骗的代价需要承诺和威胁都真实可信。今天的威胁不可信，因为明天仍然会遵循NE，那么今天的合作就没了基础，保持威胁真实可信的方法是关注SPE——特点每一个子博弈中都有NE，利用这个特点来寻找合作机会。2、一个一般化的结论：如果一段持续关系能为今日的好行为提供激励，那它有助于让这段关系有个持续下去的高概率。3、委托—代理关系的条件约束：今天背叛的诱惑继续关系值（继续雇佣）—终止关系值（解雇）得出结论：为了在这些持续关系中获得良好行为，必须要在明天提供一定的报酬。如果你放到明天的砝码，或者说，如果明天继续下去的概率比较低，那么这个报酬就要比较高。二十三、1、回顾了古诺模型，介绍了信息披露的过程，即如果我的产品价格低时，我应该向其他公司公布我的价格，如果我的价格适中，我也应该选择向其他公司公布价格，不然的话，他们就会认为我的产品价格是最高的，此时，产品价格最高的公司也就会自然暴露了。它揭示了一个结论：缺乏信息传达途径或者说企业不想公布一些信息，这些现象本身也在传达着信息。2、介绍了传递信号有成本的模型，优秀雇员（G）绩效50，大约有10%的人是优秀雇员，差劲雇员（B），绩效30，大约有90%的人是差劲雇员，企业支付给优秀员工薪水—50；差劲雇员—30，对于无法评价的一般员工支付32（50*10%30*90%），找出了均衡，并且得出判断优秀员工与差劲员工需要取得MBA时间至少为2年，通过这个例子说明，一个成功的信号要能区别开不同的人需要成本的差距足够大，（一个好的信号不一定与很高的成本有关）。3、上述模型的缺陷：（1）模型中没有学习的概念，通过学习没有提高雇员的生产力（2）教育失去了社会用途，仅仅成为了区别优秀与差劲的工具（3）教育加剧了不平等二十四、1、拍卖，介绍了公共价值（V）和私人价值（iV）的概念，如油井就属于公共价值，蛋糕（纯消耗品）属于私人价值，现实生活中大多数是介于公共价值和私人价值之间。2、通过竞拍罐子中硬币的游戏，介绍了赢家的诅咒，即最后胜出的人出价远高于物品的真实价值，并且视频中还讲述了为什么会存在赢家诅咒，及如何避免赢家诅咒，主讲人说为了避免做出获胜就后悔的决定，在公共价值拍卖的场合中，大家应该这样出价即当作自己赢了去出价，出的价格低于自己的估计价值。3、介绍了四种拍卖方式：（1）首价密封的拍卖机制（2）第二价格密封的拍卖机制（赢家支付第二高的出价），也叫维克瑞拍卖（3）公开增价拍卖（4）公开降价拍卖，也叫荷兰式拍卖。并说明从策略的角度看，第四种拍卖方式与第一种拍卖方式是一样的。

                    本文档为【耶鲁大学公开课博弈论笔记(博弈论24讲)】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：￥17.0 已有0 人下载

立即下载

耶鲁大学公开课博弈论笔记(博弈论24讲)

你可能还喜欢