博弈论

博弈论学习笔记

限于喜欢 提交于 2020-03-10 18:59:27
博弈论学习笔记 一些概念 组合博弈(combinatorial games) 两个玩家,均可获得完全信息,每一操作均不受随机性影响(例如poker就不是组合博弈) 有偏博弈 两个玩家可以进行的操作有区别,例如象棋和跳棋 无偏博弈 两名选手交替对游戏进行移动,每次一步,选手可以在有限的合法移动集合中任选一种进行移动,双方均知道游戏的完整信息。 对于游戏的任何一种可能的局面,合法的移动集合只取决于这个局面本身,不取决于轮到哪名选手操作、以前的任何操作、骰子的点数或者其他因素。 如果轮到某名选手移动,且这个局面的合法的移动集合为空(也就是说此时无法进行移动),则这名选手负。 游戏中的同一个状态不可能多次抵达,游戏以玩家无法行动结束,且游戏一定会在有限步后以非平局结束,即状态图无环。 大部分的棋类游戏都不是公平组合游戏。 NIM游戏 有N堆石子,每堆石子的数量是 \(a_1,a_2,a_3,...,a_n\) ,合法的移动是”选择一堆石子并拿走若干颗(不能不拿)”,如果轮到某个人时所有的石子堆都已经被 拿空了 ,则 判负 (因为他此刻没有任何合法的移动)。 我们将图上的每一个局面看成图上的一个节点,所有的合法节点形成一个DAG。 P-position:先手必败 N-position:先手必胜 例如3堆石子的NIM游戏 (0,0,0)是必败局面。 (0,0,n)是必胜局面 (0,1,1

博弈论(一):Nim游戏

淺唱寂寞╮ 提交于 2020-03-07 16:21:45
博弈论(一):Nim游戏 从今天开始,我将会用一系列文章介绍博弈论(Game Theory)的基本知识,以OI中可能用得着的为主。当然,我对博弈论的理解还很肤浅,而且我写东西的风格向来都是“个人心得”而非“传道授业”的类型。所以若你想仔细学习博弈论,我强烈推荐加利福尼亚大学的Thomas S. Ferguson教授精心撰写并免费提供的这份教材,它使我受益太多。(如果你的英文水平不足以阅读它,我只能说,恐怕你还没到需要看“博弈论”的时候。) Nim游戏是博弈论中最经典的模型(之一?),它又有着十分简单的规则和无比优美的结论,由这个游戏开始了解博弈论恐怕是最合适不过了。 Nim游戏是组合游戏(Combinatorial Games)的一种,准确来说,属于“Impartial Combinatorial Games”(以下简称ICG)。满足以下条件的游戏是ICG(可能不太严谨):1、有两名选手;2、两名选手交替对游戏进行移动(move),每次一步,选手可以在(一般而言)有限的合法移动集合中任选一种进行移动;3、对于游戏的任何一种可能的局面,合法的移动集合只取决于这个局面本身,不取决于轮到哪名选手操作、以前的任何操作、骰子的点数或者其它什么因素; 4、如果轮到某名选手移动,且这个局面的合法的移动集合为空(也就是说此时无法进行移动),则这名选手负。根据这个定义,很多日常的游戏并非ICG

博弈论

て烟熏妆下的殇ゞ 提交于 2020-03-03 00:56:07
一、巴什博弈 一堆物品有n个,两个人轮流从这堆物品中取物,规定每次至少取一个,最多取m个。最后取光者得胜。 解: 显然,如果n=m+1,那么由于一次最多只能取m个,所以,无论先取者拿走多少个,后取者都能够一次拿走剩余的物品,后者取胜。因此我们发现了如何取胜的法则:如 n=(m+1)r+s ,(r为任意自然数,s≤m),那么先取者要拿走s个物品,如果后取者拿走k(≤m)个,那么先取者再拿走m+1-k个,结果剩下(m+1)(r-1)个,以后保持这样的取法,那么先取者肯定获胜。总之,要保持给对手留下(m+1)的倍数,就能最后获胜。 参考: https://baike.baidu.com/item/巴什博弈/1819345?fr=aladdin 二、SG函数 三、Nim游戏 来源: https://www.cnblogs.com/holaworld/p/12399173.html

关于博弈论中的一硬币正反问题的分析<二>

荒凉一梦 提交于 2020-02-27 05:45:04
  昨天分析了一下硬币正反的问题,其中说到一点是求美女收益期望E(女)=-8xy+3y+3x-1 最大化,当然结果我们是说的一个范围内的变化以及可以针对性的调整。这里再次说明一下,不是简单的求二元函数的最大值,这是在我分析过程最一直在寻求求这个二元函数 x,y在[0,1]范围内的最大值。其实这样子理解是错的,这理如果求出最大值得到的是x,y在一些点上,比如x为1,y为0的时候是收益为2,是最大的,但是在这个博弈的过程中不可能屌丝男都一直出正面,所以我们把y缩小到[1/3,2/5]区间内,这个内再来求最大值吗?也不是,这个范围内一样有最大值,当x为1,y为1/3的时间是这个范围内的最大值,也就是美女的收益是从0到这个最大值(1/3)之间,如果屌丝男一直出正面,美女则单收益期望为1/3,在这个范围内的最大化。但虽屌丝男不仅仅是屌丝男,他还是程序员,他还会调整方案,会变化,他会一直出反面的。如果美女不改变策略,在最后的结果则双方可能不输不赢。   再谈3/8,这个确实不是利益最大化的结果,便是这个是一个最平衡的结果,所以现在能解释清楚为什么美女会选择3/8这个策略,并且这个策略是对手无论怎么调整策略都不会影响到她。所以出现了让屌丝男无论出正面或是反面美女的收益期望都相等,由于当美女的策略一定时,收益期望与男子的策略成线性,所以选择了线上两个点来求解

博弈论--耶鲁大学公开课

最后都变了- 提交于 2020-02-12 02:28:45
博弈论 一.五个入门结论 博弈论研究策略形式 策略形式: 行为影响结果,结果不仅取决于你的行为,还取决于其他人的行为 博弈的要素: people care about(动机、收益) 游戏1. 成绩博弈: 在不被你同桌看到的情况下,在方框中填写字母å或ß,把这看成成 绩的赌注,你们会被随机分成两两一组,你们不知道会和谁分到一组,按如下方法给出你们的成绩: 如果你选å而你的对手选ß,那么你会得到A,而你的对手得到C; 如果你们都选å,那么你们都得B-; 如果你选ß而你的对手选择å,则你会得到C,而你的对手得A; 如果你们都选ß,那么你们都得B+; ⬇️me,➡️pair å ß å B-,B- A,C ß C,A B+,B+ 一. (A,C) -> 3, (B-,B -) -> 0; all evil git(恶魔饭桶,只考虑自己) ⬇️me,➡️pair å ß å 0,0 3,-1 ß -1,3 1,1 严格优势博弈概念:无论别人选什么,如果选å得到的结果严格优于ß,那么å相对于ß是个严格优势策略 二. (A,C) -> 3 - 4(guilty) = -1 , (C,A) -> -1 - 2(angry) = -3; all indignant angel(愤怒天使,考虑对手) ⬇️me,➡️pair å ß å 0,0 -1,-3 ß -3,-1 1,1

博弈论读书笔记(六)博弈扩展式的介绍和静态贝叶斯博弈

狂风中的少年 提交于 2020-02-08 18:07:01
2.4博弈扩展式的介绍 博弈扩展式是对我们之前博弈标准式的一种扩充,将会从以下几个方面介绍: 扩展式图示的举例 扩展式信息集的概念 扩展式子博弈的概念 如图所示表示一个博弈的一个例子 博弈树始于参与者1的一个决策节,这时参与者1要做出一个选择,根据参与者1做出的选择,博弈会进行到不同的分支。最终博弈会达到终点节,且参与者获得对应终点节的收益。 关于信息集的概念 如图所示,是一个囚徒困境的博弈扩展式,虚线代表以上是一个信息集。简单来说,虚线下面的人不知道虚线以上的信息。 之后说并扩展式子博弈的概念。 定义: 始于单节信息集的决策节点(即没有虚线相连的节点)n(不包括第一个节点) 包含博弈树n之下所有决策节和终点节 没有对任何信息集形成分割(即如果n下面有一个n2节点,则和n2在同一信息集的其他决策节点必须在n之下) 给出两个例子 如下图,有两个子博弈 关于第三点这里举个例子,对于下图,只有一个子博弈,因为在2的下面两个分支将两边的三个节点放于一个信息集中,所以2的右边分支不能成为子博弈。 第三章 非完全信息静态博弈 之前两章都讲的是完美信息博弈,也就是双方知道对方收益函数的博弈情况,从这章开始会讨论非完全信息的博弈也叫贝叶斯博弈,这一章主要讨论非完全信息的静态博弈,下一章讨论非完全信息的动态博弈。 其实这两章的最核心的东西其实就是在前两章的情况下加入了关于概率之类的东西

博弈论读书笔记(五)重复博弈

≯℡__Kan透↙ 提交于 2020-02-07 17:29:53
2.3重复博弈 从这里开始,就进入博弈论比较难以理解的地方了。我也不跟着书上的章节走,根据自己的理解和书上的例子来写,如果理解有什么不对的地方,欢迎各位大佬的指正。 首先我们来明晰博弈论到底在讨论些什么: 对于这个问题,前面几章的内容可能对大家会造成一定的误导。因为根据前面几章的例子,我们可以很容易地认为,博弈论就是在讨论在某个规则下,参与者最优的策略和参与者之间达到的平衡。 这句话本身没有错误,但是我们很容易理解为:这个平衡是像最开始那两个囚徒一样,选择“保证对方不会背叛并且自己在此情况下能获得最大利益”的战略所达到的平衡(这句话有点难以理解,不过我相信你能明白我的意思)。例如第一章第一节中囚徒困境双方都选择招认(因为选择合作即不招认,结果可能是被背叛)。 但是一旦进入了重复博弈那么我们就不能只考虑眼前的利益(即保守地只去选择单次博弈的纳什均衡),而要考虑多次重复博弈的总收益。这个时候就需要参与双方共同商定一个“协议”(例如双方说好都选择不招认),这个协议必须是对于双方都有利的(至少由于选择单次博弈的纳什均衡,例如双方不招认总比双方都招认要好),并且协议中会对不遵守规则的进行惩罚,以便于对每个人来说选择合作是最好的结果。 从这里我们就可以理解“博弈论教你如何制定规则的”这句话了。 好了,这一章最核心的思想在这里已经讲完了,虽然我可能说的不是那么清晰

【博弈论】

一曲冷凌霜 提交于 2020-02-05 22:48:58
巴什博奕 只有一堆n个物品,两个人轮流从这堆物品中取物, 规定每次至少取一个,最多取m个。最后取光者得胜。 分析 (1)当n≤m时,由于一次最少拿1个、最多拿m个,甲可以一次拿完,先手赢。 (2)当n=m+1时,无论甲拿走多少个(1~m个),剩下的都多于1个、少于等于m 个,乙都能一次拿走剩余的石子,后手取胜。 上面两种情况可以扩展为以下两种情况: A.如果n%(m+1)=0,即n是m+1的整数倍,那么不管甲拿多少,例如k个,乙都 拿m+1-k个,使得剩下的永远是m+1的整数倍,直到最后的m+1个,所以后拿 的乙一定赢。 B.如果n%(m+1)!=0,即n不是m+1的整数倍,还有余数r,那么甲拿走r个,剩下的是 m+1的倍数,这样就转移到了情况(A),相当于甲、乙互换,结果是甲赢。 例题: hdu 2147 题意: 在一个m*n的棋盘内,从(1,m)点出发,每次可以进行的移动是:左移一,下移一,左下移一。然后kiki每次先走,判断kiki时候会赢(对方无路可走的时候)。 分析: 我们可以把PN状态的点描绘出来: 可以发现 n,m 中有一个是2 的倍数,则 为先手获胜,反之,后手必胜。 code: 1 #include<bits/stdc++.h> 2 using namespace std; 3 int main( ) 4 { 5 int n,m; 6 while(scanf("

关于博弈论中的一硬币正反问题的分析

▼魔方 西西 提交于 2020-02-03 15:16:19
  前两天在看一个纳什均衡的词语时在网上搜索发现一个问题如下 你正在图书馆坐着,一位陌生美女主动过来和你搭讪,并要求和你一起玩个数学游戏。美女提议:“让我们各自亮出硬币的一面,或正或反。如果我们都是正面,那么我给你3元,如果我们都是反面,我给你1元,剩下的情况你给我2元就可以了。”那么该不该和这位姑娘玩这个游戏呢?这基本是废话,当然该。问题是,这个游戏公平吗?   我们分析的主要不是为了答不答应玩的问题,这个当然是要玩了,难得有美女主动搭讪。   在分析这个问题之前先说一下纳什,一个数学天才,获得诺贝儿经济学奖,纳什均衡这一词语普遍存在于博弈论,经济学等著作中。他的一生都是一个传奇,今年的关注是由于网上的提示,今年5月23日纳什夫妇死于车祸,但他的理论和他为社会做出的巨大贡献永远流传于世。   先现看一下网上的(我认为模棱两可)分析,上面的收益如下 (美女\男子) 正 反 正 (-3,+3) (+2,-2) 反 (+2,-2) (-1,+1)   先来一下不靠普的想法,也就是用我们平时学的概率来分析,出现正正,正反,反正,反反都为1/4的概率,所以男子收益E(男)=3*1/4+1*1/4+(-2)*1/2=0,这样子来看很公平的游戏啊。两方不输不赢。   再来分析一下,这里就是为什么说这个问题与纳什均衡有关了,美女会这样子想,如果男子出正反是随机的,那么她肯定会出反面

博弈论重要概念

馋奶兔 提交于 2020-01-27 04:51:55
1.策略型博弈 策略型博弈是由 参与人集合 、 策略集 、 效用函数 组成的三元组。 策略型博弈是同时行动博弈,它描述了每个参与人在面对其他参与人选择的策略时,如何选择自己的策略。即每个参与人的效用不仅取决于自己的策略,也取决于其他参与人的策略。 2.偏好 博弈产生不同的策略组,效用不同,偏好不同,参与人对结果的偏好可以表达为结果集S上的 偏好关系 。 3.效用 参与人的 效用函数 是一个定义在策略集S上的实值函数。每个参与人的效用函数将多维信息(策略组)映入实数来描述偏好。 4.理性 如果某个参与人在追求自己的目标时总能做出决策,那么我们就称他是理性的。 参与人的效用函数能描述自我利益称为自利。自利并不意味着参与人想伤害其他参与人,也不意味着参与人仅关心自己。自利仅意味着每个参与人在结果上有他自己的偏好,而且他一直追求他偏好的结果。 5.智能 在做决策时能充分考虑其他参与人的可能行为并作出最优反应,那么智能参与人是策略型的。 共同知识 :对于某个事实,如果每个参与人知道该事实,每个参与人知道每个参与人知道该事实,如此循环下去,那么该事实就是所有参与人通享的共同知识。 共同知识的一个例子 来源: CSDN 作者: 山东大学-苏苏 链接: https://blog.csdn.net/qq_42289906/article/details/104037702