三九宝宝网宝宝教育学龄段教育

纳什均衡点是什么怎么求

03月15日 编辑 39baobao.com

[什么是国家县域义务教育均衡发展]推进义务教育均衡发展的指导思想是:全面贯彻党的教育方针,全面实施素质教育,遵循教育规律和人才成长规律,积极推进义务教育学校标准化建设,均衡合理配置教师、设备、图书、校舍等...+阅读

纳什均衡的定义:在博弈G={S1,…,Sn:u1,…,un}中,如果由各个博弈方的各一个策略组成的某个策论组合(s1*,…,sn*)中,任一博弈方i的策论si*,都是对其余博弈方策略的组合(s1*,…s*i-1,s*i+1,…,sn*)的最佳对策,也即ui(s1*,…s*i-1, si*,s*i+1,…,sn*)≥ui(s1*,…s*i-1, sij*,s*i+1,…,sn*)对任意sij∈Si都成立,则称(s1*,…,sn*)为G的一个纳什均衡。假设有两个小偷A和B联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯,对每一个犯罪嫌疑人,警方给出的政策是:如果一个犯罪嫌疑人坦白了罪行,交出了赃物,于是证据确凿,两人都被判有罪。如果另一个犯罪嫌疑人也作了坦白,则两人各被判刑8年;如果另一个犯罪嫌人没有坦白而是抵赖,则以妨碍公务罪(因已有证据表明其有罪)再加刑2年,而坦白者有功被减刑8年,立即释放。

如果两人都抵赖,则警方因证据不足不能判两人的偷窃罪,但可以私入民宅的罪名将两人各判入狱1年.关于案例,显然最好的策略是双方都抵赖,结果是大家都只被判1年。但是由于两人处于隔离的情况,首先应该是从心理学的角度来看,当事双方都会怀疑对方会出卖自己以求自保、其次才是亚当·斯密的理论,假设每个人都是“理性的经济人”,都会从利己的目的出发进行选择。这两个人都会有这样一个盘算过程:假如他坦白,我抵赖,得坐10年监狱,坦白最多才8年;他要是抵赖,我就可以被释放,而他会坐10年牢。综合以上几种情况考虑,不管他坦白与否,对我而言都是坦白了划算。两个人都会动这样的脑筋,最终,两个人都选择了坦白,结果都被判8年刑期。 纳什均衡达成时,并不意味着博弈双方都处于不动的状态,在顺序博弈中这个均衡是在博弈者连续的动作与反应中达成的。...

什么是策略形得益向量这是纳什均衡论的概率具体的写法是怎样的

那么什么是纳什均衡呢?简单说就是,一策略组合中,所有的参与者面临这样的一种情况:当其他人不改变策略时,他此时的策略是最好的。也就是说,此时如果他改变策略,他的支付将会降低。在纳什均衡点上,每一个理性的参与者都不会有单独改变策略的冲动。 在囚徒困境中存在惟一的纳什均衡点,即两个囚犯均选择“招认”,这是一稳定的结果。 有些博弈的纳什均衡点不止一个。如下述“夫妻博弈”(或称性别之战)中有两个纳什均衡点。丈夫帕特和妻子克里斯商量晚上的活动。丈夫喜欢看拳击,而妻子喜欢欣赏歌剧。但两人都希望在一起度过夜晚,双方的支付矩阵如下: 丈夫妻子歌剧拳击歌剧(2,1)(0,0)拳击(0,0)(1,2) 在这个“夫妻博弈”中有两个纳什均衡点:(歌剧,歌剧),(拳击,拳击)。

在有两个或两个以上纳什均衡点的博弈中,其最后结果难以预测。在“夫妻博弈”中,我们无法知道,最后结果是一同欣赏歌剧还是一起去看拳击。 是不是所有的博弈均存在纳什均衡点呢?不一定存在纯策略纳什均衡点——所谓纯策略是指参与者在他的策略空间中选取惟一确定的策略。 但至少存在一个混合策略(mixed strategy)均衡点——所谓混合策略是指参与者采取的不是惟一的策略,而是其策略空间上的一种概率分布。这就是纳什于1950年证明了的纳什定理。我们下面将在“警察与小偷的故事”例子中给出混合策略的说明。 我国研究纳什均衡的专家谢识予博士在《纳什均衡论》中用通俗的话表达了纳什均衡含义:给定你的策略,我的策略是最好的策略;给定我的策略,你的策略也是你最好的策略。

这就是说,双方在对方的策略下自己现有的策略是最好的策略。即:此时双方在对方给定的策略下不愿意调整自己的策略。这里的策略包括混合策略。 纳什均衡是博弈论中的重要概念,同时也是经济学的重要概念。诺贝尔经济学奖获得者萨缪尔森有一句幽默的话:你可以将一只鹦鹉训练成经济学家,因为它所需要学习的只有两个词:供给与需求。 博弈论专家坎多瑞(Kandori)引申说:要成为现代经济学家,这只鹦鹉必须再多学一个词,这个词就是“纳什均衡”。由此可见纳什均衡在现代经济学中的重要性。纳什均衡不仅对经济学意义重大,对其他社会科学意义同样重大。我在书后的附录中用数学语言给出了纳什均衡及纳什均衡存在定理。

怎么解释纳什均衡不一定是逆向归纳策略

有两个参与者和一个庄家。参与者每人有一式两张卡片,各印有“合作”和“背叛”。参与者各把一张卡片文字面朝下,放在庄家面前。文字面朝下排除了参与者知道对方选择的可能性1。然后,庄家翻开两个参与者卡片,根据以下规则支付利益: 一人背叛、一人合作:背叛者得5分(背叛诱惑),合作者0分(受骗支付)。 二人都合作:各得3分(合作报酬)。 二人都背叛:各得1分(背叛惩罚)。 用支付矩阵表格展示支付如下(以红和蓝分别表示二参与者): 一般形式囚徒困境的支付矩阵 合作 背叛 合作 3, 3 0, 5 背叛 5, 0 1, 1 以“T、R、P、S”符号表示 合作 背叛 合作 R, R S, T 背叛 T, S P, P 以“胜-负”术语表示 合作 背叛 合作 胜-胜 大负-大胜 背叛 大胜-大负 负-负 简单博弈获得的点数可以得出一些一般化的结论。

T、R、P、S符号表 符号 分数 英文 中文(非术语) 解释 T 5 Temptation 背叛诱惑 单独背叛成功所得。 R 3 Reward 合作报酬 共同合作所得 P 1 Punishment 背叛惩罚 共同背叛所得 S 0 Suckers 受骗支付 被单独背叛所获 若以T(Temptation)=背叛诱惑,R(Reward)=合作报酬,P(Punishment)=背叛惩罚,S(Suckers)=受骗支付,以个人选择得分而言,可得出以下不等式。 T>R>P>S (解:从5>3>1>0获得以上不等式) 若以整体获分而言,将得出以下不等式。 2R>T+S或2R>2P (解:2*3>5+0或2*3>2x1;合作2人共得6分,比起互相背叛的共得2分及单独背叛的共得5分,显然合作获分比背叛高。合作在团体而言是支配性策略。) 而重复博弈或重复的囚徒困境将会使参与者从注重T>R>P>S转变成注重2R>T+S。就是说将使参与者脱离困境。 以上理论是道格拉斯•霍夫施塔特创建的。

著名例子是由塔克给出的“囚徒困境”(prisoners' dilemma)博弈模型。该模型用一种特别的方式为我们讲述了一个警察与小偷的故事。假设有两个小偷A和B联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯,对每一个犯罪嫌疑人,警方给出的政策是:如果两个犯罪嫌疑人都坦白了罪行,交出了赃物,于是证据确凿,两人都被判有罪,各被判刑8年;如果只有一个犯罪嫌疑人坦白,另一个人没有坦白而是抵赖,则以妨碍公务罪(因已有证据表明其有罪)再加刑2年,而坦白者有功被减刑8年,立即释放。如果两人都抵赖,则警方因证据不足不能判两人的偷窃罪,但可以私入民宅的罪名将两人各判入狱1年。表2.2给出了这个博弈的支付矩阵。 表2.2 囚徒困境博弈 [Prisoner's dilemma] A╲B 坦白 抵赖 坦白 -8,-8 0,-10 抵赖 -10,0 -1,-1 价格战博弈 现在我们经常会遇到各种各样的家电价格大战,彩电大战、冰箱大战、空调大战、微波炉大战……这些大战的受益者首先是消费者。

每当看到一种家电产品的价格大战,百姓都会“没事儿偷着乐”。在这里,我们可以解释厂家价格大战的结局也是一个“纳什均衡”,而且价格战的结果是谁都没钱赚。因为博弈双方的利润正好是零。竞争的结果是稳定的,即是一个“纳什均衡”。这个结果可能对消费者是有利的,但对厂商而言是灾难性的。所以,价格战对厂商而言意味着自杀。从这个案例中我们可以引伸出两个问题,一是竞争削价的结果或“纳什均衡”可能导致一个有效率的零利润结局。二是如果不采取价格战,作为一种敌对博弈论(rivalry game)其结果会如何呢?每一个企业,都会考虑采取正常价格策略,还是采取高价格策略形成垄断价格,并尽力获取垄断利润。如果垄断可以形成,则博弈双方的共同利润最大。

这种情况就是垄断经营所做的,通常会抬高价格。另一个极端的情况是厂商用正常的价格,双方都可以获得利润。从这一点,我们又引出一条基本准则:“把你自己的战略建立在假定对手会按其最佳利益行动的基础上”。事实上,完全竞争的均衡就是“纳什均衡”或“非合作博弈均衡”。在这种状态下,每一个厂商或消费者都是按照所有的别人已定的价格来进行决策。在这种均衡中,每一企业要使利润最大化,消费者要使效用最大化,结果导致了零利润,也就是说价格等于边际成本。在完全竞争的情况下,非合作行为导致了社会所期望的经济效率状态。如果厂商采取合作行动并决定转向垄断价格,那么社会的经济效率就会遭到破坏。这就是为什么WTO和各国政府要加强反垄断的意义所在。

污染博弈 假如市场经济中存在着污染,但政府并没有管制的环境,企业为了追求利润的最大化,宁愿以牺牲环境为代价,也绝不会主动增加环保设备投资。按照看不见的手的原理,所有企业都会从利己的目的出发,采取不顾环境的策略,从而进入“纳什均衡”状态。如果一个企业从利他的目的出发,投资治理污染,而其他企业仍然不顾环境污染,那么这个企业的生产成本就会增加,价格就要提高,它的产品就没有竞争力,甚至企业还要破产。这是一个“看不见的手的有效的完全竞争机制”失败的例证。直到20世纪90年代中期,中国乡镇企业的盲目发展造成严重污染的情况就是如此。只有在政府加强污染管制时,企业才会采取低污染的策略组合。企业在这种情况下,获得与高污染同样的利润,但环境将更...

以下为关联文档:

什么是义务教育均衡发展均衡也即“平衡” 是事物发展的一种相对平均的平衡状态。自上世纪 90 年代以来,伴随着许多学者对“效率兼顾公平”原则的质疑,均衡和均衡发展理念逐渐优先、被提出,并被引入各...

什么是纳什均衡怎样达到纳什均衡纳什均衡,Nash equilibrium,又称为非合作博弈均衡,是博弈论的一个重要术语,以约翰·纳什命名。 纳什均衡是一种策略组合,使得同一时间内每个参与人的策略是对其他参与人策略的最...

可不可以说多重纳什均衡下没有严格优势策略均衡纳什均衡是一种策略组合,使得每个参与人的策略是对其他参与人策略的最优反应。 假设有n个局中人参与博弈,如果某情况下无一参与者可以独自行动而增加收益(即为了自身利益的最大...

占优策略和接触这个博弈的纳什均衡(1)从表中可以看出不论厂商B使用何种策略,厂商A采用24小时营业都是更好的(黄色部分 45>40, 60>55),所以厂商A的占优策略是24小时营业 不论厂商A使用何种策略,厂商B采用双优惠券都...

为什么纳什均衡不一定是占优策略简单来说,占优策略是不管对方有什么策略,"我"都有唯一最优的策略,不会随着情况不同改变。而纳什均衡则是,根据对方的选择来决定自己的最优策略,会根据情况而变。所以,占优策略均衡一...

在企业决策中的纳什均衡是什么纳什均衡定义: 假设有n个局中人参与博弈,给定其他人策略的条件下,每个局中人选择自己的最优策略(个人最优策略可能依赖于也可能不依赖于他人的战略),从而使自己利益最大化。所有局...

什么是义务教育均衡发展义务教育均衡发展包括哪些内容义务教育均衡发展是在义务教育阶段,合理配置教育资源,全面提升教师整体素质,缩小学校、城乡、区域间教育发展水平的差距,办好每一所学校,教好每一个学生。 也就是使区域内义务教...

什么是基础教育均衡发展这既是基础教育发展的重大理论问题, 也是基础教育发展的重大政策问题和实践问题。 基础教育尤其是其中的义务教育是政府公共服务的重要组成部分, 是公共财政的重要职能, 政府和...

义务教育均衡发展各项指标标准是什么义务教育均衡发展各项指标计算方式说明 一、小学适龄儿童入学率=适龄儿童中在小学就读人数/适龄儿童人口总数*100%说明: 1、适龄儿童人口总数(校内外学龄人口数) 、适龄儿童中...

推荐阅读
图文推荐