欢迎访问一起赢论文辅导网
本站动态
联系我们

手机:153 2730 2358
邮箱:910330594@QQ.COM

Q Q:
910330594
网址:http://www.17winner.com
工作时间:
9:00-24:00  

电子通信论文
当前位置:首页 > 电子通信论文
基于名声机制的重复囚徒困境合作博弈分析
来源:一起赢论文网     日期:2013-06-13     浏览数:1482     【 字体:

  引言
  人类社会与其他动物群体的一个重要区别在于人 与 人之间可以通过运用个人理性而达到某种形式的合作 人 与 人之 间 的 合 作 是人类文明社会的基础 关 于 合 作 如 何 形 成的研究具有重大的理论意义和实践价值 已经成为社会科学自然科学乃至计算机科学的研究热点 在每个人都具有自私动 机 的 情 况 下 人们怎样才能通过社会博弈而自发地产生合作?囚 徒 困 境 所揭示的正是这样的问 题 特 里 弗 斯 提出过他自己的见解 并 新 造 了互惠 利 他 主 义 这 个 专 用 术 语 弗 里 德 曼提 供 了 一 个 严 格 的 证 明如果博弈者比较重视自己 未 来 的 收 益 那么合作就能够在不定次的重复囚徒困境中 自 我 实 现但 是 这种直接互惠机制存在着巨大的局限 个体之间必须具有很大的重复交往机会 在 当 今 社 会中一次性的快捷的交往方式逐渐成为主流 个 体 很 难 与 同 一对 手 交 往 多 次 因而直接互惠机制由于缺乏现实合理性而限制了这个理论的应用范围 因 此间接互惠开始受到研究者们 的 重 视 美 国 密 歇 根 大 学 的 于 提 出 了间接 互 惠这 个 概 念并且认为间接互惠是人类道德 伦 理 和 法律 体 系 的 基 础
  后 来又 有 学 者 提 出 间 接 收 益 这个 概 念即一个人现在选择合作的未来收益不 是 来 自 当 前 对局 中 的 收 益 预 期 而是间接来自基于当前合作得到的名声的未 来 对 局 名声机制在间接互惠的研究中处于核心地位诺瓦 克 与 西 格 蒙 德 设计出了一个模型 在 这个 模 型 中 群体中的所有成员都携带着一种基于过去行为的名声 标 记 但 是这个间接收益模型存在一个很大的困难它不能对博弈者因为背叛一个好名声者而采取的背叛策略与博弈者为了惩罚一个坏名声者而采取的背叛策略做出区分要做出这样的区分 名 声 转 换 函 数 从当前的名声转换成将来的 名 声需要参考个体当前的行动和对手的名声与 和 认识到了这一问题 并 提出 一 种标 签 装 置作 为 解 决 方 案
  本文将首先分析囚徒困境中实现合作的潜在可能性然后探讨如何通过名声机制 实 现群 体 内 的 合 作 最后做出简要的总结
  囚徒困境中实现合作的可能性假设
  在一个二人博弈中每个博弈者拥有两种可能的选择合 作 和 背 叛 每种可能选择的预期收益如下表所列行 博 弈 者列 博 弈 者注行博弈者的收益列于前面 且作为博弈一方的 行可以选择合作或者背叛同 时 另 一方列也在合作或者背叛中进行选择这些选择的收益组合形成如上表所列的 种 可 能 结 果 在 这 个 博 弈 中 如 果 双 方都选择合作策略 那么他们都将获得较高收益 这 是对 合 作 的 奖 励 用 表 示如果他们都选择背叛策略那么他们都将获得比较低的收益 遭受对背叛的惩罚 用 表 示如果任何一方在对手选择合作策略时选择背叛策略 那 么 背 叛 者 将 得 到 最 高 的 收 益 这 一 高收益成为背叛的诱惑 用 表 示而 此 时 合 作 者却 得 到 很 低 的 收 益 意 味 着 傻 瓜 的 收 益用 表示在 这 种 收 益 结 构 下 选 择 背 叛 策 略 将 是 占 优 策 略因 为如果对手选择合作策略 那 么此时你选择背叛策略将比选择合作策略获取更大的收益 即如果对手选择背叛策略 那么此时你选择背叛策略仍比选择合作策略获益更多即 因 此在 囚 徒 困 境 的情 况 下无 论 对 方 怎 么 做 自己选择背叛都将是最好的策略同样的逻辑对另一个人也同样适用即无论你如何选择 对 方也一定会选择背叛 这 样将会出现双方相互背叛的情形双方都只能得到较少的收益 这比双方合作所能得到的收益 差 很 多 个体追求最大利益的理性却导致双方实际得到的收益比可能得到的收益少很多这 就 是 所 谓 的 困 境囚 徒 困 境是对一些非常普遍的情形的简单抽象 在 这 些 情形 中从 个 人 的 角 度 考 虑 背叛是最好的选择 但 双 方 背 叛 又会导致很不理想的结果 囚 徒 困 境的 定 义 要 求 这 个 可 能的结果之间保持一定的关系即博弈者不能通过轮流背叛对方来摆脱困境如果互相之间都没有对方的任何信息对 于 背 叛 不 存 在有效的惩罚机制 任何一次轻信都将可能导致损失那 么 无 论是一次博弈还是多次重复博弈背叛都是最好的选择 但 是如果群体中的所有成员都携带着一种基于过去行为的名声标记通过选择合作策略而获得好名声具有好名声的个体在未来的对局中将会获得更大的收益 即一个人现在选择合作策略的好处不是直接来自当前对局中的收益预期而 是 间 接 来自基于当前合作得到的名声的未来对局 在这种情况下博弈者能够预期到背叛的后果 如果他们关心自己未来的收益那么就会出现合作的可能性名声机制的基本概念在诺瓦克和西格蒙德模型最简单的形式中如 果 一 个 博弈者最近选择的是合作策略 那 么 他 将 得 到 一个 好 名 声 如果他最近选择的是背叛策略 那么他将得到一个坏名声群体中个体的基本变量是拥有好名声或者拥有坏名声这两种状 态 假设群体中的个体是成对对局的 并 且 个 体 在 每 次 对局之后的名声取决于他所做出的行动和他与对手在对局之前的 名 声 也 就 是 说一个名声机制的输入变量包括这个个体现 在 的 行 为 他的名声以及他对手的名声 由 于 有 好 名 声与 坏 名 声 之 分而且是成对对局的 因此组合起来就有 种名 声 有 序 对 每个名声有序对都具有特定 的 含 义前一个字母代表对手的名声后一个字母代表自己的 名 声 比 如名 声 有 序 对 就 意 味 着对手拥有一个好名声且自己拥有一个坏名声 每一个个体都有合作 与 背 叛这 两 种 可 能 的 行 为 所以一个名声机制 就 有 种 不 同的 输 入 变 量对 于 每 一 个 输 入 输 出 或 即个体都可能获得一 个 好 名 声 或者获得一个坏名声 因 此一 共 就 有种可能的名声机制 每一种名声机制都可以通过一个表格表示出来 如 表 所 列表当前的名声 自己当前的行为对 方 自 己 合 作 背 叛表 显 示 出 了 的名声组合情况 前两列给出了对局双 方 当 前 的 名 声 后两列给出了自己当前采取一定行动之后所 得 到 的 名 声 当一个个体与一个坏名声者 对 局 时 如表 的 后 两 行 所 示 这时不用考虑他的行为 其 名 声 将 保 持 不变当一个个体与一个好名声者 对 局 时如 果 他 选 择 合 作策略 第 列 那么他的名声将会变好 如果他选择背叛策略 最 后 一 列 那么他的名声会变坏 需 要 注 意 的 是 当 一个好名声者为了惩罚一个坏名声者而选择背叛策略时 他 不会因此被惩罚而获得一个坏名声如 表 的 第 行 最 后 一 列一个坏名声者也不会因为他对另一个坏名声者使用合作策略而获得一个好名声 如 表 的 最 后 一 行 第 列 这 里名 声 机制充分考虑了参与者行为的动机 区分了公正与自私的背叛行 为马尔可夫策略是将 中的每一个名声有序对映射到可能的行为 所得到的策略组合 令 这 个名声有序对的顺序固定不变一个马尔可夫策略可以被描述为 形 如 的 四 元 组 它 的 意 思 是 当名声有序对是时选 择 合 作 策 略 否则选择背叛策略 表 示 总 是选 择 合 作 策 略 表 示 总 是 选 择 背 叛 策 略 表 示 当对方拥有好名声时选择合作当对方拥有坏名声时选择背叛在 状况下的合作恢复自己好名声的手段在 状 况 下 的背叛不会导致自己丧失好名声而给予对手惩罚 这 里 一 共 有种不同的马尔可夫策略名声机制合作博弈的理论模型强 健 均 衡均衡是博弈论的核心概念是指博弈达到的一种稳定状态任何一方都不愿意单独改变自己的策略 最 重 要 也 是 最 著名 的 均 衡 是 纳 什 均 衡 假 设 有 个 人 参与 博 弈在给定其他人策略的条件下每个参与人的选择自己的 最 优 策 略 从而使自己利益最大化 所有参与人的策略构成一 个 策 略 组 合 纳什均衡指的是这样一种策略组合 这 种 策略组合由所有参与人的最优策略组成 即在给定别人策略的情 况 下没有人有足够理由打破这种均衡 如 果 一 个 策 略 组合在所有可能博弈路径上都能达到均衡 那么这个策略组合就被称作完美纳什均衡假设在一个群体中存在着若干个个体个 体 之 间 存 在 无穷的潜在对局轮回 在每个轮回中任意一个个体都将与群体中其他的个体进行对局而且它们在每一个对局轮回之后的名 声 都 会 根 据 名 声 机 制 进 行 更 新 这里个体之间所进行的重复博弈并非在两个特定的个体之间展开而 是 在 这 个群体内的任意两个个体之间进行 另 外在 每 一 个 对 局 轮 回之 后个体不再进行对局的概率为 因 此就平 均 状 况 来 看 每 个 个 体 都 有 次 对 局我们首先考虑仅由一个马尔可夫策略组成的群体的稳定状 态 如果在每一次对局之后 一个马尔可夫策略 做 出 了一个对其自身的最优回应 那 么 这 个 马 尔 可夫 策 略 就是一个完美纳什均衡定 理 对任意名声机制 总是一个完美纳什均 衡且群体的长期收益为证明如果一个个体的对手总是选择背叛策略 那 么 他的 收 益 是 或 者 因 此这个个体未来的收益折算成 当 前 价 值 最 多 为 总 是 选 择 策 略 将会达到这一最大值 如果当前选择策略 则未来收益的价值为因 此选 择 策 略 是 对 策略的最优回应定 理 对 于 名 声 机 制 见 表 如 果那 么 是一个完美纳什均衡且 群 体 的 长期 收 益 为证明相对于对方的策略 对于名声有序对 和来 说同 在 定 理 中 的 证 明背 叛 策 略 是个体的占优策略其 预 期 收 益 为 和 对于名声有序对 当 且仅 当 即 时如 果 后 者 选择 合 作 策 略 那么前者也选择合作策略 是 最 优 的 对 于名 声 有 序 对 当 且 仅 当 即时如果后者选择背叛策略 那么前者选择合作策略 是 最优 的 总 的 来 看我 们 需 要 令代表群体中拥有坏名声的个体所占的比例 则注 为由一个好名声变成一个坏名声的概率 为 由 一 个坏名声变成一个好名声的概率以上两个公式相减得到这里唯一的可稳定状态是 所 以 根 据上 式 得 到 因 此条 件可 以 被 转 变 为 所 以当时 是一个纳什均衡对于一个完美纳什均衡的完全刻画需要一个马尔可夫策略和一个与马尔可夫策略相一致的名声的稳定分布 任 意 给定一个马尔可夫策略作为候选均衡可 以 得 到 一 个 的 矩阵在这个矩阵中由一个好名声变成一个坏名声 的概率为仍 保 持 其 好 名 声 的 概 率 为 由一个坏名声变成一 个 好 名 声 的 概 率 为 仍 保 持 其 坏 名 声 的 概 率 为我 们 用 表示某一轮回群体中具有坏名声的个体所占的百 分 比在下一次对局中 这个比例将会由 变 成显 然 处 于 稳 定 状 态 当 且 仅 当将 被 称 作 是 可 稳 定 的 当且仅当对所有或 者 对 所 有如 果 对 所 有 这 是 一 个 完 美 纳 什 均衡 的稳定状态是一个稳定的策略 在 的 值 不 是 强 健的 情 况 下这是一个完美的均衡 那么把一个马尔可夫策略和一个与之相应的名声稳定分布叫作一个强健的完美均衡 在一个策略的完美均衡中的最大可能收益是 我 们 把任 何 一 个 长 期 收 益 为 的强健完美均衡称作是高效的定 理 在 这 个 名 声 机 制 中 有 个具有唯一的强健完美纳什均衡 并且每个个体在可稳定状态都有一个 坏 名 声 其 余 个名声机制具有高效性的强健完美均衡并且每个个体在可稳定状态都有一个好名声这 个具有高效性的强健均衡的名声机制包括 另外 两 个 是 和 分 别 在 表 与 表 中 表 示 出 来表当前的名声 自己当前的行为对 方 自 己 合 作 背 叛表当前的名声 自己当前的行为对 方 自 己 合 作 背 叛与 的区别仅体现在最后一行 在 中 两 个坏名声者对局时其名声将保持不变 而 在 中 坏 名 声 者如果现在选择合作策略 那么他将会获得一个好名声 在中对 于 是 一 个 强 健 的完 美 纳 什 均 衡 并且群体的长期收益为 这 与具有相同的长期收益与 的区别仅在于第二行 在 中当 坏 名声者与好名声者对局时 如果他选择合作策略 那 么 他 将 恢 复其 好 名 声 而 在 中当坏名声者与好名声者对局时即使 他 选 择 合 作 策 略 也不能得到一个好名声 在 中如果 则 是一个强健的完美纳什均衡并 且这个群体的长期收益为这 个高效的名声机制具有以下两个基本特征 当 两个好名声者对局时 他们所获得的名声取决于他们对行为的选 择如果选择合作策略 那么就获得好名声 如 果 选 择背 叛 策 略 就 获 得 坏 名 声 当一个好名声者与一个坏名 声 者 对 局 时 这个好名声者可以惩罚那个坏名声者而选择背 叛 策 略 而且好名声者不会因此而失去其好名声基 于 名 声 机 制 的强健均衡求解我 们 首 先 把 时 间 进 行 分 段并 编 上 号 而 且 每一个时间段都拥有无穷的对局轮回也 编 上 号由 于 一 个 个 体 在 下 与 一 个 坏 名 声 者 对 局 时 不 论他选择什么行为 其名声都将保持不变 因此对他来说背叛策略 是 最 佳 选 择 也 就 是 说对 于 任 意 马 尔 可夫 策 略 都是相对于马尔可夫策略 和的弱 占 优 策 略 为了使模型简单 将忽略劣势策略 假 定 群 体仅 由 这 种 策 略 组 成 而 且可以把它进一步简化为用 表示按程序运用策略 的博弈者所占的人数 比 例则 对 于 中的任一个策略 用表示个体拥有一个坏名声的概率所 以 就 用 表 示 拥 有一个好名声的比例 用 表 示 运 用 策 略 的 坏 名 声 者 所占 的 人 数 比 例 则所有的博弈者在每个阶段的第一个轮回都会进行对局在每一次对局之后博弈者被剔除不再对局的概率为因 此在一个时间段中博弈者参与对局的预期数量为在 一 个 轮 回 中 当博弈者与一个好名声者对局时他 的 名声 能 够 发 生 改 变 用 表示对局库中在时间段 的 第个轮回的开始使用策略 的坏名声者所占的比例需 要 指 出的 是 最 后使 即 对局库中坏名声者所占的总比例用 和 表 示 采 用 策 略 在 时 间 段 的 所 有 对局轮回的累积收益这 里 和 是 策 略 在 时 间 段 的 起 点 分 别拥有一个好名声和一个坏名声的条件下的累积收益这 是 时 间 段 的所有对局轮回的群体平均收益 策 略在 时 间 段 的平均增长率为虽然增长率是基于每一时间段开始的名声定义的但 是名声会在一个时间段内发生变化 用 表 示 在 时 间 段有一个坏名声的条件下运用策略 它将会在时间段 的 终点也获得一个坏名声的概率用 表 示 在 时 间 段 的 起点有一个好名声的条件下运用策略 它将会在时间段 的终点获得一个坏名声的概率 因 此策 略 在 时 间 段 的 终点拥有一个坏名声的比例为不 考 虑 名 声 采 用 策 略 的 人 数 比 例 为基于派系的名声机制刻画名声机制的刻画是以群体为基础的 但 是 群 体 之 间 是 存在着一定差异的 比如在一些群体内部存在不同的派系本 节就这种情况作专门的讨论 一个派系表示共同分享一个名声机制的一个小群体 从个体的角度来看 一个派系的另一种解释 是一个个体的行为能够被他自己所处的派系的其他成员观 察 到并且这个个体也能观察到这个派系内其他成员的行为所 以个体与处于同一派系内的其他个体对局所得到的名声将会影响到自己今后在派系内对局时的收益 但 是个 体与派系外的个体所进行的对局却不会影响其在自己的派系内 的 名 声 因 此个体对自己的派系之外的对手使用背叛策略 是一个弱占优策略 我们可以通过在所有自己派系外的对局中使用背叛策略 来扩展前面提到的马尔可夫策略用 表 示 派 系 中的一个个体与派系 中 的 另 一 个 个体随机的对局的概率 我们就得到了定理 的 一 个 关 于 派 系的 扩 展定理 对 于 名 声 机 制 如 果那 么 是 一 个 完 美 纳什 均 衡且群体的长期收益为显 然当 时定 理 就 与 定 理 完 全 相 同 了 如 果派系之间正在为珍稀资源而竞争那 么 具 有 最 大 值 的 派 系具 有 最 大 的 生 存 潜 力 因 此对局过程是很关键的 如 果值在派系的大小上是单调的那么其中最大的派系将最终占据支 配 地 位 如 果 值对于一个规模有限的群体是优化的那么几个派系能够共存结 束 语 如何实现合作是合作博弈研究中的一个难点并具有重要的现实意义 我们通过分析发现 处 于 重 复 囚 徒困境下的博弈者存在着相互合作的潜在可能性 但 是这 种 直接互惠机制存在着巨大的局限 个体之间必须具有很大的重 复 交 往 机 会 在 当 今 社 会 中 一次性的快捷的交往方式逐渐 成 为 主 流 个体很难与同一对手交往多次因 而 直 接 互 惠 机制由于缺乏现实合理性限制了这个理论的应用范围 而 名声机制则是突破困境实现合作的一条有效途径 研 究 表 明跟好名声者合作和背叛坏名声者的策略是一个最具吸引力的策略合作可因此最终成功实现并且持续下去 此 外由 于 派系 的 存 在有关名声的信息不能在不同派系顺利流通 这 大 大影响了名声机制的应用 如何使名声机制的功能突破派系的约 束在 更 大 的 群 体 中 发 挥 作 用?这需要有效的信息流通模式将如名声这样的重要信息在各个派系间实现共享 本 文的分析方法给我们提供了一种研究思路 对我们拓展开来研究其他问题具有重要的启发意义
    参 考 文 献罗 伯 特 阿 克 塞 尔 罗 德 合 作 的 复 杂 性 基于参与者竞争与合 作 的 模 型 梁 捷高 笑 梅 译上 海上 海 世 纪 出 版 集 团罗 伯 特 阿 克 塞 尔 罗 德 合 作 的 进 化 吴 坚 忠译上 海上海世纪出版集团

[返回]
上一篇:关于彩色电视机“三无”故障的分析与检修报告
下一篇:参数不确定性的高超声速飞行器自适应反步控制器设计