人工智能中的对抗性搜索

本文概述

对抗性搜索是一种搜索，我们在其中研究当我们尝试超前计划而其他代理商正在针对我们进行计划时出现的问题。

	确定性	机会移动
完美信息	国际象棋, 跳棋, 奥赛罗	步步高, 垄断
信息不完善	战舰, 盲目, 井字游戏	桥梁, 扑克, 拼字游戏, 核战争

完美信息：具有完美信息的游戏是代理商可以观察整个董事会的信息。特工拥有有关游戏的所有信息，并且他们也可以看到彼此的动作。例如国际象棋，跳棋，围棋等。
信息不完善：如果在游戏中代理商没有掌握有关游戏的所有信息，也不了解发生了什么情况，则这类游戏称为信息不完善的游戏，例如井字游戏，战舰，盲人，桥牌，等等
确定性游戏：确定性游戏是那些遵循严格的游戏模式和规则的游戏，并且没有随机性。例如国际象棋，跳棋，围棋，井字游戏等。
非确定性游戏：非确定性游戏是那些具有各种不可预测事件并具有机会或运气因素的游戏。骰子或纸牌会引入这种机会或运气因素。这些是随机的，每个动作的响应都不是固定的。这样的游戏也称为随机游戏。示例：西洋双陆棋，大富翁，扑克等

零和游戏涉及嵌入式思维，其中一位特工或玩家试图找出：

每个玩家都试图找出对手对他们的行为的反应。这需要嵌入式思维或后向推理来解决AI中的游戏问题。

可以将游戏定义为AI中的一种搜索类型，可以将以下元素形式化：

初始状态：指定开始时的游戏设置。
玩家：它指定哪个玩家在状态空间中移动。
行动（一个或多个）：它返回状态空间中的一组合法移动。
结果（s，a）：这是过渡模型，指定状态空间中的移动结果。
终端测试：如果游戏结束，终端测试为true，否则无论如何都为false。游戏结束的状态称为终端状态。
效用（s，p）：效用函数给出游戏的最终数值，该游戏的最终状态为玩家p的终端状态s。也称为支付功能。对于国际象棋，结果是赢，输或平，其收益值为1、0、1 / 2。对于井字游戏，效用值为1，-1和0。

游戏树是一棵树，其中树的节点是游戏状态，树的边缘是玩家的移动。游戏树涉及初始状态，动作功能和结果功能。

示例：井字游戏树：

下图显示了井字游戏的游戏树的一部分。以下是游戏的一些重点：

示例说明：

从初始状态开始，MAX首先开始有9个可能的动作。 MAX位置X和MIN位置O，然后两个玩家交替玩，直到我们到达一个叶子节点，其中一个参与者连续三个，或者所有正方形都填满。
双方都将计算每个节点的最小值，最大值，最小值，这是针对最佳对手的最佳可实现效用。
假设两个玩家都非常清楚井字游戏并发挥出最佳状态。每个玩家都在尽力防止另一个玩家获胜。 MIN在游戏中与Max对抗。
因此，在游戏树中，我们有一个Max层，一个MIN层，每一层称为Ply。 Max放置x，然后MIN放置o来阻止Max获胜，此游戏将继续进行到终端节点。
MIN赢了，MAX赢了，或者是平局。此游戏树是MIN和MAX玩井字游戏并交替轮流的可能性的整个搜索空间。

因此，对抗性搜索maxmax程序的工作方式如下：

在给定的游戏树中，可以从每个节点的最小值最大值（可以写为MINIMAX（n））确定最佳策略。 MAX更喜欢移至最大值状态，而MIN更喜欢移至最小值状态，然后：