日本麻将人工智能suphx论文中文译文（3）Suphx概述

您所在的位置：网站首页 › hx中文意思 › 日本麻将人工智能suphx论文中文译文（3）Suphx概述

日本麻将人工智能suphx论文中文译文（3）Suphx概述

#日本麻将人工智能suphx论文中文译文（3）Suphx概述| 来源: 网络整理| 查看: 265

在本节中，我们首先描述Suphx的决策流程，然后介绍Suphx中使用的网络结构和特征。

2.1决策流程

由于麻将游戏规则的复杂性，Suphx学习了五种模式来处理不同的情况：弃和模式、立直模式、吃模式、碰模式和杠模式，如表1所示。除了这些已有的模型外，Suphx还采用了另一种基于规则的和牌模型来决定是否和牌。它基本上是检查和牌是荣和还是从自摸，然后根据以下简单的规则做出决定：

•如果这不是比赛的最后一轮，宣布并赢得这一轮；

•如果这是比赛的最后一轮，

–如果和牌后，全场累积的点数是四名选手中最低的，见逃；否则，宣布并赢得回合。

麻将玩家需要采取行动的情况有两种，我们的AI Suphx也需要采取行动（见图1）：

•摸牌情况：Suphx从牌山摸一张牌。如果它的手牌可以与摸到的牌形成一个和牌型，那么和牌模型将决定是否宣布和牌。如果是的话，就宣告结束了。否则，

1.杠步骤：如果手牌可以和摸到的牌行成暗杠或加杠，则杠模型决定是暗杠还是加杠。如果不是，则转到立直步骤；否则，有两个子案例：（a）如果是暗杠，则进行暗杠并返回到摸牌情形。（b）如果是加杠，其他玩家可以使用此加杠牌赢得回合。如果其他玩家赢了，则回合结束；否则，使加杠返回到摸牌状态。

2.立直步骤：如果手牌可以用摸到的牌立直，则立直模型决定是否声明立直。如果不，则转到放弃步骤；否则，声明立直，然后转到切牌步骤。

3.切牌步骤：切牌模型选择要丢弃的牌。在那之后，轮到其他玩家采取行动，或者荒牌流局。1

•其他弃牌情况：其他玩家弃牌。如果Suphx可以用这个牌组成和牌型，和牌模式决定是否宣布和牌。如果是的话，就宣告结束了。否则，它会检查舍牌是否可以吃碰杠。如果不是，则轮到其他玩家采取行动；否则，由吃碰杠模型决定采取什么行动：

1.如果三个模型都不建议采取任何行动，则轮到其他玩家采取行动，或者荒牌流局。

2.如果建议一个或多个操作，Suphx会以最高的可信度分数（由这些模型输出）提出操作。如果提议的行动没有被其他玩家的高优先级行动打断，Suphx会采取行动，然后在第一种情况下进入切牌步骤。否则，提议的操作将被中断，而轮到其他玩家执行操作。

2.2特征和模型结构

由于深度卷积神经网络（CNN）具有强大的表示能力，并已在国际象棋、shogi和围棋等游戏中得到验证，Suphx也采用深卷积神经网络作为其策略的模型结构。与围棋和国际象棋等棋类游戏不同，麻将游戏中玩家可以获得的信息（如图2所示）并不是自然的图像格式。我们精心设计了一组特征，将观察到的信息编码成可以被CNNs消化的信号。

图2：状态示例。麻将的状态包含几种类型的信息：（1）牌集，包括手牌、副露牌和宝牌；（2）废弃牌的顺序；（3）整数特征，包括四个玩家的点数和牌山中剩余的牌数；（4）分类特征，包括id、场次、本场数，和立直棒供托

由于日本麻将中有34种不同的牌，我们使用多个34×1信号来表示一个状态。如图3所示，我们使用四个信号来编码手牌。副露牌、宝牌和牌河序列被类似地编码到其他通道中。分类特征被编码成多个信号，每个通道都是0或1的全部。整数特征被划分成存储桶，每个存储桶使用0或1的全部通道进行编码。

除了直接观察到的信息外，我们还设计了一些外观

图3：手牌的编码。我们将玩家手牌编码为四个信号。共有四行34列，每行对应一个通道，每列指示一种牌。第n个通道中的第m列表示手上是否有第m个类型的n个牌。

前面的特征，这表示如果我们从当前的手牌中丢弃一个特定的牌，然后从牌山摸牌以替换其他手牌，来计算获胜的概率和打点。在日本麻将中，一个14枚牌的和牌有四个面子和一对雀头。总共有89种面子和34种雀头，这导致了大量不同的和牌型。此外，根据复杂的得分规则，不同的牌导致本轮比赛的不同打点。 2不可能列举出不同的切牌摸牌行为和和牌的所有组合。因此，为了降低计算复杂度，我们在提取前瞻性特征的同时进行了几个简化：（1）我们执行深度优先搜索以找到可能的和牌型。（2）我们忽略对手的行为，自己只考虑切牌和摸牌的行为。通过这些简化，我们获得了100多个前瞻性特征，每个特征对应一个34维向量。例如，一个特征表示放弃一个特定的牌是否可以获得12000的打点，用从牌山摸的牌替换3个手牌，或者其他家的舍牌。

在Suphx中，所有的模型（即discard/Riichi/Chow/Pong/Kong模型）使用相似的网络结构（图4和5），除了输入和输出层的尺寸（表2）。discard模型有34个输出神经元对应于34个唯一的牌，Richii/Chow/Pong/Kong模型只有两个输出神经元对应于是否采取某种行动。除了状态信息和前瞻功能外，Chow/Pong/Kong模型的输入还包含关于Chow/Pong/Kong的牌的信息。请注意，我们的模型中没有池层，因为通道的每一列都有其语义，池将导致信息丢失。

【本文地址】

日本麻将人工智能suphx论文中文译文（3）Suphx概述

日本麻将人工智能suphx论文中文译文（3）Suphx概述

今日新闻

推荐新闻

日本麻将人工智能suphx论文中文译文 （3）Suphx概述

日本麻将人工智能suphx论文中文译文 （3）Suphx概述

今日新闻

推荐新闻

日本麻将人工智能suphx论文中文译文（3）Suphx概述

日本麻将人工智能suphx论文中文译文（3）Suphx概述