日本麻将人工智能suphx论文中文译文 (3)Suphx概述

您所在的位置:网站首页 hx中文意思 日本麻将人工智能suphx论文中文译文 (3)Suphx概述

日本麻将人工智能suphx论文中文译文 (3)Suphx概述

#日本麻将人工智能suphx论文中文译文 (3)Suphx概述| 来源: 网络整理| 查看: 265

在本节中,我们首先描述Suphx的决策流程,然后介绍Suphx中使用的网络结构和特征。

2.1决策流程

由于麻将游戏规则的复杂性,Suphx学习了五种模式来处理不同的情况:弃和模式、立直模式、吃模式、碰模式和杠模式,如表1所示。除了这些已有的模型外,Suphx还采用了另一种基于规则的和牌模型来决定是否和牌。它基本上是检查和牌是荣和还是从自摸,然后根据以下简单的规则做出决定:

•如果这不是比赛的最后一轮,宣布并赢得这一轮;

•如果这是比赛的最后一轮,

    –如果和牌后,全场累积的点数是四名选手中最低的,见逃;否则,宣布并赢得回合。

麻将玩家需要采取行动的情况有两种,我们的AI Suphx也需要采取行动(见图1):

•摸牌情况:Suphx从牌山摸一张牌。如果它的手牌可以与摸到的牌形成一个和牌型,那么和牌模型将决定是否宣布和牌。如果是的话,就宣告结束了。否则,

  1.杠步骤:如果手牌可以和摸到的牌行成暗杠或加杠,则杠模型决定是暗杠还是加杠。如果不是,则转到立直步骤;否则,有两个子案例:(a)如果是暗杠,则进行暗杠并返回到摸牌情形。(b) 如果是加杠,其他玩家可以使用此加杠牌赢得回合。如果其他玩家赢了,则回合结束;否则,使加杠返回到摸牌状态。

2.立直步骤:如果手牌可以用摸到的牌立直,则立直模型决定是否声明立直。如果不,则转到放弃步骤;否则,声明立直,然后转到切牌步骤。

3.切牌步骤:切牌模型选择要丢弃的牌。在那之后,轮到其他玩家采取行动,或者荒牌流局。1

•其他弃牌情况:其他玩家弃牌。如果Suphx可以用这个牌组成和牌型,和牌模式决定是否宣布和牌。如果是的话,就宣告结束了。否则,它会检查舍牌是否可以吃碰杠。如果不是,则轮到其他玩家采取行动;否则,由吃碰杠模型决定采取什么行动:

1.如果三个模型都不建议采取任何行动,则轮到其他玩家采取行动,或者荒牌流局。

2.如果建议一个或多个操作,Suphx会以最高的可信度分数(由这些模型输出)提出操作。如果提议的行动没有被其他玩家的高优先级行动打断,Suphx会采取行动,然后在第一种情况下进入切牌步骤。否则,提议的操作将被中断,而轮到其他玩家执行操作。

2.2特征和模型结构

由于深度卷积神经网络(CNN)具有强大的表示能力,并已在国际象棋、shogi和围棋等游戏中得到验证,Suphx也采用深卷积神经网络作为其策略的模型结构。与围棋和国际象棋等棋类游戏不同,麻将游戏中玩家可以获得的信息(如图2所示)并不是自然的图像格式。我们精心设计了一组特征,将观察到的信息编码成可以被CNNs消化的信号。

图2:状态示例。麻将的状态包含几种类型的信息:(1)牌集,包括手牌、副露牌和宝牌;(2)废弃牌的顺序;(3)整数特征,包括四个玩家的点数和牌山中剩余的牌数;(4)分类特征,包括id、场次、本场数,和立直棒供托

由于日本麻将中有34种不同的牌,我们使用多个34×1信号来表示一个状态。如图3所示,我们使用四个信号来编码手牌。副露牌、宝牌和牌河序列被类似地编码到其他通道中。分类特征被编码成多个信号,每个通道都是0或1的全部。整数特征被划分成存储桶,每个存储桶使用0或1的全部通道进行编码。

除了直接观察到的信息外,我们还设计了一些外观

图3:手牌的编码。我们将玩家手牌编码为四个信号。共有四行34列,每行对应一个通道,每列指示一种牌。第n个通道中的第m列表示手上是否有第m个类型的n个牌。

前面的特征,这表示如果我们从当前的手牌中丢弃一个特定的牌,然后从牌山摸牌以替换其他手牌,来计算获胜的概率和打点。在日本麻将中,一个14枚牌的和牌有四个面子和一对雀头。总共有89种面子和34种雀头,这导致了大量不同的和牌型。此外,根据复杂的得分规则,不同的牌导致本轮比赛的不同打点。  2不可能列举出不同的切牌摸牌行为和和牌的所有组合。因此,为了降低计算复杂度,我们在提取前瞻性特征的同时进行了几个简化:(1)我们执行深度优先搜索以找到可能的和牌型。(2) 我们忽略对手的行为,自己只考虑切牌和摸牌的行为。通过这些简化,我们获得了100多个前瞻性特征,每个特征对应一个34维向量。例如,一个特征表示放弃一个特定的牌是否可以获得12000的打点,用从牌山摸的牌替换3个手牌,或者其他家的舍牌。

在Suphx中,所有的模型(即discard/Riichi/Chow/Pong/Kong模型)使用相似的网络结构(图4和5),除了输入和输出层的尺寸(表2)。discard模型有34个输出神经元对应于34个唯一的牌,Richii/Chow/Pong/Kong模型只有两个输出神经元对应于是否采取某种行动。除了状态信息和前瞻功能外,Chow/Pong/Kong模型的输入还包含关于Chow/Pong/Kong的牌的信息。请注意,我们的模型中没有池层,因为通道的每一列都有其语义,池将导致信息丢失。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3