generatePolicyBlock

生成万博1manbetx块,评估一个代理的政策或政策对象

自从R2019a

所有的页面崩溃

语法

generatePolicyBlock(代理)

generatePolicyBlock(政策)

generatePolicyBlock (___,MATFileName = dataFileName)

描述

这个函数生成一个模型万博1manbetx^®政策评估块从一个代理或政策对象。它还创建了一个数据文件存储策略信息。生成的策略加载这个数据块文件正确初始化之前模拟。您可以使用模拟政策和生成代码块用于部署。

有关政策和价值函数的更多信息,请参阅创建政策和价值功能。

例子

generatePolicyBlock (代理)创建一个块,评估的政策指定的代理使用缺省块名,政策名称和数据文件的名字。

例子

generatePolicyBlock (政策)创建一个块的学习政策评估政策对象使用缺省块名称,指定策略名称和数据文件的名字。

generatePolicyBlock (___MATFileName =dataFileName)指定数据文件的文件名。

例子

全部折叠

创建政策评估块PG代理

打开生活的脚本

首先,创建和培训强化学习代理。对于这个示例,加载PG代理培训火车PG代理Cart-Pole平衡系统。

负载(“MATLABCartpolePG.mat”,“代理”)

然后,创建一个政策评估块从该代理使用默认的名称。

generatePolicyBlock(代理);

这个命令创建一个无标题的仿真软件®模型,包含政策块,万博1manbetxblockAgentData.mat所需文件,包含信息创建和初始化政策,(如使用的深层神经网络训练演员在代理)。块加载这些数据文件正确初始化本身之前模拟。

现在你可以拖拽模型中的块®模型和连接它的观察从环境中作为输入,并返回,以便计算行动万博1manbetx环境。这允许您模拟政策在一个封闭的循环。然后您可以生成部署代码的目的。有关更多信息,请参见部署训练强化学习策略。

关闭模式。

bdclose (《无题》)

创建政策从确定性块演员政策对象

打开生活的脚本

对象创建的观察和操作规范。对于本例,观察和行动空间定义为连续四次和二维空间,分别。

obsInfo = rlNumericSpec (1 [4]);2 actInfo = rlNumericSpec ([1]);

或者使用getObservationInfo和getActionInfo提取规范对象从一个环境。

创建一个连续确定的演员。这演员必须接受一个观察作为输入,并返回一个行动作为输出。

近似策略函数中的演员,使用复发性深层神经网络模型。层对象的网络定义为一个数组,并观察和行动空间的维数从环境规范的对象。创建一个周期性网络,使用sequenceInputLayer作为输入层(大小等于观测通道的尺寸的数量),包括至少一个lstmLayer。

层= [sequenceInputLayer (obsInfo.Dimension (1) fullyConnectedLayer (10) reluLayer lstmLayer (8, OutputMode =“序列”)fullyConnectedLayer (20) fullyConnectedLayer (actInfo.Dimension (1) tanhLayer];

网络转换为一个dlnetwork对象和显示权重的数量。

模型= dlnetwork(层);总结(模型)

初始化:可学的真正的数字:880输入:1“sequenceinput”序列输入4维度(施)

创建一个演员使用模型,观察和操作规范。

演员= rlContinuousDeterministicActor(模型、obsInfo actInfo)

演员= rlContinuousDeterministicActor属性:ObservationInfo:(1×1 rl.util。rlNumericSpec] ActionInfo:(1×1 rl.util。rlNumericSpec] UseDevice:“cpu”

检查演员与一个随机观测输入。

行动= getAction(演员,{兰德(obsInfo.Dimension)});行为{1}

ans =2×1个列向量-0.0742 - 0.0158

创建一个策略对象演员。

政策= rlDeterministicActorPolicy(演员)

政策= rlDeterministicActorPolicy属性:演员:[1×1 rl.function。rlContinuousDeterministicActor] ObservationInfo:(1×1 rl.util。rlNumericSpec] ActionInfo:(1×1 rl.util。rlNumericSpec] SampleTime: 1

您可以访问使用点符号的政策选择。检查策略和一个随机观察输入。

行动= getAction(政策,{兰德(obsInfo.Dimension)});行为{1}

ans =2×1-0.0060 - -0.0161

你可以和一个定制的培训培训政策循环。

然后,创建一个政策评估块从这一政策对象为生成的MAT-file使用默认名称。

generatePolicyBlock(政策);

关闭模式。

bdclose (《无题》)

输入参数

全部折叠

`代理`- - - - - -强化学习代理
强化学习代理对象

强化学习培训代理,指定为以下代理对象之一。要训练你的代理,可以使用火车函数。

代理和一个随机的演员(PG、PPO、囊、TRPO AC),返回的行动生成函数的值取决于政策UseExplorationPolicy房地产代理的。默认情况下,UseExplorationPolicy是假和生成的行动是确定的。如果UseExplorationPolicy是真正的,行动是随机生成的。

`政策`- - - - - -强化学习政策
`rlMaxQPolicy`|`rlDeterministicActorPolicy`|`rlStochasticActorPolicy`

强化学习政策,指定为以下对象之一:

请注意

rlAdditiveNoisePolicy和rlEpsilonGreedyPolicy政策不支持对象。万博1manbetx

`dataFileName`- - - - - -生成的数据文件的名称
`“blockAgentData”`(默认)|字符串|特征向量

生成的数据文件名称,指定为字符串或字符向量。如果一个指定名称的文件已经存在于当前的MATLAB^®文件夹,然后添加一个适当的数字名称,这样不覆盖现有文件。

生成的数据文件包含四个结构存储数据所需的充分描述政策。在仿真之前,块(生成的数据文件名称作为掩模参数)加载数据文件正确初始化本身。

版本历史

介绍了R2019a

另请参阅