主要内容

generatePolicyBlock

生成万博1manbetx块,评估一个代理的政策或政策对象

自从R2019a

    描述

    这个函数生成一个模型万博1manbetx®政策评估块从一个代理或政策对象。它还创建了一个数据文件存储策略信息。生成的策略加载这个数据块文件正确初始化之前模拟。您可以使用模拟政策和生成代码块用于部署。

    有关政策和价值函数的更多信息,请参阅创建政策和价值功能

    例子

    generatePolicyBlock (代理)创建一个块,评估的政策指定的代理使用缺省块名,政策名称和数据文件的名字。

    例子

    generatePolicyBlock (政策)创建一个块的学习政策评估政策对象使用缺省块名称,指定策略名称和数据文件的名字。

    generatePolicyBlock (___MATFileName =dataFileName)指定数据文件的文件名。

    例子

    全部折叠

    首先,创建和培训强化学习代理。对于这个示例,加载PG代理培训火车PG代理Cart-Pole平衡系统

    负载(“MATLABCartpolePG.mat”,“代理”)

    然后,创建一个政策评估块从该代理使用默认的名称。

    generatePolicyBlock(代理);

    这个命令创建一个无标题的仿真软件®模型,包含政策块,万博1manbetxblockAgentData.mat所需文件,包含信息创建和初始化政策,(如使用的深层神经网络训练演员在代理)。块加载这些数据文件正确初始化本身之前模拟。

    现在你可以拖拽模型中的块®模型和连接它的观察从环境中作为输入,并返回,以便计算行动万博1manbetx环境。这允许您模拟政策在一个封闭的循环。然后您可以生成部署代码的目的。有关更多信息,请参见部署训练强化学习策略

    关闭模式。

    bdclose (《无题》)

    对象创建的观察和操作规范。对于本例,观察和行动空间定义为连续四次和二维空间,分别。

    obsInfo = rlNumericSpec (1 [4]);2 actInfo = rlNumericSpec ([1]);

    或者使用getObservationInfogetActionInfo提取规范对象从一个环境。

    创建一个连续确定的演员。这演员必须接受一个观察作为输入,并返回一个行动作为输出。

    近似策略函数中的演员,使用复发性深层神经网络模型。层对象的网络定义为一个数组,并观察和行动空间的维数从环境规范的对象。创建一个周期性网络,使用sequenceInputLayer作为输入层(大小等于观测通道的尺寸的数量),包括至少一个lstmLayer

    层= [sequenceInputLayer (obsInfo.Dimension (1) fullyConnectedLayer (10) reluLayer lstmLayer (8, OutputMode =“序列”)fullyConnectedLayer (20) fullyConnectedLayer (actInfo.Dimension (1) tanhLayer];

    网络转换为一个dlnetwork对象和显示权重的数量。

    模型= dlnetwork(层);总结(模型)
    初始化:可学的真正的数字:880输入:1“sequenceinput”序列输入4维度(施)

    创建一个演员使用模型,观察和操作规范。

    演员= rlContinuousDeterministicActor(模型、obsInfo actInfo)
    演员= rlContinuousDeterministicActor属性:ObservationInfo:(1×1 rl.util。rlNumericSpec] ActionInfo:(1×1 rl.util。rlNumericSpec] UseDevice:“cpu”

    检查演员与一个随机观测输入。

    行动= getAction(演员,{兰德(obsInfo.Dimension)});行为{1}
    ans =2×1个列向量-0.0742 - 0.0158

    创建一个策略对象演员

    政策= rlDeterministicActorPolicy(演员)
    政策= rlDeterministicActorPolicy属性:演员:[1×1 rl.function。rlContinuousDeterministicActor] ObservationInfo:(1×1 rl.util。rlNumericSpec] ActionInfo:(1×1 rl.util。rlNumericSpec] SampleTime: 1

    您可以访问使用点符号的政策选择。检查策略和一个随机观察输入。

    行动= getAction(政策,{兰德(obsInfo.Dimension)});行为{1}
    ans =2×1-0.0060 - -0.0161

    你可以和一个定制的培训培训政策循环。

    然后,创建一个政策评估块从这一政策对象为生成的MAT-file使用默认名称。

    generatePolicyBlock(政策);

    这个命令创建一个无标题的仿真软件®模型,包含政策块,万博1manbetxblockAgentData.mat所需文件,包含信息创建和初始化政策,(如使用的深层神经网络训练演员在代理)。块加载这些数据文件正确初始化本身之前模拟。

    现在你可以拖拽模型中的块®模型和连接它的观察从环境中作为输入,并返回,以便计算行动万博1manbetx环境。这允许您模拟政策在一个封闭的循环。然后您可以生成部署代码的目的。有关更多信息,请参见部署训练强化学习策略

    关闭模式。

    bdclose (《无题》)

    输入参数

    全部折叠

    强化学习培训代理,指定为以下代理对象之一。要训练你的代理,可以使用火车函数。

    代理和一个随机的演员(PG、PPO、囊、TRPO AC),返回的行动生成函数的值取决于政策UseExplorationPolicy房地产代理的。默认情况下,UseExplorationPolicy和生成的行动是确定的。如果UseExplorationPolicy真正的,行动是随机生成的。

    强化学习政策,指定为以下对象之一:

    请注意

    rlAdditiveNoisePolicyrlEpsilonGreedyPolicy政策不支持对象。万博1manbetx

    生成的数据文件名称,指定为字符串或字符向量。如果一个指定名称的文件已经存在于当前的MATLAB®文件夹,然后添加一个适当的数字名称,这样不覆盖现有文件。

    生成的数据文件包含四个结构存储数据所需的充分描述政策。在仿真之前,块(生成的数据文件名称作为掩模参数)加载数据文件正确初始化本身。

    版本历史

    介绍了R2019a