对象创建的观察和操作规范。对于本例,观察和行动空间定义为连续四次和二维空间,分别。
或者使用getObservationInfo
和getActionInfo
提取规范对象从一个环境。
创建一个连续确定的演员。这演员必须接受一个观察作为输入,并返回一个行动作为输出。
近似策略函数中的演员,使用复发性深层神经网络模型。层对象的网络定义为一个数组,并观察和行动空间的维数从环境规范的对象。创建一个周期性网络,使用sequenceInputLayer
作为输入层(大小等于观测通道的尺寸的数量),包括至少一个lstmLayer
。
网络转换为一个dlnetwork
对象和显示权重的数量。
初始化:可学的真正的数字:880输入:1“sequenceinput”序列输入4维度(施)
创建一个演员使用模型
,观察和操作规范。
演员= rlContinuousDeterministicActor属性:ObservationInfo:(1×1 rl.util。rlNumericSpec] ActionInfo:(1×1 rl.util。rlNumericSpec] UseDevice:“cpu”
检查演员与一个随机观测输入。
ans =2×1个列向量-0.0742 - 0.0158
创建一个策略对象演员
。
政策= rlDeterministicActorPolicy属性:演员:[1×1 rl.function。rlContinuousDeterministicActor] ObservationInfo:(1×1 rl.util。rlNumericSpec] ActionInfo:(1×1 rl.util。rlNumericSpec] SampleTime: 1
您可以访问使用点符号的政策选择。检查策略和一个随机观察输入。
ans =2×1-0.0060 - -0.0161
你可以和一个定制的培训培训政策循环。
然后,创建一个政策评估块从这一政策对象为生成的MAT-file使用默认名称。
这个命令创建一个无标题的仿真软件®模型,包含政策块,万博1manbetxblockAgentData.mat
所需文件,包含信息创建和初始化政策,(如使用的深层神经网络训练演员在代理)。块加载这些数据文件正确初始化本身之前模拟。
现在你可以拖拽模型中的块®模型和连接它的观察从环境中作为输入,并返回,以便计算行动万博1manbetx环境。这允许您模拟政策在一个封闭的循环。然后您可以生成部署代码的目的。有关更多信息,请参见部署训练强化学习策略。
关闭模式。