rlQAgent

q学习的强化学习代理

自从R2019a

扩展所有的页面

描述

q学习算法是一个模范自由,在网上,off-policy强化学习方法。q学习的代理是一个基于价值观的强化学习代理,火车一个评论家估计返回或未来的回报。

请注意

q学习代理不支持周期性网络。万博1manbetx

在q学习代理的更多信息,见q学习的代理。

更多信息在不同类型的强化学习代理,看看强化学习代理。

创建

语法

代理= rlQAgent(评论家,agentOptions)

描述

例子

代理= rlQAgent (评论家,agentOptions)创建一个q学习代理指定的评论家网络和设置AgentOptions财产。

输入参数

全部展开

`评论家`- - - - - -评论家
`rlQValueFunction`对象

评论家,指定为一个rlQValueFunction对象。创建批评者的更多信息,请参阅创建政策和价值功能。

属性

全部展开

`AgentOptions`- - - - - -剂的选择
`rlQAgentOptions`对象

代理选项,指定为一个rlQAgentOptions对象。

`UseExplorationPolicy`- - - - - -选择使用探索政策
`假`(默认)|`真正的`

选择使用探索政策选择行为时,指定为以下之一的逻辑值。

假——使用代理贪婪策略在选择行动。
真正的——使用代理探索政策在选择行动。

`ObservationInfo`- - - - - -观测规范
规范对象|规范对象的数组

这个属性是只读的。

观测规范,指定为一个rlFiniteSetSpec或rlNumericSpec对象或数组包含一个混合的对象。数组中每个元素定义了一个环境观测通道的特性,比如尺寸,数据类型和名称。

的价值ObservationInfo匹配指定相应的值评论家。

`ActionInfo`- - - - - -操作规范
`rlFiniteSetSpec`对象

这个属性是只读的。

动作规范,指定为一个rlFiniteSetSpec对象。这个对象定义环境行动通道的属性,如尺寸,数据类型和名称。

请注意

只有一个动作频道是被允许的。

的价值ActionInfo匹配指定相应的值评论家。

`SampleTime`- - - - - -样本的代理
积极的标量|`1`

样本代理的时候,作为一个积极的标量或指定1。设置这个参数1支持基于事件的模拟。的价值SampleTime匹配指定的值AgentOptions。

在一个模型万博1manbetx^®环境中,RL代理块中执行每一个指定的代理SampleTime秒的仿真时间。如果SampleTime是1块继承了样本时间从母公司子系统。

在MATLAB^®环境中,代理执行每一次进步的环境。在这种情况下,SampleTime之间的时间间隔连续元素返回的输出的经验吗sim卡或火车。如果SampleTime是1之间的时间间隔连续元素返回的输出经验反映了事件触发代理执行的时机。

对象的功能

`火车`	强化学习培训代理在指定的环境中
`sim卡`	模拟训练强化学习代理在指定的环境中
`getAction`	从代理,获得动作演员,或政策对象环境的观察
`getActor`	从强化学习代理提取的演员
`setActor`	集演员强化学习代理
`getCritic`	从强化学习代理提取评论家
`setCritic`	评论家强化学习代理
`generatePolicyFunction`	生成MATLAB函数,评价代理人的政策或政策对象

例子

全部折叠

创建q学习的代理

打开生活的脚本

创造一个环境接口。对于这个示例,使用相同的环境的例子强化学习培训代理基本网格的世界。

env = rlPredefinedEnv (“BasicGridWorld”);

观察和操作规范。

obsInfo = getObservationInfo (env);actInfo = getActionInfo (env);

q学习代理使用参数化核反应能量函数来估计政策的价值。核反应能量函数接受目前的观察和行动作为输入并返回一个标量输出(估计折扣累积长期奖励采取对应的行动从国家目前的观察,和后政策之后)。

因为观察和行动空间离散和低维,使用一个表模型内部的核反应能量函数评论家。rlTable创建一个表值对象的观察和操作规范对象。

创建一个表近似模型来源于环境观察和操作规范。

qTable = rlTable (obsInfo actInfo);

创建核反应能量函数近似者对象使用qTable和环境规范对象。有关更多信息,请参见rlQValueFunction。

评论家= rlQValueFunction (qTable obsInfo actInfo);

使用近似者对象创建q学习的代理。

代理= rlQAgent(批评)

代理= rlQAgent属性:AgentOptions: [1 x1 rl.option。rlQAgentOptions] UseExplorationPolicy: 0 ObservationInfo: [1x1 rl.util.rlFiniteSetSpec] ActionInfo: [1x1 rl.util.rlFiniteSetSpec] SampleTime: 1

指定一个ε值为0.05。

选择= rlSARSAAgentOptions;agent.AgentOptions.EpsilonGreedyExploration。ε= 0.05;

检查您的代理,使用getAction返回操作从一个随机的观察。

行动= getAction(代理,{兰迪(元素个数(obsInfo.Elements))});行为{1}

ans = 1

您现在可以测试和培训代理与环境。

版本历史

介绍了R2019a

另请参阅

应用程序

强化学习设计|深层网络设计师

功能

getAction|getActor|getCritic|getModel|generatePolicyFunction|generatePolicyBlock|getActionInfo|getObservationInfo

rlQAgent

描述

创建

语法

描述

输入参数

评论家- - - - - -评论家rlQValueFunction对象

属性

AgentOptions- - - - - -剂的选择rlQAgentOptions对象

UseExplorationPolicy- - - - - -选择使用探索政策假(默认)|真正的

ObservationInfo- - - - - -观测规范规范对象|规范对象的数组

ActionInfo- - - - - -操作规范rlFiniteSetSpec对象

SampleTime- - - - - -样本的代理积极的标量|1