失效链接处理 |
多标签图像分类算法 PDF 下载
本站整理下载:
提取码:0x0d
相关截图:
主要内容:
Deterministic MDP:(S,A,R,T,γ) • S:状态空间
• A:动作集,一般动作集都是有限的
• R:在执行状态 S 下,执行动作 A 会得到一系列 R 构成的空间,称
为 R 空间,反映了执行动作 A 之后得到的反馈的好坏
• T:在状态 S 下执行 A 进入到下一个状态,就是之间状态的转移
• Γ∈ [0,1]:折扣因子
• π:在这里指我们想要找的策略,是从 S 到 A 的一个映射。
|