久しぶりの記事です。 オフライン強化学習を真面目に使いこなしていきたい。 ということでオフライン強化学習の中では基本的な手法であるFitted Q-iterationについてみていきます。D. Ernstらによって2005年に提案されています。 Tree-Based Batch Mode Rein…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。