強化学習でポケモンをプレイする

強化学習

より多くの人に見てもらいたいと思いQiitaで投稿しましたが、こちらにも載せておきます。 qiita.com 本ブログでは、より専門的な内容を記載します。 Qiitaではカジュアルな内容を投稿しています。

2023-10-11

Fitted Q-iteration

強化学習

久しぶりの記事です。オフライン強化学習を真面目に使いこなしていきたい。ということでオフライン強化学習の中では基本的な手法であるFitted Q-iterationについてみていきます。D. Ernstらによって2005年に提案されています。 Tree-Based Batch Mode Rein…

#reinforcement learning #fitted Q-iteration #Q-learning

2022-02-23

MDP: Value Iteration

強化学習

NeurIPS 2021のOutstanding papersの1つであるOn the Expressivity of Markov Rewardを理解したいと思いつつ、実験を通じて色々理解を深めようとしてきました（全然できていません）。論文の内容としては、マルコフ決定過程（MDP）において、3通りのタスク…

#強化学習

2020-12-20

モンテカルロ木探索についてのまとめ (データ構造とアルゴリズム Advent Calendar 2020)

強化学習

この記事は「データ構造とアルゴリズム Advent Calendar 2020」20日目の記事です。 19日目は@takilogさん; グラフ上の合流に関する問題とアルゴリズム , 21日目は@tmaeharaさんです。概要木探索と強化学習バンディット問題モデルベース強化学習アルゴリ…

#MCTS #AlphaGo Zero

2019-03-03

強化学習入門（理論）その2

強化学習

強化学習理論のまとめ（その2）です。その1（強化学習の一般的な定義から方策勾配法まで）は以下から。 udnp.hatenablog.com DPG DDPG D4PG MADDPG 参考・引用文献 DPG paper 方策は現在の状態sでの行動aに対する確率分布としてモデル化されますが、Determin…