グラフ機械学習と強化学習について

主にグラフ機械学習や強化学習手法を記載します。

強化学習

強化学習でポケモンをプレイする

より多くの人に見てもらいたいと思いQiitaで投稿しましたが、こちらにも載せておきます。 qiita.com 本ブログでは、より専門的な内容を記載します。 Qiitaではカジュアルな内容を投稿しています。

Fitted Q-iteration

久しぶりの記事です。 オフライン強化学習を真面目に使いこなしていきたい。 ということでオフライン強化学習の中では基本的な手法であるFitted Q-iterationについてみていきます。D. Ernstらによって2005年に提案されています。 Tree-Based Batch Mode Rein…

MDP: Value Iteration

NeurIPS 2021のOutstanding papersの1つであるOn the Expressivity of Markov Rewardを理解したいと思いつつ、実験を通じて色々理解を深めようとしてきました(全然できていません)。 論文の内容としては、マルコフ決定過程(MDP)において、3通りのタスク…

モンテカルロ木探索についてのまとめ (データ構造とアルゴリズム Advent Calendar 2020)

この記事は「データ構造とアルゴリズム Advent Calendar 2020」20日目の記事です。 19日目は@takilogさん; グラフ上の合流に関する問題とアルゴリズム , 21日目は@tmaeharaさんです。 概要 木探索と強化学習 バンディット問題 モデルベース強化学習 アルゴリ…

強化学習入門(理論)その2

強化学習理論のまとめ(その2)です。その1(強化学習の一般的な定義から方策勾配法まで)は以下から。 udnp.hatenablog.com DPG DDPG D4PG MADDPG 参考・引用文献 DPG paper 方策は現在の状態sでの行動aに対する確率分布としてモデル化されますが、Determin…

強化学習入門(理論)

強化学習に必要な理論についてまとめていきます。様々な数式表記がありますが、「これからの強化学習」にできるだけ統一していきます。間違った記述があれば、ご指摘いただければ幸いです。日々アップデートしていきます。よろしくお願いいたします。 序文 M…