統計数学セミナー
過去の記録 ~04/30|次回の予定|今後の予定 05/01~
担当者 | 吉田朋広、増田弘毅、荻原哲平、小池祐太 |
---|---|
目的 | 確率統計学およびその関連領域に関する研究発表, 研究紹介を行う. |
2012年04月27日(金)
15:00-16:10 数理科学研究科棟(駒場) 006号室
参加をご希望される方は鎌谷 (阪大基礎工); kamatani at sigmath.es.osaka-u.ac.jpまでご連絡ください.
野村 亮介 氏 (東京大学大学院数理科学研究科 )
時間的差分法のステップサイズに関する収束条件について (JAPANESE)
https://www.ms.u-tokyo.ac.jp/~kengok/statseminar/2012/02.html
参加をご希望される方は鎌谷 (阪大基礎工); kamatani at sigmath.es.osaka-u.ac.jpまでご連絡ください.
野村 亮介 氏 (東京大学大学院数理科学研究科 )
時間的差分法のステップサイズに関する収束条件について (JAPANESE)
[ 講演概要 ]
強化学習では、状態・行動・報酬という三種類のデータを観測 するモデルに対し、状態が与えられたときの累積報酬の期待値である価値関数を 最大化するように行動を決定する問題を扱う。いくつかの手法の中で最も研究さ れているのが時間的差分法である。 本発表では、独立同分布なデータに対して、目的関数を最小化するという意味で 最適なステップサイズを導出し、その収束を示す。さらに、ステップサイズが定 数である場合の収束条件を示す。また、マルコフ過程に従うデータに対して、ア ルゴリズムのステップサイズの収束条件について議論する。
[ 参考URL ]強化学習では、状態・行動・報酬という三種類のデータを観測 するモデルに対し、状態が与えられたときの累積報酬の期待値である価値関数を 最大化するように行動を決定する問題を扱う。いくつかの手法の中で最も研究さ れているのが時間的差分法である。 本発表では、独立同分布なデータに対して、目的関数を最小化するという意味で 最適なステップサイズを導出し、その収束を示す。さらに、ステップサイズが定 数である場合の収束条件を示す。また、マルコフ過程に従うデータに対して、ア ルゴリズムのステップサイズの収束条件について議論する。
https://www.ms.u-tokyo.ac.jp/~kengok/statseminar/2012/02.html