統計数学セミナー

過去の記録 ~02/05次回の予定今後の予定 02/06~

担当者 吉田朋広、荻原哲平、小池祐太
セミナーURL http://www.sigmath.es.osaka-u.ac.jp/~kamatani/statseminar/
目的 確率統計学およびその関連領域に関する研究発表, 研究紹介を行う.

2012年04月27日(金)

15:00-16:10   数理科学研究科棟(駒場) 006号室
参加をご希望される方は鎌谷 (阪大基礎工); kamatani at sigmath.es.osaka-u.ac.jpまでご連絡ください.
野村 亮介 氏 (東京大学大学院数理科学研究科 )
時間的差分法のステップサイズに関する収束条件について (JAPANESE)
[ 講演概要 ]
強化学習では、状態・行動・報酬という三種類のデータを観測 するモデルに対し、状態が与えられたときの累積報酬の期待値である価値関数を 最大化するように行動を決定する問題を扱う。いくつかの手法の中で最も研究さ れているのが時間的差分法である。 本発表では、独立同分布なデータに対して、目的関数を最小化するという意味で 最適なステップサイズを導出し、その収束を示す。さらに、ステップサイズが定 数である場合の収束条件を示す。また、マルコフ過程に従うデータに対して、ア ルゴリズムのステップサイズの収束条件について議論する。
[ 参考URL ]
https://www.ms.u-tokyo.ac.jp/~kengok/statseminar/2012/02.html