統計数学セミナー

過去の記録 ~04/25次回の予定今後の予定 04/26~

担当者 吉田朋広、荻原哲平、小池祐太
セミナーURL http://www.sigmath.es.osaka-u.ac.jp/~kamatani/statseminar/
目的 確率統計学およびその関連領域に関する研究発表, 研究紹介を行う.

2012年07月27日(金)

14:00-17:00   数理科学研究科棟(駒場) 006号室
参加をご希望される方は鎌谷 (阪大基礎工); kamatani at sigmath.es.osaka-u.ac.jpまでご連絡ください.
植野 剛 氏 (科学技術振興機構 湊離散構造処理系プロジェクト)
強化学習を統計推論の観点から考える (JAPANESE)
[ 講演概要 ]
強化学習は心理学, 神経科学, コンピュータ科学, 制御工学など複数の研究分野に起因する機械学習法の1つである. 強化学習は, 未知の環境に置かれた学習対象(エージェント)が試行錯誤を通じて得た自身の成功・失敗体験(報酬)から行動方策を自律的に学習するエージェント学習の一手法である. 強化学習の特徴は, 他のエージェント学習法と異なり, 環境のダイナミクスを推定することなく, 得られた報酬から行動方策を直接学習することが可能な点である. したがって, 環境のダイナミクスのモデル化が必要なく, 環境が強い非線形ダイナミクスを持つ場合でも方策学習が原理的に可能である. よって, この望ましい性質により,様々な実問題に応用され, 多大な成功を収めている.

一方, 強化学習の理論面に目を向けると, これまで提案されている強化学習法の性能評価は, 計算機実験など経験的に行われており, 理論的, 特に統計的な評価はほとんど行われていない. この要因の1つとして, 強化学習が最適制御を基礎に数理が展開されており, これまで強化学習の統計的な解釈がなされていないことが考えられる. したがって, 本研究では, 強化学習の統計的観点から見直し, より一般的な統計推論問題として再定式化することを目指す. そして統計学習分野で培われてきた解析手法を応用し, これまで明らかにされてこなかった強化学習の理論的な性質を解明する(そうなるように努力する).

本発表は, 以下の3部構成で行う. 第一部では, 強化学習の概要について, これまでの応用事例を用いて紹介する. 第二部では, 強化学習の数理的な基礎である動的計画法, 並びに代表的な強化学習アルゴリズムについて紹介する. 第三部では, セミパラメトリック統計推論の立場から強化学習を見直し, これまでに得た幾つかの重要な知見について紹介する.
[ 参考URL ]
http://www.sigmath.es.osaka-u.ac.jp/~kamatani/statseminar/2012/06.html