統計数学セミナー

過去の記録 ~05/25次回の予定今後の予定 05/26~

担当者 吉田朋広、荻原哲平、小池祐太
セミナーURL http://www.sigmath.es.osaka-u.ac.jp/~kamatani/statseminar/
目的 確率統計学およびその関連領域に関する研究発表, 研究紹介を行う.

2013年11月20日(水)

13:30-14:40   数理科学研究科棟(駒場) 052号室
野村 亮介 氏 (東京大学大学院数理科学研究科)
TD法における価値関数への収束アルゴリズム (JAPANESE)
[ 講演概要 ]
マルコフ過程に従い状態遷移が行われ、状態に応じた報酬が支 払われるモデルにおいて、その報酬の累積和の期待値、価値関数を推定する問題 を考える。線形関数近似を用いたTD法において、真の価値関数が特徴量の線形結 合で表されない場合であっても収束することは知られているが、特徴量の選択に よって性能に大きな差が出てしまう。そこで、得られた極限を真の価値関数へ補 正するように特徴量を構成することによって、真の価値関数に収束するアルゴリ ズムを提案し、その効率を上げる手法について説明する。
[ 参考URL ]
http://www.sigmath.es.osaka-u.ac.jp/~kamatani/statseminar/2013/07.html