統計数学セミナー
過去の記録 ~05/01|次回の予定|今後の予定 05/02~
担当者 | 吉田朋広、増田弘毅、荻原哲平、小池祐太 |
---|---|
目的 | 確率統計学およびその関連領域に関する研究発表, 研究紹介を行う. |
2013年11月20日(水)
13:30-14:40 数理科学研究科棟(駒場) 052号室
野村 亮介 氏 (東京大学大学院数理科学研究科)
TD法における価値関数への収束アルゴリズム (JAPANESE)
http://www.sigmath.es.osaka-u.ac.jp/~kamatani/statseminar/2013/07.html
野村 亮介 氏 (東京大学大学院数理科学研究科)
TD法における価値関数への収束アルゴリズム (JAPANESE)
[ 講演概要 ]
マルコフ過程に従い状態遷移が行われ、状態に応じた報酬が支 払われるモデルにおいて、その報酬の累積和の期待値、価値関数を推定する問題 を考える。線形関数近似を用いたTD法において、真の価値関数が特徴量の線形結 合で表されない場合であっても収束することは知られているが、特徴量の選択に よって性能に大きな差が出てしまう。そこで、得られた極限を真の価値関数へ補 正するように特徴量を構成することによって、真の価値関数に収束するアルゴリ ズムを提案し、その効率を上げる手法について説明する。
[ 参考URL ]マルコフ過程に従い状態遷移が行われ、状態に応じた報酬が支 払われるモデルにおいて、その報酬の累積和の期待値、価値関数を推定する問題 を考える。線形関数近似を用いたTD法において、真の価値関数が特徴量の線形結 合で表されない場合であっても収束することは知られているが、特徴量の選択に よって性能に大きな差が出てしまう。そこで、得られた極限を真の価値関数へ補 正するように特徴量を構成することによって、真の価値関数に収束するアルゴリ ズムを提案し、その効率を上げる手法について説明する。
http://www.sigmath.es.osaka-u.ac.jp/~kamatani/statseminar/2013/07.html