8月度強化学習勉強会実施しました。(まだ7月ですが、)第4回目の強化学習の勉強会です。今回は以下のようなことをしました。
・シュミレータの使い方
・オセロにおける強化学習の考え方
強化学習は、行動に対して報酬を与えて、次回以降の行動の決定の判断に使用します。オセロでいうと、今回の打った手が良かったかどうか?
オセロの場合だと(将棋とかもそうでしょうが)その手が本当に良い手なのかどうかは最終的に勝ったかどうかでないとわからないので、その辺が難しそうです。また最終的に勝ったけど、実はその手は良くなくて、別の手が良くて逆転したとか、、その辺も微妙です。
ただ今回の目的は最強のオセロを作ることが目的ではなく、強化学習を理解することが目的なので、それはそれで割り切って、次回以降に実装することにします。