開発部秋研修を行いました

開発部秋研修を行いました。今回も前回に続きリモートで研修を行いました。

テーマは「仮説思考を使ったプロ野球データのデータ分析」です。

研修としては、Pythonのライブラリ「Pandas」を使ってデータ分析を行い、「Matplotlib」を用いてデータを可視化を行うものです。

基礎的な学習を行った後は、仮説を立てて、実際にデータ分析を行いました。
例えば、以下の感じです
【テーマ】
チームの順位を予測をしたい
【仮説】
OPSが高いチームは優勝する(OPS=長打率+出塁率)
【検証方法】
順位・OPSとで、相関関係を調べる

【検証結果】
2018年度に関しては相関あり

他の年度に関しては、相違する場合もある

OPSというのは、メジャーのデータを科学的に分析して発見された指標で、OPS(長打率+出塁率)が高い方が、得点につながり、打者としての評価としては、打率よりも正しいのではないかと言われています。

OPSが高い→得点がたくさん取れる→チームは勝つ

という流れは正しいと思うのですが、逆にOPSが高いのに、順位が低い(例えば2014年のヤクルト)というのは、チームとして得点はたくさんとっているが、それ以上にピッチャーが点を取られているのか、残塁が山ほどあるのかでしょうか。
次は上記のようなことを仮説として、再度検証していこうと思っています。

今回は、2次元のデータで機械学習にかけるまでもないですが、今後は、「複数の要素を分析し、勝てるチームを判別できるモデル」を構築できるような力を付ける研修を行っていこうと思っています。