営業企画部の冬研修を実施しました
テーマは前回の開発部秋研修の続きで「仮説思考を使ったプロ野球データのデータ分析」です。
前回は、順位とOPSには相関がある年(2018年)とない年(2014年)があることがわかりました。この二つの年について、詳しく調べることにしました。
2018年の順位と各指標の相関係数をPandasのcorr関数で求めます。(上位5つ)
OPS -0.978542892
平均得点 -0.898057154
得点平均 -0.898057154
得点 -0.896396597
NOI -0.890432916
いずれも攻撃の指標が入っています。相関係数が0.9以上は「非常に強い相関がある」ということで、OPSに当たりを入れたのは正しかったことがわかります。
次に2014年の順位と各指標の相関係数(上位5つ)を求めます
WHIP 0.937285352
DIPS 0.87040986
完封勝 -0.854654774
失点平均 0.814835202
与四球 0.788942554
この年に関しては、上位5つは全て守備の指標が入っています。
得点と失点をグラフに書いてみます。
得点、失点の観点からも攻撃型、守備型の年があることがわかります(2014年は失点が一番少ないチームが優勝し、2018年は得点が一番多いチームが優勝している)
次に各年度ごとの各指標と順位の相関を可視化してみます。
ここでは緑の丸に着目してみてください。OPSが各10年間の間で、4回強い相関があることがわかります。
守備に関しては、WHIP(1回に投手が出した走者の数)が過去10年間のうち、6回で強い相関があることがわかります。
OPSとWHIPが相関が順位と強いことがわかったので、機械学習してみます。
2011~2019年までのデータのうち、OPSとWHIPを学習させて、2020年の順位を予想してみます。
3位と4位が逆になった以外は予想は的中です。OPSとWHIP自体がプロ野球のデータ分析(セイバーメトリクス)で研究された指標なので、ある種この結果は当たり前なのですが、実際に手を動かしてある程度の結論までもってこれて、とても勉強になりました。
※データ分析を勉強されている方からしたら、低レベルのものかもしれませんが、データ分析1年生の成果なので、暖かい目で見ていただけると幸いです。