自然界に隠された美しい真実を暴き出す
前回、身体測定のデータの中で「ソフトボール投げ」に対して、
どの測定項目が一番影響があるのか調査しました。
結果として「20mシャトルラン」「立ち幅跳び」「50m走」「上体起し」「反復横とび」
が多少相関がありそうで、
「握力」や「長座体前屈」は関係なさそうだという事がわかりました。
では、関連のある項目を元にソフトボールの飛距離を推測できるでしょうか?
過去から学ぶ
物理学者は理論的に
「AはBとCというパラメータに関連するから、Bが動くとAはこれくらい動く」
と数式を導き、実験で結果検証します。
我々も、人体を仕組みを解き明かして、50m走とソフトボールの飛距離の関連性を明かすことはできるかもしれません。
しかし、ここは手っ取り早く、実際の測定値から結果を推定しましょう。
帰納的なアプローチです。
過去データはたくさんあるのです、これらにフィットする数式を導き出して、使ってみます。
もちろん理論的なものではないので間違っていることもあるのですが、
それらは徐々に修正していくことができます。
モデル化
現実のデータからフィットしそうな数式を導くことを「モデル化」と呼びます。
ツール→「回帰モデリング」を選択してください。
「回帰モデリング」画面が開きます。
「モデルメソッド」は線形回帰、「データテーブル」は取り込んだデータ、
レスポンスカラムは目的変数と呼ばれ、モデル化の対象とするカラムを選択します。
こちらに「ソフトボール投げ(m)」を選択します。
「予測カラム」は説明変数と呼ばれます。
レスポンスカラムを導き出すために使用するカラムを選択します。
「20mシャトルラン」「立ち幅跳び」「50m走」「上体起し」「反復横とび」
の5つを選択して「追加」ボタンを押してください。
「OK」を押すと、結果ページが表示されます。
ここで重要なのは赤線で括った、モデルの要約にある
Multiple R-squared: 0.5038
の数値と係数表の値です。
R-squaredの値は前回でも話題にしていたR2の値です。
ざっくり言うと、実際のソフトボール投げの数値に対して
どれくらい良いモデルができたのか指標です。
20mシャトルランだけでは0.48の値だったのですが、
他のパラメータを追加したことで0.50に上昇しました。
期待ほどではないです。
係数表には実際のモデル式が読み取れます。
NameとEstimateの行を見てください。
Interceptは切片で、それ以外はそれぞれどれくらい影響を及ぼすかです。
ソフトボール投げ=3.44+ 上体起こし x 0.12 + 反復横跳び x 0.03 + 20メートルシャトルラン x 0.13 + 50m走 x ( -0.10 ) + 立ち幅跳び x 0.02
というモデルになったという事です。
実際にどれくらい適合しているのかは目で見た方がわかりやすいかもしれませんね。
「Residuals vs. Fitted」「Variable Importance」はグラフ右上のxを押して消してください。
モデルのフィッティングを確認
左下の診断用ビジュアライゼーションから
「Response vs. Fitted」をクリックすると散布図が表示されます。
縦軸がソフトボール投げの実績、横軸はモデルから算出した理論値です。
だいたい合っていそうですが、もっとフィッティングを高められないでしょうか?
↑ちなみに結果の散布図は、普通の散布図と変わりありません。 回帰線の追加とラベルの追加は前のページをご覧ください。
モデルを修正する
それではモデルを修正してみましょう。
今回は測定値だけを元にモデリングしました。
数値項目を元にしたため、「学校」や「男女」などの属性は盛り込めてないのですね。
小学校・中学校や男女で違いはありそうなので、
これも追加してみましょう。
モデルの要約の「モデルの編集」を押します。
これで作成したモデルの変更ができます。
説明変数に「学校」「性別」を追加してください。
「OK」を押すと再集計されます。
Multiple R-squaredの値が 0.6643になり、だいぶ精度も高まったようです。散布図も収束してきましたね!
係数表も更新されますが、こちらはだいぶ変わっています。
ソフトボール投げ=-12.46+ 上体起こし x 0.15 + 反復横跳び x 0.10 + 20メートルシャトルラン x 0.08+ 50m走 x ( -0.10 ) + 立ち幅跳び x 0.07 小学校だったら 6.14、 男だったら3.81 のボーナスポイントが追加
のモデルです。
男子だったら飛距離が伸びるのは納得ですが、小学生の方が中学生よりも飛距離が伸びるのは理解し難いですね。
恐らく、上体起こしや反復横跳びなどの値ほどには飛距離は伸びないので、身体が成長するにしたがってマイナス修正が必要なのでしょう。
これで割と信頼できるモデルができましたので、
体力測定のデータで、ある程度ソフトボールの飛距離が推測できます。
これって思っているよりもすごいことだと思いますよ。
ソフトボールの飛距離計測するには50メートルくらいのグラウンドが必要になりますし、
計測員も一人じゃ足りないですよね?
ソフトボールは非常にコストの高い測定項目なんです。
これを他のパラメータで推測できるという事は
無駄な投資の抑制とコスト削減につながります。
また、このモデルはファイル内に保存できますので、
データを更新した際に、予測値を計算することができます。
同じことを、製造業の品質と製造時のパラメータに変更すると、製造中に品質が悪いのかどうか判断できますし、
サービス行では、会員が解約する予兆を捉えたり、逆にどの商品を購入してくれそうか、導くことができます。
これで一通り、データ分析から予測ができるようになりましたね。