相関性を一覧表示
前回、様々な視点でデータを分析してパラメータの間で色々な関係性がありそうだという事がわかりました。
グラフの軸や色などを切り変えて見ることで、
関連性の有無も大体分かると思います。
サンプルデータはカラムの数も少ないのでHitに関連するパラメータを見つけたければ
全ての軸を取ってみれば、どのパラメータが関連しているか分かりますが、実際はカラムが数百あるデータも珍しくありません。
これらに対して全部可視化して確認するのは、
業務効率化という点からはおすすめできません。
そこで統計的な手法を使って確認しましょう。
身体測定データ
前回分析したアメリカの野球のデータも興味深いのですが、
我々とは住む世界が異なりますので、
今回は身近なデータを元に分析してみましょう。
科学の道具箱というサイトがあり、数学や統計的なものの見方について理解を深めることができます。
小学校以上が対象ですので、非常にわかりやすいです。
体力測定データから「01.小・中学校体力測定データ」をダウンロードしてみましょう。
エクセル形式のファイルとなっています。一度開いて中身を確認してください。
こちらをSpotfireに取り込みします。
データの内容に関して、右側のフィルターで確認できます。
データは小学校と中学校の男女のデータで、
様々な測定結果が並んでいます。
Data Relationshipsで相関を一覧表示
データの中からパラメータ同士の相関関係を確認しましょう。
Data Relationshipsというツールを使用すれば、
確率が高い順に並べてくれるので非常に便利です。
起動方法は「ツール」から「Data Relationships」を選択します。
とりあえず全測定項目の総当たりにしましょう。
「比較方法」は線形回帰でOKです。
「選択したYカラム」と「選択したXカラム」に全てのカラムを設定してください。
(使用できるYカラムでカラムを選び「追加」します。)
「OK」を押すと計算結果が表示されます。
結果は2つのグラフで表示されます。
上の結果表は相関が高いペアのランキングが表示され、
下にペアの散布図が表示されています。
私は、散布図に傾きと決定係数R2を表示させています。
表示方法は前回の記事を参照してください。
当然ですが、握力の右と左の相関性が高いようです。
傾きは0.92なので若干右の方が強いようですね。
この条件だと右が10kgのとき左は9.2kgになるという事です。
ペアの表示変更
DataRelationshipsの結果表は、決定係数R2の高い順に並んでいます。計算表ではRsqのカラムです。
R2を見ることで相関の強さがわかりますが、
あくまで指標なので、目で見て確認したほうが良いでしょう。
結果表のペアをクリックすると、散布図の軸が変わります。
「握力右/左」の次に相関が高いのは「立ち幅跳びと50m走」のペアですね。
こちらをクリックしてみましょう。
このペアも関連ありそうです。
この場合は立ち幅跳びの値が-20.95伸びると、50m走が1秒伸びます。
ややこしい言い方ですが、立ち幅跳びが20センチ伸びると50mのタイムが1秒短くなるという事です。
このようにマイナスの相関を持つ場合、負の相関があるといいます。
その他のペアも一通り確認して見てください。
ちなみに、この散布図は軸は自動的に変更されますが、
それ以外は前回ご紹介した散布図と同じですので、
色やトレリスの設定が変更できます。
試しにトレリスの設定を男女別に分けてみましょう。
散布図の決定係数などは自動的に計算されます。
相関性の再計算
トレリスや色の集計などは自動的に変更されますが、
結果表は自動更新されません。
「小学校と中学校を同じ条件で比較するのはおかしい」
と思った場合、それぞれ別に分析する必要があります。
この場合はフィルターを使いデータを絞り込みます。
フィルターをかけることで、結果表に再計算ボタンが表示されます。
結果表は、小学校中学校を一緒に分析した時のもので、
現在のフィルター条件で計算したものとは異なります。
再計算ボタンを押すと再度集計されます。
小学校だけで見ると「立ち幅跳び・50m走」よりも
「20mシャトルラン・ソフトボール投げ」の方が関係あるんですね。
ただしR2の値は0.49と低くなったので、別々に比べることで相関がなくなってしまいました。。。。
さて、一度フィルター条件とトレリス条件を外しておきましょう。
フィルターのリセットはメニューのアイコンをクリックしてください。
トレリスの外し方ですが、グラフ上で右クリックし、「プロパティ」を表示
「トレリス」タブの「カラム」を選択し、一番下にある「削除」を選びます。
比較カラムを変更
機能紹介のために、パラメータの総当たりで相関性を見てみました。
しかし、実際にはXとYは「入力と出力」「投資と収益」のように
InputとOutputの関係で取るのが一般的です。
健康診断のデータをみてみると、
握力や立ち幅跳び、上体起こし等は基礎的な測定、
しかし、「ソフトボール投げ」は総合的な測定に思えます。
全身のバネを使わないとボールは遠くに飛ばないと、素人ながら思うのです。
ソフトボール投げ = 基礎的な測定値の組み合わせ
それではY軸を「ソフトボール投げ」に絞りましょう。
既に実行した結果表のアイコンをクリックすると再度条件の変更ができます。
こちらで「選択したYカラム」を
「ソフトボール投げ」のみ残しあとは削除します。
OKを押すと指定条件で再計算されますので、
ソフトボール投げに対して相関性が高いリストが表示されます。
再計算後はR2の数値もだいぶ落ちてしまいました。
一番高くて0.48です。
反復横跳びの0.34くらいまでは相関ありそうですが、
握力や長座体前屈はあまり関係ないかもしれません。
これらのデータはソフトボール投げと相関がないのでしょうか?
一つ一つのパラメータは確実な相関がなくても、
複数パラメータを組み合わせると高い相関が得られることがあります。
次回はそちらをご紹介したいと思います。