散布図を使用して傾向と外れ値を見る
前回は棒グラフを使用して年収のサマリーを
TeamやPosition別に比較してみました。
しかし、サマリーではなく個別の選手に対して注目が必要な場合もあります。
そのような時は散布図が便利です。
散布図の作り方
散布図の作り方はツールバーのアイコンから「新規の散布図」をクリックします。
散布図が作成されました。
散布図は主にX軸とY軸、2つのパラメータ間での相関を見るために使用されます。
それだけでは面白くないので、どれくらい相関性が高いのか?や
グループ間での相関性の比較。
複数パラメータを盛り込んだ見方をしていきましょう。
作成した散布図は自動的に設定されています。
X軸がBatting Average 打率ですね
Y軸がOn Base Percentage 出塁率です。
この2つのパラメータには相関性がありそうです。
打率が高ければ出塁率も高いでしょうね。
冷静に考えれば当たり前な気がします。。。
軸の変更
その他のパラメータ間に関連性があるか見てみましょう。
例えばホームランを打つ人はヒットも打っているのか?
横軸のBatting AverageをHitsに変更し、縦軸のOn Base PercentageをHome Runsに変更します。
このような散布図になりました。
それほど相関性はなさそうに見えます。
ではHitsと相関の高いパラメータは何でしょうか?
横軸を変えてみるとAt Batsが高そうです。
打席にたくさん立てば、ヒットも増えるという事ですね。
これは確実に相関がありそうです。
先ほどから「相関」がある・ない等
言っていますが、これは私の感性です。
見る人が見れば先ほどのヒットとホームランも相関があるように見えるかもしれません。
では、その相関性を客観的に見るにはどうすればよいでしょうか?
一般的には傾向線を引いて確認してみます。
チャートの左上にマウスを持っていくと「プロパティ」と呼ばれる歯車のようなアイコンがあります。
こちらをクリックしてください。
「プロパティ」メニュー画面が表示されますので、
「線およびカーブ」を選択して「回帰直線」をチェックします。
このように回帰線が引かれました。
回帰直線
回帰直線は、マーカー との縦の距離 d の 2 乗を合計したものが最小となるような線を選択することで算出されます。
y = a + b x
最小二乗法ってやつですね。昔学校で習ったかもしれません。
このままだと、どの程度相関性があるかはわからないので、
ラベルを表示します。
再度プロパティの「線およびカーブ」を開いて、
回帰直線を選択し、「ラベルおよびツールチップ」をクリックします。
こちらで表示する項目を選択できます。
傾きのbと回帰のR2をチェックしてください。
ラベルが表示されました。
bは傾きなので、打席に対してヒットを打つ確率は0.3
つまり打率は30パーセントという事です。高いですね。
R2が重要なのですが、これは決定係数と呼ばれ、
XとYが”どれくらい相関性があるか”という指標になります。
いくつ以上だったら相関性があると言うのか、場合によりますが、
0.9を超えているのでかなり相関性は高いです。
ちなみにこの決定係数やb等は軸を変更すると自動的に再計算されます。
給料をグラフに盛り込む
さて、打席とヒットの間に高い相関性が見られることはわかりました。
先ほど回帰直線を引いたのですが、これは全体を元に判断した平均ラインです。つまり、打つ人も打たない人もいるけど、全体の平均として3割という事です。
回帰線より上の人たちは平均よりも打つ選手たち、
下の人たちは打たない人達ですね。
ここで疑問が出てきます。
「打率が良いグループは、給料も高いのだろうか?」と
色で給料を示す。
グラフの右「レジェンド」と呼ばれるエリアに
「色の基準」という項目があります。
ここは既定でPositionになっていますが、 を選択してSalaryに変更してください。
色でSalaryが示されているので、色が濃い選手は高給取りです。
全体的に「打率が良い選手が給料が高い」訳ではなさそうです。
リーグ別に表示
これも母集団により違いがあるのかもしれないですね。
メジャーリーグでは「アメリカンリーグ」「ナショナルリーグ」という2つのリーグがあるので、それぞれ別に表示してみます。
前回使用したフィルターを使用してもいいですが、
ここは両者を比較したいため、トレリスという機能を使います。
フィルターのLeagueと書いてあるところをクリックすると水色になりますので、
左クリックしてグラフの上にドラッグします。
グラフに設定アイコンが表示されますので、
左から2つ目のアイコンの上でドロップしてください。
下記のようにアメリカンリーグとナショナルリーグが別々に表示されました。
決定係数やbの値もリーグ別に再計算されます。
アメリカンリーグの方が打率が高いですね。
また、打席数も全体的に多く、給料の高い選手も目立ちます。
特に色が濃い選手は誰なのでしょうか?
そのような場合はラベルを使用して選手名を表示してみましょう。
プロパティを開き「ラベル」タブを選択「ラベルの基準」にPlayer Nameを選択してください。
また、ラベルの表示は「マークされたロー」にします。
これで選択されたマーカーは選手名が表示されるようになります。
Ctrlキーを押しながら複数選択もできます。
特に給料が高そうなプロットをクリックしてみます。
アレックスロドリゲス選手は給料も高いし、打率も高そうです。
逆にサミーソーサ選手は給料の割に打席も少なく打率も悪いですね。
怪我でもしていたのでしょうか。。。
もし、あなたがスカウトマンだったら、どの選手がお得でしょうか?
私だったら、打率が良くて(回帰線より上にある)給料も高くない(色が濃くない)選手が良いですね。
さて、これで打率と給料の関係をリーグ別に見ました。
この散布図は選手別に作成されているため、プロットは一人一人の選手です。
先ほどアメリカンリーグの方が打席も多く給料も高い
と仮説を出しましたが、これは正しいのでしょうか?
チーム別に比較してみたいと思います。
散布図を集計モードで表示
グラフの右のレジェンドにある「マーカーの基準」を使います。
最初は「ロー番号」になっていると思いますが、
これは取り込まれている行ごとにマーカーを表示するという意味です。
チーム別に表示したければ、この設定をTeamに変更します。
横軸と縦軸がSum表記に変わっています。
Team別にAt BatsとHitsが合計で集計されています。
この状態だと、所属選手が多いチームが左上にプロットされますね。
合計ですから。
平均を見ましょう。
横軸と縦軸をクリックすると一番上に集計が選択できるようになっているので、SumからAvgに変更してください。
これで両方の軸が平均で表示されるようになりました。
ちなみに回帰線も再計算されますが、この場合集計されたチームを元に計算され、
先ほどと結果が異なりますので、注意してください。
全体的にアメリカンリーグに所属しているチームの方が、
打席数が多いようですね。ゲーム数が多いのでしょうか?
このデータの中にもGemes Playedというパラメータがあり、
ゲーム数を見ることができます。
ただ、軸は打率で設定していますし、色は給料になっています。
これ以上指標を追加するには別の手法が必要です。
プロットのサイズをゲーム数に
プロットのサイズをゲーム数に設定しましょう。
ゲーム数が多いほどプロットが大きくなるようにすれば、
ゲーム数を盛り込めます。
レジェンドの「サイズの基準」にGames PlayedのAvgを設定してください。
これでゲーム数が多い場合、プロットサイズが大きくなります。
やはりアメリカンリーグの方がゲーム数が多いようです。
プロットのサイズを少し大きくした方がわかりやすいです。
プロパティの「サイズ」で「マーカーのサイズ」を大きくします。
だいぶわかりやすくなりました。
ついでにラベルもTeam表示するように変更してみましょう。
これで散布図の中に
リーグ別に、チーム別、ヒット数・打席・サラリー・試合数
を盛り込むことができました。
このように一つのグラフ内に複数パラメータを盛り込むことで立体的な洞察を得ることができます。