年収に差はあるか?
データの取り込みができたら、
データの傾向がどのようになっているのか確認します。
今回のデータでは「Salery」カラムが年収ですので、
どのような偏りがあるのか見ていきましょう。
新規ページ作成
画面上の「ページ」で右クリックして「新規ページ」を選択し、
新規ページを作成します。
棒グラフを作成
画面上部にあるアイコンから「新規の棒グラフ」をクリックします。
棒グラフが表示されました。
最初の軸はSpotfireが自動的に決めてくれます。
この場合は横軸がPosition、縦軸がローの数なので、
LFポジジョンの選手が一番多いようです。
50名程度いますね。その次が2Bで35名程度でしょうか?
縦軸の変更
選手の人数を見ていても面白くないので
年収を比較してみましょう。
縦軸の(ローの数)と書いてある上の をクリックすると
軸を選択できます。
ここでSalaryを選択してみましょう。
これで縦軸が年収になりましたので、
ポジション別の年収合計になりました。
あれ?少しおかしいですね。
人数では2Bは2番目に多かったのに、
年収合計ではそれほどでもないです。
集計方法の変更
年収の平均を見てみましょう。
Sum(Salary)の上にある をクリックすると、
先ほどと同じようにカラム一覧が表示されます。
一番上に集計方法が選択されています。
現在はSum(和)になっていますので、Avg(平均)に変更します。
うわ。。。2Bの年収低すぎ。。。
他のポジションと比較しておよそ半分程度の収入です。
これでやっていけるのでしょうか?
と思いますが、これは大リーガー全体の平均なので
それでも200万ドル(2億円)以上はありますね。
元に戻す
冗談はさておき、今度はどのチームが一番収入が多いのか見てみましょう。
一度縦軸をSum(Salary)に戻します。
ワンステップ戻るのでツールバーの「元に戻す」が便利です。
また、合計に戻りました。
横軸の変更
では横軸をチームに変更し、どのチームが一番給料を払っているのか確認します。
横軸のPositionと書いてある右の を選択すると縦軸と同じように一覧が表示されますので、
Teamを選択します。
ダントツで給料をもらっているチームがあります。
ただ、横軸のラベルがつぶれて見えないです。
このような場合は画面を広げるか、マウスを乗せると項目を確認できます。
一番給料をもらっているのはNY Yankeesでした。
総額で$108,135,714ですね!
マークによるデータの確認
一体誰がこんなに貰っているのでしょうか?
内容を確認したい場合はマークを使います。
バーをクリックするか、左クリックでドラッグにより範囲選択することにより、
マークと呼ばれる状態になり、その範囲のデータがハイライトされます。
ハイライトされたデータはDetail-on-Demandに表示されます。
Salaryでクリックすると給料別にソートすることができますので
Alex RodorigezやDerek Jeter選手などの高給取りが見えてきます。
カテゴリの比較
先ほどはPosition別にSalaryを比較しましたが、
今回はTeam別に比較しています。
ちなみにデータには連続型データと離散型データの2種類あります。
連続型データは数値型のもので、身長や体重などがこれに当たります。
Salaryもこちらですね。Spotfireでは連続データと呼びます。
離散型データは男女や好きなスポーツなど、文字列型のデータです。
男性は1、女性は2など必ずしも文字列とは限りませんが、中間の値がないデータのことです。
TeamやPositionはこちらに当たります。Spotfireではカテゴリデータと呼びます。
Team別に比較してますが、これはTeam別Position別に比較する必要がありそうです。方法は2種類あります。
フィルターによるデータの絞り込み
LFポジションだけに注目してみましょう。
データにフィルターをかけて、範囲を絞り込みます。
画面右側に「フィルターパネル」があります。
フィルターパネルの中からPositionを表示してください。
チェックボックスになっているので、チェックを外すことで
データ範囲を変更できます。
LF以外のチェックボックスを外してみると
Bostonが給料をたくさん払っていそうです。
それ以外のPositionに関しても調べてみてください。
右下にどれくらいのデータが絞りこまれているのか表示されています。
フィルターをかけたことを忘れて分析してしまうことがありますので、
こちらはチェックしておきましょう。
フィルターリセットする場合はツールバーからフィルターリセットボタンをクリックします。
下世話な話ですが、日本人選手もデータの中に含まれています。
フィルターでイチロー選手や松井選手だけに絞り込むことも可能です。
正規表現が使えますので、Player Name に*matsu* or *ichiro* と入力して下さい。
シアトルマリナーズのあの人はやはり高給取りですね。
色の変更
再度フィルターリセットをかけて全データを表示しましょう。
棒グラフだけでも様々な知見が得られることがわかります。
重要なのは報告のための可視化ではなく、
気付きを得るための可視化が大事だという事です。
サマリーされたデータを確認すると言う意味では、
線グラフでも円グラフでも同じです。
ただ、場合によってはサマリーされていない生データを可視化することが重要になってきます。
次は散布図でデータを確認してみましょう。