データの相関を調べたい

カラムの相関を調べたい

カラムの相関性を調べたい場合は、Data Relationshipsを使用します。
この機能を使用して、様々なカラム間の相関性を見ることができます。

1
比較方法

Data Relationshipsでは比較方法とX軸Y軸の3つの設定項目があります。
X軸×Y軸のペアの総当たりで比較を行いますが、比較方法はデータの方式に応じて選択します。

データには数値データとカテゴリデータがありますので、
「数値x数値」「数値xカテゴリ」「カテゴリxカテゴリ」
の3パターン+2つで計5つのアルゴリズムが選択できます。

2

数値カラム同士を比較したければ、「線形回帰」か「スピアマンR」を使用します。
カテゴリデータと数値データを比較する場合は、
「Anova」か「クラスカル・ウォリス」を選択します。
カテゴリカラム同士を比較する場合は。
カイ 2 乗オプションを使用します。

3

スピアマンRとクラスカル・ウォリスはノンパラメトリック手法となっています。

悩んだ場合は「数値・数値」の場合は線形回帰
「数値・カテゴリ」の場合はクラスカル・ウォリスを選択しておけば無難です。

結果表示

実行すると、カラムペアについてそれぞれp-valueが計算されます。
これは、最初のカラムの値から 2 番目のカラムの値をどの程度予測できるかを示すものです。
p-value が低ければ、2つのカラムの相関性が強いと考えられます。
0に近いほど、関連性が高いので注意してください。

線形回帰の場合の結果表示

4

線形回帰の場合はp-valueだけでなくてRSqにも注目してもいいと思います。

カテゴリX数値比較の場合

5

 

比較方法で「Anova」か「クラスカル・ウォリス」を選択した場合は、
「選択したXカラム」にカテゴリデータを入れてください。

 

6

 

「数値・カテゴリ」の場合は分散分析になるので、
結果はボックスプロットになります。
慣れてない人には少しわかりづらいので、分布を表示すると分かりやすいです。

7

分布を表示するとヒストグラム(横)のような表示になります。

8

データ範囲の変更

現在表示しているデータで、カテゴリごとに大きな違いがあるような場合、個別に比較する必要が出てきます。
フィルターをかけるのが便利ですが、その際計算表は自動的には更新されません。

8.5
↑のように全体では相関がありそうでも、2つのカテゴリ間で
大きく分散が異なっている場合は別々に見ましょう。

9

 

フィルター後には結果表のタイトルに更新ボタンが表示されます。
こちらをクリックすると、現在のデータを元に再計算されます。