カラムの相関を調べたい
カラムの相関性を調べたい場合は、Data Relationshipsを使用します。
この機能を使用して、様々なカラム間の相関性を見ることができます。
比較方法
Data Relationshipsでは比較方法とX軸Y軸の3つの設定項目があります。
X軸×Y軸のペアの総当たりで比較を行いますが、比較方法はデータの方式に応じて選択します。
データには数値データとカテゴリデータがありますので、
「数値x数値」「数値xカテゴリ」「カテゴリxカテゴリ」
の3パターン+2つで計5つのアルゴリズムが選択できます。
数値カラム同士を比較したければ、「線形回帰」か「スピアマンR」を使用します。
カテゴリデータと数値データを比較する場合は、
「Anova」か「クラスカル・ウォリス」を選択します。
カテゴリカラム同士を比較する場合は。
カイ 2 乗オプションを使用します。
スピアマンRとクラスカル・ウォリスはノンパラメトリック手法となっています。
悩んだ場合は「数値・数値」の場合は線形回帰
「数値・カテゴリ」の場合はクラスカル・ウォリスを選択しておけば無難です。
結果表示
実行すると、カラムペアについてそれぞれp-valueが計算されます。
これは、最初のカラムの値から 2 番目のカラムの値をどの程度予測できるかを示すものです。
p-value が低ければ、2つのカラムの相関性が強いと考えられます。
0に近いほど、関連性が高いので注意してください。
線形回帰の場合の結果表示
線形回帰の場合はp-valueだけでなくてRSqにも注目してもいいと思います。
カテゴリX数値比較の場合
比較方法で「Anova」か「クラスカル・ウォリス」を選択した場合は、
「選択したXカラム」にカテゴリデータを入れてください。
「数値・カテゴリ」の場合は分散分析になるので、
結果はボックスプロットになります。
慣れてない人には少しわかりづらいので、分布を表示すると分かりやすいです。
分布を表示するとヒストグラム(横)のような表示になります。
データ範囲の変更
現在表示しているデータで、カテゴリごとに大きな違いがあるような場合、個別に比較する必要が出てきます。
フィルターをかけるのが便利ですが、その際計算表は自動的には更新されません。
↑のように全体では相関がありそうでも、2つのカテゴリ間で 大きく分散が異なっている場合は別々に見ましょう。
フィルター後には結果表のタイトルに更新ボタンが表示されます。
こちらをクリックすると、現在のデータを元に再計算されます。