9. 相関分析 2つの事象の関係を調べる

ここではFischer(1936)が判別分析法のために利用したアヤメの品種分類に関するデータを使います。

9.1. 扱うデータについて

本章ではFischer(1936)が判別分析法のために利用したアヤメの品種分類に関するデータを使います。このデータには3種類のあやめの蕚(がく)片の長さと幅、花弁の長さと幅の計測結果が含まれています。Rではこのデータがirisとして標準で実装されています。

In [1]:
iris #標準で実装されているので、そのまま使用できます。
Sepal.LengthSepal.WidthPetal.LengthPetal.WidthSpecies
5.1 3.5 1.4 0.2 setosa
4.9 3.0 1.4 0.2 setosa
4.7 3.2 1.3 0.2 setosa
4.6 3.1 1.5 0.2 setosa
5.0 3.6 1.4 0.2 setosa
5.4 3.9 1.7 0.4 setosa
4.6 3.4 1.4 0.3 setosa
5.0 3.4 1.5 0.2 setosa
4.4 2.9 1.4 0.2 setosa
4.9 3.1 1.5 0.1 setosa
5.4 3.7 1.5 0.2 setosa
4.8 3.4 1.6 0.2 setosa
4.8 3.0 1.4 0.1 setosa
4.3 3.0 1.1 0.1 setosa
5.8 4.0 1.2 0.2 setosa
5.7 4.4 1.5 0.4 setosa
5.4 3.9 1.3 0.4 setosa
5.1 3.5 1.4 0.3 setosa
5.7 3.8 1.7 0.3 setosa
5.1 3.8 1.5 0.3 setosa
5.4 3.4 1.7 0.2 setosa
5.1 3.7 1.5 0.4 setosa
4.6 3.6 1.0 0.2 setosa
5.1 3.3 1.7 0.5 setosa
4.8 3.4 1.9 0.2 setosa
5.0 3.0 1.6 0.2 setosa
5.0 3.4 1.6 0.4 setosa
5.2 3.5 1.5 0.2 setosa
5.2 3.4 1.4 0.2 setosa
4.7 3.2 1.6 0.2 setosa
...............
6.9 3.2 5.7 2.3 virginica
5.6 2.8 4.9 2.0 virginica
7.7 2.8 6.7 2.0 virginica
6.3 2.7 4.9 1.8 virginica
6.7 3.3 5.7 2.1 virginica
7.2 3.2 6.0 1.8 virginica
6.2 2.8 4.8 1.8 virginica
6.1 3.0 4.9 1.8 virginica
6.4 2.8 5.6 2.1 virginica
7.2 3.0 5.8 1.6 virginica
7.4 2.8 6.1 1.9 virginica
7.9 3.8 6.4 2.0 virginica
6.4 2.8 5.6 2.2 virginica
6.3 2.8 5.1 1.5 virginica
6.1 2.6 5.6 1.4 virginica
7.7 3.0 6.1 2.3 virginica
6.3 3.4 5.6 2.4 virginica
6.4 3.1 5.5 1.8 virginica
6.0 3.0 4.8 1.8 virginica
6.9 3.1 5.4 2.1 virginica
6.7 3.1 5.6 2.4 virginica
6.9 3.1 5.1 2.3 virginica
5.8 2.7 5.1 1.9 virginica
6.8 3.2 5.9 2.3 virginica
6.7 3.3 5.7 2.5 virginica
6.7 3.0 5.2 2.3 virginica
6.3 2.5 5.0 1.9 virginica
6.5 3.0 5.2 2.0 virginica
6.2 3.4 5.4 2.3 virginica
5.9 3.0 5.1 1.8 virginica

なお、それぞれのデータはがく片の長さ(Sepal.Length)、がく片の幅(Sepal.Width)、花びらの長さ(Petal.Length)、花びらの幅(Petal.Width)です。

9.2. データビュー

要約統計量

要約統計量を求めます。

In [2]:
summary(iris)
  Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
 Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
 1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
 Median :5.800   Median :3.000   Median :4.350   Median :1.300  
 Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
 3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
 Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  
       Species  
 setosa    :50  
 versicolor:50  
 virginica :50  
                
                
                

散布図の作成

2変数間の関係をみるために散布図を作成します。Rではplot関数で散布図を作図することができます。今回のように3変数以上の場合には、行列散布図が描かれます。

In [3]:
plot(iris)

散布図から2変数の傾向を観察することができます。

9.3. 相関係数

散布図をみたとき、花びらの長さ(Petal.Length)、花びらの幅(Petal.Width)の変数間に右上がりの傾向がみてとれます。そこで、花びらの長さ(Petal.Length)、花びらの幅(Petal.Width)の2変数間の相関係数を求めていきます。Rではcor関数を使用して相関係数が求め、cor.test関数で相関分析を実行します。

In [5]:
attach(iris)
cor(Petal.Length, Petal.Width, method = "pearson")
cor.test(Petal.Length, Petal.Width, method = "pearson")
The following objects are masked from iris (pos = 3):

    Petal.Length, Petal.Width, Sepal.Length, Sepal.Width, Species

0.962865431402796
	Pearson's product-moment correlation

data:  Petal.Length and Petal.Width
t = 43.387, df = 148, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.9490525 0.9729853
sample estimates:
      cor 
0.9628654 

Pearsonの相関係数とは、共分散の値を-1から1に標準化した値です。2変数間の直線的な関連性の度合いを量る指標とされています。一般的には下のように分類できます。

相関係数 解釈
0.00 〜 ±0.20 ほとんど相関はない
±0.20 〜 ±0.40 相関があるが低い
±0.40 〜 ±0.70 かなり相関がある
±0.70 〜 ±1.00 高い相関がある

出力された結果のPearsonの相関係数を確認すると、花びらの長さ(Petal.Length)と花びらの幅(Petal.Width)とはr = 0.9376668,すなわち強い正の相関があることがわかります。このときp < 2.2e-16は、2.2×10の-16乗を意味しています。つまりp値は0.05よりも小さい値になりますので有意と判断できます。

9.4. 関数リストとオプション

関数 目的
cor(x, y, method = "pearson") ピアソンの相関係数
cor(x, y, method = "spearman") スピアマンの相関係数
cor(x, y, method = "kendall") ケンドールの相関係数