본문 바로가기
수학.통계

상관분석(correlation analysis) : 공분산, 상관계수, 산포도

by 지식편집자 2023. 9. 27.

 
 
< 현대통계학 5판 | 박정식, 윤영선, 박래수 지음 | 다산출판사 >에서 참고 및 발췌하여 작성했습니다. 
 
학문적 연구에서는 둘 또는 그 이상의 변수들이 서로 어떤 관계를 가지고 있는가를 규명해야 하는 경우가 대부분이다. 두 변수 간의 관련성을 규명할 때 가장 자주 사용되는 통계적 방법이 회귀분석(regression analysis)과 상관분석(correlation analysis)이다. 한 변수로부터 다른 변수의 변화를 예측할 때 회귀분석을 사용하며, 변수 간의 관련성을 설명하기 위해서 상관분석을 사용한다. 
 
두 변수 간 관련성을 분석할 때는 먼저 산포도를 그려보는 것이 좋다. 산포도(scatter plot)는 두 변수 간의 관계를 알아보기 위하여 두 변수값을 나타내는 점을 도표에 나타낸 것이다. X축에 한 변수, Y축에 다른 변수를 설정하고, 각 변수의 값을 나타내는 점을 찍어 두 변수 간의 관계를 파악한다. 
 
두 변수 간의 관련성 및 예측에 대한 분석을 실시하기 전에 산포도를 그려보면 그 자료가 회귀분석이나 상관분석을 할 만한 자료인지 아닌지 알 수 있다. 아래 산포도 그래프는 x축의 변수와 y축의 변수가 밀접한 관계가 있음을 보인다. 

두 변수의 관계를 정확히 파악하기 위해서는 두 변수 간의 관련성 정도를 계수(correlation coefficient)로 알아보는 상관분석두 변수 간의 함수적 관련성을 나타내는 회귀식(regression equation) 또는 예측식(prediction equation)을 구하는 회귀분석을 해야한다. 
 
상관분석을 하기 위해서는 먼저 공분산(covariance)에 대해 알아야 한다. 상관분석이란 두 변수가 어떻게 함께 움직이는가를 알아보는 것인데, 공분산 역시 두 변수가 동시에 변하는 정도를 나타내기 때문이다. 
 
공분산이란 두 확률변수의 분포가 결합될 때 그 결합확률 분포의 분산을 측정하는 것으로 Cov(X,Y)로 표시한다. 확률변수 X와 Y의 공분산 수식은 아래와 같이 표현된다. 

 
Cov(X, Y) = E[(X-E(X))(Y-E(Y))]
              = E (XY) - E(X)E(Y)

 
X의 큰 값에 대하여  Y의 큰 값이 대응되고, X의 작은 값에 대하여 Y의 작은 값이 대응되면 공분산은 + 방향으로 커진다. 반면 X의 큰 값과 Y의 작은 값, X의 작은 값과 Y의 큰 값처럼 서로 다른 방향의 변수가 대응이 되면 공분산은 - 의 방향으로 커진다. 공분산이 0인 경우도 있을 수 있는데, 이때는 두 확률변수 사이에 비례적인 선형관계를 발견할 수 없을 때다. 확률변수 X와 Y가 같은 모양으로 변화하면 공분산은 커지지만, 두 변수가 서로 다른 모양으로 변화하면 공분산은 작아진다. 

 

모집단의 분포를 아는 경우 기대값을 사용하여 두 변수 X, Y 간의 공분산을 구하는 방법도 있지만 평균을 사용하여 다음과 같이 공분산을 구할 수도 있다.
 

 
공분산에서 X변수가 증가할 때 Y변수가 증가하면, 즉 두 변수가 같은 방향으로 변화하면 공분산의 수치는 +가 된다. 만일 두 변수가 변화하는 방향이 서로 다르면 공분산은 - 부호를 가진다. 이렇듯 공분산은 두 변수 간의 관계를 말해주지만, 공분산은 두 변수의 측정단 위에 따라서 커다란 차이가 나는 문제점있어 상대적인 강도를 타나내는 좋은 지표가 되지 못한다. 예를 들어 길이를 나타내는 두 변수 X와 Y의 공분산을 구할 때, 그 변수들이 센티미터(cm)로 표시되는 경우보다 미터(m)로 표시되는 경우 공분산의 절대값은 훨씬 작아진다. 이러한 단위의 문제를 해결하기 위하여 두 변수의 상관관계를 알기 원할 때는 다음에서 설명하는 피어슨의 상관계수(correlation coefficient) r을 이용한다. 이를 Sxy를 각 변수의 표준편차 Sx와 Sy의 곱으로 나누어서 변수의 단위를 표준시키는 방식이다. 
 

피어슨이 제시한 상관계수 r은 두 변수 모두 등간 또는 비율 척도에 의해 측정된 연속변수에 사용된다. 또한, 피어슨의 r은 정규분포를 따르는 두 변수 X와 Y가 일직선이라는 선형선을 가정할 수 있을 때 사용된다. 아래 수식 '표본'에서 보는 바와 같이 rxy는 두 변수의 공분산(Sxy)을 각 변수의 표준편차인 Sx와 Sy의 곱으로 나누어 상관계수를 구하였다. 이렇듯 공분산 Sxy를 Sx와 Sy의 곱으로 나누면 상관계수(correlation coefficient)는 -1.0 ≤ r ≤ 1.0 의 범위에 있게 된다. 따라서 어떠한 단위의 측정값을 사용하여도 상관성에 대한 비교와 해석이 용이하다. 모집단의 상관관계수는 p로 표시하고 표본의 상관계수는 r로 표시하며 계산식은 아래와 같다. 

 

변수 X,Y가 표준정규분포를 따를 때  Sx와 Sy는 1이 되므로 공분산 Sxy만 남게 되어 예측변수가 1개인 경우 공분산 Sxy는 r과 같다는 것을 알 수 있다. 두 변수의 평균치가 소수점이 나오거나 나누어 떨어지지 않을 때는 계산이 복잡하고 정확하지 않으므로 아래와 같이 변형하여 편리하게 계산할 수도 있다. 
 

 
상관계수의 크기와 방향에 따라 산포도가 어떤 모양을 이루는지 살펴보면 아래와 같다. 
 
상관관계(correlation coefficient)와 산포도(scatter plot)의 모양 

(이미지 출처) https://umbum.dev/1006

 
 
분산과 공분산 
https://charmingsnote.tistory.com/3