본문 바로가기
수학.통계

분산과(Variance) 공분산(Covariance)

by 지식편집자 2023. 8. 19.

수리통계학/  송성주. 전명식 지음/ 자유아카데미

 

<수리통계학/ 송명주, 전명식 지음/ 자유아카데미>,  < 현대통계학 5판 | 박정식, 윤영선, 박래수 지음 | 다산출판사 >에서 참고 및 발췌하여 작성했습니다. 

 하나의 확률변수가 흩어진 정도를 측정하는 측도로서 분산(Variance)을 생각했다면, 두 확률 변수 X와 Y 사이의 흩어진 관계를 측정하는 측도로서 다음과 같이 정의되는 공분산(Covariance)을 생각할 수 있다

 

 

확률변수 X의 변동을 타나내는 측도로서 X가 평균 E(X)로부터 흩어져 있는(또는 밀집된) 정도를 다음과 같이 g(X) = [X-E(X)]2에 대한 기댓값으로 측정하고 분산(Variance)이라고 정의한다. 이 때 X가 그의 평균 E(X)로부터 멀리 떨어져 있는 경향이 많을수록 [X-E(X)]2의 값도 커지는 경향이 있는데, 그런 경우 자연히 분산도 커지게 된다. 편의상 확률변수 X의 분산을 Var(X) 또는 σ2x으로, 그리고 분산의 제곱근을 표준편차(standard deviation)라고 하고,  σx =  √VAR(X) 또는 SD(X)로 표기한다. 

 

확률변수 X의 흩어짐을 재는 데 사용되는 분산과 표준편차는 

Var(X) = E[X-E(X)]

  σx =  √VAR(X) 라고 각각 정의한다. 

 

그런데 위에 정의된 분산은 그 단위가 확률변수 X의 단위의 제곱이 된다. 가령, 변수 X의 단위가 cm이면 Var(X)의 단위는 cm2이 된다. 이러한 점은 실제 문제 있어서 변수 X의 흩어짐을 재는 데 비합리적이며, 따라서 분산의 제곱근으로 단위가 통일된 표준편차를 사용하여 변수의 흩어짐을 측정한다. 나아가, 확률변수 X를 그의 기댓값과 표준편차를 사용하여 아래 수식과 같이 변환하면, Z는 평균이 0이고 분산이 1이 된다. 이러한 변환을 변수의 표준화(standardization)이라고 한다.  

 

                                                                        Z=(x-E(X))/(σx)

한편, 확률변수 X의 분산은 E(X)와 E(X^2)을 사용하여 다음과 같이 나타낼 수도 있다. 

 

Var(X) = E[(X-E(X))2]

           = E[X2 -2E(X)X + (E(X))2]

           = E(X2) - 2E(X)2 + [E(X)]2

           = E(X2) - [E(X)]2

 

하나의 확률변수가 흩어진 정도를 측정하는 측도로서 분산을 생각했다면, 두 확률 변수 X와 Y 사이의 흩어진 관계를 측정하는 측도로서 다음과 같이 정의되는 공분산(Covariance)을 생각할 수 있다. 공분산은 X와 Y가 선형적으로 함께 움직이는 정도를 표현해 주는 측도라고 생각할 수 있다. 두 확률변수 X, Y의 공분산은 아래와 같이 정의된다. 두 확률변수의 분포가 결합확률분포를 이룰 때 그 분포의 분산을 공분산이라고 한다. 공분산에서 X 변수가 증가할 때 Y 변수가 증가하면, 즉 두 변수가 같은 방향으로 변화하면 공분산의 수치는 + 가 된다. 만일 두 변수가 변화하는 방향이 서로 다르면 공분산은 - 부호를 가진다.

 

Cov(X, Y) = E[(X-E(X))(Y-E(Y))] = E (XY) - E(X)E(Y)

 

위의 정의로부터

(1) Cov(X, X) = Var(X)이며,

(2) 두 확률변수 X와 Y가 서로 독립이면 Cov(X, Y) = 0이다.