1. 결합확률분포(joint probability distribution)

- 확률적으로 일어나는 사건의 결과에 따라 달라지는 값을 확률변수라 하며, 각 확률변수에 따라 그 사건이 일어날 확률을 나타낸 것을 확률분포라 한다. 어떤 사건의 결과를 둘 이상의 확률변수로 나타낼 수 있을 때 그에 대한 확률분포를 결합확률분포라 한다.

- 어떤 결합확률분포가 있을 때, 이를 통해 그 사건의 한 특정 확률변수에 대한 확률분포를 구할 수도 있다. 이러한 확률분포를 주변확률분포라 한다.

2. 공분산과 상관계수

- 확률변수가 \(X, Y\) 2개인 결합확률분포에서, 둘 사이의 상관관계를 추론하기 위해 \(Z=(X-\mu_X)(Y-\mu_Y)\)라는 확률변수에 대해 생각할 수 있다. 이때 이러한 확률변수 \(Z\)의 평균 \(E(Z)\)를 확률변수 \(X, Y\)의 공분산(covariance)이라 하며 \(Cov(X, Y)\)로 쓴다. 공분산 \(Cov(X, Y)\)는 다음 식을 통해 계산할 수 있다.

\(Cov(X, Y) = E[(X-\mu_X)(Y-\mu_Y)] = E(XY) - E(X) E(Y) \)

- 공분산은 확률변수의 크기가 클수록 커지므로 두 확률변수 사이 상관관계가 강하고 약하고만을 추론하는 데에는 어려움이 있을 수 있다. 이러한 어려움을 해소하기 위하여 공분산을 각 확률변수의 표준편차의 곱으로 나눈 상관계수(correlation coefficient)라는 지표가 정의된다. 확률변수 \(X, Y\)에 대한 상관계수 \(Corr(X, Y)\)는 다음과 같이 쓸 수 있다.

\(Corr(X, Y) = {Cov(X, Y) \over \sigma_X \sigma_Y}\)