확률변수 | Kangwook Lee’s Tech Blog

1. 확률변수와 확률

- 어떤 사건의 가능한 모든 결과들을 원소로 하는 집합(이하 \(S\))을 정의역으로 하여 치역으로 실수집합을 갖는 함수를 확률변수(random variable)라 한다. (‘사건 결과를 수치로 그룹화했을 때, 그 수치’라고 생각할 수 있다.)

- \(S\)의 모든 부분집합을 담은 집합을 정의역으로 하여 치역으로 0 이상 1 이하인 실수를 갖는 함수를 확률(probability)이라 한다. 확률이라는 함수에 대입하는 값으로서 \(S\)의 부분집합을 표현할 때 이를 흔히 확률변수에 관한 등식/부등식으로 표현한다.

2. 연속확률변수

- 어떤 확률변수 \(X\)에 대한 누적분포함수(cumulative distribution function) \(F(x) = P(X \le x)\)으로 정의하며, \(F\)의 역함수 \(F^{-1}\)는 항상 존재한다.

- \(F(x)\)에 대하여 다음이 성립하면 \(X\)를 연속확률변수라 하고 다음을 만족하는 \(f(x)\)를 \(X\)의 확률밀도함수(probability density function)라 한다.

\[F(x) = \int_{-\infty}^x f(t) dt\]

- \(X\)에 대한 확률밀도함수를 흔히 \(p_{X} (x)\)로 쓰며, 어느 한 확률변수가 아닌 일반적인 확률밀도함수의 성질을 쓸 땐 \(p(x)\)로 쓰기도 한다. 확률밀도함수 \(p(x)\)의 값 또한 일반적인 확률 함수와 마찬가지로 0 이상 1 이하인 실수의 값을 가지며, 덧셈법칙, 곱셈법칙, 베이즈 정리가 성립한다.

3. 확률변수의 함수

- 예를 들어 확률변수 \(X\)의 치역을 정의역으로 하는 어떤 함수 \(Y = f(X)\) 또한 확률변수이다.

- 확률변수 \(X\)의 함수 \(Y=f(X)\)가 있고 \(Y(e_Y) = y, X(e_X) = x, e_Y \in S_Y, e_X \in S_X, f\)의 역함수 \(f^{-1}(Y) = X\)가 존재할 때 다음이 성립한다.

\[y = f(x)\] \[p_{Y} (y) = p_{X} (x) \| {dy \over dx} \|\]

- 어떤 사건의 가능한 모든 결과들을 원소로 하는 집합 \(S\)가 정의역, \(\mathbb{R}^k\)가 치역인 확률변수 \(\mathbf{x} = (x_1, \cdots, x_n)\)가 있고 또 \(\mathbf{x}\)의 치역을 정의역으로 하는 새로운 확률변수 \(\mathbf{y} = f(\mathbf{x})\) 가 일대일 대응일 때, \(\mathbf{y}\)의 결합확률밀도함수(joint probability density function)는 다음과 같이 정의된다.

\[p_Y (y_1, \cdots, y_k) = p_X (x_1, \cdots, x_k) \begin{vmatrix} {\partial x_1 \over \partial y_1} & \cdots & {\partial x_1 \over \partial y_k} \\ \vdots & \cdots & \vdots \\ {\partial x_k \over \partial y_1} & \cdots & {\partial x_k \over \partial y_k} \end{vmatrix}\]

4. inversed CDF technique

- 어떤 확률변수에 관한 임의의 샘플 데이터를 얻어야 하는데 그 확률분포를 바로 알기 어려우나 누적분포함수를 알기는 쉬운 경우에, inversed CDF technique을 통해 그 확률변수에 관한 임의의 샘플 데이터를 얻을 수 있다. 예를 들어, 반지름이 \(r\)인 원 내부 임의의 위치에 점을 찍었을 때 그 점과 원의 중심 사이 거리 \(d\)가 갖는 확률분포는 바로 알기는 어려운 점이 있으나 누적분포함수 \(F(d) = {d^2 \over r^2}\)임을 알기는 어렵지 않다. inversed CDF technique은 이런 경우 누적분포함수의 역함수와 그에 관한 확률변수를 새로 정의하여 샘플 데이터를 얻는다.

- 구체적으로 어떤 확률변수 \(X\)의 누적분포함수 \(F_X(x)\)가 있고, 한편으로 어떤 확률변수 \(U\)의 확률밀도함수 \(p_U (u) \)가 다음과 같다 하자.

\[p_U(u) = \begin{cases} 1, 0 \le u \le 1 \\ 0, \mbox{otherwise} \end{cases}\]

그리고 \(U\)의 치역을 정의역으로 하는 확률변수 \(Y = F_{X}^{-1}(U)\)가 있다 하자. 이때 \(Y\)의 확률분포는 \(X\)의 확률분포와 정확히 일치하며, 따라서 만약 \(X\)로부터 샘플 데이터를 얻는 것이 어려운 경우 \(Y\)로부터 샘플데이터를 얻어 사용하면 된다.

- 반지름 \(r\)인 원 내부 임의의 위치에 점을 찍어 그 점과 원의 중심 사이 거리 \(d\)의 확률분포를 구하는 문제로 돌아오면, \( F^{-1}(u) = d = r \sqrt u\)이므로 \(d\)의 확률분포가 \(r \sqrt u\)의 확률분포와 같음을 알 수 있다. \(u\)의 확률밀도함수를 알고 있으므로 이를 이용하여 \(d\)의 임의의 샘플 데이터를 얻을 수 있다.

5. 확률변수의 함수의 기댓값

- 확률변수의 함수 \(Y = f(X)\)에 대해 \(Y\)의 기댓값 \(E(Y) = \sum_x p(x) f(x)\) 이고, 분산 \(V(Y) = E(Y^2) - E(Y)^2\)이다.

- \(\mathbb{E}_{x, y}(f(x, y)) = \sum_y \sum_x f(x, y) p(x, y)\)

- 확률변수 \(x, y\)의 공분산 \(cov(x, y) = E_{x, y}(xy) - E(x)E(y)\) 이다.

확률변수의 벡터 \(\mathbf{x}, \mathbf{y}\)의 공분산 \(cov(\mathbf{x}, \mathbf{y}) = E_{\mathbf{x}, \mathbf{y}}(\mathbf{x}\mathbf{y}^T) - E(\mathbf{x})E(\mathbf{y})\) 이다.
\(cov(\mathbf{x}, \mathbf{x})\)를 특별히 \(cov(\mathbf{x})\)로 쓰기도 한다.