수학 | Kangwook Lee’s Tech Blog

선형분류

. 개요- 입력벡터(\(\mathbf{x}\))를 수개의 클래스 중 하나의 클래스로 할당하는 문제(예를 들면, 클래스가 \(C_, \cdots, C_K\)로 주어질 때 \(\mathbf{x}\)를 이 중 하나로 분류하는 문제)를 분류문제라 한다. 분류문제를 풀기 위한 결정이론으로서 \(k=, \cdots, K\)에 대해 모든 사후확률 \(p(C_k \mid \mathbf{x})\)을 구해볼 수 있다. (이를 ...

선형회귀

. 선형 기저함수 모델- 입력 데이터로 \(D\)-벡터 \(\mathbf{x} = \begin{bmatrix} x_ & \cdots & x_D \end{bmatrix}^T \)가 주어지고 파라미터로 \((D+)\)-벡터 \(\mathbf{w} = \begin{bmatrix} w_ & \cdots & w_D \end{bmatrix}^T \)가 주어진다 하자. 이때 \(y(\...

편향 분산 분해

- 제곱합 손실함수가 주어질 때 입력 데이터 \(\mathbf{x}\)에 대한 최적 예측값 \(\mathbb{E}(t \mid \mathbf{x}) = \int t p(t \mid \mathbf{x}) dt\)을 \(h(\mathbf{x})\)라 하면, 손실함수의 기댓값 \(\mathbb{E}(L) = \int \{y(\mathbf{x}) - h(\mathbf{x})\}^ p(\mathbf{x})d\mathb...

벡터의 가우스 분포

. 개요확률변수인 \(D\)-벡터 \(\mathbf{x}\)가 \(D\)-벡터 \(\mathbf{\mu}\)를 평균으로 하고 \(D \times D\) 행렬 \(\Sigma\)를 공분산 행렬으로 하는 가우스 분포를 따른다 할 때, 이를 다음과 같이 쓴다.\[\mathcal{N} ( \mathbf{x} \mid \mathbf{\mu}, \Sigma) = { \over {(\pi)^{D/}} } { \over ...

베르누이 분포의 확률 구하기

. 베르누이 분포- 시행의 결과로 나오는 결과가 딱 둘뿐인 사건의 확률분포를 베르누이 분포라 한다. 그 확률변수 \(x\)가 또는 의 값만 갖는데 각각이 나올 확률 \(\mu, -\mu\)는 모른다면, \(p(x= \mid \mu) = \mu, p(x= \mid \mu) = -\mu\)로 쓸 수 있다. 이를 \(\mathrm{Bern}(x \mid \mu) = \mu^{(-x)}(-\mu)^x\)로 쓸 수 ...

결정이론

. 개요- 어떤 확률분포가 있어 주어진 입력에 대한 확률값을 계산할 수 있을 때, 그 확률값에 기반해 최적의 결정을 내리는 이론을 결정이론(decision theory)이라 한다. 이미 계산된 확률분포를 통해 주어진 입력에 대한 확률값을 계산하는 단게(추론단계)와 계산된 확률값에 기반해 최적의 결정을 내리는 단계(결정단계)로 나뉜다.- 분류문제를 결정이론으로 접근해 보자. 예를 들어 주어진 입력 \(\math...

곡선근사

* 분류문제에서 최대우도법으로 가중치 벡터 구하기) 훈련 데이터셋을 이용한 우도함수 만들기- 어떤 실수 \(x_i\)를 입력받으면 그에 대한 결과로 \(t_i\)(\(i = , \cdots, n\))가 나와야 하는 훈련 데이터셋이 있다 하자. 이 훈련 데이터셋이 정규분포에서 추출된 표본이라 가정하고 최대우도법으로 예측함수의 가중치 벡터 \(\mathbf{w}\)를 추측할 수 있다.- 주어진 어떤 실수 \(x\...

확률변수

. 확률변수와 확률- 어떤 사건의 가능한 모든 결과들을 원소로 하는 집합(이하 \(S\))을 정의역으로 하여 치역으로 실수집합을 갖는 함수를 확률변수(random variable)라 한다. (‘사건 결과를 수치로 그룹화했을 때, 그 수치’라고 생각할 수 있다.)- \(S\)의 모든 부분집합을 담은 집합을 정의역으로 하여 치역으로 이상 이하인 실수를 갖는 함수를 확률(probability)이라 한다. 확률이...

행렬미분

* gradient- \(m \times n\) 크기의 행렬 \(A\)를 인자로 갖고 함수값으로 실수를 갖는 어떤 함수 \(f\)가 있을 때, \(f\)의 gradient \(\nabla_A f(A)\)는 다음과 같이 정의된다.\[\begin{bmatrix}{ {\partial f(A )} \over {\partial A_{,}}} & \cdots & { {\partial f(A )} \ove...

이차형식

. 이차형식(quadratic form)\[\mathbf{x}^T A \mathbf{x} = \begin{bmatrix} x_ & \cdots & x_n \end{bmatrix} \begin{bmatrix} a_{, } & \cdots & a_{, n} \\\vdots & \cdots & \vdots \\a_{n, } & \cdots & a_{n, n}...

고유값과 고유벡터

. 개요- 어떤 \(n \times n\) 행렬 \(A\)에 대해, \(A \mathbf{v} = \lambda \mathbf{v}\) 을 만족하는 아닌 열벡터 \(\mathbf{v}\)와 상수 \(\lambda\)가 존재하는 경우가 있다. 이때의 열벡터 \(\mathbf{v}\)를 고유벡터, 상수 \(\lambda\)를 고유값이라 한다. 고유값은 실수가 아니라 허수부를 갖는 복소수일 수도 있다.- 기하학...

Range, null space, projection

. range, null space- \(n\)개의 벡터로 이루어진 어떤 집합 \(A\)가 있을 때, 그 집합의 원소 벡터들의 linear combination으로 만들 수 있는 모든 벡터의 집합을 \(A\)의 span이라 한다.- \(m \times n\) 크기의 어떤 행렬 \(A\)에 대하여 다음이 정의된다. \(m \times n\) 행렬에 \(n\)-벡터를 곱하면 결과로 \(m\)-벡터를 얻는...

행렬의 주요 성질

* 전치행렬\[(AB)^T = B^T A^T\]\[(A+B)^T = A^T + B^T\]\[(A^{-})^T = (A^T)^{-}\]\[det(A) = det(A^{T})\]* 대칭행렬/반대칭행렬- \(A = A^T\)일 때 대칭, \(A = -A^T \)일 때 반대칭이라 한다.- \(A A^T\), \(A + A^T\)는 항상 대칭행렬이다.- \(A-A^T\)는 항상 반대칭행렬이다.* 대각합- 정방행렬에 대...

교차엔트로피

. 정보와 엔트로피- 정보이론에서 정보(information)는 불확실한 정도(uncertainty)를 측정하는 양의 표현(quantitative representation)으로 정의된다. 즉, 일어날 가능성이 불확실한 사건일수록 그 사건이 실제로 일어났음을 전하는 정보는 더 정보량이 많은 것(informative)으로 볼 수 있다. 이러한 정의를 따라, 사건 \(A\)의 정보량 \(i(A)\) 는 \(-lo...

추정과 검정

. 모비율의 추정- 어떤 집단에서 어떠한 속성을 갖는 구성원이 차지하는 비율(\(p\))를 추정하고 싶을 때, 그 집단에서 \(n\)명의 표본을 선택한 후 그 중에서 그 속성을 갖는 구성원의 수(\(X\))를 이용하여 모비율 \(p\)를 추정할 수 있다.- 이 집단에서 크기 \(n\)인 표본을 추출하는 문제는 이 집단에서 \(p\)의 확률로 그 속성을 갖는 구성원을 \(n\)번 추출하는 독립시행을 하는 것과 ...

푸아송 분포, 지수분포

. 푸아송 분포- 전체 시간 또는 공간의 크기가 일정하게 주어지고 여기서 단위시간 또는 단위공간 당 사건이 일어날 확률이 일정할 때, 이러한 사건의 확률분포는 이항확률분포이다. 푸아송 분포는, 단위시간 또는 단위공간 당 사건이 일어날 확률을 정확히 알 수는 없으나 전체 시간 또는 공간 내에서 평균적으로 사건이 일어나는 횟수는 알 때의 확률분포다.- 푸아송 분포는 이항확률분포의 시행횟수가 무한대로 커지는 한편 ...

베이즈 정리와 MLE

. 베이즈 정리- 어떤 표본공간을 사건 \(B_, \cdots, B_n\)이 각각 분할하고 각 사건 \(B_i\)가 일어날 확률(‘사전확률’, \(P(B_i)\))과 \(P(A \mid B_i)\)의 값(‘우도’)을 모두 알고 있을 때(단, \(i = , \cdots, n\)), \(P(B_r \mid A)\)의 값(‘사후확률’)을 다음 식을 계산해 얻을 수 있다.\[P(B_r \mid A) = { {P(B_...

결합확률분포, 공분산, 상관계수

. 결합확률분포(joint probability distribution)- 확률적으로 일어나는 사건의 결과에 따라 달라지는 값을 확률변수라 하며, 각 확률변수에 따라 그 사건이 일어날 확률을 나타낸 것을 확률분포라 한다. 어떤 사건의 결과를 둘 이상의 확률변수로 나타낼 수 있을 때 그에 대한 확률분포를 결합확률분포라 한다.- 어떤 결합확률분포가 있을 때, 이를 통해 그 사건의 한 특정 확률변수에 대한 확률분포...

주성분 분석(PCA)과 특이값 분해(SVD)

. 주성분 분석) 개요- 주성분 분석(principal component analysis, PCA)은 여러 개의 데이터들이 어떤 양상으로 분포하고 있을 때 이 분포의 주성분(그 방향으로 데이터들의 분산이 가장 큰 방향벡터)을 분석하는 기법을 말한다.- 기하학적으로 어떤 행렬의 고유벡터는 그 행렬에 관한 좌표축을, 고유값은 그 행렬이 그 고유벡터 방향으로 치우친 정도를 의미한다고 볼 수 있으므로, 여러 차원의 ...

Linear system

. 개요) linear system- \(a_{,} \ x_ + a_{,} \ x_ = b\) 와 같이 미지수 \(x_i\)에 관한 차 방정식을 linear equation이라 하며, 이러한 linear equation 유한개의 집합을 linear system이라 한다.- \(n \times n\) 행렬 \(A\), 열벡터 \(\mathbf{x} = \begin{bmatrix} x_ \\ \vdots \\ ...

행렬의 곱셈

. 행렬의 곱셈\[\begin{bmatrix} * & \cdots & * \\ \vdots & a_{i, k} & \vdots \\* & \cdots & * \end{bmatrix} \begin{bmatrix} * & \cdots & * \\ \vdots & b_{k, j} & \vdots \\* & \cdots & ...