행렬미분 | Kangwook Lee’s Tech Blog

* gradient

- \(m \times n\) 크기의 행렬 \(A\)를 인자로 갖고 함수값으로 실수를 갖는 어떤 함수 \(f\)가 있을 때, \(f\)의 gradient \(\nabla_A f(A)\)는 다음과 같이 정의된다.

\[\begin{bmatrix} { {\partial f(A )} \over {\partial A_{1,1}}} & \cdots & { {\partial f(A )} \over {\partial A_{1,n} } }\\ \vdots & \cdots & \vdots \\ { {\partial f(A )} \over {\partial A_{m,1}} }& \cdots & { {\partial f(A )} \over {\partial A_{m,n} } }\end{bmatrix}\]

- 임의의 \(n\)-벡터 \(\mathbf{b}, \mathbf{x}\), 임의의 \(n \times n\) 대칭행렬 \(A\)에 대해 다음이 성립한다.

\(\nabla_\mathbf{x} \mathbf{b}^T \mathbf{x} = \mathbf{b}\) (\((bx)’ = b\)와 유사성이 보인다.)
\(\nabla_\mathbf{x} \mathbf{x}^T A \mathbf{x} = 2 A \mathbf{x}\) (\((ax^2)’ = 2ax\)와 유사성이 보인다.)
\(\nabla_{\mathbf{x}}^2 \mathbf{x}^T A \mathbf{x} = 2 A\)
\(A\)가 양의 정부호 행렬일 때, \(\nabla_A log|A| = A^{-1}\) 이다.