02. Calculus Backgrounds

Matrix Derivatives

Types of Matrix Derivative

Type	Scalar $y$	Vector $y$ $(m \times 1)$	Matrix $Y$ $(m \times n)$
Scalar $x$	$\frac{\partial y}{\partial x}$	$\frac{\partial y}{\partial x}$ : $(m \times 1)$	$\frac{\partial Y}{\partial x}$ : $(m \times n)$
Vector $x$ $(n \times 1)$	$\frac{\partial y}{\partial x}$ : $(1 \times n)$	$\frac{\partial y}{\partial x}$ : $(m \times n)$
Matrix $X$ $(p \times q)$	$\frac{\partial y}{\partial X}$ : $(p \times q)$

Dimension을 주의할 것!

Gradient and Hessian

$\nabla f (x)$ = the gradient of $f$
- The transpose of the first derivatives of $f$

\nabla f (x) := \frac{\partial f}{\partial x _{1}} ⋮ \frac{\partial f}{\partial x _{n}} = (\frac{\partial f}{\partial x})^{T} \in R^{n \times 1}

$\nabla^{2} f (x)$ = the Hessian of $f$
- The matrix of second partial derivatives of $f$
- The Hessian is a symmetric matrix

\frac{\partial ^{2} f}{\partial x _{1}^{2}} \frac{\partial ^{2} f}{\partial x _{2} \partial x _{1}} ⋮ \frac{\partial ^{2} f}{\partial x _{n} \partial x _{1}} \frac{\partial ^{2} f}{\partial x _{1} \partial x _{2}} \frac{\partial ^{2} f}{\partial x _{2}^{2}} ⋮ \frac{\partial ^{2} f}{\partial x _{n} \partial x _{2}} \dots \dots ⋱ \dots \frac{\partial ^{2} f}{\partial x _{1} \partial x _{n}} \frac{\partial ^{2} f}{\partial x _{2} \partial x _{n}} ⋮ \frac{\partial ^{2} f}{\partial x _{n}^{2}} \in R^{n \times n}

Jacobian and Matrix Derivative

Jacobian when $x \in R^{n}, y \in R^{m}$

\frac{\partial y}{\partial x} = \frac{\partial y _{1}}{\partial x _{1}} \frac{\partial y _{2}}{\partial x _{1}} ⋮ \frac{\partial y _{m}}{\partial x _{1}} \frac{\partial y _{1}}{\partial x _{2}} \frac{\partial y _{2}}{\partial x _{2}} ⋮ \frac{\partial y _{m}}{\partial x _{2}} \dots \dots ⋱ \dots \frac{\partial y _{1}}{\partial x _{n}} \frac{\partial y _{2}}{\partial x _{n}} ⋮ \frac{\partial y _{m}}{\partial x _{n}} \in R^{m \times n}

Matrix derivative when $X \in R^{p \times q}, Y \in R^{m \times n}, z \in R$

\frac{\partial z}{\partial x _{11}} \frac{\partial z}{\partial x _{21}} ⋮ \frac{\partial z}{\partial x _{p 1}} \frac{\partial z}{\partial x _{12}} \frac{\partial z}{\partial x _{22}} ⋮ \frac{\partial z}{\partial x _{p 2}} \dots \dots ⋱ \dots \frac{\partial z}{\partial x _{1 q}} \frac{\partial z}{\partial x _{2 q}} ⋮ \frac{\partial z}{\partial x _{pq}}, \frac{\partial Y}{\partial z} = \frac{\partial y _{11}}{\partial z} \frac{\partial y _{21}}{\partial z} ⋮ \frac{\partial y _{m 1}}{\partial z} \frac{\partial y _{12}}{\partial z} \frac{\partial y _{22}}{\partial z} ⋮ \frac{\partial y _{m 2}}{\partial z} \dots \dots ⋱ \dots \frac{\partial y _{1 n}}{\partial z} \frac{\partial y _{2 n}}{\partial z} ⋮ \frac{\partial y _{mn}}{\partial z},

Useful Matrix Derivative

For $A \in R^{n \times n}$ ,

$\frac{\partial}{\partial x} (b^{T} x) = \frac{\partial}{\partial x} (x^{T} b) = b^{T}$
$\frac{\partial}{\partial x} (x^{T} x) = \frac{\partial ∥ x ∥ ^{2}}{\partial x} = 2 x^{T}$
$\frac{\partial}{\partial x} (x^{T} A x) = x^{T} (A + A^{T})$
- $2 x^{T} A$ if $A$ is symmetric.

Chain Rule

Theorem: Chain Rule When the vector $x$ in turn depens on another vector $t$ , the chain rule for the univariate function $f : R^{n} \to R$ can be extended as follows:
$= \frac{\partial f}{\partial x} \frac{d x}{d t} = \nabla f (x (t))^{T} \frac{d x}{d t}$

If $z = f (y)$ and $y = g (x)$ where $x \in R^{n}, y \in R^{m}, z \in R$ , then

\frac{d z}{d x _{i}} = j \sum \frac{d z}{d y _{j}} \frac{d y _{j}}{d x _{i}} = j \sum \frac{d y _{j}}{d x _{i}} \frac{d z}{d y _{j}}

(gradients from all possible paths)

or in vector notation

\frac{d z}{d x} = \frac{d z}{d y} \frac{d y}{d x}

[1 \times n] [1 \times m] [m \times n]

Neural Net에서의 BackPropagation 기법의 기초가 된다.

Chain Rule on Level Curve

level curve : $f (x, y) = c$ 를 만족하는 $(x, y)$ 의 집합.

On level curve $f (x (t)) = c$ ,

\frac{df ( x ( t ) )}{d t} = \nabla f (x (t))^{T} \frac{d x ( t )}{d t} = 0

즉, $\nabla f (x (t))$ 는 level curve에서 수직(orthogonal)이며, $f$ 가 증가하는 방향(ascent direction)을 가르킨다.

Directional Derivatives

$f$ is continuously differentiable and $p \in R^{n}$ , directional derivative of $f$ in the direction of $p$ is given by

D (f (x); p) = ε \to 0 lim \frac{f ( x + εp ) - f ( x )}{ε} = \nabla f (x)^{T} p

Taylor Series Expansion

First order

f (x + p) ≊ f (x) + \nabla f (x)^{T} p

Second order

f (x + p) ≊ f (x) + \nabla f (x)^{T} p + \frac{1}{2} p^{T} \nabla^{2} f (x) p

추후 나올 일반적인 search(또는 learning) algorithm에서는 1st order expansion이면 충분하다.

Taylor Series Expansion을 통해 간단하게 $\nabla f (x)$ 가 ascent direction임을 보일 수 있다.

f (x + λ \nabla f (x)) ≊ f (x) + λ \nabla f (x)^{T} \nabla f (x) = f (x) + λ ∥\nabla f (x) ∥^{2} \geq f (x)

Roh Donghyun

Explorer

02. Calculus Backgrounds

Matrix Derivatives

Types of Matrix Derivative

Gradient and Hessian

Jacobian and Matrix Derivative

Useful Matrix Derivative

Chain Rule

Chain Rule

Chain Rule on Level Curve

Directional Derivatives

Taylor Series Expansion

Graph View

Table of Contents