Matrix Derivatives
Types of Matrix Derivative
Type Scalar y Vector y ( m ร 1 ) Matrix Y ( m ร n ) Scalar x โ x โ y โ โ x โ y โ : ( m ร 1 ) โ x โ Y โ : ( m ร n ) Vector x ( n ร 1 ) โ x โ y โ : ( 1 ร n ) โ x โ y โ : ( m ร n ) Matrix X ( p ร q ) โ X โ y โ : ( p ร q )
Dimension์ ์ฃผ์ํ ๊ฒ!
Gradient and Hessian
โ f ( x ) = the gradient of f
The transpose of the first derivatives of f
โ f ( x ) := โ โ x 1 โ โ f โ โฎ โ x n โ โ f โ โ โ = ( โ x โ f โ ) T โ R n ร 1
โ 2 f ( x ) = the Hessian of f
The matrix of second partial derivatives of f
The Hessian is a symmetric matrix
โ โ x 1 2 โ โ 2 f โ โ x 2 โ โ x 1 โ โ 2 f โ โฎ โ x n โ โ x 1 โ โ 2 f โ โ โ x 1 โ โ x 2 โ โ 2 f โ โ x 2 2 โ โ 2 f โ โฎ โ x n โ โ x 2 โ โ 2 f โ โ โฆ โฆ โฑ โฆ โ โ x 1 โ โ x n โ โ 2 f โ โ x 2 โ โ x n โ โ 2 f โ โฎ โ x n 2 โ โ 2 f โ โ โ โ R n ร n
Jacobian and Matrix Derivative
Jacobian when x โ R n , y โ R m
โ x โ y โ = โ โ x 1 โ โ y 1 โ โ โ x 1 โ โ y 2 โ โ โฎ โ x 1 โ โ y m โ โ โ โ x 2 โ โ y 1 โ โ โ x 2 โ โ y 2 โ โ โฎ โ x 2 โ โ y m โ โ โ โฆ โฆ โฑ โฆ โ โ x n โ โ y 1 โ โ โ x n โ โ y 2 โ โ โฎ โ x n โ โ y m โ โ โ โ โ R m ร n
Matrix derivative when X โ R p ร q , Y โ R m ร n , z โ R
โ โ x 11 โ โ z โ โ x 21 โ โ z โ โฎ โ x p 1 โ โ z โ โ โ x 12 โ โ z โ โ x 22 โ โ z โ โฎ โ x p 2 โ โ z โ โ โฆ โฆ โฑ โฆ โ โ x 1 q โ โ z โ โ x 2 q โ โ z โ โฎ โ x pq โ โ z โ โ โ , โ z โ Y โ = โ โ z โ y 11 โ โ โ z โ y 21 โ โ โฎ โ z โ y m 1 โ โ โ โ z โ y 12 โ โ โ z โ y 22 โ โ โฎ โ z โ y m 2 โ โ โ โฆ โฆ โฑ โฆ โ โ z โ y 1 n โ โ โ z โ y 2 n โ โ โฎ โ z โ y mn โ โ โ โ ,
Useful Matrix Derivative
For A โ R n ร n ,
โ x โ โ ( b T x ) = โ x โ โ ( x T b ) = b T
โ x โ โ ( x T x ) = โ x โ โฅ x โฅ 2 โ = 2 x T
โ x โ โ ( x T A x ) = x T ( A + A T )
Chain Rule
Chain Rule
Theorem: Chain Rule
When the vector x in turn depens on another vector t , the chain rule for the univariate function f : R n โ R can be extended as follows:
= โ x โ f โ d t d x โ = โ f ( x ( t ) ) T d t d x โ
If z = f ( y ) and y = g ( x ) where x โ R n , y โ R m , z โ R , then
d x i โ d z โ = j โ โ d y j โ d z โ d x i โ d y j โ โ = j โ โ d x i โ d y j โ โ d y j โ d z โ
(gradients from all possible paths)
d x d z โ = d y d z โ d x d y โ
[ 1 ร n ] [ 1 ร m ] [ m ร n ]
Neural Net์์์ BackPropagation ๊ธฐ๋ฒ์ ๊ธฐ์ด๊ฐ ๋๋ค.
Chain Rule on Level Curve
level curve : f ( x , y ) = c ๋ฅผ ๋ง์กฑํ๋ ( x , y ) ์ ์งํฉ.
On level curve f ( x ( t )) = c ,
d t df ( x ( t ) ) โ = โ f ( x ( t ) ) T d t d x ( t ) โ = 0
์ฆ, โ f ( x ( t ) ) ๋ level curve์์ ์์ง(orthogonal)์ด๋ฉฐ, f ๊ฐ ์ฆ๊ฐํ๋ ๋ฐฉํฅ(ascent direction)์ ๊ฐ๋ฅดํจ๋ค.
Directional Derivatives
f is continuously differentiable and p โ R n , directional derivative of f in the direction of p is given by
D ( f ( x ) ; p ) = ฮต โ 0 lim โ ฮต f ( x + ฮตp ) โ f ( x ) โ = โ f ( x ) T p
Taylor Series Expansion
f ( x + p ) โ f ( x ) + โ f ( x ) T p
f ( x + p ) โ f ( x ) + โ f ( x ) T p + 2 1 โ p T โ 2 f ( x ) p
์ถํ ๋์ฌ ์ผ๋ฐ์ ์ธ search(๋๋ learning) algorithm์์๋ 1st order expansion์ด๋ฉด ์ถฉ๋ถํ๋ค.
Taylor Series Expansion์ ํตํด ๊ฐ๋จํ๊ฒ โ f ( x ) ๊ฐ ascent direction์์ ๋ณด์ผ ์ ์๋ค.
f ( x + ฮป โ f ( x )) โ โ f ( x ) + ฮป โ f ( x ) T โ f ( x ) = f ( x ) + ฮป โฅโ f ( x ) โฅ 2 โฅ f ( x ) โ