Distributions
Logistic Sigmoid

Softplus Function
- softened version of
Properties of Sigmoid
Information Theory
Entropy
Information theory๋ information์ด๋ผ๋ ๊ฐ๋ ์ ๋ํ quantifyingํ๋ ๊ฒ์ ๋ํ ํ๋ฌธ์ด๋ค. ์ฌ๊ธฐ์ ๊ฐ์ฅ ๊ธฐ๋ณธ ๊ฐ๋ ์, ๋ฐ์ ํ๋ฅ ์ด ๋ฎ์ event๊ฐ ๋ informativeํ๋ค๋ ๊ฒ์ด๋ค.
์ด๋ค event ์ด ๊ฐ์ง๊ณ ์๋ information quantity ๋๋ self-information์ event ๊ฐ ๋ฐ์ํ ํ๋ฅ ๋ฅผ ํํํ๊ธฐ ์ํ ์ต์ bits ๊ฐ์๋ก, ๋ค์๊ณผ ๊ฐ์ด ์ ์ํ๋ค.
๊ฐ ๋ฎ์์๋ก ๋ ์ฆ๊ฐํ๋ค๋ ๊ฒ์ ์ ์ ์๋ค.
์ด ๋, entropy๋ self-information์ expectation์ ๋งํ๋ฉฐ, ๋ค์๊ณผ ๊ฐ์ด ์ ์๋๋ค.
์ด๋ค distribution์์ ๋ฐ์ํ event์ information quantity์ ๊ธฐ๋๊ฐ์ด๋ฏ๋ก, ํด๋น distribution์ uncertainty ํฌ๊ธฐ์ ๋ํ measure๋ก ๋ณผ ์ ์๋ค.
์๋ฅผ ๋ค์ด, Bernoulli distribution์ ๊ณ ๋ คํ์. ์ด ๋์ entropy๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋๋ค.
๋ง์ฝ, distribution์ด deterministicํ๋ค๋ฉด, ์ฆ ๋๋ ์ด๋ฉด, ๋ 0์ด ๋๋ค (์ฌ๊ธฐ์ ์ผ๋ก ๊ณ ๋ ค).
๋ฐ๋ฉด์, ๊ฐ์ฅ uncertain ํ ์ํฉ์ธ ์ธ ๊ฒฝ์ฐ, ๋ ์ฝ 0.693 ์ ๋๋ก ๊ฐ์ฅ ํฐ ๊ฐ์ ๊ฐ๋๋ค.

KL Divergence
KullbackโLeibler divergence, ๋๋ KL divergence๋ ๋ distribution์ ๋ํ ์ฐจ์ด๋ฅผ ๋ํ๋ด๋ ๋น๋์นญ์ ์งํ์ด๋ค.
-
if and only if and are the same.
-
Asymmetric:

Cross-entropy
์ฐ๋ฆฌ๊ฐ ๊ด์ฌ์๋ ๊ฒ์ด data์ distribution ๋ผ๊ณ ํ์. ํ์ง๋ง, ์ผ๋ฐ์ ์ผ๋ก ์ฐ๋ฆฌ๋ ์ ๋ํด์๋ ์์ง ๋ชปํ๋ค. ๋ฐ๋ผ์ ์ฐ๋ฆฌ๋ ๋ฅผ ๋ชจ์ฌํ๋ model์ ๋ง๋ค๊ณ ์ ๋ํ ์ถ์ ์ ์งํํ๋ค. ์ด ๋, model์ (output์ ๋ํ) distribution์ ๋ผ๊ณ ํ์.
Cross-entropy๋ ๊ฐ model ์ ๋ํ ์ถ์ ์ ์ผ๋ง๋ ์ํ๋์ง๋ฅผ ๋ํ๋ด์ฃผ๋ ์งํ๋ก, ๋ค์๊ณผ ๊ฐ์ด ์ ์๋๋ค.
Cross-entropy๋ ๋ฅผ ๋ฐ๋ฅด๋ ์ฃผ์ด์ง data์ ์ฐ๋ฆฌ๊ฐ ๊ฐ์ ํ distribution ๋ฅผ ํตํด ๊ณ์ฐํ ์ ์๋ ์งํ๋ก, ์ด๋ฅผ ์ต์ํํ๋๋ก ํ์ต์ ์งํํ๋ค๋ฉด, ์ ๋ํด์ ๋ ์ฌ๋ฐ๋ฅธ ์ถ์ ์ด ๊ฐ๋ฅํ๊ฒ ๋๋ค.
Cross-entropy์ ์ต์ํ w.r.t. ๋ KL divergence์ ๋ํ ์ต์ํ์ ๋์ผํ๋ค.