02. Joint Probability Distribution

Joint Probability Distribution

결합분포(Joint Probability Distribution)는 두 개의 확률변수가 취할 수 있는 값들의 모든 쌍의 확률을 나타낸 것이다.

이산형 결합확률질량함수
$p (x, y) = P (X = x, Y = y)$
- $0 \leq p (x, y) \leq 1$
- $\sum_{x} \sum_{y} p (x, y) = 1$
- $P (a < X \leq b, c < Y \leq d) = \sum_{a < x \leq b} \sum_{c < y \leq d} p (x, y)$
연속형 결합확률밀도함수
$P (a < X \leq b, c < Y \leq d) = \int_{a}^{b} \int_{c}^{d} f (x, y) d y d x$
- $f (x, y) \geq 0$
- $\int\int f (x, y) d x d y = 1$
- $P (a < X \leq b, c < Y \leq d) = \int_{c}^{d} \int_{a}^{b} f (x, y) d x d y$

$E [g (X, Y)] = \int_{- \infty}^{\infty} \int_{- \infty}^{\infty} g (x, y) f (x, y) d x d y$
$E [a g (X, Y) + bh (X, Y)] = a E [g (X, Y)] + b E [h (X, Y)]$

Marginal PDF

주변확률밀도함수(Marginal PDF)는 다음과 같다.

$p_{X} (x) = \sum_{y} p (x, y)$
$f_{X} (x) = \int f (x, y) d y$

두 확률변수 X, Y 가 다음을 만족할때 두 확률변수는 서로 독립이다.

이산형: $p_{X, Y} (x, y) = p_{X} (x) p_{Y} (y)$
연속형: $f_{X, Y} (x, y) = f_{X} (x) f_{Y} (y)$
- X와 Y가 서로 독립이면, $E (X Y) = E (X) E (Y)$

Covariance and Correlation Coefficient

공분산(Covariance)
$C o v (X, Y) = E [(X - μ_{X}) (Y - μ_{Y})] = E (X Y) - μ_{X} μ_{Y} = E (X Y) - E (X) E (Y)$
상관계수(Correlation coefficient) - 선형의 연관성을 나타냄
$C or r (X, Y) = ρ_{X Y} = \frac{C o v ( X , Y )}{s d ( X ) s d ( Y )}$

확률변수 X, Y에 대해 다음과 같은 성질들이 있다.

$C o v (a X + b, c Y + d) = a c C o v (X, Y)$
$C or r (a X + b, c Y + d) = s i g n (a c) C or r (X, Y)$
$V a r (X \pm Y) = V a r (X) + V a r (Y) \pm 2 C o v (X, Y)$
$V a r (a X + bY) = a^{2} V a r (X) + b^{2} V a r (Y) + 2 ab C o v (X, Y)$
$- 1 \leq ρ \leq 1$
$Y = a + b X$ 이면 $ρ = \pm 1$

확률변수 X, Y가 독립일 경우,

$E (X Y) = E (X) E (Y)$
$E [g (X) h (Y)] = E [g (X)] E [h (Y)]$
$C o v (X, Y) = 0, C or r (X, Y) = 0$
- 주의: $C o v (X, Y) = 0$ 인 것이 $X, Y$ 의 독립을 의미하지 않음
$V a r (X \pm Y) = V a r (X) + V a r (Y)$

Conditional Probability Distribution

조건부 확률분포(Conditional Probability Distribution)는 두개의 확률변수가 있을 때, 하나의 확률변수의 값이 주어졌을때, 나머지 하나의 확률변수의 확률분포를 말한다.

이산 확률변수
두개의 이산 확률변수 X, Y에 대하여 X = x가 주어졌을때의 Y의 확률질량함수:
$p (y ∣ x) = P (Y = y ∣ X = x) = \frac{P ( X = x , Y = y )}{P ( X = x )}$
$p (y ∣ x)$ 는 $X = x$ 로 고정 되어있을 때의 Y의 확률질량함수이다.
연속 확률변수
두개의 연속 확률변수 X, Y에 대하여 $X = x$ 가 주어졌을 때의 Y의 확률밀도함수:
$f (y ∣ x) = \frac{f ( x , y )}{f ( x )}$
$f (y ∣ x)$ 는 $X = x$ 가 고정되어 있을 때의 Y의 확률밀도함수이다.
- 하나가 이산 확률변수이고, 다른 하나가 연속 확률변수여도 잘 정의 될 수 있다.

Conditional Independence

두 확률변수 X, Y가 또 다른 확률변수 Z가 주어졌을때 서로 독립인 경우 X, Y는 조건부 독립(Conditional Independence)이라고 부른다.

즉, 모든 $x, y, z$ 에 대하여, $p (x, y ∣ z) = p (x ∣ z) p (y ∣ z)$ 또는 $f (x, y ∣ z) = f (x ∣ z) f (y ∣ z)$ 이다.

$X ⊥ Y ∣ Z$ 로 표시한다.

Random Vectors

각 원소 $X_{i}$ 가 확률변수인 크기가 $p \times 1$ 인 (열)벡터 $X = (X_{1}, \dots, X_{p})^{T}$ 를 확률벡터(random vector)라고 부른다.

확률벡터의 확률분포 - 결합확률분포(joint probability distribution)
결합확률질량함수(joint probability mass function): $p_{X_{1}, \dots, X_{p}} (x_{1}, \dots, x_{p})$
결합확률밀도함수(joint probability density function): $f_{X_{1}, \dots, X_{p}} (x_{1}, \dots, x_{p})$
결합누적확률분포(joint cumulative distribution function): $F_{X_{1}, \dots, X_{p}} (x_{1}, \dots, x_{p}) = P (X_{1} \leq x_{1}, \dots, X_{p} \leq x_{p})$

Mean of Random Vectors

E (X) = E X_{1} ⋮ X_{p} = E (X_{1}) ⋮ E (X_{p}) = μ_{1} ⋮ μ_{p} = μ,

$μ_{i} = E (X_{i})$

Covariance Matrix

확률벡터 $X$ 의 공분산 행렬 (covariance matrix) $Σ$ 는 다음과 같이 정의한다.

co v (X) = E ((X - μ) (X - μ)^{T})

$v a r (X_{i}) = σ_{i}^{2}, co v (X_{i}, X_{j}) = σ_{ij}$ 라고 하고, $σ_{ii} = σ_{i}^{2}$ 라고 하자. 그러면, 공분산 행렬은 다음과 같이 표현된다.

Σ = co v (X) = σ_{11} σ_{21} ⋮ σ_{p 1} σ_{12} σ_{22} ⋮ σ_{p 2} \dots \dots ⋱ \dots σ_{1 p} σ_{2 p} ⋮ σ_{pp}

$Σ^{- 1}$ : Precision matrix

Marginal Probability Distribution

PMF: $p_{X_{i}} (x_{i}) = \sum_{x_{j}, j \neq = i} p (x_{1}, \dots, x_{p})$
PDF: $f_{X_{i}} (x_{i}) = \int f (x_{1}, \dots, x_{p}) d x_{1} \dots d x_{i - 1} d x_{i + 1} \dots d x_{p}$
CDF: $F_{X_{i}} (x_{i}) = lim_{x_{j} \to \infty, j \neq = i} F (x_{1}, \dots, x_{p})$

Conditional PMF

이산인 확률변수 $X_{1}, \dots, X_{p}$ 에 대하여 $X_{1} = x_{1}, \dots, X_{k} = x_{k}$ , $(k < p)$ 가 주어졌을때의 $X_{k + 1}, \dots, X_{p}$ 의 확률질량함수:

p (x_{k + 1}, \dots, x_{p} ∣ x_{1}, \dots, x_{k}) = P (X_{k + 1} = x_{k + 1}, \dots, X_{p} = x_{p} ∣ X_{1} = x_{1}, \dots, X_{k} = x_{k}) = \frac{P ( X _{1} = x _{1} , \dots , X _{p} = x _{p} )}{P ( X _{1} = x _{1} , \dots , X _{k} = x _{k} )}

$p (x_{k + 1}, \dots, x_{p} ∣ x_{1}, \dots, x_{k})$ 는 확률질량함수이다.

Conditional PDF

연속인 확률변수 $X_{1}, \dots, X_{p}$ 에 대하여 $X_{1} = x_{1}, \dots, X_{k} = x_{k}$ 가 주어졌을때의 $X_{k + 1}, \dots, X_{p}$ 의 확률밀도함수:

f (x_{k + 1}, \dots, x_{p} ∣ x_{1}, \dots, x_{k}) = \frac{f ( x _{1} , \dots , x _{p} )}{f ( x _{1} , \dots , x _{k} )}

$f (x_{k + 1}, \dots, x_{p} ∣ x_{1}, \dots, x_{k})$ 는 확률밀도함수이다.
이산 확률변수와 연속 확률변수가 섞여있어도 조건부 확률분포를 얘기할 수 있다.

Independence

확률변수 $X_{1}, \dots, X_{p}$ 가 다음을 만족할 때 서로 독립이다:

모든 $x_{1}, \dots, x_{p}$ 에 대해,

Discrete: $p (x_{1}, \dots, x_{p}) = p_{X_{1}} (x_{1}) \dots p_{X_{p}} (x_{p})$

Continuous: $f (x_{1}, \dots, x_{p}) = f_{X_{1}} (x_{1}) \dots f_{X_{p}} (x_{p})$

$X_{1}, \dots, X_{p}$ 가 서로 독립이면, $E (X_{1} \dots X_{p}) = E (X_{1}) \dots E (X_{p})$

Examples of Multivariate Probability Distribution

Multinomial Distribution

다항 분포 (Multinomial Distribution)는 독립시행에서 나오는 결과 (outcome)가 두 가지 이상일 때를 모형화 한 것이다.

k의 서로 다른 결과가 나오는 독립시행을 n번 시도 하였을때 각각의 결과가 나오는 횟수를 Xj라고 하자. 즉, $X_{j}$ 는 n번의 독립 시행에서 범주 j가 나온 횟수이다. 즉, $X_{1} + \dots + X_{k} = n$ 이다.

한번의 시행에서 j번째 범주가 나올 확률을 $p_{j}$ 라고 하자. 즉, $p_{1} + \dots + p_{k} = 1$ 이다.

이 때, 각 범주별로 나오는 횟수 $(X_{1}, \dots, X_{k})$ 는 다항분포 (multinomial distribution)을 따르고 다음과 같이 표시한다: $X = (X_{1}, \dots, X_{k}) \sim Multi (n, (p_{1}, \dots, p_{k}))$

다항분포의 확률질량함수는 다음과 같다.
$p (n_{1}, \dots, n_{k}) = p (n_{1}, \dots, n_{k} ∣ p) = P (X_{1} = n_{1}, \dots, X_{k} = n_{k}) = \frac{n !}{n _{1} ! \dots n _{k} !} p_{1}^{n_{1}} \dots p_{k}^{n_{k}}$
- $p = (p_{1}, \dots, p_{k})$
이항분포의 확장으로 볼 수 있다. $k = 2$ 이면 다항분포는 이항분포와 같다.
$E (X_{j}) = n p_{j}, v a r (X_{j}) = n p_{j} (1 - p_{j}), co v (X_{j}, X_{j^{'}}) = - n p_{j} p_{j^{'}}$

Dirichlet Distribution

디리클레 분포(Dirichlet Distribution)는 연속 확률분포중의 하나로, $0 \leq X_{j} \leq 1$ 이면서 $\sum_{j = 1}^{k} X_{j} = 1$ 을 만족하는 확률변수들의 벡터 $X = (X_{1}, \dots, X_{k})$ $(k \geq 2)$ 가 다음의 확률밀도함수를 가지는 경우이다.

f (x_{1}, \dots, x_{k}) = f (x_{1}, \dots, x_{k} ∣ α) = \frac{1}{B ( α )} j = 1 \prod k x_{j}^{α_{j} - 1},

x_{j} \in [0, 1], j \sum x_{j} = 1, α = (α_{1}, \dots, α_{k}) .

$α_{j} > 0$ 은 확률밀도함수를 정하는 모수(parameter)이고,

B (α) = \frac{\prod _{j = 1}^{k} Γ ( α _{j} )}{Γ ( \sum _{j} α _{j} )} 는 정규화 상수 (normalized constant) 이다 .

$X \sim Dir (α)$ 로 나타낸다.
$E (X_{j}) = α_{j} / \sum_{i} α_{i}$
$k = 2$ 이면 디리클레분포는 베타분포와 같다.

Multivariate Gaussian Distribution

각 원소가 가우시안 분포 (정규분포)를 따르는 확률벡터의 분포를 다변량 가우시안분포(Multivariate Gaussian Distribution)라고 한다.

가우시안 확률벡터 (크기 $p$ )의 확률밀도함수는 다음과 같이 정의된다.
$f (x_{1}, \dots, x_{p}) = f (x_{1}, \dots, x_{p} ∣ μ, Σ) = (2 π)^{- \frac{p}{2}} ∣ Σ ∣^{- \frac{1}{2}} exp (- \frac{1}{2} (x - μ)^{T} Σ^{- 1} (x - μ))$
- $∣Σ∣$ 는 $Σ$ 의 행렬식 (determinant)이다.
$X \sim N_{p} (μ, Σ)$ 로 나타낸다.
각 원소가 표준정규분포이고 서로 독립이면, $Z \sim N_{p} (0, I)$ 로 표현된다. $I$ 는 단위행렬 (identity matrix)이다.
$Σ$ 는 일반적으로 양의 정 부호 행렬 (positive definite matrix)이다.
양의 정부호 행렬은 Cholesky decomposition에 의해 $Σ = A A^{T}$ 로 표현되고 표준정규분포 벡터 $Z$ 를 이용하면 $AZ + μ \sim N (μ, Σ)$ 임을 알 수 있다.
$σ_{ij} = E ((X_{i} - μ_{i}) (X_{j} - μ_{j})) = 0$ 이면, 즉 $Σ$ 의 $(i, j)$ 원소가 0 이면, $X_{i}, X_{j}$ 는 서로 독립이다.
- 따라서, 서로 독립인 가우시안 확률변수로 이루어진 다변량 가우시안 확률벡터의 공분산 행렬은 대각행렬이다. 즉, $Σ = diag (d_{1}, \dots, d_{p})$ .
$a_{1} X_{1} + \dots + a_{p} X_{p}$ (적어도 하나의 $a_{i}$ 가 0이 아닌 경우)는 가우시안분포(정규분포)를 따른다.
$X_{1}, \dots, X_{p}$ 중에 $k (k \leq p)$ 개의 원소를 뽑아 만든 벡터 $X_{s} = (X_{i_{1}}, \dots, X_{i_{k}})$ 도 가우시안분포를 따른다.
$X_{s} \sim N_{s} (μ_{s}, Σ_{s}), μ_{s} = (μ_{i_{1}}, \dots, μ_{i_{k}})^{T}, Σ_{s}$ 의 $(l, m)$ 원소는 $σ_{i_{l}, i_{m}}$ 이다.
$p = 2$ 인 경우, 이변량 가우시안 (bivariate Gaussian) 분포이며, 확률밀도함수는 다음과 같이 상관계수를 포함한 5개의 모수로 표현 할 수도 있다. 이때, $σ_{12} = ρ σ_{1} σ_{2}$ 이다.

f (x_{1}, x_{2}) = \frac{1}{2 π σ _{1} σ _{2} 1 - ρ ^{2}} exp (- \frac{1}{2 ( 1 - ρ ^{2} )} [\frac{( x _{1} - μ _{1} ) ^{2}}{σ _{1}^{2}} + \frac{( x _{2} - μ _{2} ) ^{2}}{σ _{2}^{2}} - 2 ρ \frac{( x _{1} - μ _{1} ) ( x _{2} - μ _{2} )}{σ _{1} σ _{2}}])

Partitioned Gaussian Distribution

가우시안 확률벡터의 일부로 만든 벡터의 분포를 분할 가우시안 분포 (Partitioned Gaussian Distribution)라고 하며, 평균벡터와 공분산 행렬은 원 확률벡터의 평균벡터와 공분산행렬을 분할하여 표현할 수 있다.

$X = (X_{1}, \dots, X_{p})^{T} \sim N_{p} (μ, Σ)$ 일 때, $X = (X_{1}^{T}, X_{2}^{T})^{T}$ 로 나누어진다고 하자. 편의상 $X_{1} = (X_{1}, \dots, X_{m})^{T}, X_{2} = (X_{m + 1}, \dots, X_{p})^{T}$ 라고 하자. 실제로는 순서상관없이 두개의 그룹으로 묶어도 된다.

이때, $X_{1} \sim N_{m} (μ_{1}, Σ_{11}), μ = (μ_{1}^{T}, μ_{2}^{T})^{T}, Σ = (Σ_{11} Σ_{21} Σ_{12} Σ_{22})$

Conditional Partitioned Gaussian Distribution

$X_{2} = a$ 로 주어졌을때 $X_{1}$ 의 조건부 확률분포는

X_{1} ∣ X_{2} = a \sim N_{m} (μ_{1} + Σ_{12} Σ_{22}^{- 1} (a - μ_{2}), Σ_{11} - Σ_{12} Σ_{22}^{- 1} Σ_{21})

$X = (X_{1}, X_{2})$ 일때, 즉 이변량 가우시안 일때,

X_{1} ∣ X_{2} = a \sim N (μ_{1} + \frac{σ _{1}}{σ _{2}} ρ (a - μ_{2}), (1 - ρ^{2}) σ_{1}^{2})

Mixure Distribution

여러개의 분포의 선형결합으로 이루어진 분포를 혼합분포(Mixure Distribution)라고 한다.

이산확률분포에서는 $k$ 개의 이산확률분포의 선형결합으로 이루어진 다음과 같은 확률질량함수를 가진다.

p (x) = w_{1} p_{1} (x) + \dots + w_{k} p_{k} (x) = i = 1 \sum k w_{i} p_{i} (x)

이때 $p_{k} (x)$ 는 확률질량함수이고, $w_{i} \geq 0, \sum w_{i} = 1$ 을 만족한다.

연속확률분포에서는 다음과 같은 확률밀도함수를 가진다.

f (x) = w_{1} f_{1} (x) + \dots + w_{k} f_{k} (x) = i = 1 \sum k w_{i} f_{i} (x) .

Gaussian Mixure Distribution

$f_{i}$ 들이 가우시안 확률밀도함수인 경우 가우시안 혼합분포(Gaussian Mixure Distribution)라고 한다.

$ϕ (x)$ 를 표준정규분포의 확률밀도함수라고 하자. 즉,

ϕ (x) = \frac{1}{2 π} e^{- \frac{1}{2} x^{2}} .

$X \sim N (μ, σ^{2})$ 인 경우, $X$ 의 확률밀도함수는 $\frac{1}{σ} ϕ (\frac{X - μ}{σ})$ 로 표현할 수 있다.

이 경우 $k$ 개의 구성원을 가지는 가우시안 혼합 분포의 확률밀도함수는 다음과 같이 쓸 수 있다.

f (x) = i = 1 \sum k w_{i} \frac{1}{σ _{i}} ϕ (\frac{x - μ _{i}}{σ _{i}}) .

$k = 2$ 인 경우 $f (x) = w_{1} \frac{1}{σ _{1}} ϕ (\frac{x - μ _{1}}{σ _{1}}) + (1 - w_{1}) \frac{1}{σ _{2}} ϕ (\frac{x - μ _{2}}{σ _{2}})$
$X_{1}, \dots, X_{n} \sim i . i . d . f (x) = \sum_{i = 1}^{k} w_{i} \frac{1}{σ _{i}} ϕ (\frac{x - μ _{i}}{σ _{i}})$ , 즉, 가우시안 혼합 분포를 따르는 랜덤 추출된 데이터가 있다고 할때, 각 $X_{j}$ 는 $w_{i}$ 의 확률로 $N (μ_{i}, σ_{i}^{2})$ 을 따른다고 해석할 수 있다.
군집분석의 모델로 사용할 수 있다.

왼쪽: 파란선 $N (- 1, 1^{2})$ , 빨간선 $N (2, 2^{2})$
오른쪽: 파란점선 $0.5 \times N (- 1, 1^{2})$ , 빨간점선 $0.5 \times N (2, 2^{2})$ -> 까만선: $0.5 \times N (- 1, 1^{2}) + 0.5 \times N (2, 2^{2})$

Sample Distribution

Distribution of Sample Mean

표본평균 (sample mean), $\overset{ˉ}{X}$ 은 표본의 중심경향성을 나타내는 통계량이다.

모집단의 평균 (모평균)을 $μ$ 라고 하면, 표본평균은 $μ$ 의 추정량 (estimator)이다.
표본 ${X_{1}, X_{2}, \dots, X_{n}}$ 가 모평균 $μ$ , 모분산 $σ^{2}$ 인 모집단에서 추출된 랜덤표본일때,
$\overset{ˉ}{X} = \frac{1}{n} i = 1 \sum n X_{i} .$
무한모집단에서 추출된 랜덤표본일 경우,
$E (\overset{ˉ}{X}) = μ, V a r (\overset{ˉ}{X}) = \frac{σ ^{2}}{n}, s d (\overset{ˉ}{X}) = \frac{σ}{n}$
크기가 $N$ 인 유한모집단에서 추출된 랜덤표본일 경우,
$E (\overset{ˉ}{X}) = μ, V a r (\overset{ˉ}{X}) = \frac{N - n}{N - 1} \cdot \frac{σ ^{2}}{n} .$

Law of Large Numbers (LLN)

큰 수의 법칙(Law of Large Numbers, LLN)은 표본의 크기 n 이 커질수록 표본평균의 분산은 0에 가까워진다는 것을 말한다.

표본평균의 기대값은 모평균과 같고, 분산이 작아지므로, $\overset{ˉ}{X}$ 는 모평균 $μ$ 의 근처에 밀집되어 분포함을 알 수 있다. 이러한 결과를 큰수의 법칙이라고 한다.

Central Limit Theorem (CLT)

중심극한정리(Central Limit Theorem, CLT)는 임의의 모집단에 대해 $\frac{X ˉ - μ}{σ / n}$ 의 분포는 표준정규분포 $N (0, 1)$ 에 근사한다는 것을 말한다.

유한모집단의 경우, 모집단의 크기 $N$ 과 표본의 크기 $n$ 이 충분히 크면(단 $N ≫ n$ ) $\frac{N - n}{N - 1}$ 의 값이 1에 근사하므로, 위의 성질이 성립한다.

중심극한정리를 통해, 모집단의 분포가 어떤 형태이든지 표본의 크기가 크면 표본평균의 분포를 정규분포로 근사할 수 있다.

즉, $\overset{ˉ}{X}$ 의 분포 $\approx N (μ, \frac{σ ^{2}}{n})$ .

Normal Approximation Using the Binomial Distribution

$X_{1}, X_{2}, \dots, X_{n}$ 이 성공률이 $p$ 인 베르누이분포를 따르는 무한모집단의 랜덤표본이라고 하자. 이 경우, $S = \sum_{i = 1}^{n} X_{i}$ 은 이항분포 $B (n, p)$ 을 따른다.

중심극한정리를 적용하면, $n$ 이 충분히 클 때

\frac{S - n p}{n p ( 1 - p )} = \frac{p ^ - p}{p ( 1 - p ) / n}

의 분포는 표준정규분포 $N (0, 1)$ 에 근사한다. ( $\overset{p}{^}$ = 베르누이분포의 표본비율 $\frac{S}{n}$ .)

즉, $n$ 이 충분히 크고, $n p$ 가 적당한 값이면, $B (n, p)$ 를 이용하는 확률계산을 $N (n p, n p (1 - p))$ 를 이용하여 근사할 수 있다.

Roh Donghyun

Explorer

02. Joint Probability Distribution

Joint Probability Distribution

Joint Probability Distribution

Marginal PDF

Covariance and Correlation Coefficient

Conditional Probability Distribution

Conditional Independence

Random Vectors

Mean of Random Vectors

Covariance Matrix

Marginal Probability Distribution

Conditional PMF

Conditional PDF

Independence

Examples of Multivariate Probability Distribution

Multinomial Distribution

Dirichlet Distribution

Multivariate Gaussian Distribution

Partitioned Gaussian Distribution

Conditional Partitioned Gaussian Distribution

Mixure Distribution

Gaussian Mixure Distribution

Sample Distribution

Distribution of Sample Mean

Law of Large Numbers (LLN)

Central Limit Theorem (CLT)

Normal Approximation Using the Binomial Distribution

Graph View

Table of Contents