Probability
확률(Probability)이란, 어떤 사건(event)이 일어날 가능성을 나타내는 개념으로 사건 A가 일어날 확률을 로 나타낸다.
- = 사건 A에 속하는 원소의 개수 / 표본공간 전체의 원소의 개수
이 때, 사건 A는 어떤 시행(Experiment, E)에서 나오는 가능한 모든 결과(outcome)들을 모아놓은 집합인 표본공간(Sample space, S)의 부분집합이다.
Properties of Probability
Conditional Probability
사건 A가 주어졌을 때 사건 B의 조건부확률(Conditional Probability)은 로 나타내고 이라는 가정 하에 다음과 같이 정의된다.
즉, 사건 A를 축소된 새로운 표본공간으로 간주했을 때, 사건 B가 일어날 확률을 말한다.
Law of Total Probability
표본공간 의 분할 을 생각하자. 표본공간의 분할 (partition)은 다음을 만족한다. 이때, 전확률공식(law of total probability)는 다음과 같다.
Independence
사건 A가 일어났다고 하더라도 사건 B가 일어날 확률에 아무런 영향을 미치지 않는 경우, 두 개의 사건 A와 B는 서로 독립(independent)이라고 한다.
A와 B는 서로 독립인 경우, 또는 가 성립한다.
두 사건 A와 B가 독립이 아니면 종속(dependent)이라고 한다.
- 인 두 사건 A와 B는 서로 배반(mutually disjoint), 즉 두 사건이 동시에 일어날 수 없음을 의미하고 A와 B는 종속 사건이다.
- 가 독립 사건이면, , 도 독립 사건이다.
Bayes Theorem
Random Variable
확률 변수(random variable)는 표본공간의 각 원소를 하나의 실수로 대응하는 함수를 말한다.
- 확률 변수 X의 값이 에 속할 확률:
Probability Distribution
확률변수 X의 확률분포 (probability distribution)란 확률변수 X가 가질 수 있는 값과 해당하는 확률에 대해 나타낸 것으로, 확률을 계산 할 수 있는 정보를 제공한다.
Discrete Random Variable
이산확률변수(Discrete Random Variable)는 X가 취할 수 있는 값이 와 같이 이산 일 때: 해당 값과 대응하는 확률을 제공한다.
확률분포는 다음과 같은 확률질량함수 (probability mass function, pmf) 로 표현한다.
Continous Random Variable
연속확률변수(Continous Random Variable)는 X의 취할 수 있는 값이 셀 수 없이 많을 때: 특정 구간에 속하는 확률을 계산할 수 있는 정보를 제공한다.
확률분포는 확률밀도함수 (probability density function, pdf) 를 도입하여 X의 값이 일 확률로 표현한다.
- 연속확률변수의 한 점에서의 확률은 0이다:
Cumulative Distribution Function (CDF)
Cumulative Distribution Function (CDF)는 pmf, pdf 외에 확률분포를 나타내는 또 다른 함수로 다음과 같이 정의된다. (이산확률변수, 연속확률변수에 상관없음)
- Non-decreasing 함수
- 연속확률변수의 경우:
Expectation
Expectation은 확률변수 X의 중심을 나타내는 값으로 평균(mean)으로도 부른다.
- : 1st moment, 중심에 대한 정보
- : 2nd moment, 흩어짐에 대한 정보
- : 2nd centered moment
- : 3rd moment, symmetric 정보 (skewness, 왜도)
- : 4th moment, tail information (kurtosis, 첨도)
확률변수 X의 함수 의 기대값은 다음과 같다.
기대값은 선형성을 갖는다.
Variance and Standard Deviation
X의 평균을 라고 하자.
-
분산(variance)
-
표준편차(standard deviation)
다음 성질을 만족한다.
Examples of Probability Distribution
Bernoulli Distribution
베르누이 시행 (Bernoulli trial)은 실험의 결과가 두 가지 중의 하나로 나오는 시행이다. 즉, 표본 공간 이고, 성공 확률 이다.
이 때, 베르누이 확률변수 (Bernoulli random variable)는 베르누이 시행의 결과를 0 또는 1의 값으로 대응시키는 확률변수를 말한다. 즉, 인 확률변수이다.
베르누이 확률변수의 확률분포를 베르누이 분포(Bernoulli distribution)라 하고, 으로 나타낸다.
Binomial Distribution
이항 분포 (Binomial Distribution)는 베르누이 시행을 n번 독립적으로 시행할 때 성공횟수의 분포로, 또는 로 나타낸다.
- 이면, 베르누이 분포
Poisson Distribution
포아송 분포 (Poisson Distribution)는 일정 기간 또는 특정 공간상에서 일어나는 독립적인 사건들의 횟수를 모형화 한 분포로, 로 나타낸다.
- , 일 때,
Uniform Distribution
확률변수 X가 a와 b 사이에서 같은 정도로 값을 가질 때, 균등분포 (Uniform Distribution)를 따른다고 하며, 로 나타낸다.
Beta Distribution
베타 분포 (Beta Distribution)는 연속확률분포 중의 하나로 인 확률변수가 다음의 확률밀도함수를 가지는 경우이다.
로 나타낸다.
- 는 정규화 상수(normalizing constant)라고 한다.
- : 감마함수
- 이면, 베타분포는 균일분포와 같다.
Exponential Distribution
지수 분포 (Exponential Distribution)는 하나의 사건이 일어난 후 독립인 그 다음 사건이 일어날 때까지 기다리는 시간 (waiting time)을 모형화 한 분포로, 로 나타낸다.
-
- : rate parameter
-
- : scale parameter
- Memoryless Property:
Normal Distribution
정규 분포 (Normal Distribution)는 가우스(Gauss, 1777-1855)에 의해 제시된 분포로서 Gaussian distribution라고도 불린다.
물리학 실험 등에서 오차에 대한 확률분포를 연구하는 과정에서 발견된 연속확률분포로, 통계학 초기 발전 단계에서 모든 자료의 히스토그램이 가우스분포의 형태와 유사하지 않으면 비정상적인 자료라고 믿어서 “정규(normal)“라는 이름이 붙게 되었다.
로 나타내며, 다음과 같은 확률밀도함수를 갖는다.
- : 평균, : 분산
- : precision
- 일 때,
Standard Normal Distribution
평균이 0이고 표준편차가 1인 정규분포를 표준정규분포 (standard normal distribution)라고 하며, 보통 로 표기한다.
- 표준화(standardization): 일 때,