
확률과 통계. 뗄래야 뗄 수 없는 두 단어다. 확률론과 통계학이 별도로 존재하지만 서로가 서로를 떼어 놓고는 자신의 이야기를 할 수 없달까.
실제로 우리는 어떤 사건이 일어날 확률을 계산하기도 하지만 반대로 그 사건이 가장 잘 일어날 확률 변수를 추정(Estimation)하기도 한다.(고등학교 과정까지는 확률 계산을, 대학에서는 추정까지)
예를 들어, 숫자 뽑기를 시행했는데 평균이 $\mu$이고 분산이 $1$인 정규분포를 따르는 확률 변수 $X$를 바탕으로 시행했다고 가정하자. 3개의 숫자를 뽑아서
$2$, $4$, $6$
이 나왔다.
그렇다면 이 수들은 어떤 확률분포에서 나왔을까?
이미 정규분포임을 알려줬고 분산까지 알려줬으니 평균만 알면 구할 수 있다. 즉, $X$의 확률밀도함수는
$f(x) = \dfrac{1}{\sqrt{2\pi}} e^{-\frac{ (x-\mu)^2 }{ 2 } } $
이다. 평균 $\mu$만 알면 된다. 다만, 랜덤 시행이다보니 위와 같은 꼴의 확률밀도함수를 갖는 정규분포는 모두 $2$, $4$, $6$을 내어줄 가능성을 갖고 있기 때문에 더 이상 문제를 풀 수는 없다.

이제 질문을 바꿔보자.
$2$, $4$, $6$을 내어줄 가능성이 가장 높은 확률분포는 무엇일까?
위 그림에서 보면 평균이 $10$인 정규분포를 따르는 확률변수가 세 번의 시행에서 $2$, $4$, $6$ 내어줄 가능성은 매우 낮을 것이다. 하지만 평균이 $4$인 정규분포는 $2$, $4$, $6$을 내어줄 가능성이 커보인다.
그러면 최적의 확률분포는 어떻게 구해야 할까? 이 문제에 한해서는 어떻게 최적의 $\mu$값을 찾을 수 있을까?
최적의 확률분포를 따르는, 우리가 찾고자 하는 확률변수를 $X^{*}$라 하자. 그렇다면 $P(X^{*}=2, X^{*}=4, X^{*}=6 | \mu)$는 어때야 할까? 우리는 지금 우리가 가진 데이터가 가장 잘 튀어나오는 확률변수를 찾는 것이므로 이 확률은 최대이어야 한다. 즉,
$P(X^{*}=2, X^{*}=4, X^{*}=6 | \mu) \ge P(X=2, X=4, X=6 | \mu)$
이다. (단, $X$는 $X^{*}$가 아닌 확률변수) 여기서 조건부확률처럼 쓴 이유는 $\mu$가 얼마인지 모른다는 점(무엇이든 될 수 있다는 점)에서 마치 확률변수처럼 다룰 수 있기 때문이다. 이하부터 $X^{*}$대신 $X$를 쓰겠다(편의상)
그런데 각각의 수를 뽑는 시행이 독립이라 가정하자. $2$, $4$, $6$ 각각의 수를 뽑는 사건의 확률은
$P(X=2 | \mu)$, $P(X=4 | \mu)$, $P(X=6 | \mu)$
이므로 독립성 가정에 의해
$P(X=2, X=4, X=6 | \mu) = P(X=2 | \mu) \cdot P(X=4 | \mu) \cdot P(X=6 | \mu) $
이고 이 값은 우리가 찾으려는 확률분포에서 최댓값을 가질 것이다.
이것을 우도(Likelihood)라고 하며 일반적으로 다음과 같이 정의한다.
$\ell(x;\mu) = \displaystyle \prod_{k=1}^{n} P(X=x_i | \mu)$
우도가 최대가 되게 하는 $\mu$값을 찾으면 우리가 원하는 확률분포를 찾을 수 있다.
이렇게 우도가 최대가 되면 원하는 분포를 추정하게 해주는 방법을 최대우도추정법(Maximum Likelihood Estimation, MLE)라 한다.
위 예시의 해답은 다음과 같다. 우도는
$\ell(2, 4, 6 | \mu) = P(X=2 | \mu) \cdot P(X=4 | \mu) \cdot P(X=6 | \mu)$
이다. 하지만 연속확률분포는 한 점에서의 확률을 정의할 수 없다. 그렇지만 다행히도
$P(X=x) = \displaystyle \lim_{\epsilon \rightarrow 0} P(x-\epsilon <X< x+\epsilon) = \frac{d}{dx}P(X=x) = f(x)$
이므로 확률밀도함수를 사용할 수 있다. 따라서 우도는
$\begin{aligned} \ell(2, 4, 6 | \mu) &= f(2 | \mu) f(4 | \mu) f(6 | \mu) \\ &= \frac{1}{\sqrt{2\pi}} e^{-\frac{(2-\mu)^2}{2}} \cdot \frac{1}{\sqrt{2\pi}} e^{-\frac{(4-\mu)^2}{2}} \cdot \frac{1}{\sqrt{2\pi}} e^{-\frac{(6-\mu)^2}{2}} \\ &= \frac{1}{2\pi\sqrt{2\pi}} e^{-\frac{ (2-\mu)^2 + (4-\mu)^2 + (6-\mu)^2 }{2}} \end{aligned}$
이제 이 식을 $\mu$에 대해서 미분해서 $0$이 되는 곳을 찾아야 하는데, 식이 복잡하므로 로그를 씌우면
$\ln { \ell(2,4,6 | \mu) } = -\dfrac{ (2-\mu)^2 + (4-\mu)^2 + (6-\mu)^2 }{2} + C$
이다.(상수는 어차피 미분할 때 사라지므로 $C$로 표기했다)
$\dfrac{d}{d\mu} \ln { \ell } = 0$을 풀면 $\mu = \dfrac{2+4+6}{3} = 4$를 얻는다. 따라서 우리가 관측한 데이터가 가장 잘 튀어나오는 정규분포는 평균이 $4$이다.
주의할 점
① 최대우도추정을 사용한다는 것의 기본 대전제는 "관측해서 얻은 데이터가 아웃라이어(Outlier)가 아니다"
② 각각의 데이터를 얻는 과정들이 서로 독립이라는 것이다.
③ 우도는 $\ell$로, 로그 우도는 $L$로 많이 쓴다.
한 줄 정리
MLE는 관측 데이터를 가장 잘 설명하는 확률분포를 찾는 것이다.
연습문제
문제 1. 단일 군집 / 이산확률분포
어떤 군집(모집단) $G$에서 관측된 데이터들 $x_i$는 $\{ 1, 0, 1, 1, 0 \}$이다. $x_i$는 성공 확률이 $p$인 베르누이 시행을 따를 때, 최대우도추정법을 사용하여 $p$를 구하시오.
문제2. 복수 군집 / 이산확률분포
동전 A를 다섯 번 던지는 시행과 동전 B를 열 번 던지는 시행을 한다.
동전 A에서 첫 번째 시행 후 앞면이 두 번, 두 번째 시행 후 앞면이 세 번나왔고,
동전 B에서 첫 번째 시행 후 앞면이 여덟 번, 두 번째 시행 후 앞면이 아홉 번 나왔다.
각각의 동전이 앞면이 나올 확률 $p_A$와 $p_B$를 구하여라.
문제3. 복수 군집 / 연속확률분포
군집 $G_1$에 속한 데이터는 $\{ 1, 2, 3 \}$이고 $G_2$에 속한 데이터는 $\{ 10, 12, 14 \}$이다. 각 군집이 구간 $[0, \theta_j]$에서 정의되는 균등분포를 따를 때, 파라미터 $\theta_j$의 값을 최대우도추정법을 이용하여 구하시오. (단, $j=1,2$)
'단편 강의' 카테고리의 다른 글
| 이 데이터, 여기서 나왔을 확률은? - Membership Problem(2) (0) | 2026.04.13 |
|---|---|
| 이 데이터, 여기서 나왔을 확률은? - Membership Problem(1) (0) | 2026.04.13 |
| EM 알고리즘의 수렴성 (0) | 2026.04.09 |
| 크로스 엔트로피와 KL Divergence(2) (0) | 2026.04.08 |
| 크로스 엔트로피와 KL Divergence(1) (0) | 2026.04.07 |