
문제의 정의
$X$ : 관측된 데이터
$Z$ : 잠재 변수
$\theta$ : 모델의 파라미터
목표 : 로그우도
$L(\theta) = \ln P(x|\theta) = \ln \displaystyle \sum_{Z} P(X,Z|\theta) $
위 식을 최대가 되게 만드는 $\theta$를 찾는 것이다.
하지만 잠재 변수 $Z$에 대한 합(또는 적분)이 로그 함수 내부에 있어서 이를 직접 미분하여 최적화하는 것은 해석적으로 매우 어렵다.
옌센 부등식(Jensen's Ineuqality)와 증거 하한(ELBO)
이 문제를 해결하기 위해 잠재 변수 $Z$에 대한 임의의 확률 분포 $q(Z)$를 도입한다.
$\sum_{Z}q(Z)=1$이고 $q(Z)\ge0$이므로 식을 다음과 같이 조작할 수 있다.
$L(\theta) = \ln \displaystyle \sum_{Z}P(X,Z|\theta) = \ln \sum_{Z} q(Z)\dfrac{P(X,Z|'theta)}{q(Z)} $
로그 함수는 오목 함수이므로 옌센 부등식 $\log(\mathbb{E}[Y] \ge \mathbb{E}[\ln (Y)]$를 적용할 수 있다. 즉,
$L(\theta) \ge \displaystyle \sum_{Z} q(Z)\ln\dfrac{ P(X,Z|\theta) }{ q(Z) } $
우변의 식을 ELBO(Evidence Lower BOund)라고 정의하며, 이를 $\mathcal{L}(\theta, q)$로 표기하자. 그러면 우도 함수는 항상 ELBO보다 크거나 같다.
$L(\theta) \ge \mathcal{L}(\theta, q)$
E-step
E-step의 핵심은 현재 파라미터 $\theta^{(t)}$가 주어졌을 때, 하한인 ELBO를 원래의 목적 함수인 $L(\theta^{(t)})$와 완전히 접하게(tight) 만드는 확률 분포 $q(Z)$를 찾는 것이다
.
그 우도와 ELBO의 차이는 사실 쿨백-라이블러 발산(Kullback-Leibler Divergence)으로 나타낼 수 있다.
$L(\theta) - \mathcal{L}(\theta, q) = D_{KL}(q(Z) || P(Z|X, \theta)) \ge 0$
등호가 성립하려면(즉, 차이가 0이 되려면) $q(Z)$가 조건부 확률 분포 $P(Z|X, \theta)$와 완전히 같아져야 합니다. 따라서 $t$번째 단계에서 우리는 $q$를 다음과 같이 설정합니다.
$q^{(t)}(Z) = P(Z|X, \theta^{(t)})$
이렇게 설정하면, 다음 등식이 성립합니다.
$L(\theta^{(t)}) = \mathcal{L}(\theta^{(t)}, q^{(t)})$
M-step
M-step에서는 E-step에서 구한 분포 $q^{(t)}(Z)$를 고정한 상태에서, 하한인 $\mathcal{L}(\theta, q^{(t)})$를 최대화하는 새로운 파라미터 $\theta^{(t+1)}$을 찾습니다.
$\theta^{(t+1)} = \arg\max_{\theta} \mathcal{L}(\theta, q^{(t)})$
이 정의에 의해, $\theta^{(t+1)}$에서 평가한 ELBO는 $\theta^{(t)}$에서 평가한 ELBO보다 항상 크거나 같습니다.
$\mathcal{L}(\theta^{(t+1)}, q^{(t)}) \ge \mathcal{L}(\theta^{(t)}, q^{(t)})$
유계 단조 수열은 수렴한다
학부 해석학 초반에 배우는 'Bounded and monotone sequences are convergent'을 이용하면 된다.
E-M 단계를 거치며 ELBO는 단조 증가(Monotonically increasing)하지만 상한(Upper bound) $L(\theta)$가 있으므로 반드시 수렴한다.
'단편 강의' 카테고리의 다른 글
| 이 데이터, 여기서 나왔을 확률은? - Membership Problem(1) (0) | 2026.04.13 |
|---|---|
| 최대우도추정(Maximum Likelihood Estimation) (0) | 2026.04.13 |
| 크로스 엔트로피와 KL Divergence(2) (0) | 2026.04.08 |
| 크로스 엔트로피와 KL Divergence(1) (0) | 2026.04.07 |
| 엔트로피(Entropy) 이야기(3) - 섀넌 (0) | 2026.04.06 |