본문 바로가기
시리즈 강의/확률론

우연은 얼마나 우연일까? - 포아송 분포로 보는 우연의 우연성

by 취미수학 2026. 5. 21.

 

 

 

프로이센(Prussia)은 오늘날의 독일 국가 형성에 큰 영향을 준 군사 강국이었다. 특히 18~19세기의 프로이센 군대는 유럽에서도 규율과 조직력이 뛰어난 군대로 유명했다. 그중 기병대(cavalry)는 말을 타고 이동하며 정찰, 돌격, 추격 등을 수행하는 부대였다. 당시에는 아직 전차나 자동차가 없었기 때문에, 빠르게 움직일 수 있는 기병은 전쟁에서 매우 중요한 전력이었다. 이런 프로이센 기병대의 한 군단에서 일년에 네 명이 말발굽에 치여 사망하는 일이 발생했다면 믿을 수 있겠는가? 지금으로 치면 특전사에서 총기 사고로 한 해에 네 명이 사망한 격인데 말이다.

 

기병대 병사들은 평소에도 말을 다루며 생활했다. 훈련, 이동, 전투 준비 등 거의 모든 활동이 말과 함께 이루어졌기 때문에 말과 관련된 사고 역시 완전히 드문 일은 아니었다. 그러나 그렇다고 해서 “한 군단에서 한 해에 말발굽에 차여 4명이 사망했다”는 이야기가 직관적으로 자연스럽게 느껴지는 것은 아니다. 사람들은 이런 사례를 보면 보통 이렇게 생각한다.

 

이건 단순한 우연이 아니라 뭔가 심각한 문제가 있었던 것 아닐까?

 

19세기 말 통계학자 라디슬라우스 폰 보르트키에비치는 바로 이런 의문을 수학적으로 분석하려 했다. 그리고 그 과정에서 등장하는 것이 바로 포아송 분포다.

 

1. 포아송 분포(Poisson distribution)

포아송 분포는 “주어진 시간 구간 안에서 발생하는 사건 수”를 모델링하는 분포로, 매개변수 $\lambda$를 그 구간에서의 평균 사건 수로 둔다. 예를 들면 이런 것들이 포아송 분포의 전형적인 대상이다.

  • 한 시간 동안 콜센터에 걸려오는 전화의 수
  • 하루 동안 발생하는 교통사고의 수
  • 한 페이지에 있는 오타 수

포아송 분포의 확률 질량 함수(Probability Mass Function, PMF)는 다음과 같다.

 

$\displaystyle P(X=k)=e^{-\lambda}\frac{\lambda^k}{k!},\qquad k=0,1,2,\dots$

 

여기서 $\lambda$는 평균 발생 횟수다.

만약 $X\sim \operatorname{Poisson}(\lambda)$라면, 평균적으로 $\lambda$번 사건이 발생한다. 재미있게도 포아송 분포에서는 평균과 분산이 모두 $\lambda$다. 하지만 이런 수학적 사실들보다 더 중요한 것은 어떻게 이런 것들이 나오게 되었는가이다.

 

2. 이항분포 - 포아송 분포의 기원

생각해보면 우리의 관심사는 어떤 사건이 일어나는지 아닌지에 관심이 있는 것이므로 결국 이항분포의 문제다. 어떤 사건이 일어날 수 있는 기회가 $n$번 있다고 하자. 각 기회에서 사건이 일어날 확률은 $p$다. 그러면 사건 발생 횟수 $X$는 이항분포를 따른다.

 

$\displaystyle X\sim \operatorname{Binomial}(n,p)$

 

이 때 확률은 다음과 같다.

 

$\displaystyle P(X=k)=\binom{n}{k}p^k(1-p)^{n-k}$

 

이제 다음과 같은 상황을 생각해보자.

  • 기회는 아주 많다. 즉, $n$은 매우 큰 수다.
  • 각각의 기회에서 사건이 일어날 확률은 아주 작다. 즉 $p$는 매우 작다.
  • 전체 평균 발생 횟수는 $\lambda$ 정도로 유지된다.

수식으로 쓰면 다음과 같다.

 

$\displaystyle n\to\infty,\qquad p\to 0,\qquad np=\lambda$

 

즉 $p=\frac{\lambda}{n}$으로 놓을 수 있다. 그러면 이항분포의 확률은 다음과 같이 바뀐다.

 

$\displaystyle P(X=k)=\binom{n}{k}\left(\frac{\lambda}{n}\right)^k\left(1-\frac{\lambda}{n}\right)^{n-k}$

 

이제 $n$을 무한히 크게 보내보자. 단, $k$는 고정되어 있다고 생각한다.

 

$\displaystyle \binom{n}{k}\left(\frac{\lambda}{n}\right)^k\left(1-\frac{\lambda}{n}\right)^{n-k}$

 

이 식의 형태를 바꾸어보면,

 

$\displaystyle \frac{\lambda^k}{k!}\cdot\frac{n(n-1)\cdots(n-k+1)}{n^k}\cdot\left(1-\frac{\lambda}{n}\right)^n\cdot\left(1-\frac{\lambda}{n}\right)^{-k}$

 

이다. 이제 각각의 극한을 보자.

 

$\displaystyle \frac{n(n-1)\cdots(n-k+1)}{n^k}\to 1$

$\displaystyle \left(1-\frac{\lambda}{n}\right)^n\to e^{-\lambda}$

$\displaystyle \left(1-\frac{\lambda}{n}\right)^{-k}\to 1$

 

따라서

 

$\displaystyle P(X=k)\to e^{-\lambda}\frac{\lambda^k}{k!}$

 

가 된다. 이것이 포아송 분포다. 즉, 포아송 분포는 많은 시행횟수, 낮은 확률에서 나타난다. 이런 구조는 현실에서 자주 나타난다. 그래서 포아송 분포는 전화, 사고, 오타, 고장, 결함, 방문, 신고, 사망 같은 “횟수 데이터”를 다룰 때 기본적인 모델이 된다.

 

3. 다시 프로이센 기병대 말발굽 사망 사건으로

이제 다시 처음의 이야기로 돌아가자. 19세기 프로이센 군대에서는 말발굽에 차여 사망한 병사 수가 기록되어 있었다. 통계학자 라디슬라우스 폰 보르트키에비치(Ladislaus von Bortkiewicz)는 1898년 《작은 수의 법칙》이라는 책에서 이 자료를 분석했다. 그는 1875년부터 1894년까지 20년 동안 14개 군단에서 발생한 말발굽 사망 자료를 사용했다.

 

널리 알려진 요약표는 그중 10개 군단을 20년 동안 관찰한 200개의 “군단-연도” 자료다. 여기서 군단-연도란 한 군단을 1년 동안 관찰한 단위를 말한다. 이 요약표에서는 200개의 군단-연도 중 사망자가 0명인 경우가 109개, 1명인 경우가 65개, 2명인 경우가 22개, 3명인 경우가 3개, 4명인 경우가 1개였다고 정리된다.

 

이 자료를 처음 보면 4명이 사망한 경우가 눈에 띈다. “한 군단에서 한 해에 4명이나 죽었다고? 이건 심각한 문제 아닌가?” 하지만 포아송 분포를 이용하면 이 직관을 조금 더 차분하게 살펴볼 수 있다. 우선 전체 사망자 수를 계산해보자.

 

$\displaystyle 0 \cdot 109+1 \cdot 65+2 \cdot 22+3 \cdot 3+4 \cdot 1=122$

 

총 200개의 군단-연도에서 사망자가 122명이었으므로, 한 군단-연도당 평균 사망자 수는

 

$\displaystyle \lambda=\frac{122}{200}=0.61$

 

이다. 따라서 한 군단에서 1년 동안 말발굽에 차여 사망하는 병사 수를 대략

 

$\displaystyle X\sim \operatorname{Poisson}(0.61)$

 

로 모델링해볼 수 있다. 물론 이것은 현실의 모든 조건을 완벽히 반영한 모델은 아니다. 군단마다 말의 수가 다를 수 있고, 훈련 방식도 다를 수 있으며, 관리 수준도 다를 수 있다. 하지만 “특별한 차이가 없고, 사망 사건이 평균적으로 일정한 비율로 독립적으로 발생한다면 어떤 결과가 나와야 하는가?”를 보는 첫 번째 기준선으로는 쓸 수 있다. 이제 한 군단-연도에서 정확히 4명이 사망할 확률을 계산해보자.

 

$\displaystyle P(X=4)=e^{-0.61}\frac{0.61^4}{4!}$

 

이를 계산하면,

 

$\displaystyle P(X=4)\approx 0.00313$

 

이다. 즉 약 0.313%다. 이 값만 보면 매우 작다. 한 군단을 딱 1년만 관찰했는데 사망자가 4명이라면 확실히 드문 일이다. 하지만 여기서 중요한 점이 있다. 우리는 한 군단-연도만 본 것이 아니다. 200개의 군단-연도를 보았다. 한 군단-연도에서 정확히 4명이 사망할 확률이 약 0.313%라면, 200개의 군단-연도 중 적어도 하나에서 그런 일이 나타날 확률은 다음과 같다.

 

$\displaystyle 1-(1-P(X=4))^{200}$

 

값을 넣으면,

 

$\displaystyle 1-(1-0.00313)^{200}\approx 0.466$

 

즉 약 46.6%다. 다시 말해, 한 군단-연도만 보면 “정말 희박한 사건”처럼 보이던 일이, 200개의 군단-연도를 관찰하면 적어도 한 번쯤 나타날 확률이 거의 절반에 이른다. 만약 “정확히 4명”이 아니라 “4명 이상”으로 보면 확률은 조금 더 커진다.

 

$\displaystyle P(X\ge 4)\approx 0.00356$

 

그러면 200개의 군단-연도 중 적어도 하나에서 4명 이상 사망자가 나올 확률은

 

$\displaystyle 1-(1-0.00356)^{200}\approx 0.510$

 

즉 약 51.0%다.

 

그렇다면 한 군단에서 일 년에 네 명이 말발굽 사망 사고가 발생하는 것이 그렇게 이상한 일은 아닐 수 있다. 이 분석이 반드시 "아무런 문제가 없다"는 것을 입증하는 것은 아니다. 이 분석이 말하고자 하는 것은 "반드시 이례적인 현상은 아닐 수 있다"는 것이다. 즉, 성급하게 결론을 내려서는 안 된다.

 

4. 우연은 생각보다 자주 뭉친다.

사람들은 무작위를 흔히 “골고루 흩어지는 것”으로 상상한다. 하지만 실제 무작위는 그렇지 않다. 우연한 사건은 때로 몰려서 나타난다. 어떤 해에는 아무 일도 일어나지 않다가, 어떤 해에는 같은 종류의 사건이 여러 번 발생한다. 어떤 페이지에는 오타가 하나도 없다가, 어떤 페이지에는 오타가 두세 개 몰려 있을 수 있다. 어떤 시간대에는 서버 에러가 없다가, 어떤 시간대에는 에러가 여러 번 몰릴 수 있다. 그런 군집을 보면 우리는 본능적으로 원인을 찾고 싶어진다. 물론 원인이 있을 수 있다. 그러나 원인을 찾기 전에 먼저 해야 할 일이 있다.

 

이 정도의 몰림은 우연만으로도 나타날 수 있는가?

 

5. 포아송 분포는 우연의 기준선이다.

프로이센 기병대 말발굽 사망 사건은 단순히 흥미로운 역사 이야기가 아니다. 그것은 우리가 우연을 어떻게 오해하는지 보여주는 사례다. 한 군단에서 한 해에 4명이 말발굽에 차여 사망했다는 사실은 분명 눈에 띈다. 하지만 200개의 군단-연도를 놓고 보면, 그런 사례가 하나쯤 나타나는 것은 포아송 분포 관점에서 충분히 가능한 일이다. 따라서 포아송 분포는 이렇게 말해준다.

이상해 보이는 일이 실제로 이상한지 판단하려면,
먼저 정상적인 우연이라면 그런 일이 얼마나 자주 나타날 수 있는지 계산해야 한다.

 

이것이 포아송 분포의 힘이다. 포아송 분포는 단순히 $e^{-\lambda}\frac{\lambda^k}{k!}$라는 공식이 아니다. 그것은 드문 사건이 많은 기회 속에서 어떻게 나타나는지를 설명하는 수학적 언어다. 그리고 그 언어는 우리에게 한 가지 중요한 사실을 알려준다.

 

우연은 생각보다 규칙적이고, 동시에 생각보다 불규칙하게 뭉친다.

'시리즈 강의 > 확률론' 카테고리의 다른 글

결합확률분포의 변수변환  (0) 2026.04.12
순서 통계량(Order Statistics)  (0) 2026.04.03
지시 확률 변수(4)  (0) 2026.03.31
지시 확률 변수(3)  (0) 2026.03.31
지시 확률 변수(2)  (0) 2026.03.31