안녕하세요 데잇입니다. 이제 확률분포 마을에는 무뚝뚝한 할아버지 개발자(베르누이 분포)와 할아버지 개발자를 똑 닮은 무뚝뚝한 쌍둥이(이항 분포)가 살고 있습니다.
오늘 만나볼 분포는푸아송 분포로 대표적인 이산형확률분포 입니다.
단속적으로 끊어지는 개발자의 형상을 지닌 세 번째 주민이죠.그 주민들 중에서도 가장 힙한 인물입니다.
포아송 분포는 포아송 과정, 지수분포 등 활용법이 다양하기 때문입니다.
푸아송 분포(Poisson distribution)는단위 시간 안에 어떤 사건이 몇 번 발생할 것인지를 표현하는 이산확률분포 입니다.
우리는 그를 동그란 안경을 쓴 대머리 청년개발자로 상상하기로 합시다!
• 정의: $X \sim e^{-\lambda}\frac{\lambda^x}{x!}, x = {0, 1, ... }$ • 의미: 평균 발생율이 시간에 따라 고정된 사건이 단위 시간에 발생하는 성공횟수에 대한 분포 • 특성: 푸아송 가정 • 관련분포: 이항분포 → 푸아송분포 → 지수분포 • 키워드: 푸아송 가정, 발생율
정의
$X \sim e^{-\lambda}\frac{\lambda^x}{x!}, x = {0, 1, ... }$
사건이 포아송 가정을 따를 때, 주어진 시간 동안 성공횟수 X에 대한 확률변수이다. Under the Poisson Model, the number of events in a period of time follows a Poisson distribution.
즉, 정해진 시간 안에 어떤 사건이 일어날 횟수에 대한 기댓값을 $\lambda$라고 했을 때, 그 사건이 $x$회 일어나는 사건은 포아송 분포를 따른다.
특성
푸아송분포 확률 변수의 기댓값과 분산은 모두 λ이다.
푸아송 가정
독립성: 어떤 단위구간의 사건의 발생은 다른 단위구간의 발생으로부터 독립적이다.
비례성: 특정 구간에서의 사건 발생확률은 그 구간의 크기에 비례한다.
비집락성: 두 개 이상의 사건이 동시에 발생할 확률은 0에 가깝다.
응용
푸아송 사례
일정 주어진 시간 동안에 도착한 고객의 수
1킬로미터 도로에 있는 흠집의 수
일정 주어진 생산시간 동안 발생하는 불량 수
하룻동안 발생하는 출생자 수
어떤 시간 동안 톨게이트를 통과하는 차량의 수
어떤 페이지 하나를 완성하는 데 발생하는 오타의 발생률
어떤 특정 량의 방사선을 DNA에 쬐였을 때 발생하는 돌연변이의 수
어떤 특정 면적의 다양한 종류의 나무가 섞여 자라는 삼림에서 소나무의 수
어떤 특정 진도 이상의 지진이 발생하는 수
푸아송 가정에 어긋나는 사례
1분마다 학생 조합에 도착할 학생들의 수는 푸아송 분포를 따르지 않을 수도 있다. 왜냐하면, 그 비율이 일정하지 않기 때문이다. (수업 중에는 그 비율이 낮고, 쉬는 시간에는 그 비율이 높을 것이다.) 또, 각 학생들의 도착 사건이 독립적이지 않다. (학생들은 보통 그룹지어서 이동하는 경향이 있다)
매년 캘리포니아에서 진도 5의 지진 발생 수는 푸아송 분포를 따르지 않을 것이다. 왜냐하면 한 번의 지진이 그 다음 일어날 지진의 가능성에 영향을 끼치기 때문이다.
집중 치료 병동의 환자들 중, 그 병동에서 보낼 날의 수는 푸아송 분포를 따르지 않을 것이다. 왜냐하면, 병동에서 하루도 지내지 않는 경우는 없기 때문이다. 이러한 경우 zero-truncated poisson distribution을 통한 모델링이 가능하다.
한 번도 사건이 일어나지 않는 시간 간격의 수가 기본 푸아송 분포를 통해 예측된 것보다 더 많은 경우 (쉽게 생각하면 푸아송 분포에서 계산된 P(k=0)보다 더 높은 P(k=0)을 가지는 경우), zero-inflated 모델을 적용할 수 있다.
관계
[이항분포] 발생확률이 매우 낮은 이항 분포의 시행횟수를 무한히 늘리면 푸아송 분포가 된다.
이항분포는 n회 시행 시 성공횟수 X에 대한 확률변수이다.
$X \sim B(n, p)$인 확률변수 $X$에서, $n$이 대단히 크고 $p$가 대단히 작을 경우, 이 확률변수 $X$는 $\lambda=np$인 푸아송 분포로 근사할 수 있다. 즉, 단위 구간에서 평균적으로 np번 발생하는 푸아송 분포를 따르게된다.
예를 들어 DNA에 방사선을 쬐었을 때, 각 염기쌍이 돌연변이를 일으킬 확률은 각각 매우 작고 서로 독립적이다. 또한 하나의 DNA에는 많은 염기쌍이 있다. 따라서 DNA에 방사선을 쬐었을 때 발생하는 돌연변이의 개수는 푸아송 분포로 나타낼 수 있다.
[지수분포] 푸아송 분포로 부터 지수분포를 도출할 수 있다.
포아송 분포는 단위시간 당 발생하는 사건의 횟수X 가 따르는 분포이다.
지수 분포는 단위 시간 당 발생하는 사건의 횟수가 X(단, 평균 발생횟수 $\lambda$)인 사건에 대해 사건이 1번 일어날 때까지 걸리는 시간 Y가 따르는 분포이다.
바꿔 말하자면, 사건이 일어날 때 걸리는 시간$X_k$에 대해 $X_k \sim exp(\lambda)$이면 단위시간 당 발생하는 사건의 횟수$N$에 대해$N \sim Poi(\lambda)$이다.