새소식

SCIENCE OF DATA ANALYSIS/통계적 추론의 기술

[확률분포 마을] #004 이산형 확률분포: 푸아송 분포

  • -

안녕하세요 데잇입니다.
이제 확률분포 마을에는 무뚝뚝한 할아버지 개발자(베르누이 분포)와 할아버지 개발자를 똑 닮은 무뚝뚝한 쌍둥이(이항 분포)가 살고 있습니다.

오늘 만나볼 분포는 아송 분포로 대표적인 이산형 확률분포 입니다. 

단속적으로 끊어지는 개발자의 형상을 지닌 세 번째 주민이죠. 그 주민들 중에서도 가장 힙한 인물입니다.

포아송 분포는 포아송 과정, 지수분포 등 활용법이 다양하기 때문입니다.

 

푸아송 분포(Poisson distribution)는 단위 시간 안에 어떤 사건이 몇 번 발생할 것인지를 표현하는 이산확률분포 입니다.

우리는 그를 동그란 안경을 쓴 대머리 청년 개발자로 상상하기로 합시다!

• 정의: $X \sim e^{-\lambda}\frac{\lambda^x}{x!}, x = {0, 1, ... }$
• 의미: 평균 발생율이 시간에 따라 고정된 사건이 단위 시간에 발생하는 성공횟수에 대한 분포
• 특성: 푸아송 가정
• 관련분포: 이항분포 → 푸아송분포 → 지수분포
• 키워드: 푸아송 가정, 발생율

정의

  • $X \sim e^{-\lambda}\frac{\lambda^x}{x!}, x = {0, 1, ... }$
    • 사건이 포아송 가정을 따를 때, 주어진 시간 동안 성공횟수 X에 대한 확률변수이다.
      Under the Poisson Model, the number of events in a period of time follows a Poisson distribution.
    • 즉, 정해진 시간 안에 어떤 사건이 일어날 횟수에 대한 기댓값을 $\lambda$라고 했을 때, 그 사건이 $x$회 일어나는 사건은 포아송 분포를 따른다.

특성

  • 푸아송분포 확률 변수의 기댓값과 분산은 모두 λ이다.
  • 푸아송 가정
    1. 독립성: 어떤 단위구간의 사건의 발생은 다른 단위구간의 발생으로부터 독립적이다.
    2. 비례성: 특정 구간에서의 사건 발생확률은 그 구간의 크기에 비례한다.
    3. 비집락성: 두 개 이상의 사건이 동시에 발생할 확률은 0에 가깝다.

응용

푸아송 사례

  • 일정 주어진 시간 동안에 도착한 고객의 수
  • 1킬로미터 도로에 있는 흠집의 수
  • 일정 주어진 생산시간 동안 발생하는 불량 수
  • 하룻동안 발생하는 출생자 수
  • 어떤 시간 동안 톨게이트를 통과하는 차량의 수
  • 어떤 페이지 하나를 완성하는 데 발생하는 오타의 발생률
  • 어떤 특정 량의 방사선을 DNA에 쬐였을 때 발생하는 돌연변이의 수
  • 어떤 특정 면적의 다양한 종류의 나무가 섞여 자라는 삼림에서 소나무의 수
  • 어떤 특정 진도 이상의 지진이 발생하는 수

푸아송 가정에 어긋나는 사례

  • 1분마다 학생 조합에 도착할 학생들의 수는 푸아송 분포를 따르지 않을 수도 있다. 왜냐하면, 그 비율이 일정하지 않기 때문이다. (수업 중에는 그 비율이 낮고, 쉬는 시간에는 그 비율이 높을 것이다.) 또, 각 학생들의 도착 사건이 독립적이지 않다. (학생들은 보통 그룹지어서 이동하는 경향이 있다)
  • 매년 캘리포니아에서 진도 5의 지진 발생 수는 푸아송 분포를 따르지 않을 것이다. 왜냐하면 한 번의 지진이 그 다음 일어날 지진의 가능성에 영향을 끼치기 때문이다.
  • 집중 치료 병동의 환자들 중, 그 병동에서 보낼 날의 수는 푸아송 분포를 따르지 않을 것이다. 왜냐하면, 병동에서 하루도 지내지 않는 경우는 없기 때문이다. 이러한 경우 zero-truncated poisson distribution을 통한 모델링이 가능하다.
  • 한 번도 사건이 일어나지 않는 시간 간격의 수가 기본 푸아송 분포를 통해 예측된 것보다 더 많은 경우 (쉽게 생각하면 푸아송 분포에서 계산된 P(k=0)보다 더 높은 P(k=0)을 가지는 경우), zero-inflated 모델을 적용할 수 있다.

관계

  • [이항분포] 발생확률이 매우 낮은 이항 분포의 시행횟수를 무한히 늘리면 푸아송 분포가 된다.
    • 이항분포는 n회 시행 시 성공횟수 X에 대한 확률변수이다.
    • $X \sim B(n, p)$인 확률변수 $X$에서, $n$이 대단히 크고 $p$가 대단히 작을 경우, 이 확률변수 $X$는 $\lambda=np$인 푸아송 분포로 근사할 수 있다. 즉, 단위 구간에서 평균적으로 np번 발생하는 푸아송 분포를 따르게된다.
    • 예를 들어 DNA에 방사선을 쬐었을 때, 각 염기쌍이 돌연변이를 일으킬 확률은 각각 매우 작고 서로 독립적이다. 또한 하나의 DNA에는 많은 염기쌍이 있다. 따라서 DNA에 방사선을 쬐었을 때 발생하는 돌연변이의 개수는 푸아송 분포로 나타낼 수 있다.
  • [지수분포] 푸아송 분포로 부터 지수분포를 도출할 수 있다.
    • 포아송 분포는 단위시간 당 발생하는 사건의 횟수X 가 따르는 분포이다.
    • 지수 분포는 단위 시간 당 발생하는 사건의 횟수가 X(단, 평균 발생횟수 $\lambda$)인 사건에 대해 사건이 1번 일어날 때까지 걸리는 시간 Y가 따르는 분포이다. 
    • 바꿔 말하자면, 사건이 일어날 때 걸리는 시간$X_k$에 대해 $X_k \sim exp(\lambda)$이면 단위시간 당 발생하는 사건의 횟수$N$에 대해$N \sim Poi(\lambda)$이다.
  • [감마분포] 푸아송 분포의 Conjugate Prior Distribution은 감마분포이다.

이미지

  • 이항분포 집에서 푸아송분포 집으로 가기 위해서는 시행횟수$n$을 엄청나게 늘리는 동시에 성공확률$p$가 매우 낮아야 한다. 그럼 평균성공 횟수 $\lambda = np$ 인 열쇠를 얻을 수 있다.
  • 푸아송분포 집에서 지수분포 집으로 가기 위해서는 벽에 걸린 횟수 카운터를 뒤집어 스탑워치 시계로 바꾸어야 한다. 둘은 동전의 양면과 같다.
Contents

소중한 공감 감사합니다

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 댓글/공감 꾸욱!