이항분포, 다항분포, 베타분포, 디리클레분포
28 May 2017 | distribution
이번 글에서는 이항분포, 다항분포, 베타분포, 디리클레분포에 대해 살펴보도록 하겠습니다. 이번 글 역시 고려대 강필성 교수님 강의와 위키피디아를 정리했음을 먼저 밝힙니다. 그럼 시작하겠습니다.
이항분포
성공확률이 $p$인 베르누이시행을 $n$번 반복시행할 때 성공횟수를 나타내는 확률변수 $X$의 분포를 이항분포(binomial distribution)이라고 합니다. 이항분포의 확률질량함수는 다음과 같습니다.
[p(x)=\begin{pmatrix} n \ x \end{pmatrix}{ p }^{ x }{ (1-p) }^{ n-x },\quad x=0,1,…n]
이항분포의 확률질량함수를 시각화하면 다음 그림과 같습니다. (출처 : 위키피디아)
$X$의 기대값과 분산은 다음과 같습니다.
[E(X)=np\ Var(X)=np(1-p)]
베타분포
베타분포(beta distribution)란 두 매개변수 $α$와 $β$에 대해 $[0,1]$에서 정의되는 연속확률분포들의 가족을 가리킵니다. 베타분포의 확률밀도함수는 다음과 같습니다.
[f(x;\alpha ,\beta )=\frac { \Gamma (\alpha +\beta ) }{ \Gamma (\alpha )\Gamma (\beta ) } { x }^{ \alpha -1 }{ (1-x) }^{ \beta -1 }]
베타분포의 확률밀도함수인 감마함수 $Γ$는 다음과 같이 정의됩니다.
[\Gamma (n)=(n-1)!]
$α$, $β$ 값에 따라 베타분포의 모양 또한 달라지는데요. 다음 그림을 참고하시면 좋을 것 같습니다. (출처)
다항분포
다항분포(Multinomial)란 여러 개의 값을 가질 수 있는 독립 확률변수들에 대한 확률분포를 가리킵니다. 여러 번의 독립시행에서 각각의 값이 특정 횟수가 나타날 확률을 말합니다.
어떤 시행에서 $k$가지의 값이 나타날 수 있고, 그 값이 나타날 확률을 각각 $p_1, p_2, …,p_k$라고 할 때 $n$번의 시행에서 $i$번째 값이 $x_i$회 나타날 확률은 다음과 같습니다. 즉 다항분포의 확률질량함수는 아래와 같습니다.
[p({ x }{ 1 },{ x }{ 2 },…,{ x }{ k };n,{ p }{ 1 },…,{ p }{ k })=\frac { n! }{ { x }{ 1 }!{ x }{ 2 }!…{ x }{ k }! } { p }{ 1 }^{ { x }{ 1 } }{ p }{ 2 }^{ { x }{ 2 } }…{ p }{ k }^{ { x }{ k } }]
예를 들어보겠습니다. 전체 말뭉치의 단어 개수가 $v$개이고, 첫번째 단어가 말뭉치에 등장할 확률이 $p_{v1}$, 두번째 단어는 $p_{v2}$,…,$v$번째 단어는 $p_{vv}$라고 가정해보겠습니다. 여기에서 말뭉치에서 단어를 $n$개 뽑을 때 첫번째 단어가 나타날 횟수는 $x_1$,…$v$번째 단어는 $x_v$가 됩니다.
디리클레분포
디리클레분포란 $k$차원의 실수 벡터 중 벡터의 요소가 양수이며 모든 요소를 더한 값이 1인 경우에 확률값이 정의되는 연속확률분포입니다. 2이상의 자연수 $k$와 양의 상수 $α_1,…,α_k$에 대하여 디리클레분포의 확률밀도함수는 다음과 같이 정의됩니다.
[\begin{align}
&{ x }_{ 1 },…,{ x }_{ k }가\quad모두 \quad양의 \quad실수이며 \quad\sum _{ i=1 }^{ k }{ { x }_{ i } } =1을 \quad만족할 \quad때,\ &f({ x }_{ 1 },…{ x }_{ k };{ \alpha }_{ 1 },…,{ \alpha }_{ k })=\frac { 1 }{ B(\alpha ) } \prod _{ i=1 }^{ k }{ { { x }_{ i } }^{ { \alpha }_{ i }-1 } } \&그 \quad외의 \quad경우는 \quad0이다.
\end{align}]
$B(α)$는 다음과 같습니다.
[B(\alpha )=\frac { \prod { i=1 }^{ k }{ \Gamma ({ \alpha }{ i }) } }{ \Gamma (\sum { i=1 }^{ k }{ { \alpha }{ i } } ) }]
3차원 디리클레 분포의 모양은 다음과 같습니다. 왼쪽 위에서부터 시계방향으로 $α$=(6, 2, 2), (3, 7, 5), (6, 2, 6), (2, 3, 4)
켤레사전분포
사후확률 분포 $p(θ$|$x)$가 사전확률 분포 $p(θ)$와 같은 가족군으로 묶일 때 그 사후확률/사전확률을 모두 묶어 켤레분포(conjugate distributions), 그 사전확률 분포를 켤레사전분포(Conjugate prior distribution)라고 합니다. 사전확률과 사후확률이 동일한 분포를 따른다면 계산이 매우 편해지기 때문에 베이즈 통계학에서 많이 쓴다고 합니다. 그 관계를 따지면 다음과 같습니다.
우도
켤레사전분포
사후확률분포
파라메터의 의미
이항분포
베타분포 $Beta(α,β)$
베타분포 $Beta(α’,β’)$
성공횟수 : $α-1$, 실패횟수 : $β-1$
다항분포
디리클레분포 $Dir(α)$
디리클레분포 $Dir(α’)$
$i$번째 범주가 나타날 횟수 : $α_i-1$
이번 글에서는 이항분포, 다항분포, 베타분포, 디리클레분포에 대해 살펴보도록 하겠습니다. 이번 글 역시 고려대 강필성 교수님 강의와 위키피디아를 정리했음을 먼저 밝힙니다. 그럼 시작하겠습니다.
이항분포
성공확률이 $p$인 베르누이시행을 $n$번 반복시행할 때 성공횟수를 나타내는 확률변수 $X$의 분포를 이항분포(binomial distribution)이라고 합니다. 이항분포의 확률질량함수는 다음과 같습니다.
[p(x)=\begin{pmatrix} n \ x \end{pmatrix}{ p }^{ x }{ (1-p) }^{ n-x },\quad x=0,1,…n]
이항분포의 확률질량함수를 시각화하면 다음 그림과 같습니다. (출처 : 위키피디아)
$X$의 기대값과 분산은 다음과 같습니다.
[E(X)=np\ Var(X)=np(1-p)]
베타분포
베타분포(beta distribution)란 두 매개변수 $α$와 $β$에 대해 $[0,1]$에서 정의되는 연속확률분포들의 가족을 가리킵니다. 베타분포의 확률밀도함수는 다음과 같습니다.
[f(x;\alpha ,\beta )=\frac { \Gamma (\alpha +\beta ) }{ \Gamma (\alpha )\Gamma (\beta ) } { x }^{ \alpha -1 }{ (1-x) }^{ \beta -1 }]
베타분포의 확률밀도함수인 감마함수 $Γ$는 다음과 같이 정의됩니다.
[\Gamma (n)=(n-1)!]
$α$, $β$ 값에 따라 베타분포의 모양 또한 달라지는데요. 다음 그림을 참고하시면 좋을 것 같습니다. (출처)
다항분포
다항분포(Multinomial)란 여러 개의 값을 가질 수 있는 독립 확률변수들에 대한 확률분포를 가리킵니다. 여러 번의 독립시행에서 각각의 값이 특정 횟수가 나타날 확률을 말합니다.
어떤 시행에서 $k$가지의 값이 나타날 수 있고, 그 값이 나타날 확률을 각각 $p_1, p_2, …,p_k$라고 할 때 $n$번의 시행에서 $i$번째 값이 $x_i$회 나타날 확률은 다음과 같습니다. 즉 다항분포의 확률질량함수는 아래와 같습니다.
[p({ x }{ 1 },{ x }{ 2 },…,{ x }{ k };n,{ p }{ 1 },…,{ p }{ k })=\frac { n! }{ { x }{ 1 }!{ x }{ 2 }!…{ x }{ k }! } { p }{ 1 }^{ { x }{ 1 } }{ p }{ 2 }^{ { x }{ 2 } }…{ p }{ k }^{ { x }{ k } }]
예를 들어보겠습니다. 전체 말뭉치의 단어 개수가 $v$개이고, 첫번째 단어가 말뭉치에 등장할 확률이 $p_{v1}$, 두번째 단어는 $p_{v2}$,…,$v$번째 단어는 $p_{vv}$라고 가정해보겠습니다. 여기에서 말뭉치에서 단어를 $n$개 뽑을 때 첫번째 단어가 나타날 횟수는 $x_1$,…$v$번째 단어는 $x_v$가 됩니다.
디리클레분포
디리클레분포란 $k$차원의 실수 벡터 중 벡터의 요소가 양수이며 모든 요소를 더한 값이 1인 경우에 확률값이 정의되는 연속확률분포입니다. 2이상의 자연수 $k$와 양의 상수 $α_1,…,α_k$에 대하여 디리클레분포의 확률밀도함수는 다음과 같이 정의됩니다.
[\begin{align} &{ x }_{ 1 },…,{ x }_{ k }가\quad모두 \quad양의 \quad실수이며 \quad\sum _{ i=1 }^{ k }{ { x }_{ i } } =1을 \quad만족할 \quad때,\ &f({ x }_{ 1 },…{ x }_{ k };{ \alpha }_{ 1 },…,{ \alpha }_{ k })=\frac { 1 }{ B(\alpha ) } \prod _{ i=1 }^{ k }{ { { x }_{ i } }^{ { \alpha }_{ i }-1 } } \&그 \quad외의 \quad경우는 \quad0이다. \end{align}]
$B(α)$는 다음과 같습니다.
[B(\alpha )=\frac { \prod { i=1 }^{ k }{ \Gamma ({ \alpha }{ i }) } }{ \Gamma (\sum { i=1 }^{ k }{ { \alpha }{ i } } ) }]
3차원 디리클레 분포의 모양은 다음과 같습니다. 왼쪽 위에서부터 시계방향으로 $α$=(6, 2, 2), (3, 7, 5), (6, 2, 6), (2, 3, 4)
켤레사전분포
사후확률 분포 $p(θ$|$x)$가 사전확률 분포 $p(θ)$와 같은 가족군으로 묶일 때 그 사후확률/사전확률을 모두 묶어 켤레분포(conjugate distributions), 그 사전확률 분포를 켤레사전분포(Conjugate prior distribution)라고 합니다. 사전확률과 사후확률이 동일한 분포를 따른다면 계산이 매우 편해지기 때문에 베이즈 통계학에서 많이 쓴다고 합니다. 그 관계를 따지면 다음과 같습니다.
우도 | 켤레사전분포 | 사후확률분포 | 파라메터의 의미 |
---|---|---|---|
이항분포 | 베타분포 $Beta(α,β)$ | 베타분포 $Beta(α’,β’)$ | 성공횟수 : $α-1$, 실패횟수 : $β-1$ |
다항분포 | 디리클레분포 $Dir(α)$ | 디리클레분포 $Dir(α’)$ | $i$번째 범주가 나타날 횟수 : $α_i-1$ |