for textmining

이항분포, 다항분포, 베타분포, 디리클레분포

|

이번 글에서는 이항분포, 다항분포, 베타분포, 디리클레분포에 대해 살펴보도록 하겠습니다. 이번 글 역시 고려대 강필성 교수님 강의와 위키피디아를 정리했음을 먼저 밝힙니다. 그럼 시작하겠습니다.

이항분포

성공확률이 $p$인 베르누이시행을 $n$번 반복시행할 때 성공횟수를 나타내는 확률변수 $X$의 분포를 이항분포(binomial distribution)이라고 합니다. 이항분포의 확률질량함수는 다음과 같습니다.

\[p(x)=\begin{pmatrix} n \\ x \end{pmatrix}{ p }^{ x }{ (1-p) }^{ n-x },\quad x=0,1,...n\]

이항분포의 확률질량함수를 시각화하면 다음 그림과 같습니다. (출처 : 위키피디아)

$X$의 기대값과 분산은 다음과 같습니다.

\[E(X)=np\\ Var(X)=np(1-p)\]

베타분포

베타분포(beta distribution)란 두 매개변수 $α$와 $β$에 대해 $[0,1]$에서 정의되는 연속확률분포들의 가족을 가리킵니다. 베타분포의 확률밀도함수는 다음과 같습니다.

\[f(x;\alpha ,\beta )=\frac { \Gamma (\alpha +\beta ) }{ \Gamma (\alpha )\Gamma (\beta ) } { x }^{ \alpha -1 }{ (1-x) }^{ \beta -1 }\]

베타분포의 확률밀도함수인 감마함수 $Γ$는 다음과 같이 정의됩니다.

\[\Gamma (n)=(n-1)!\]

$α$, $β$ 값에 따라 베타분포의 모양 또한 달라지는데요. 다음 그림을 참고하시면 좋을 것 같습니다. (출처)

다항분포

다항분포(Multinomial)란 여러 개의 값을 가질 수 있는 독립 확률변수들에 대한 확률분포를 가리킵니다. 여러 번의 독립시행에서 각각의 값이 특정 횟수가 나타날 확률을 말합니다.

어떤 시행에서 $k$가지의 값이 나타날 수 있고, 그 값이 나타날 확률을 각각 $p_1, p_2, …,p_k$라고 할 때 $n$번의 시행에서 $i$번째 값이 $x_i$회 나타날 확률은 다음과 같습니다. 즉 다항분포의 확률질량함수는 아래와 같습니다.

\[p({ x }_{ 1 },{ x }_{ 2 },...,{ x }_{ k };n,{ p }_{ 1 },...,{ p }_{ k })=\frac { n! }{ { x }_{ 1 }!{ x }_{ 2 }!...{ x }_{ k }! } { p }_{ 1 }^{ { x }_{ 1 } }{ p }_{ 2 }^{ { x }_{ 2 } }...{ p }_{ k }^{ { x }_{ k } }\]

예를 들어보겠습니다. 전체 말뭉치의 단어 개수가 $v$개이고, 첫번째 단어가 말뭉치에 등장할 확률이 $p_{v1}$, 두번째 단어는 $p_{v2}$,…,$v$번째 단어는 $p_{vv}$라고 가정해보겠습니다. 여기에서 말뭉치에서 단어를 $n$개 뽑을 때 첫번째 단어가 나타날 횟수는 $x_1$,…$v$번째 단어는 $x_v$가 됩니다.

디리클레분포

디리클레분포란 $k$차원의 실수 벡터 중 벡터의 요소가 양수이며 모든 요소를 더한 값이 1인 경우에 확률값이 정의되는 연속확률분포입니다. 2이상의 자연수 $k$와 양의 상수 $α_1,…,α_k$에 대하여 디리클레분포의 확률밀도함수는 다음과 같이 정의됩니다.

\[\begin{align*} &{ x }_{ 1 },...,{ x }_{ k }가\quad모두 \quad양의 \quad실수이며 \quad\sum _{ i=1 }^{ k }{ { x }_{ i } } =1을 \quad만족할 \quad때,\\ &f({ x }_{ 1 },...{ x }_{ k };{ \alpha }_{ 1 },...,{ \alpha }_{ k })=\frac { 1 }{ B(\alpha ) } \prod _{ i=1 }^{ k }{ { { x }_{ i } }^{ { \alpha }_{ i }-1 } } \\&그 \quad외의 \quad경우는 \quad0이다. \end{align*}\]

$B(α)$는 다음과 같습니다.

\[B(\alpha )=\frac { \prod _{ i=1 }^{ k }{ \Gamma ({ \alpha }_{ i }) } }{ \Gamma (\sum _{ i=1 }^{ k }{ { \alpha }_{ i } } ) }\]

3차원 디리클레 분포의 모양은 다음과 같습니다. 왼쪽 위에서부터 시계방향으로 $α$=(6, 2, 2), (3, 7, 5), (6, 2, 6), (2, 3, 4)

켤레사전분포

사후확률 분포 $p(θ$|$x)$가 사전확률 분포 $p(θ)$와 같은 가족군으로 묶일 때 그 사후확률/사전확률을 모두 묶어 켤레분포(conjugate distributions), 그 사전확률 분포를 켤레사전분포(Conjugate prior distribution)라고 합니다. 사전확률과 사후확률이 동일한 분포를 따른다면 계산이 매우 편해지기 때문에 베이즈 통계학에서 많이 쓴다고 합니다. 그 관계를 따지면 다음과 같습니다.

우도 켤레사전분포 사후확률분포 파라메터의 의미
이항분포 베타분포 $Beta(α​,β)$ 베타분포 $Beta(α’,β’)$ 성공횟수 : $α-1$, 실패횟수 : $β-1$
다항분포 디리클레분포 $Dir(α)$ 디리클레분포 $Dir(α’)$ $i$번째 범주가 나타날 횟수 : $α_i-1$



Comments