for textmining

통계 기반 감성사전 구축

|

이번 글에서는 통계 기반 감성사전 구축 방법에 대해 살펴보도록 하겠습니다. 이 글은 고려대 강필성 교수님 강의와 Hur et al.(2016)을 정리하였음을 먼저 밝힙니다. 그럼 시작하겠습니다.

모델의 가정

이 모델은 평점 정보가 있는 영화 리뷰를 대상으로 합니다. 가정은 이렇습니다. 긍정적인 어휘가 쓰인 리뷰의 평점 분포는 전체 분포보다 오른쪽에 있을 것이고, 반대로 부정적인 어휘는 왼쪽에 있을 것이라는 겁니다. 이를 그림으로 나타내면 다음과 같습니다.

이 모델은 각 단어별 평점의 분포가 t분포를 따를 것이라고 가정합니다. 다음과 같이 t-test를 실시하여 검정통계량이 일정 수치를 넘으면 해당 단어를 긍정 범주, 일정 수치보다 작으면 부정 범주로 할당하게 됩니다.

H0 : 전체 평균과 해당 단어의 평균 평점이 동일하다.

H1 : 전체 평균과 해당 단어의 평균 평점이 같지 않다.

검정통계량

아래 식에서 wq는 영화 리뷰 말뭉치에 q번째로 등장한 단어, ri,ji번째 사용자가 j번째로 작성한 리뷰의 평점, R(ri,j,wq)i번째 사용자가 j번째로 작성한 리뷰에 q번째 단어가 쓰였을 경우 해당 리뷰의 평점(ri,j)을 가리킵니다. 만약 해당 리뷰에 wq가 포함돼 있지 않을 경우 R(ri,j,wq)은 0이 됩니다. 한편 m은 전체 사용자 수, nii번째 사용자가 작성한 리뷰의 총수, n(wq)wq의 빈도수를 뜻합니다.

Score(wq)=E(wq)=1n(wq)mi=1nij=1R(ri,j,wq)Var(wq)=1n(wq)1mi=1nij=1{R(ri,j,wq)Score(wq)}2

가설검정을 위한 검정통계량 Tw와 t분포의 자유도 v는 다음과 같습니다. W는 전체 단어, w는 가설검정 대상이 되는 개별 단어를 가리킵니다. s2wVar(w), E(w)Score(w)를 뜻합니다.

Tw=E(W)E(w)s2Wn(W)+s2wn(w)v={s2W/n(W)+s2w/n(w)}2{s2W/n(W)}2n(W)1+{s2w/n(w)}2n(w)1

가설검정

w에 대한 검정통계량 Tw와 자유도 v가 주어졌을 때 가설검정은 다음과 같이 실시합니다. (유의수준=α)

PositiveifTw>t(α,v)NegativeifTw<t(α,v)Neutralifotherwise

실험결과

Hur et al.(2016)의 실험 결과 일부는 다음과 같습니다. 통계 기반의 기법으로도 감성 어휘를 골라내는 데 좋은 성능을 나타냄을 알 수 있습니다.



Comments