for textmining

FastText, 실전 사용하기

|

이번 글에서는 페이스북에서 개발한 FastText를 실전에서 사용하는 방법에 대해 살펴보도록 하겠습니다. FastText는 구글에서 개발한 Word2Vec을 기본으로 하되 부분단어들을 임베딩하는 기법인데요. 임베딩 기법과 관련 일반적인 내용은 이곳을 참고하시면 좋을 것 같습니다.

함수 설치하기

FastText는 파이썬 gensim 패키지 내에 포함돼 주목을 받았는데요. 이상하게 제 컴퓨터 환경에서는 지속적으로 에러가 나서, 저는 페이스북에서 제공하는 C++ 기반 버전을 사용하였습니다. 이 블로그는 이 버전을 기준으로 설명할 예정입니다. 어쨌든 아래와 같은 터미널 명령어로 fastText를 내려받아 컴파일하면 바로 사용할 수 있는 상태가 됩니다.

# 설치하고자 하는 디렉토리에서 다음을 실행
$ git clone https://github.com/facebookresearch/fastText.git
$ cd fastText
$ make

이 버전은 Mac OS와 Linux 환경에서만 실행 가능합니다

입력값 준비

FastText의 입력값은 utf-8 인코딩 기반의 텍스트 파일입니다. 라인(line) 하나당 하나의 문서가 되도록 저장해 두면 됩니다. 맥을 쓰는 저는 데스크탑 폴더 밑에 fasttext 폴더를 만들어 여기에 실행파일들을 컴파일 해놓고, 데스크탑 폴더엔 다음과 같은 영화 리뷰를 ‘kor’라는 이름으로 저장해 두었습니다.

미친놈을 동경하는 이유

울었다 웃었다 종 잡을 수 없지만 끝나고 나면 2편을 찾게 되는 영화

어설픈북한말투 일본해표기 이제는 진짜 약빨았나 싶은 두콤비세스와 프랭코 김정은죽인것땜에그나마 별둘줌

단어벡터 학습

C++ 기반의 FastText는 터미널에서 실행 가능합니다. 학습말뭉치 파일과 결과 파일 두 가지만 지정하면 나머지는 FastText가 알아서 해줍니다. 저의 경우 맥 데스크톱 폴더에서 실행했기 때문에 맨 앞에 ‘/fastText/’라는 경로를 지정했습니다.

$ ./fastText/fasttext -input kor -output kor_model

하지만 몇 가지 추가로 옵션을 지정해주면 더욱 좋겠죠. CBOW보다는 SkipGram 모델의 성능이 나은걸로 알려져 있기 때문에 임베딩 기법은 SG를, 단어벡터의 차원수는 100을, 양옆 단어는 세개씩 보되, 말뭉치에 100번 이상 나온 단어들만 임베딩하고 싶다면 다음과 같이 실행하면 됩니다.

$ ./fastText/fasttext skipgram -input kor -output kor_model -dim 100 -ws 3 -minCount 100

다음은 FastText의 파라메터 목록입니다. 여기에서 input, output은 사용자가 지정하지 않으면 실행이 되지 않기 때문에 반드시 입력해주어야 합니다.

parameter description default
input training file path mandatory
output output file path mandatory
verbose verbosity level 2
minCount minimal number of word occurences 5
minCountLabel minimal number of label occurences 0
wordNgrams max length of word ngram 1
bucket number of buckets 2000000
minn min length of char ngram 3
maxn max length of char ngram 6
t sampling threshold 0.0001
label labels prefix []
lr learning rate 0.05
lrUpdateRate change the rate of updates for the learning rate 100
dim size of word vectors 100
ws size of the context window 5
epoch number of epochs 5
neg number of negatives sampled 5
loss loss function {ns, hs, softmax} ns
thread number of threads 12
pretrainedVectors pretrained word vectors for supervised learning []
saveOutput whether output params should be saved 0
cutoff number of words and ngrams to retain 0
retrain finetune embeddings if a cutoff is applied 0
qnorm quantizing the norm separately 0
qout quantizing the classifier 0
dsub size of each sub-vector 2

어쨌든 실행을 하면 다음과 같은 화면이 뜹니다. 학습 속도가 매우 빨라서 한국어 영화리뷰 50만여건을 학습시키는 데 맥북프로 2015 early 기준으로 5분도 채 안 걸렸던 것 같습니다.

학습결과 확인

학습이 끝나면 gensim 패키지의 Word2Vec처럼 파이썬 콘솔에서 결과를 확인할 수 있습니다. 다음과 같이 불러오면 됩니다.

from gensim.models import KeyedVectors
model = KeyedVectors.load_word2vec_format('kor')

임베딩된 단어의 리스트나 단어벡터를 뽑는 것은 다음과 같이 하면 됩니다.

# 단어 리스트 작성
vocab = model.index2word
# 전체 단어벡터 추출
wordvectors = []
for v in vocab:
	wordvectors.append(model.wv[v])

쿼리단어 기준으로 가장 유사한 단어 리스트를 뽑는 것도 gensim의 Word2Vec과 완전히 동일합니다.

# '영화'와 가장 유사한 단어 30개 뽑기
model.most_similar('영화', topn=30)

파일럿 결과

‘영화’와 가장 유사한 단어를 뽑아 봤습니다. 다음과 같습니다.

영화다, 영화였다, 작품, 영화임, 영화이다, 영화였음, 영화인듯, 영화에요, 영화네요…

‘쓰레기’와 가장 유사한 단어는 아래와 같습니다.

시간낭비, 삼류, 최악의, 최악, 아깝다, 쓰레기같은, 병신, 동, 졸작, 쓰레기를, 극혐…

Comments