FastText, 실전 사용하기
06 Jul 2017 | embedding methods
이번 글에서는 페이스북에서 개발한 FastText를 실전에서 사용하는 방법에 대해 살펴보도록 하겠습니다. FastText는 구글에서 개발한 Word2Vec을 기본으로 하되 부분단어들을 임베딩하는 기법인데요. 임베딩 기법과 관련 일반적인 내용은 이곳을 참고하시면 좋을 것 같습니다.
함수 설치하기
FastText는 파이썬 gensim 패키지 내에 포함돼 주목을 받았는데요. 이상하게 제 컴퓨터 환경에서는 지속적으로 에러가 나서, 저는 페이스북에서 제공하는 C++ 기반 버전을 사용하였습니다. 이 블로그는 이 버전을 기준으로 설명할 예정입니다. 어쨌든 아래와 같은 터미널 명령어로 fastText를 내려받아 컴파일하면 바로 사용할 수 있는 상태가 됩니다.
# 설치하고자 하는 디렉토리에서 다음을 실행
$ git clone https://github.com/facebookresearch/fastText.git
$ cd fastText
$ make
이 버전은 Mac OS와 Linux 환경에서만 실행 가능합니다
입력값 준비
FastText의 입력값은 utf-8 인코딩 기반의 텍스트 파일입니다. 라인(line) 하나당 하나의 문서가 되도록 저장해 두면 됩니다. 맥을 쓰는 저는 데스크탑 폴더 밑에 fasttext 폴더를 만들어 여기에 실행파일들을 컴파일 해놓고, 데스크탑 폴더엔 다음과 같은 영화 리뷰를 ‘kor’라는 이름으로 저장해 두었습니다.
미친놈을 동경하는 이유
울었다 웃었다 종 잡을 수 없지만 끝나고 나면 2편을 찾게 되는 영화
…
어설픈북한말투 일본해표기 이제는 진짜 약빨았나 싶은 두콤비세스와 프랭코 김정은죽인것땜에그나마 별둘줌
단어벡터 학습
C++ 기반의 FastText는 터미널에서 실행 가능합니다. 학습말뭉치 파일과 결과 파일 두 가지만 지정하면 나머지는 FastText가 알아서 해줍니다. 저의 경우 맥 데스크톱 폴더에서 실행했기 때문에 맨 앞에 ‘/fastText/’라는 경로를 지정했습니다.
$ ./fastText/fasttext -input kor -output kor_model
하지만 몇 가지 추가로 옵션을 지정해주면 더욱 좋겠죠. CBOW보다는 SkipGram 모델의 성능이 나은걸로 알려져 있기 때문에 임베딩 기법은 SG를, 단어벡터의 차원수는 100을, 양옆 단어는 세개씩 보되, 말뭉치에 100번 이상 나온 단어들만 임베딩하고 싶다면 다음과 같이 실행하면 됩니다.
$ ./fastText/fasttext skipgram -input kor -output kor_model -dim 100 -ws 3 -minCount 100
다음은 FastText의 파라메터 목록입니다. 여기에서 input, output은 사용자가 지정하지 않으면 실행이 되지 않기 때문에 반드시 입력해주어야 합니다.
parameter
description
default
input
training file path
mandatory
output
output file path
mandatory
verbose
verbosity level
2
minCount
minimal number of word occurences
5
minCountLabel
minimal number of label occurences
0
wordNgrams
max length of word ngram
1
bucket
number of buckets
2000000
minn
min length of char ngram
3
maxn
max length of char ngram
6
t
sampling threshold
0.0001
label
labels prefix
[]
lr
learning rate
0.05
lrUpdateRate
change the rate of updates for the learning rate
100
dim
size of word vectors
100
ws
size of the context window
5
epoch
number of epochs
5
neg
number of negatives sampled
5
loss
loss function {ns, hs, softmax}
ns
thread
number of threads
12
pretrainedVectors
pretrained word vectors for supervised learning
[]
saveOutput
whether output params should be saved
0
cutoff
number of words and ngrams to retain
0
retrain
finetune embeddings if a cutoff is applied
0
qnorm
quantizing the norm separately
0
qout
quantizing the classifier
0
dsub
size of each sub-vector
2
어쨌든 실행을 하면 다음과 같은 화면이 뜹니다. 학습 속도가 매우 빨라서 한국어 영화리뷰 50만여건을 학습시키는 데 맥북프로 2015 early 기준으로 5분도 채 안 걸렸던 것 같습니다.
학습결과 확인
학습이 끝나면 gensim 패키지의 Word2Vec처럼 파이썬 콘솔에서 결과를 확인할 수 있습니다. 다음과 같이 불러오면 됩니다.
from gensim.models import KeyedVectors
model = KeyedVectors.load_word2vec_format('kor')
임베딩된 단어의 리스트나 단어벡터를 뽑는 것은 다음과 같이 하면 됩니다.
# 단어 리스트 작성
vocab = model.index2word
# 전체 단어벡터 추출
wordvectors = []
for v in vocab:
wordvectors.append(model.wv[v])
쿼리단어 기준으로 가장 유사한 단어 리스트를 뽑는 것도 gensim의 Word2Vec과 완전히 동일합니다.
# '영화'와 가장 유사한 단어 30개 뽑기
model.most_similar('영화', topn=30)
파일럿 결과
‘영화’와 가장 유사한 단어를 뽑아 봤습니다. 다음과 같습니다.
영화다, 영화였다, 작품, 영화임, 영화이다, 영화였음, 영화인듯, 영화에요, 영화네요…
‘쓰레기’와 가장 유사한 단어는 아래와 같습니다.
시간낭비, 삼류, 최악의, 최악, 아깝다, 쓰레기같은, 병신, 동, 졸작, 쓰레기를, 극혐…
이번 글에서는 페이스북에서 개발한 FastText를 실전에서 사용하는 방법에 대해 살펴보도록 하겠습니다. FastText는 구글에서 개발한 Word2Vec을 기본으로 하되 부분단어들을 임베딩하는 기법인데요. 임베딩 기법과 관련 일반적인 내용은 이곳을 참고하시면 좋을 것 같습니다.
함수 설치하기
FastText는 파이썬 gensim 패키지 내에 포함돼 주목을 받았는데요. 이상하게 제 컴퓨터 환경에서는 지속적으로 에러가 나서, 저는 페이스북에서 제공하는 C++ 기반 버전을 사용하였습니다. 이 블로그는 이 버전을 기준으로 설명할 예정입니다. 어쨌든 아래와 같은 터미널 명령어로 fastText를 내려받아 컴파일하면 바로 사용할 수 있는 상태가 됩니다.
# 설치하고자 하는 디렉토리에서 다음을 실행
$ git clone https://github.com/facebookresearch/fastText.git
$ cd fastText
$ make
이 버전은 Mac OS와 Linux 환경에서만 실행 가능합니다
입력값 준비
FastText의 입력값은 utf-8 인코딩 기반의 텍스트 파일입니다. 라인(line) 하나당 하나의 문서가 되도록 저장해 두면 됩니다. 맥을 쓰는 저는 데스크탑 폴더 밑에 fasttext 폴더를 만들어 여기에 실행파일들을 컴파일 해놓고, 데스크탑 폴더엔 다음과 같은 영화 리뷰를 ‘kor’라는 이름으로 저장해 두었습니다.
미친놈을 동경하는 이유
울었다 웃었다 종 잡을 수 없지만 끝나고 나면 2편을 찾게 되는 영화
…
어설픈북한말투 일본해표기 이제는 진짜 약빨았나 싶은 두콤비세스와 프랭코 김정은죽인것땜에그나마 별둘줌
단어벡터 학습
C++ 기반의 FastText는 터미널에서 실행 가능합니다. 학습말뭉치 파일과 결과 파일 두 가지만 지정하면 나머지는 FastText가 알아서 해줍니다. 저의 경우 맥 데스크톱 폴더에서 실행했기 때문에 맨 앞에 ‘/fastText/’라는 경로를 지정했습니다.
$ ./fastText/fasttext -input kor -output kor_model
하지만 몇 가지 추가로 옵션을 지정해주면 더욱 좋겠죠. CBOW보다는 SkipGram 모델의 성능이 나은걸로 알려져 있기 때문에 임베딩 기법은 SG를, 단어벡터의 차원수는 100을, 양옆 단어는 세개씩 보되, 말뭉치에 100번 이상 나온 단어들만 임베딩하고 싶다면 다음과 같이 실행하면 됩니다.
$ ./fastText/fasttext skipgram -input kor -output kor_model -dim 100 -ws 3 -minCount 100
다음은 FastText의 파라메터 목록입니다. 여기에서 input, output은 사용자가 지정하지 않으면 실행이 되지 않기 때문에 반드시 입력해주어야 합니다.
parameter | description | default |
---|---|---|
input | training file path | mandatory |
output | output file path | mandatory |
verbose | verbosity level | 2 |
minCount | minimal number of word occurences | 5 |
minCountLabel | minimal number of label occurences | 0 |
wordNgrams | max length of word ngram | 1 |
bucket | number of buckets | 2000000 |
minn | min length of char ngram | 3 |
maxn | max length of char ngram | 6 |
t | sampling threshold | 0.0001 |
label | labels prefix | [] |
lr | learning rate | 0.05 |
lrUpdateRate | change the rate of updates for the learning rate | 100 |
dim | size of word vectors | 100 |
ws | size of the context window | 5 |
epoch | number of epochs | 5 |
neg | number of negatives sampled | 5 |
loss | loss function {ns, hs, softmax} | ns |
thread | number of threads | 12 |
pretrainedVectors | pretrained word vectors for supervised learning | [] |
saveOutput | whether output params should be saved | 0 |
cutoff | number of words and ngrams to retain | 0 |
retrain | finetune embeddings if a cutoff is applied | 0 |
qnorm | quantizing the norm separately | 0 |
qout | quantizing the classifier | 0 |
dsub | size of each sub-vector | 2 |
어쨌든 실행을 하면 다음과 같은 화면이 뜹니다. 학습 속도가 매우 빨라서 한국어 영화리뷰 50만여건을 학습시키는 데 맥북프로 2015 early 기준으로 5분도 채 안 걸렸던 것 같습니다.
학습결과 확인
학습이 끝나면 gensim 패키지의 Word2Vec처럼 파이썬 콘솔에서 결과를 확인할 수 있습니다. 다음과 같이 불러오면 됩니다.
from gensim.models import KeyedVectors
model = KeyedVectors.load_word2vec_format('kor')
임베딩된 단어의 리스트나 단어벡터를 뽑는 것은 다음과 같이 하면 됩니다.
# 단어 리스트 작성
vocab = model.index2word
# 전체 단어벡터 추출
wordvectors = []
for v in vocab:
wordvectors.append(model.wv[v])
쿼리단어 기준으로 가장 유사한 단어 리스트를 뽑는 것도 gensim의 Word2Vec과 완전히 동일합니다.
# '영화'와 가장 유사한 단어 30개 뽑기
model.most_similar('영화', topn=30)
파일럿 결과
‘영화’와 가장 유사한 단어를 뽑아 봤습니다. 다음과 같습니다.
영화다, 영화였다, 작품, 영화임, 영화이다, 영화였음, 영화인듯, 영화에요, 영화네요…
‘쓰레기’와 가장 유사한 단어는 아래와 같습니다.
시간낭비, 삼류, 최악의, 최악, 아깝다, 쓰레기같은, 병신, 동, 졸작, 쓰레기를, 극혐…