딥러닝 이전의 문서 분류
26 May 2017 | document classification
이번 글에서는 딥러닝이 주목받기 전인 2000년대 초반까지의 문서 분류 방식에 대해 살펴보도록 하겠습니다. AK Nassirtoussi(2015)는 금융 관련 문서들로 주가를 예측하는 연구를 했었는데요, 도메인이 금융에 특화돼 있긴 하지만 기존 문서 분류 연구들을 잘 정리해놓은 것 같다는 생각에 이를 인용해봤습니다. 그럼 시작하겠습니다.
문서 전처리
2000년대 초반 연구에서는 비정형데이터를 정형데이터로 변환하는 데 TF-IDF가 많이 쓰인 점을 확인할 수 있습니다. 토픽모델링 기법인 Latent Dirichlet Allocation을 입력 벡터로 만든 연구도 눈에 띕니다. 요즘엔 구글에서 2013년 개발한 Word2Vec이나 미국 스탠포드에서 개발한 GloVe 등을 주로 쓰고 있다는 점을 생각하면 격세지감이네요. TF-IDF에 대해 자세한 내용은 이곳을, Word2Vec에 대해서는 이곳, GloVe는 이곳을 참고하시면 좋을 것 같습니다.
분류 모델
분류 모델로는 서포트 벡터 머신(SVM) 계열 비중이 압도적입니다. 그도 그럴 것이 딥러닝 이전 뛰어난 성능으로 많은 주목을 받았던 모델 때문이 아닌가 생각합니다. 이밖에 선형회귀, 나이브 베이지안, K-NN 같은 비교적 간단한 모델도 분류기로 많이 쓰였습니다. 요즘에는 Convolutional Neural Networks, Recurrent Neural Networks, Recursive Neural Networks 등 딥러닝 모델들이 각광받고 있습니다.
SVM에 대한 자세한 내용은 이곳을, 나이브 베이지안 모델은 이곳, K-NN은 이곳을 참고하면 좋을 것 같습니다. 아울러 CNN은 이곳, Recurrent Neural Networks는 이곳, Recursive Neural Networks는 이곳을 보시면 좋을 것 같습니다.
Nassirtoussi, A. K., Aghabozorgi, S., Wah, T. Y., & Ngo, D. C. L. (2015). Text mining of news-headlines for FOREX market prediction: A Multi-layer Dimension Reduction Algorithm with semantics and sentiment. Expert Systems with Applications, 42(1), 306-324.
