데이터 전처리
이 페이지에서는 원시 말뭉치를 내려받아 텍스트 형태로 가공하는 방법을 안내합니다.
1. 데이터 덤프
아래의 명령어를 입력해 필요한 말뭉치를 다운로드합니다.
1.1. 네이버 영화 말뭉치
bash preprocess.sh dump-raw-nsmc
1.2. 한국어 위키피디아
bash preprocess.sh dump-raw-wiki
1.3. KorQuAD
bash preprocess.sh dump-raw-korquad
1.4. 유사 문장
wget https://github.com/songys/Question_pair/raw/master/kor_pair_train.csv -P /notebooks/embedding/data/raw
wget https://github.com/songys/Question_pair/raw/master/kor_Pair_test.csv -P /notebooks/embedding/data/raw
1.5. ratsgo blog
function gdrive_download () {
CONFIRM=$(wget --quiet --save-cookies /tmp/cookies.txt --keep-session-cookies --no-check-certificate "https://docs.google.com/uc?export=download&id=$1" -O- | sed -rn 's/.*confirm=([0-9A-Za-z_]+).*/\1\n/p')
wget --load-cookies /tmp/cookies.txt "https://docs.google.com/uc?export=download&confirm=$CONFIRM&id=$1" -O $2
rm -rf /tmp/cookies.txt
}
gdrive_download 1Few7-Mh3JypQN3rjnuXD8yAXrkxUwmjS /notebooks/embedding/data/processed/processed_blog.txt
2. 데이터를 문장 단위 텍스트 파일로 저장하기
/notebooks/embedding
위치에서 다음을 실행하면 각기 다른 형식의 데이터를 한 라인이 한 문서인 형태의 텍스트 파일로 저장합니다. 이 단계에서는 별도로 토크나이즈를 하진 않습니다.
2.1. 네이버 영화 말뭉치 전처리
json, text 형태의 영화 리뷰를 처리합니다.
bash preprocess.sh process-nsmc
2.2. 한국어 위키피디아 말뭉치 전처리
위키피디아 원문에서 이메일, URL, 여러 형태의 공백 등 불필요 문자를 제거하고 숫자 사이에 공백을 추가하는 등의 전처리를 시행합니다.
bash preprocess.sh process-wiki
2.3. KorQuAD 데이터 전처리
json 내 context를 문서 하나로 취급합니다. question, anwers은 두 쌍을 공백으로 묶어서 문서 하나로 취급합니다.
bash preprocess.sh process-korquad
3. 전처리 완료된 데이터 다운로드
전처리에 시간을 투자하고 싶지 않은 분들은 아래를 실행하면 전처리가 모두 완료된 데이터들을 한꺼번에 다운로드할 수 있습니다. 이밖에 다른 데이터를 내려받고 싶다면 이 글을 참고하세요.
bash preprocess.sh dump-processed