for textmining

한국어 품사 분류와 분포(distribution)

|

이번 글에서는 한국어 품사 분류의 기준에 대해 간략히 살펴보고 단어의 분포(distribution)가 품사의 의미와 어떤 관계를 맺고 있는지 알아보도록 하겠습니다. 이번 글은 경희대 이선웅 교수님의 강의와 표준국어문법론을 정리했음을 먼저 밝힙니다. 그럼 시작하겠습니다.

품사와 품사론

학교문법에 따르면 품사란 단어를 문법적 성질의 공통성에 따라 몇 갈래로 묶어 놓은 것입니다. 품사론은 품사의 종류와 성격 등에 관해 연구하는 분야를 뜻하는데요. 예컨대 7차 교육과정의 문법 교과서에 있는 아래와 같은 진술이 품사론의 영역이라고 볼 수 있겠습니다.

가. ‘(허리가) 굽다’는 ‘굽어, 굽어서’로 활용하고 ‘(불에)굽다’는 ‘구워, 구워서’로 활용한다.

나. 명사 중에는 반드시 그 앞에 꾸며 주는 말, 즉 관형어가 있어야만 문장에 쓰일 수 있는 것들이 있다.

다. 국어의 재귀칭에는 ‘저2, 저희2, 자기, 당신2’가 있다.

‘가’는 사실 형태론의 설명 대상입니다. 단어의 변화 양상에 주목한 문장이기 때문입니다. ‘나’는 통사론이라 말할 수 있습니다. 문장 내 다른 성분과의 문법적 관계를 서술한 문장이거든요. ‘다’는 단어 수준의 의미에 방점을 둔 어휘론의 설명 대상입니다.

이렇듯 품사론은 형태론, 통사론, 어휘론에 흩어져 있는 사실들을 묶어주는 종합적인 학문영역이어서 그 독자성은 적다고 할 수 있겠습니다. 품사론이 독자적으로 보이는 이유는 관습에 따른 착시현상일 뿐 그 내용 하나하나는 형태론적 지식, 통사론적 지식, 어휘론적 지식의 일부라는 이야기입니다.

학교문법에서는 한국어 품사를 9가지로 정의하고 있습니다. 이선웅 교수님에 따르면 그 체계는 아래 표와 같이 정리할 수 있는데요. 품사 분류 기준에 대해 자세히 살펴보시려면 이곳을 참고하시면 좋을 것 같습니다.

한국어 품사 분류 기준

학교문법에서 제시하는 품사 분류 기준은 세 가지입니다. 기능(function), 의미(meaning), 형태(form;형식)가 바로 그것입니다.

우선 기능은 한 단어가 문장 가운데서 다른 단어와 맺는 관계를 가리킵니다.

(1) 이 샘의 깊이가 얼마냐?

(2) 저 산의 높이가 얼마냐?

(3) 이 샘이 깊다.

(4) 저 산이 높다.

위 예시에서 ‘깊이’, ‘높이’는 문장의 주어로 쓰이고 있고, ‘깊다’, ‘높다’는 서술어로 사용되고 있습니다. 이처럼 기능이 같은 단어 부류를 일단 같은 품사로 묶을 수 있습니다.

의미란 형식적인 의미를 나타냅니다.

(가) 깊이, 깊다

(나) 높이, 높다

위 예시에서 ‘깊이’, ‘깊다’를 하나로 묶고, ‘높이’, ‘높다’를 같은 군집으로 넣을 수도 있습니다. 이 때 적용된 기준은 어휘적 의미인데요, 품사 분류에는 어휘적 의미보다는 형식적 의미가 중요한 기준이 됩니다. 다시 말해 어떤 단어가 사물의 이름을 나타내느냐, 그렇지 않으면 움직임이나 성질, 상태를 나타내느냐 하는 것입니다. 이렇게 본다면 ‘깊이’와 ‘높이’를 한 덩어리로, ‘깊다’와 ‘높다’를 다른 덩어리가 될 수 있습니다.

형식이라고 함은 단어의 형태적 특징을 의미합니다.

철수가 동화를 빨리 읽었다.

위 예시에서 철수, 동화 같은 단어는 변화하지 않습니다. 하지만 ‘읽었다’는 아래처럼 어미가 붙어 여러 가지 모습으로 변화를 일으킵니다.

읽었다, 읽는다, 읽는구나, 읽어라…

한국어 품사 분류의 실제

하지만 실제 품사를 분류할 때에는 여러가지 어려움이 따릅니다. 예컨대 의미는 품사 분류시 고려 대상이 될 수 있으나 결정적인 분류 기준은 될 수 없다는 겁니다. 예를 들어보겠습니다.

(a) 공부하다

(b) 공부

주지하다시피 (a)는 동사, (b)는 명사로 분류됩니다. 그렇다면 둘 사이에 의미상 큰 차이가 있다고 말할 수 있을까요? (a)의 경우 ‘하다’가 붙어 행위적인 속성이 더 강조된 느낌이 있기는 하지만 그 의미 차이가 결정적이지는 않은 것 같습니다.

사실 의미를 정확하게 알아내기란 어렵습니다. 예컨대 한국어의 ‘있다’는 아래처럼 형용사(exist)로도 동사(stay)로도 쓰입니다. 그럼 ‘있다’의 의미는 어디까지가 형용사 영역이고 어디까지가 동사 영역일까요? 구분하기 쉽지 않은 영역입니다.

형용사적 용법 : 사과가 세 개 있다.

동사적 용법 : 꼼짝 말고 여기 있어라.

한국어 품사 분류시 결정적 기준이 될 수 없는 건 형태도 마찬가지입니다. 이번엔 감탄사로 예를 들어보겠습니다.

(ㄱ) 영수가 학교에 간다.

(ㄴ) 영수! 조용히 해.

(ㄱ)의 영수는 명사, (ㄴ)의 영수는 감탄사로 쓰인 점을 확인할 수 있습니다. 형태는 같지만 의미가 달라졌다는 것이죠.

기능과 분포

한국어 품사를 분류할 때 가장 결정적인 기준은 바로 기능이라고 합니다. 앞선 예에서 (a)와 (b)를 분류할 때는 해당 단어가 문장 내에서 점하는 역할에 초점을 맞춰 본다는 것이죠. (a)의 경우 동작/작용의 기능이 있기 때문에 ‘동사’, (b)는 사물의 이름을 나타내는 기능이 있기 때문에 ‘명사’로 구분할 수 있게 됩니다. 마찬가지로 (ㄱ)은 사물의 이름으로 쓰였고, (ㄴ)은 문장의 다른 단어들과 문법적 관계가 없기 때문에 각각 명사, 감탄사(독립어)로 분류하게 됩니다.

그런데 한국어에서는 단어의 기능이 분포와 매우 밀접한 관련을 맺고 있다고 합니다. 분포란 단어의 등장 순서나 위치를 말합니다. 이와 관련해 국어학 창시자 격인 최현배 선생(1894~1970)이 쓰신 글을 인용해 보겠습니다. 최현배 선생 또한 기능이 가장 중요한 품사 분류 기준이면서, 기능은 분포와 상당한 관계가 있다고 지적했습니다.

씨(품사)의 가름(분류)은 그 말법에서의 구실 곧 씨 서로의 관계와 월(文)을 만드는 작용의 관계를 주장(主)으로 삼고, 그에 따르는 형식과 의미를 붙힘(從)으로 삼아, 이 네 가지가 서로 관계하는 양태를 표준으로 삼아 결정하여야 한다. (중략) 씨와 씨의 관계라는 것은 한 씨가 다른 씨와 합하는 일이 잇나 없나, 또 합하는 경우에는 어떠한 자리에서 하는가 하는 것이 그 씨의 뜻과 꼴(형식)에 들어나는 모양을 이름이요.

기능은 단어가 문장 내에서 어떤 역할을 하는지, 분포는 그 단어가 어느 자리에 있는지를 나타냅니다. 비유하자면 최순실 씨가 박근혜정부의 실세(기능)였던 건 박 전 대통령과 자주 만나고 가까이에 있었기(분포) 때문입니다. 이처럼 기능과 분포는 개념적으로 엄밀히 다르지만, 둘 사이에는 밀접한 관련을 지닙니다.

한국어 품사 분류의 일반적 기준

최형용(2013)은 한국어 품사 분류의 일반적인 기준을 아래와 같이 정의했습니다.

체언(명사) : 관형사가 그 앞에 올 수 있고 조사가 그 뒤에 올 수 있음

용언(동사/형용사) : 부사가 그 앞에 올 수 있고 선어말어미가 그 뒤에 올 수 있고 어말어미가 그 뒤에 와야 함

관형사 : 명사가 그 뒤에 와야 함

부사 : 용언, 부사, 절이 그 뒤에 와야 함

조사 : 체언 뒤에 와야 함

어미 : 용언 뒤에 와야 함

감탄사(간투사) : 특별한 결합 제약 없이 즉 문장 내의 다른 단어와 문법적 관계를 맺지 않고 따로 존재함

Distributed Representations와의 접점

Neural Network Language Model, Word2Vec, GloVe 등 단어를 벡터로 바꾸는 방법론이 제안되었습니다. 이 방법론들의 특징은 학습말뭉치의 단어 분포 정보를 보존하는 방식으로 벡터를 바꾸게 되는데요, 자세한 내용은 이곳을 참고하시면 좋을 것 같습니다.

어쨌든 이러한 모델들이 개별 단어의 형식적 의미나 형태를 전혀 고려하지 않음에도 높은 성능을 낼 수 있었던 건 지금까지 설명해드렸던 것처럼 임베딩된 단어벡터들이 분포 정보를 내포하고 있기 때문인 것 같습니다. 이 분포 정보가 단어의 기능이나 형식적 의미와 깊은 연관을 맺고 있기 때문에 임베딩 결과가 사람이 보기에도 그럴싸하게 나온다는 것이죠.

Comments