for textmining

단어(word)의 정의

|

이번 글에서는 단어(word)에 대해 살펴보겠습니다. 이번 글 역시 이선웅 경희대 교수님 강의와 최형용 이화여대 교수님 저서를 정리했음을 먼저 밝힙니다. 그럼 시작하겠습니다.

단어의 정의

19세기 이르러서야 그 개념이 정립된 형태소(morpheme)에 비해 단어는 꽤 오래 전부터 논의된 개념입니다. 형태소는 짧은 역사를 가진 데 반해 그 정의가 의미를 가지는 최소 단위(the minimal unit of meaning)로 깔끔하게 정리되는 편입니다. 하지만 단어는 오랜 연원을 가지고 있지만 지금도 쉽사리 정의내릴 수 없는 언어 단위라고 합니다. 임홍빈 & 장소원(1995)은 지금까지 제시된 단어에 대한 정의를 아래와 같이 세 가지로 정리하고 그 각각의 문제점에 대해서도 언급하고 있습니다.

가. 단일한 의미를 가지는 음(音) 결합체

나. 최소의 자립 형식

다. 휴지(休止)가 개입할 수 없고 내부가 분리되지 않는 형식

가의 경우 ‘애인(愛人)’과 ‘사랑하는 사람’에서 볼 수 있듯 같은 의미를 가지는 형식이 하나는 단어로, 다른 하나는 단어보다 큰 것으로 판명된다는 점에서 문제가 됩니다. 나의 경우 ‘책상’과 같은 예에서 ‘책’과 ‘상’이라는 더 작은 자립 형식이 분석되어 나온다는 점에서 논란이 될 수 있습니다. 다는 휴지가 개입되지 않음에도 하나의 단어가 아닌 ‘철수가’ 같은 예나 단어이면서도 ‘깨끗은 하다’처럼 한 단어 내부가 분리되는 경우가 문제라는 점입니다.

음운론적 단어와 문법적 단어

단어에 대한 정의가 이처럼 어려운 이유는 우리가 일반적으로 단어라고 부르는 대상에 너무 많은 개념들이 포함되어 있기 때문입니다. 이와 관련해 Dixon & Aikhenvald(2002)는 단어라는 개념은 아래와 같이 크게 음운론적 단어문법적 단어로 구성돼 있다고 주장했습니다. 박진호(1994) 역시 한국어의 단어 개념을 음운론적 단어와 통사원자(syntactic atom;문법적 단어)로 구분해야 한다고 밝혔습니다.

음운론적 단어란 하나의 호흡단위로써의 단어 개념입니다. 모국어 화자들이 자연스럽게 끊어 읽는 단위가 바로 음운론적 단어라는 것입니다. 이 때문에 음운론적 단어는 대개 어절과 일치합니다. 문법적 단어란 통사론에서 말하는 기초단위들을 뜻합니다. 박진호(1994)에 따르면 명사, 동사, 관형사, 부사, 격조사, 문말어미, 보조사, 선문말어미, 접속사, 감탄사가 여기에 해당합니다. 둘을 구분하면 예컨대 아래와 같습니다.

철수가 밥을 빨리 먹었다.

구분 내용
음운론적 단어 철수가, 밥을, 빨리, 먹었다
문법적 단어 철수, 가, 밥, 을, 빨리, 먹-, -었-, -다

단어의 존재 양상

Dixon & Aikhenvald(2002)은 이를 토대로 단어의 종류를 아래 네 가지로 나눌 수 있다고 보았습니다.

가. 음운론적 단어와 문법적 단어가 일치하는 경우

나. 음운론적 단어가 두 개 이상의 문법적 단어로 이뤄진 경우

다. 문법적 단어가 두 개 이상의 음운론적 단어로 이뤄진 경우

라. 문법적 단어와 음운론적 단어 사이에 보다 복잡한 관계가 존재하는 경우

‘가’의 경우 분석에 큰 어려움이 없습니다. ‘나’~’라’가 어려운 문제인데요. 대부분의 합성어는 ‘다’에 해당하는 사례가 됩니다. 합성어는 별개로는 음운론적 단어인 것들이 모여 하나의 문법적 단어를 이루는 경우라 할 수 있기 대문입니다. 예컨대 ‘책상’이 여기에 해당하는데요, ‘책상’이라는 명사(문법적 단어)는 ‘책’과 ‘상’이라는 두 개의 음운론적 단어가 모여 만들어진 집합체입니다.

‘먹을 것’과 ‘먹어 보다’ 같은 사례는 ‘나’에 해당합니다. 둘 모두 중간에 끊어 읽는 경우가 많지 않기 때문에 각각 하나의 음운론적 단어라고 볼 수 있습니다. 하지만 동사의 활용형에 의존명사와 보조용언이 각각 붙어있으므로 ‘먹을 것’, ‘먹어 보다’ 모두 두 개의 문법적 단어로 구성되어 있는 셈입니다. 이처럼 단어 개념은 복잡 오묘하기 때문에 분석에 주의를 기울여야 합니다.



Comments