[말빛 발견] 말뭉치/이경우 어문팀장

[말빛 발견] 말뭉치/이경우 어문팀장

이경우 기자
입력 2017-11-15 23:34
수정 2017-11-30 15:51
  • 기사 읽어주기
    다시듣기
  • 글씨 크기 조절
  • 댓글
    0
이미지 확대
이경우 어문팀장
이경우 어문팀장
‘말뭉치’는 ‘말’과 ‘뭉치’로 이루어진 단어다. ‘말’도 ‘뭉치’도 낯설지 않아 ‘말뭉치’도 친근하게 다가온다. 말이 뭉쳐 있거나 모여 있는 상태이겠거니 짐작하게 된다.

‘말뭉치’는 본래 우리말 어휘 속에 들어 있던 말은 아니다. 영어 ‘코퍼스’(corpus)를 우리말로 옮기는 과정에서 생겨난 말이다. 조금은 어림잡을 수 있는 형태로 만들어졌다. 많은 전문용어들이 외국어 그대로이거나 어려운 말들로 이뤄진 것과 비교된다.

언어학에서 ‘말뭉치’는 ‘컴퓨터가 읽을 수 있는 형태로 모아 놓은 언어 자료’를 뜻한다. 즉 언어 자료를 전산화한 것이 ‘말뭉치’다. 크기는 ‘어절’로 나타낸다. ‘어절’은 문장을 구성하는 각각의 마디다. 우리말에서 띄어쓰기를 하는 단위와 일치한다. ‘나는 슬퍼서 울었다’는 3어절로 이루어진 문장이다.

인공지능의 시대에 접어들면서 말뭉치는 더욱 중요해졌다. 인공지능의 바탕에 언어가 있기 때문이다. 말뭉치는 컴퓨터가 언어를 이해하는 핵심이기도 하다.

우리나라는 ‘21세기 세종계획’이란 이름으로 1998년부터 10년간 말뭉치 구축 사업을 벌였다. 이때 2억 어절의 말뭉치를 구축했다. 이 분야에서 선발 주자였다. 이후 중단됐다가 2018년부터 5년간 155억 어절의 말뭉치를 다시 구축한다. 우리가 중단했던 사이 미국은 200억, 일본은 100억 어절을 구축했다.

wlee@seoul.co.kr
2017-11-16 29면
Copyright ⓒ 서울신문 All rights reserved. 무단 전재-재배포, AI 학습 및 활용 금지
close button
많이 본 뉴스
1 / 3
'민생회복 소비쿠폰'에 대한 여러분의 생각은?
정부가 추가경정예산(추경)을 통해 총 13조원 규모의 ‘민생회복 소비쿠폰’을 지급하기로 하자 이를 둘러싸고 소셜미디어(SNS) 등에서 갑론을박이 벌어지고 있다. 경기에 활기가 돌 것을 기대하는 의견이 있는 반면 SNS와 온라인 커뮤니티에서는 ‘소비쿠폰 거부운동’을 주장하는 이미지가 확산되기도 했다. ‘민생회복 소비쿠폰’ 여러분은 어떻게 생각하나요?
경기 활성화에 도움이 된다고 생각한다.
포퓰리즘 정책이라고 생각한다.
광고삭제
광고삭제
위로