AI·DATA 人터뷰

기계번역 분야의
인공지능 학습용 데이터 구축 현황 및 발전 방향

이연수 실장(엔씨소프트/인공지능 학습용 데이터 과제기획위원회 음성·자연어 분과위원)

1. 지금까지 인공지능 데이터 구축사업을 통해 다양한 번역 말뭉치 데이터셋이 구축되었습니다. 현재까지 구축된 데이터셋과 2021년 구축 예정인 번역용 말뭉치 데이터셋에 대하여 어떻게 평가하시나요?

기존 데이터셋은 다양한 기술과학, 사회 분야 텍스트에 대한 번역 데이터를 골고루 구축하려고 노력한 것 같다. 다양한 도메인 문장과 어휘를 포함하여 여러 산업에 적용할 수 있으며, 범용적인 기계번역 엔진을 만드는 데 많은 도움이 될 것으로 생각한다.

더불어 기존 데이터셋은 대부분이 평균 어절이 15어절 정도 되는 문어체 문장이다. 긴 문장의 번역이 기술적으로 더 어렵다는 점에서, 기존 데이터셋은 고수준의 번역엔진을 개발할 때 분명히 도움이 되는 데이터이다.

이연수 실장

하지만 번역의 원천 데이터가 한국어로 된 데이터라는 점은 우려되는 부분이다. 한국어 단어 집합과 한국어 표현을 외국어로 번역하여 구축하다 보면 실제 외국 원문에 나타난 다양한 고유명사, 문화적 표현, 이디엄(idiom) 등에 대한 반영이 부족할 수 있다. 따라서 기계가 이 데이터로 학습하면 한국어에서 영어로의 번역은 잘 되나, 영어에서 한국어로의 번역은 단어 집합과 표현을 이해하는 데 다소 부족함이 있을 수 있다. 번역 대상이 되는 언어를 소스 언어, 번역 결과가 되는 언어를 타겟 언어라고 할 때 데이터도, 기술도 방향성을 고려해야 소스 언어의 의미를 잘 처리할 수 있다.

특히 구어체에서는 이러한 필요성이 더 증가한다. 산업 현장에서는 잘 쓰인 문어체도 번역하겠지만, 문법적으로 완전하지 않고 오타와 생략이 많은 구어체에 대한 번역이 더욱 많이 필요하다. 외국인 고객과 소통하거나, 글로벌하게 서비스하는 기업들은 특히 구어체에 대한 필요성이 크다.

이에 올해는 이러한 글로벌 서비스업의 상황을 반영하였다. 언어의 구어적 표현을 잘 번역하기 위해서 데이터 수집부터 소스 언어와 타겟 언어를 구분하여 수집하고 실제 네이티브 표현들이 다양하게 포함될 수 있도록 기획하였다. 언어 쌍에 대해 양방향으로 데이터를 구축 한국어 SNS문장-올바른 영문 번역문장/영문 SNS문장-올바른 한국어 번역문장)하고, 수집도 잘 쓰인 학술지나 뉴스를 넘어서 SNS 텍스트, 게시판, 댓글, 채팅 등 일상생활과 해외 영업이나 고객 응대 상황이 반영되도록 하였다.

또한 번역 평가를 위해 평가셋을 별도 구축하도록 하였다. 번역의 경우 하나의 정답만이 있는 것이 아니기 때문에 기계번역 평가를 위해서는 여러 개의 정답을 구축해야 한다. BLEU1)와 같은 평가 척도는 정답의 단어를 기계가 얼마나 잘 맞추었는가를 평가하는데, 하나의 문장에 대해 여러 개의 정답(Multiple reference)을 가지고 평균을 사용하도록 권장하고 있다.

2. 페이스북의 ‘CCMatrix’, ‘Flores-101’ 데이터셋과 구글의 다중 언어 기계번역 (GNMT) 모델에서 활용하는 데이터셋 규모를 비교할 때 국내 데이터셋은 어떻게 발전해야 할까요?

‘CCMatrix‘는 페이스북이 공개한 대용량 병렬 데이터로, 576개 언어 쌍, 45억 문장 쌍을 포함하고 있다. 이는 대용량 웹 크롤링 데이터(ComonCrawl)에 포함된 각 문장을 다른 언어들의 모든 문장과 기계적으로 비교한 후 유사 대역문을 자동으로 추출하는 기술을 사용하여 구축한 것이다. 이 병렬 코퍼스는 규모가 매우 크지만, 기계적으로 추출된 결과인 만큼 정확도는 떨어질 것으로 생각된다. 그에 비해 국내의 병렬 코퍼스는 수동 구축되어 정확도가 비교적 높으며, 다양한 주제에 따라 구축된 경우가 많아서 특정 도메인에 특화된 번역 서비스를 할 때 좀 더 만족스러운 번역 결과를 낼 수 있다고 생각한다. 또한 데이터가 상대적으로 적은 상황에서 오역이나 의역은 학습 데이터에 포함된 예에서는 허용될 수 있는 수준이거나 매우 일부에 해당하여 문제가 되지 않을 것처럼 보이지만, 실제 번역 시스템에서 예기치 않은 입력에 오역 결과를 내기도 하고, 자칫 윤리적으로 잘못된 번역이 학습 데이터 안에 있을 경우 번역 서비스에 타격을 줄 수도 있다. 국내 데이터셋은 그러한 점에서 보다 안전하다고 말할 수 있다.

이러한 장점에도 불구하고 지금까지 병렬 데이터를 공개한 것이 많은 도움이 되겠지만, 고성능의 기계번역 엔진을 만들기 위해서는 매우 부족하다는 것도 사실이다. 따라서 100% 수작업으로 데이터를 구축하는 사업뿐만 아니라 대용량 병렬 데이터 마이닝 R&D 과제 등을 통해 다양한 종류의 데이터셋이 자동 혹은 반자동으로 구축되고, 이를 개방하여 최대한 자동으로 정렬하기 위한 기술이 발전되도록 유도하는 것도 필요하다고 생각한다.

또 페이스북이 병렬 데이터 마이닝을 위해 사용했던 유사 문장 판별 시스템 역시 기존에 이를 학습할 수 있는 유사 문장 데이터들을 많이 가지고 있었기 때문에 가능한 일이었을 것이다.

따라서 기계번역과 같은 언어 AI의 응용레벨의 학습 데이터뿐 아니라, 다양한 NLP 기반 기술을 개발할 수 있는 기초 데이터가 필요하다.

또한 최근 음악, 영화, 드라마, 유튜브 영상 등의 한국의 문화 콘텐츠가 외국에서 많은 인기를 끌고 있는 가운데 외국인들 사이에서 한국어 번역에 대한 수요가 많아지고 있다. 이러한 산업별 수요에 특화된 다국어 데이터를 구축하는 것도 국내의 데이터셋이 나아가야 할 방향이라고 생각한다.

3. 앞으로의 기계번역을 위한 데이터셋의 구축방향이 어떤 방향으로 나아가야 한다고 생각하시나요?

기계번역 데이터와 이를 활용한 기계번역 기술을 발전시키는 궁극적인 목표는 결국 국가 간의 소통을 통해 문화, 경제, 기술, 사회 측면에서 산업 발전을 이루기 위함이라고 생각한다. 그동안 여러 도메인을 담고 번역의 품질을 높이는 것에 초점이 있었다면 향후에는 이러한 관점에서 데이터의 품질과 종류를 결정해야 한다고 생각한다. 그리고 데이터의 양적인 측면도 중요하지만, 기존 데이터에서 고려되지 않은 부분도 보완할 필요가 있다.

첫 번째, 외국인과의 소통에서 사실의 왜곡을 방지하기 위해 반드시 필요한 정밀한 표현, 숫자, 날짜, 시간, 금액, 사람, 장소 등 고유명사, 문화적 차이, 정치적 이슈, 민감한 표현 등이 기존 데이터에서 매우 부족하다. 이러한 데이터는 의도적으로 범위를 미리 정해 놓고 데이터를 만들지 않으면 빠질 가능성이 크다. 기존에는 수집된 데이터 대상으로만 데이터를 만들고 이 데이터 범위 내에서 고품질을 추구하다 보니, 이러한 데이터가 완전하거나 풍부하지 않다.

두 번째로, 아직도 여전히 구어체 데이터가 부족하다. 일본어만 하더라도 문법적으로 잘 쓰인 뉴스나 책의 문어체 문장 번역 성능은 매우 높다. 그러나 채팅이나 인터넷의 문장들은 한국어 채팅체 보다 훨씬 더 문법이 파괴되어 있고, 한자어나 영어도 히라가나만 사용하여 음차로 쓰는 등 실제 문어체와 매우 다른 언어적 현상을 가진다. 실제로 일본에 상품을 서비스하는 기업에서 현재의 한-일 병렬 데이터를 사용하여 기계번역을 한다면 상품 댓글의 절반도 제대로 번역할 수가 없다.

마지막으로, 한국어-영어에만 치우친 언어 쌍의 종류를 확대할 필요도 있다. 특히 우리나라는 다문화 가정이 많고, 베트남, 인도네시아 등 동남아 국가와의 교류가 활발하다. 구글이나 페이스북 아마존 같은 글로벌 기업도 많지만, 클라우드 등을 활용하면 꼭 지역에 물리적인 서버나 시스템이 없더라도, 작고 강한 우리나라 기업에게 산업적으로 충분히 기회가 있다고 생각한다. 향후 AI 데이터는 이러한 산업을 지원하기 위한 데이터들도 꼭 필요하다고 생각한다.

4. 기계번역을 위한 데이터셋 구축이 정부의 지원을 기반으로 기업과 협업을 통해 진행될 수 있는 방안이 있을까요?

기업들도 AI에서 데이터의 중요성을 너무 잘 알고 있고, 데이터 구축에 많은 어려움을 겪는다. 기업 내부에서도 대부분의 데이터가 기업 영업에 관련된 민감한 내용이라 AI 기술 개발을 위한 데이터 활용이 쉽지 않은 상황이다. 이러한 상황에서 기업이 아무리 공공적인 선의를 갖고 있더라도 원천 데이터 자체를 제공하는 것은 거의 불가능한 일이라고 할 수 있다. 그럼에도 불구하고 인공지능 학습용 데이터 구축이 결국 산업의 발전과 연관되게 하려면 기업의 참여가 꼭 필요하다고 생각한다.

첫째, 데이터 기획과 평가 단계에서 보다 적극적인 참여가 필요하다. 이러한 부분조차 현재 자발적인 참여가 활발히 이루어지지 않는 실정인데, 가장 큰 이유는 기업 내 속해 있는 전문가 개인의 수준에서 참여를 결정하게 되어 있다는 것이다. 기업에 속해 있는 개인의 입장에서 선의만 가지고 참여하기는 쉽지 않다. 기업 차원에서 결정을 할 수 있도록 해야 하는데, 경영진 차원에서는 공공의 데이터 구축이 결국은 기업에게도 도움이 된다는 인식이 부족한 경우가 많다. 명시적인 기업 친화적 데이터가 구축되거나, 특별한 이점이 없다면 쉽게 해결되지 않을 것이다. 보다 상위 수준의 의사 결정을 통해 기업이 적극적으로 참여할 수 있는 장치가 필요하다.

둘째, 더 개방적이고 지속적인 데이터 관리 시스템 혹은 컨퍼런스 등을 통해 기업과 개인 모두가 참여할 수 있는 장을 만들면 여러 가지 문제를 좀 더 쉽게 해결할 수 있다. 데이터가 데이터만으로 존재하기보다는 기술 발전을 드라이브하는 중심이 되면 된다. 국내외 학계와 엔지니어들이 이 데이터를 활용하여 참여할 수 있는 컴피티션(competition), 리더보드, 개방적인 데이터 진화 프로세스 등을 갖추면 당연히 AI 관련 다양한 학계, 전문가, 엔지니어들이 여기에 모여들게 되고 이 소통의 장이 기술의 산지가 될 수도 있다. 기업들은 AI 기술과 인력, 정보의 교류가 중요하기 때문에 여기에 주목할 수밖에 없을 것이다. 자연스럽게 펀딩이 이루어지고, 공공 데이터에 대한 니즈와 구축 방법에 대해 적극적으로 나서게 될 수도 있으리라 조심스럽게 생각한다.

5. 앞으로 해외의 주요 지식 자료나 미디어 내용을 자동 번역을 통해 쉽게 접근할 수 있는 시점이 언제라고 생각하신가요?

많은 사람들이 SF영화에서처럼 아주 쉽게 언어 간 장벽이 없이 바로바로 소통할 수 있는 시대를 꿈꾼다. 그리고 구글 번역기를 통해 일상적인 문장들을 돌려보고 대략 의미가 통하는 번역 결과를 보면, 이러한 미래에 거의 도달한 것처럼 생각할 수도 있다. 어떤 기업은 1천만 정도의 한-영 데이터를 가지고 잘 알려진 번역 모델을 학습하고, 테스트하면서 이제 번역 기술은 다 개발한 것으로 생각할 수 있다.

그러나 자연어처리를 하는 연구자로서 영어를 몰라도 해외 주요 지식을 잘 흡수하고, 자동 번역을 통해 영화가 완벽히 번역되는 시대가 곧 올 것이라는 말은 하기 어렵다. 이러한 것은 단순한 의사소통과는 매우 다른 차원의 문제이다. 지식은 복잡하고 어려운 내용을 정확하게 전달될 때 의미가 있고, 영화는 문맥을 잘 살리고 스토리와 캐릭터, 문화적 특징을 잘 살려서 번역되어야만 한다. 콘텐츠 자체가 가지는 가치가 매우 높기 때문에 번역 기술만이 아니라, 번역된 지식을 다시 검증하고 맥락과 캐릭터 특징 및 문체를 잘 이해하고 생성할 수 있는 고수준의 다른 인공지능 기술과 결합 되어야 할 것이다.

사람이 정교하게 번역하여도 문화적 차이를 잘 반영하지 못하여, 한국 소설이 해외에서 잘 알려지기 어렵다던가, 로컬라이제이션(localization)을 잘못하여 좋은 게임이 해외에서 흥행하지 못한 예들도 많다. 이러한 부분은 인간 고유의 능력과 AI가 잘 결합될 수 있도록 AI가 도구로서 역할을 하는 것이 더 적합할 수도 있다.

다만, 대략적인 정보 전달, 생활 속 의사소통은 조만간 가능할 수 있다. 수년 내에 짧은 헤드라인 뉴스를 정확하게 번역할 날이 올지도 모른다. 또한, 스포츠 중계, 좋아하는 가수의 공연, 인터뷰 정도는 번역기가 바로바로 동작하여 팬들이 실시간으로 볼 수 있게 될 것이다. 도메인에 특화하거나, 특정 상황, 서비스에 특화하는 것은 지금도 산업 현장 곳곳에서 나오고 있고 계속 나오리라 생각한다. 각 영역마다 완벽한 번역이 아니더라도 특정 부분을 잘 번역하면 성공할 수 있는 지점이 있기 때문이다. 향후 이러한 분야들이 많아지고, 데이터가 많아지면 질문과 같은 복잡한 지식과 미디어 콘텐츠들의 번역 성능도 점점 좋아질 것은 분명하다.

Reference
  • 1) BLEU(Bilingual Evaluation Understudy)란 한 자연어에서 다른 자연어로 기계 번역된 번역 결과와 사람이 직접 번역한 결과의 유사도를 비교해 기계 번역 성능을 측정하는 방법이다.

지난 웹진 보기

이전호 더보기