COVER STORY

기계 번역을 위한 글로벌 데이터셋

한상기 대표(테크프론티어)

기계 번역의 역사는 자연어 처리 역사와 함께 하는 매우 오랜 시간 동안 연구해온 분야이다. 규칙 기반의 번역(RBMT)에서 통계 기반의 번역(SMT) 그리고 현재 신경망 기반의 번역(NMT)으로 발전하면서 번역을 위한 데이터셋의 구성도 바뀌었고 규모도 크게 달라졌다.

현재 우리나라 인공지능 데이터셋에서도 자연어 부문이 큰 비중을 차지하고 있고 이중 상당수는 자연어 자동 번역을 위한 데이터셋 구축이다. 국내에서는 한국어와 다중의 언어 사이의 자동 번역을 위한 데이터셋이 가장 중요한 과제이지만 해외의 주요 기업이나 연구 집단에서는 영어와 다른 언어 사이의 기계 번역이 1차 관심이었지만, 이제는 영어를 기반하지 않으면서 한 언어와 다른 언어 사이의 번역이 가능한 연구가 나오면서 100여 개 이상의 언어 사이의 다중 언어 번역 모델과 이를 위한 데이터셋 구축이 최근의 흐름이다.

우리가 아직 한국어를 기반으로 하는 기계 번역에 좀 더 관심을 갖고 있지만, 앞으로 나갈 방향을 모색하면서 우리 데이터셋을 어떻게 구축하는 것이 좋을지를 생각하기 위해서는 해외에서 만들어진 데이터셋에 대해서 참고할 필요가 있다.

스탠포드 대학 자연어 처리 그룹의 데이터셋1)

이 데이터셋은 2006년부터 열리는 WMT (Workshop on Statistical Machine Translation)의데이터셋 일부를 스탠포드 NLP 그룹에서 학습한 모델과 함께 공개한 데이터이다.2) 주로 영어와 타 언어 간의 기계 번역을 위한 데이터셋으로 하이브리드 NMT, 관심 기반의 NMT, 가지치기 NMT의 연구에서 사용한 데이터셋이다.

  • - WMT’15 영어-체코어: 1,580만 개의 문장 쌍으로 이루어졌으며, 단어 어휘, 사전, 글자 어휘로 구성했다.
  • - WMT’14 영어-독일어: 450만개의 문장 쌍이며 마찬가지로 5만개의 자주 쓰이는 단어로 이루어진 어휘 데이터, 사전 등을 제공한다.
  • - IWSLT’15 영어-베트남어 데이터: 13만3천개의 작은 데이터셋이다.

구글의 GNMT를 위한 데이터셋

구글은 2016년 신경망 기반의 GNMT 모델을 소개하면서 100여 개 이상의 언어 사이의 기계 번역의 품질이 크게 향상되고 있음을 보여주고 있다.3) 그럼에도 SOTA 모델의 성능이 특정한 번역 과업을 제외하고는 인간 성능에 아직 매우 부족한 수준인 것도 사실이다. 특히 스페인어나 독일어 같은 소스가 많은 언어에서 성공적인 연구도, 자원이 적은 언어에서는 아직 그 성능을 발휘하고 있지 못하다.

구글은 이후 노이즈가 많은 웹에서 수집한 데이터를 기반으로 M4 모델링 같은 다중 언어 전이 학습과 단일언어 데이터를 사용해 BLEU 점수를 모든 100여 개 언어에 대해 5점 이상을 올리고 있다.

그림 1. 구글 GNMT 성능의 발전 그림 1. 구글 GNMT 성능의 발전

특히 트랜스포머 모델이 RNN 모델보다 더 효과적임을 알게 되었고, 트랜스포머 인코더와 RNN 디코더를 결합한 하이브리드 모델을 통해 그 성능을 더욱 올리고 있다.

NMT는 일반 웹에서 수집한 번역된 문장이나 문서 사례를 통해 학습을 하는데, 구절 기반의 기계 번역에 비해 데이터 품질에 더 민감하다는 것에서 착안하여 웹 크롤러를 사전 기반 모델에서 임베딩 기반 모델로 바꾸어 14개의 언어 쌍을 수집했고, 이를 통해 평균 29%의 문장 개수를 증가했다. 2018년 논문4)에서는 영어-프랑스어, 영어-스페인어 쌍의 코퍼스를 구성했는데, 영어-프랑스어는 6억개를, 영어-스페인어는 4억7천만 개의 언어 쌍을 만들었고, 인간 어노테이터(annotator)가 이를 평가했다.

또 다른 데이터셋으로는 UN 코퍼스를 사용했는데 이는 1990년부터 2014년까지 사람이 직접 만든 6개의 공식 언어로 된 80만개의 UN 문서이다. 이 가운데 8천6백개는 15개의 언어로 된 문장 수준으로 번역된 문서이다. 각 언어에 대해서는 2억개의 유니그램(unigram)과 2억개의 바이그램(bi-gram) 토큰을 구성했다.

이후 2019년에는 250억 개 데이터를 기반으로 103개 언어를 다룰 수 있는 유니버셜 NMT 시스템을 발표했다.5) 이는 대규모 다중 언어 모델이 좋은 성과를 보일 수 있음을 보여주는 연구였고, 250억 개의 문장이라는 엄청난 규모 데이터의 유용성을 밝힌 것이다. 특히 저 자원 언어에 대해서 과거보다 큰 향상을 보인 것이 눈에 띈다.

그림 2. 구글의 UNMT 시스템의 성능 향상 그림 2. 구글의 UNMT 시스템의 성능 향상

페이스북의 CCMatrix와 FLORES-101 데이터셋

페이스북이 2020년 10월 발표한 M2M-100 기계 번역 시스템 역시 백여개의 서로 다른 언어를 번역하는 시스템으로 이를 오픈 소스로 공개했다.6) 특히 이 모델은 영어와 같은 특정 언어에 의존하지 않으면서 100개 언어의 어떤 쌍에 대해서도 번역을 수행하는 모델이다. 과거 모델이 중국어에서 프랑스어로 번역한다면, 가장 좋은 모델도 중국어를 영어로 바꾸고 다시 영어를 프랑스어로 번역을 했는데, 이는 영어 학습 데이터를 가장 많이 구축했기 때문이다.

이 모델은 2천2백개의 언어 방향으로 학습했고 과거 영어 중심의 다중 언어 모델에 비해 10배 이상의 학습량을 가진 것이다. 이를 통해 BLEU 지표 기준으로 과거 최고 수준의 영어 중심 시스템보다 10 포인트 더 좋은 결과를 얻었다고 발표했다. 페이스북이 M2M-100에서 학습용으로 사용한 데이터셋은 CCMatrix 데이터셋이며 깃허브에 공개했다.7) 이는 690억 개의 개별 문장으로 이루어진 커먼 크롤 코퍼스(Common Crawl corpus)에서 108억 개의 문장 쌍을 뽑아 냈으며, 그 중 29억 개는 영어와 관련된다.

그러나 기계 번역이 더 발전하기 위해서는 번역 시스템을 서로 테스트하고 비교할 수 있는 도구가 필요하다.

2021년 6월에 발표한 페이스북의 플로레스-101 데이터셋은 전 세계의 101개 언어를 커버하면서 번역 시스템 테스트 및 비교를 위한 도구 역할을 수행할 수 있는 평가 데이터셋이다. 깃허브에는 관련 논문, 데이터셋 전체, 블로그 포스트, 평가 서버에 대한 정보가 같이 나와 있다.8)

플로리스 평가 벤치마크에는 3천1개의 다양한 토픽과 도메인을 기준으로 영어 위키피디아에서 추출한 3천1개의 문장과 전문 번역가가 101개의 언어로 번역한 내용이 들어 있다.

그림 3. 깃허브에 공개한 플로리스-101 데이터셋 그림 3. 깃허브에 공개한 플로리스-101 데이터셋

기타

추가로 활용할 수 있는 데이터셋은 paperswithcode.com을 통해서 검색해서 볼 수 있다. 현재 267개의 데이터셋을 확인할 수 있다.

그림 4. 검색을 통해 얻을 수 있는 기계 번역 데이터셋 그림 4. 검색을 통해 얻을 수 있는 기계 번역 데이터셋

앞으로의 과제

대규모 데이터셋이 웹 크롤링 방식으로 만들어지고 있고, 이를 통해서 자원이 적은 소수 언어에 대한 번역까지 가능성을 보이고 있다. 그러나 동시에 런 방식에 대한 문제점도 지적되고 있는데, 이는 첫째, 노이즈가 많다는 것이, 둘째, 학습 데이터의 품질에 문제가 있다는 것이다.

2021년 3월에 50여 명의 저자가 쓴 웹 크롤링 방식의 다국어 데이터셋의 품질 분석 논문9)에 따르면 205개의 언어 코포라 중 자원이 적은 코포라에서는 수용할 수 있는 수준의 품질을 갖춘 것이 50% 미만으로 밝혀졌다. 물론 이 분석이 기계 번역에 특화한 것은 아니지만, 웹 크롤링 방식으로 대규모 데이터를 구축하는 것에는 반드시 데이터 검수와 정제가 필요함을 알 수 있다.

또한 구글이나 마이크로소프트가 클라우드에서 기계 번역을 지원하고 자사의 기계 번역 기술을 지속적으로 향상시키고 있지만, 대규모 데이터를 공개하고 있지 않다는 점도 다른 연구자들에게는 큰 장벽이 되고 있다. 그렇기에 이제는 국내 데이터셋 구축사업도 한국어 기준으로만 언어의 쌍을 모으는 것이 아니라, 언어에 독립적으로 번역한 유니버설 기계 번역 시스템을 위해 규모 있는 다중 언어 데이터셋 구축에 관심을 가질 필요가 있다.

Reference
  • 1) https://nlp.stanford.edu/projects/nmt/
  • 2) 참고로 2021년 내용은 http://statmt.org/wmt21/를 통해 확인할 수 있다.
  • 3) Google AI Blog, “Recent Advances in Google Translate,” Jun 8, 2020
  • 4) Guo, M. et.al., “Effective Parallel Corpus Mining using Bilingual Sentence Embeddings.” arXiv, Aug 2, 2018
  • 5) Synced, “Google Introduces Huge Universal Language Translation Model: 103 Languages Trained Over 25 Billion Examples,” Oct 31, 2019
  • 6) FACEBOOK AI, “The first AI model that translates 100 languages without relying on English data,” Oct 19, 2020
  • 7) https://github.com/facebookresearch/LASER/tree/master/tasks/CCMatrix에서 참고할 수 있다.
  • 8) https://github.com/facebookresearch/flores 에서 확인할 수 있다.
  • 9) Caswell, I., et. al., “Quality at a Glance: An Audit of Web-Crawled Multilingual Datasets,” arXiv Mar 22, 2021

지난 웹진 보기

이전호 더보기