특별기고

기계번역에서 자동통역으로

김영길 실장, 최승권 책임(ETRI 언어지능연구실)

기계번역은 한 언어의 글을 다른 언어의 글로 자동으로 번역해 주는 기술이고, 자동통역은 한 언어의 말을 다른 언어의 말로 자동으로 통역해 주는 기술로 두 가지 기술 모두 인류의 오랜 숙원인 바벨탑의 언어 장벽 저주를 풀 수 있는 난도 높은 기술이다. 특히 음성 인식, 기계번역, 음성합성 기술을 포함하고 있는 자동통역 기술은 꾸준히 미래의 ICT 및 인공지능 유망 기술로 주목받아 왔다. Jupiter Research사는 2020년에 가장 유망한 12대 미래 기술 중 하나로 ‘실시간 통역(real-time translation)’ 기술을 선정한 바 있고, MIT 테크놀로지 리뷰에서는 2019년에 ‘자동통역’ 기술을 10대 기술로 선정했었다.1)

자동통역 기술의 미래 가치가 높은 이유는 언어 장벽을 해소함으로써 획득할 수 있는 산업적 부가가치뿐아니라 사회적・문화적 가치가 높은 국가의 글로벌 경쟁력을 좌우할 수 있는 기술이기 때문이다. COVID-19 이전에는 국내의 해외 관광객이 늘어나는 추세로, 한국관광공사에 따르면 해외 관광객들이 한국에서 관광하는 데 가장 불편한 사항으로 언어 소통을 꼽았다.2) 자동통역 기술은 언어 장벽을 해소함으로써 여행 및 회의용 통역, 외국 콘텐츠 통역, 다문화 가족 및 외국인 노동자 의사소통, 외국어 교육용 AI 스피커 통역, 국제 비즈니스, 국제전시/스포츠 행사, UN 평화유지군 대상 현지인과 통역 등 새로운 AI 응용 시장 창출뿐 아니라 국제적으로 인적/물적 교류를 더욱 활성화시키는 효과를 가져올 수 있다.

기계번역 기술 동향

기계번역 기술은 ‘규칙 기반 기계번역(RBMT・Rule-Based Machine Translation)’에서 ‘통계 기반 기계번역(SMT・Statistical Machine Translation)’으로 발전했고, 현재 ‘신경망 기계번역(NMT・Neural Machine Translation)’으로 발전하고 있다.

그림 1. 기계번역 기술 발전의 역사 그림 1. 기계번역 기술 발전의 역사
[출처: “Development history of machine translation”, Manning et al., 2016(Modified)]

‘규칙 기반 기계번역’은 기계번역 초반에 사용했던 기술로 개발자가 정의한 번역 규칙에 따라 번역하는 기술을 말한다. ‘통계 기반 기계번역’은 문장을 단어나 구 단위로 나눠 번역한 후 언어 모델에 의해 목표 언어의 어순에 맞춰 나열하는 통계적 번역 모델을 말한다. ‘신경망 기계번역’은 딥러닝(deep learning) 기술을 적용하고 문장 전체의 정보를 사용해 소스 언어(source language)의 전체 문맥을 인코딩한 후, 이를 문맥 벡터로 활용해 디코더(decoder)에서 단어 순서, 의미 등을 반영해 목표 언어(target language)로 번역하는 기술을 말한다.

신경망 기계번역은 2014년 발표된 종단형 인코더-디코더 구조에서 BPE3)(Byte Pair Encoding) 등 서브워드(Subword) 방식의 토크나이저(Tokenizer)와 주의집중(attention) 메커니즘이 적용되면서 번역 성능이 크게 향상되었으며, 순환신경망(Recurrent Neural Network) 기반 기계번역에서 인코더에서 병렬 입력 토큰에 대한 멀티헤드 자기집중(Multi-Head Self-Attention) 처리가 강화된 트랜스포머 모델로 발전하고 있다.4)

자동통역 기술 동향

자동통역 기술은 모국어를 사용해 외국인과 실시간으로 의사소통을 가능하게 해주는 기술로 음성 인식, 기계번역, 음성합성 기술이 융합된 고난도 복합지능 기술이다. 최근 음성 인식, 기계번역 기술에 딥러닝 인공지능 기술이 접목되면서 기술적 완성도가 크게 향상되었으며, 최근 다양한 음성 인식, 기계번역, 자동통역 응용서비스 시장도 활발하게 만들어지고 있다. 특히 자동통역 기술은 여행이나 일상 등 제한된 영역에서 낭독형 단문을 명료하게 발화해 통역하는 수준이었으나 화상 전화, 회의, 비대면 강연, 방송 콘텐츠 등 사용자가 자연스럽게 말하는 연속 자유발화(conversational speech)에 대한 통역이 가능한 수준까지 발전하고 있다.

그림 2. 기계번역에서 자동통역으로의 패러다임 변화 그림 2. 기계번역에서 자동통역으로의 패러다임 변화

기술적으로는 최근 종단형 통역(end-to-end speech-to-speech translation) 기술이 활발히 연구·개발되고 있다. 기존의 자동통역 기술이 음성 인식 모듈과 기계번역 모듈을 분리해 각각 학습한 후 음성을 입력해서 나온 음성 인식 결과를 기계번역 모듈에 입력해 최종 통역 결과를 얻는 다단계(cascade) 통역인 반면, 종단형 자동통역 기술은 음성 인식과 기계번역 학습 모델을 종단형으로 하나로 통합하는 것이다.5) 기존의 자동통역 기술에서는 음성 인식 모듈의 오류가 기계번역 모듈로 전파되어 전체적인 통역 시스템의 성능을 현저히 떨어뜨리는 단점이 있었다. 이에 비해 종단형 자동통역 기술에서는 음성 인식 오류 전파를 막을 수 있고, 통역 속도도 개선할 수 있는 장점이 있다. 일반적으로 종단형 통역 기술은 주의집중(attention) 기반의 인코더-디코더 구조나 트랜스포머(transformer) 구조가 주로 사용되고 있으며, 실험 결과 트랜스포머 구조가 더 좋은 성능을 보이고 있다.6)

학습 데이터

- 자유발화 음성 데이터

자유발화는 대화상에서 나타나는 문장이 불완전하거나, 말을 더듬기도 하고 문법도 잘 지켜지지 않는 계획되지 않은 발화를 말한다. 기존의 데이터 구축 방법으로는 간투사, 생략, 더듬거림, 잘못 발성, 사투리와 같은 자유발화 현상을 반영할 수 없기 때문에 2019년 NIA(https://aihub.or.kr)에서는 첫 단계로 약 1,000시간에 해당하는 한국어 자유발화 학습 데이터(DB명 KSponSpeech)와 평가 데이터를 공개한 바 있다.7) 하지만 더욱 자연스러운 자유대화가 가능한 자유발화 통역, 인공지능 비서, 대화 로봇, AI 콜센터 등과 같은 대화형 AI 시스템을 위해서는 더 많은 자유발화 음성 데이터가 필요한 실정이다.

- 다국어 음성 및 번역 데이터

현재 자동통역 기술은 자유발화 대화형 다국어 통역을 지향하고 있다. 다국어 통역이 가능하려면 다국어 데이터가 중요하며, 한 언어쌍에 대해 종단형 구조의 인공지능을 학습하기 위해선 수천~수만 시간 이상의 음성 데이터와 수백만 이상의 번역 데이터가 필요하다. 한국어와 연관된 주요 언어인 영어, 중국어, 일본어의 경우 음성 및 번역 데이터는 공개된 데이터를 구매하거나 직접 구축이 가능하다. 하지만 베트남어, 태국어, 말레이어 등 동남아시아어, 아랍어, 페르시아어와 같은 한국어와의 연관성이 희소한 언어의 경우 데이터를 확보하기가 어렵다.

저자원(low-resource) 상황에서 양국어 코퍼스(Corpus)를 확장하는 방법으로는 첫째, 자원이 풍부한 언어를 기반으로 전이 학습(transfer learning)이나 피봇 번역(pivot translation)과 같은 방법을 사용하거나, 둘째, 기구축된 다수 언어를 통합해 멀티태스크 러닝(multi-task learning)을 하거나, 셋째, 타코트론(Tacotron) 합성기나 신경망 기반 기계번역기로 종단형 통역용 학습 데이터를 증강하는 방법이 연구되고 있다. 하지만 다국어 음성 및 번역 데이터를 인위적으로 생성할 경우 종단형 통역기의 성능에 제한적일 수 있기 때문에 원천적으로는 고품질의 다국어 음성 및 번역 데이터를 대량 확보하는 것이 중요하다.

- 문맥 반영 데이터

일반적인 신경망 기반 기계번역, 자동통역은 문장 단위를 기본으로 한 모델링이다. 문장 단위를 넘어서는 문맥 정보를 활용하면 더 정확한 신경망 기반 기계번역, 자동통역이 가능하며 생략이나 상호 참조(coreference)와 같은 담화 현상을 해결할 수 있다. 더 많은 문맥 정보를 사용하기 위해 문서 단위 번역(document-level translation)이 연구되고 있으나, 문서 단위 문맥 정보를 가진 학습 코퍼스가 많지 않기 때문에 문장 단위 학습 코퍼스를 사용하고 있는 실정이다. 따라서 문장 단위를 넘는 맥락을 고려한 언어 현상들을 처리하기 위해 문맥 정보가 반영된 문서 단위, 대화의 문맥이 포함된 대화 시나리오 단위의 학습 코퍼스가 필요하다.

맺음말

현재 자동통역 기술은 스마트폰에서의 제한된 단문 단위의 단순 통역에서 비대면 화상회의, 강연 통역 등 실시간 동시통역, 한류 방송 콘텐츠 통역 등 자유발화 대화형 다국어 통역으로 진화하고 있다. 또한 음성 인식 오류의 전파 문제, 전문 용어 인식 및 번역, 문맥 반영 등과 같은 문제들을 해결하는 데 주력하고 있으나 무엇보다 학습 데이터 부족 문제가 가장 큰 걸림돌이 되고 있다. 즉, 신경망 기반 음성 인식, 기계번역, 자동통역 시스템의 성능은 학습 데이터의 양과 질에 의해 시스템 성능이 크게 좌우되고 있다. 따라서 자유발화 음성 데이터, 다국어 음성 및 번역 데이터, 문맥 반영 데이터가 지속적으로 대량으로 구축되고 이를 활용해 적어도 한국어 기반의 다국어 자동통역 기술에 있어서는 국내 기술 경쟁력의 확보, 신규 시장 창출 등 데이터, 기술 및 산업 생태계의 선순환 구조를 만들 필요가 있다.

Reference
  • 1) MIT Technology Review, “10 Breakthrough Technologies in 2019,” Feb 27, 2019
  • 2,6) 김상훈, Conversational AI 기반 다국어 자동통역 기술 동향. IITP ITFIND, 2021.
  • 3) BPE(Byte Pair Encoding): ‘subword segmentation’(단어 분리)의 대표적 알고리즘으로 원래는 데이터 압축을 위한 알고리즘으로 탄생했지만, 현재는 NLP 분야의 대표적인 토크나이징 방법으로 활용된다.
  • 4) Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, U., Gomez, N. A., Kaiser, L., and Polosukhin, I., “Attention is all you need,” Proc. NIPS, 2017.
  • 5) Ye Jia, Ron J. Weiss, Fadi Biadsy, Wolfgang Macherey, Melvin Johnson, Zhifeng Chen, Yonghui Wu,“Direct speech-to-speech translation with a sequence-to-sequence model,” arXiv:1904.06037v2 [cs.CL], 2019
  • 7) Jeong-Uk Bang, Seung-Hi Kim, Mu-Yeol Choi, Min-Kyu Lee, Yeo-Jeong Kim, “KSponSpeech: Korean Spontaneous Speech Corpus for Automatic Speech Recognition,” Appl. Sci. 2020

지난 웹진 보기

이전호 더보기