이달의 주목할 데이터셋

더욱 정확하고 자연스러운 언어 인공지능을 만드는 고품질 데이터

이정수 대표(플리토)

언어 데이터 기업 플리토는 다국어 번역 통합 서비스를 제공하는 웹과 앱 플랫폼을 운영한다. 이 플랫폼에서 ‘언어 데이터’를 수집해 텍스트, 음성, 이미지 등과 같은 데이터를 공급하고, 각 기업에 맞는 가공 서비스도 제공한다. 2018년부터 한국지능정보사회진흥원(NIA)의 공공데이터 사업을 수행했고, 2019년에는 한국데이터산업진흥원의 데이터 바우처 지원사업에 데이터 가공∙공급 기업으로 참여하는 등 데이터 구축 역량을 쌓았다. 2020년 하반기에는 자동 번역 사업에 대한 경험 및 우수 기술을 보유한 기관과 최적의 컨소시엄을 구성해 NIA의 ‘디지털 뉴딜–인공지능(AI) 학습용 데이터 구축사업’ 중 ‘한국어-중국어∙일본어 번역 말뭉치 데이터’를 구축하는 데 참여했다.

1. 국내외 언어 인공지능 산업 현황

인공지능 분야에서 경쟁력을 확보하기 위해 인공지능 인프라 구축이 중요한 시점이다. 국내 인공지능 분야는 미국, 중국, 유럽 등 주요국에 비해 양적, 질적 지표에서 모두 열위에 있다. 인공지능 선진국은 인공지능 국가 전략을 추진해 재정 지원, 인재 양성, 인프라 구축 등에 집중해 온 반면, 국내의 기술 수준은 미국에 비해 약 1.8년의 격차를 보이는 것으로 나타났다.1) 그중 언어 인공지능 분야에서 글로벌 기업의 인공지능 번역은 전문 말뭉치 학습을 통해 고품질의 맞춤형 번역 엔진 개발로 발전하고 있다. 이에 국내 인공지능 번역 기술 개발 및 산업 활성화를 위해선 대규모 말뭉치 데이터 구축과 고성능 클라우드 컴퓨팅 자원의 지원 등이 필요하다.

그림 1. 글로벌 기업 인공지능 번역 서비스 그림 1. 글로벌 기업 인공지능 번역 서비스

2. 말뭉치, 언어 데이터의 중요성

앞서 설명한 바와 같이 PSG 결과 판독에는 많은 인력과 시간이 투입되어 왔고, 이러한 문제를 해결하기 위해 AI 모델 개발을 통한 자동 판독과 AI 학습용 데이터를 구축하기 위한 노력이 이어져 왔다. NSRR, MASS 등의 데이터셋을 이용해 학습시킨 수면 단계 분류 모델은 80~90% 정도의 정확도(accuracy)를 보여주는 것으로 보고되고 있다(Fiorillo et al., 2019).말뭉치란 컴퓨터가 텍스트를 가공∙처리∙분석할 수 있는 형태로 모아 놓은 자료로, 컴퓨터가 인간의 언어를 자연스럽게 분석하기 위해서는 다양한 말뭉치 언어 데이터가 필요하다. 언어 데이터는 인공지능 번역 등 언어 인공지능 기술 개발 및 고도화에 기본 요소이며, 해당 기술에 대한 경쟁력을 위해 방대한 데이터의 확보가 필수적이다. 예를 들어 같은 의미의 한국어와 일본어를 한 쌍으로 묶어 컴퓨터에 투입하면 이러한 데이터의 규칙을 컴퓨터가 스스로 학습하고, 더욱 많은 문장을 학습시킬수록 정확한 한-일 기계 번역이 가능해진다.

그림 2. 언어 인공지능 서비스 그림 2. 언어 인공지능 서비스

3. 데이터 기업 플리토

플리토는 글로벌 언어 데이터 수요에 유기적으로 대응할 수 있는 플랫폼 기반의 데이터 구축 시스템을 개발했으며, 이를 통해 수집 및 가공한 고품질 데이터를 바탕으로 지속적인 성장이 가능한 혁신적 비즈니스 모델을 제시했다. 플랫폼을 활용한 크라우드소싱 방식을 활용해 디지털 뉴딜을 비롯한 데이터 구축 프로젝트를 수행 시 신속하면서도 정확한 인공지능 학습용 데이터를 수집할 수 있다는 강점을 가진다.

또한 일상에 필수적으로 활용되는 언어 인공지능 기술 개발 및 고도화에 필수적인 대량의 학습용 데이터를 고품질로 공급함으로써 다국어 인공지능 번역기, 챗봇, 음성 인식기 등의 정확도와 편의성을 높이는 데 기여하고 있다. 이는 나아가 데이터 경제를 활성화시키고 인공지능 산업 생태계를 안정적으로 조성하는 데 긍정적인 영향을 줄 수 있으리라 예상한다.

플리토의 데이터 구축 시스템은 인공지능, 데이터 산업에 직접적인 영향을 줄 뿐만 아니라, 누구나 쉽게 데이터 생산에 참여할 수 있다는 점에서 경력단절자, 미취업자 등의 일자리 창출이라는 사회적 가치 실현에도 기여하고 있다.

4. NIA ‘한국어 – 중국어/일본어 말뭉치 데이터 구축사업

플리토는 한국어-중국어∙일본어 3개 분야(한∙중 기술과학, 한∙중 사회과학, 한∙일 문화) 번역 말뭉치 데이터 구축사업의 주관 기업으로 참여해 인공지능 번역 성능 향상을 위한 번역 데이터 세트 총 410만 문장(한-중∙일 병렬)을 구축했다.

1)구축 프로세스

‘한국어–중국어/일본어 말뭉치 데이터 구축사업’에서 플리토는 과학기술정보통신부와 NIA의 ‘데이터베이스 구축 방법론(V4.0)’과 컨소시엄의 품질관리 방법을 적절히 결합해 5단계 순서를 거쳐 데이터를 구축했다.

그림 3. 데이터 구축을 위한 5단계 그림 3. 데이터 구축을 위한 5단계

또한 컨소시엄의 강점을 바탕으로 크라우드소싱 번역 및 자동 번역 후 편집 도구를 동시에 활용해 데이터의 품질과 생산성을 동시에 확보했다.

그림 4. 플리토 컨소시엄의 데이터 구축 도구 그림 4. 플리토 컨소시엄의 데이터 구축 도구

특히 고품질의 말뭉치를 완성하기 위해 ‘번역’, ‘검수’ 등 사람의 능력이 필수적인 단계에서 크라우드소싱 앱/웹 플랫폼을 활용했다. 이는 시간과 장소의 제약이 없고 전 세계 인력을 대상으로 데이터를 수집하는 방법으로, 플랫폼 내 검증 테스트와 유저 자체 평가를 통한 번역 인력풀(Pool) 관리로 높은 정확도를 가진다. 바로 이것이 정확도 99.8%의 고품질 데이터를 빠르고 효율적으로 수집하는 플리토의 차별화된 데이터 구축 모델이다.

그림 5. 플리토의 데이터 구축 모델: 크라우드소싱 그림 5. 플리토의 데이터 구축 모델: 크라우드소싱

2) 구축 분야

플리토가 이번 사업을 통해 구축한 데이터 중 가장 큰 비중을 차지한 분야는 IT∙컴퓨터∙모바일로 80만1,906문장을 구축해 경쟁력 높은 국내 IT 산업 분야의 전문 용어, 표현 등의 번역 정확성을 높였다. 또한 주식시장 규모 세계 2위인 중국의 금융∙증시 분야에 대한 번역 수요와 국내 문화 콘텐츠 수출 증가에 다른 번역 수요에 발맞춰 금융∙증시 40만3,138문장, K팝 대중문화 공연 콘텐츠 40만1,893문장, 자동차∙교통∙부품∙소재 50만125문장 등의 데이터를 가공했다.

그림 6. 데이터 구축 결과 그림 6. 데이터 구축 결과

3) 구축 성과

데이터셋의 정확도 면에서는 전 분야 정량적 목표를 달성했다. 구조, 형식 등의 오류율은 평균0.36%를 기록했으며, 전문가의 번역과 비교했을 때 BLEU2) score 평균 91.97점을 기록했다.

그림 7. 데이터 검증 결과 그림 7. 데이터 검증 결과

5. 데이터 활용 및 사업화

플리토가 구축, 가공한 데이터는 인공신경망 기반 인공지능 번역, 인공지능 챗봇을 비롯한 자연어 처리 기술, 알고리즘 교육 및 다양한 앱/웹 데이터로 활용된다. NIA의 사업을 통해 구축한 한국어-중국어∙일본어 번역 말뭉치 데이터는 금융∙증시, 조례, 자동차 등 활용성 높은 전문 분야나 뉴스, 정치∙행정 등 일반 영역에 대한 범용 인공지능 학습 데이터로, 분야별 번역 데이터를 활용해 특화된 번역 엔진을 개발할 수 있다

그림 8. 분야별 특화 인공지능 번역 엔진 그림 8. 분야별 특화 인공지능 번역 엔진

- 특화 인공지능 번역 엔진 예: 플리토 교육 특화 번역 서비스(https://edu-mt.flit.to:2021)

다문화 가정이 증가하는 현재, 학부모-학교 간 원활한 의사소통을 위해 교육 관련 특화 번역 서비스도 개발했다. 이 번역 서비스는 학교나 교육청 등에서 발송하는 가정통신문 등 교육 관련 데이터를 특화 학습해 정확도를 크게 높였다. 한국어에 서툰 외국인 부모들이 언어의 장벽을 극복하고 자녀의 학습에 필요한 교육 정보를 원활히 습득할 수 있어서 다문화 가정 자녀들이 안정적으로 학교생활에 적응하는 데 도움을 줄 것으로 기대한다.

그림 9. 교육 특화 번역 서비스 화면 그림 9. 교육 특화 번역 서비스 화면
Reference
  • 1) 전국경제인연합회, Global Insight Vol.39, 인공지능(AI) 분야 현황과 과제.
  • 2) BLEU(Bilingual Evaluation Understudy): 한 자연어에서 다른 자연어로 기계 번역된 번역 결과와 사람이 직접 번역한 결과의 유사도를 비교해 기계 번역 성능을 측정하는 방법

지난 웹진 보기

이전호 더보기