특별기고

제한된 데이터셋에서도 진화하는
인공지능 음성-텍스트 동기화(AI Speech-Text Synchronization)

강민성 AI Scientist, 전상배 CSO(가우디오랩)

들어가며

다양한 분야에서 가속화한 인공지능의 발전은 음성 분야에서도 활발하게 이뤄지고 있다. STT(Speech-to-Text) 혹은 ASR(Automatic Speech Recognition)이라고 불리는 음성 인식과 TTS(Text-to-Speech) 형태의 음성 합성 등이 있으며, 미래 시장에서 이와 관련된 수요가 크게 증가할 것으로 기대한다. 현재 해당 연구와 관련해 다양한 음성과 그에 해당하는 텍스트의 데이터셋이 만들어지고 있고, 이 데이터셋은 음성 인식과 음성 합성 분야의 연구 성과를 이끌어 내는 데 굉장히 중요한 역할을 한다.

빠른 기술 성장에도 불구하고 인공지능 음성 인식의 경우 ‘정확한 텍스트’가 전달되어야 하는 많은 잠재적 응용 산업 분야에서 보편적으로 활용되기에는 아직 충분한 신뢰성을 갖추고 있지 않다. 음성 인식의 정확도는 과거에 비해 매우 좋아졌으나, 여러 사람이 동시에 발화하는 경우나 주변 잡음이 많은 경우 등 실사용 환경이 고려된 면에서의 발전이 필요한 상황이다.

이 때문에 영화의 대사 자막이나 음악의 노래 가사와 같은 고품질 상용 콘텐츠의 경우, 음성 인식을 사용하기보다는 정제된 텍스트를 만들어낸 뒤 해당 텍스트의 타임스탬프(Timestamp)를 콘텐츠에 매핑하는 방식을 사용하고 있다. 이러한 음성-텍스트 동기화(Speech-Text Synchronization)는 영화, 드라마 등에서의 자막 생성, 음악에 대한 동기화 가사 등 OTT 및 음악 스트리밍을 포함한 엔터테인먼트 유통 시장에서의 서비스뿐 아니라, 주류 미디어 및 유튜브 등 개인 미디어 콘텐츠의 제작에 함께 활용하고자 하는 수요가 폭넓게 존재한다. 현재 음악 스트리밍 시장에서 하루에 유입되는 음원은 6만 곡 이상1) 이다. 하지만 음성-텍스트 동기화 작업은 현재 대부분 사람이 직접 작업하는 수작업에 의존하고 있어, 이를 대체할 수 있는 인공지능 솔루션의 연구∙개발이 활성화되고 있다.

인공지능 음성-텍스트 동기화 기술 연구 현황 및 서비스 현황

인공지능 음성-텍스트 동기화 기술은 전통적인 신호처리 방식으로는 해결하기 어려웠던 분야로, 음악 관련 업계의 인공지능 연구자들이 인공지능을 이용한 솔루션 형태로 활발히 연구하고 있는 분야 중 하나다.

MIREX(Music Information Retrieval Evaluation eXchange)2) 는 2005년부터 매년 음악 정보 검색(Music Information Retrieval) 연구에 있어 주요 토픽을 선정, 전 세계 연구자들이 참여하는 경쟁 활동이다. 음성-텍스트 동기화와 관련해서는 ‘자동 가사 음악 정렬(Automatic lyrics-to-audio alignment)’이라는 주제가 열려 있고, 런던의 퀸 메리대(Queen Mary University of London), 중국의 텐센트(Tencent), 싱가포르 국립대(National University of Singapore) 등 기업과 대학 연구소에서 해당 부분에 대한 연구∙결과를 공유하며 기술을 이끌어 나아가고 있다.

그림 1. 주요 음성-텍스트 동기화 연구 그림 1. 주요 음성-텍스트 동기화 연구3), 4)

음악에 대한 동기(Synch) 가사를 제공하는 가장 큰 서비스 업체는 이탈리아의 뮤직매치(Musixmatch)로, 현재 인공지능에 기반하지 않는 인력 기반 방식의 큐레이터를 활용해 동기 가사 데이터베이스를 확보하고 있다. 영화에 대한 동기 자막을 제공하는 한국의 기업 아이유노(IYUNO)는 100개 이상의 언어로 각종 미디어에 대한 동기 자막을 제공하고 있다. 최근에는 인공지능 번역 기술을 내세워 소프트뱅크 비전펀드2로부터 1억6,000만 달러의 투자를 확보하기도 했다.5)

그림 2. 뮤직매치: 컨트리뷰터의 수동 마킹에 의한 동기 자막 생성 프로그램 그림 2. 뮤직매치: 컨트리뷰터의 수동 마킹에 의한 동기 자막 생성 프로그램

대부분 수작업 음성-텍스트 동기화가 이뤄지는 현재 주류 시장에서 인공지능 모델 기반의 음성-텍스트 동기화 기술을 라이선싱하는 기업들이 잇따라 등장하고 있는 추세다. 그 가운데 한국의 가우디오랩은 영어, 한국어, 중국어에 대한 동기 가사 및 자막 생성 서비스를 최초로 시작했다. 본 서비스는 상용화 단계에 접어들어 음악 스트리밍의 동기 가사 생성뿐 아니라 어학 학습 솔루션에서의 발화 타임스탬프 생성 등 다방면에 활용되고 있다. 그리고 음원 분리, 음성 인식 등을 응용한 모델 설계와 비지도 학습 등의 학습 기법 및 다양한 알고리즘 기반 신호처리 기술의 조합을 통해 인공지능 음성-텍스트 동기화 기술을 개발/상용화해 시장에서 인정받고 있다.

그림 3. 가우디오랩의 인공지능 음성-텍스트 동기화 솔루션인 GTS 그림 3. 가우디오랩의 인공지능 음성-텍스트 동기화 솔루션인 GTS

인공지능 음성-텍스트 동기화 기술 개발의 필요성

인공지능 음성-텍스트 동기화 기술의 필요성은 다음과 같이 크게 세 가지 배경에서 설명할 수 있다.

  • 1. 사업적 배경

    미디어 스트리밍 시장의 서비스는 이용자에게 더욱 친숙한 형태의 고급화된 컨텍스트(Context) 기반 서비스 제공 및 시장 확대 전략을 취하고 있다. 일례로 음악 스트리밍 서비스의 경우, 음악의 재생 시점에 맞는 가사를 보여주는 동기 가사 서비스는 주류 글로벌 뮤직 스트리밍 업체에서 앞다퉈 채택해 사실상 기본 기능으로 사용하고 있다. 또한 글로벌 OTT 업체들의 영화/드라마 콘텐츠에 대한 다국어 더빙 및 자막 서비스는 시장 확장을 위한 필수 요소로, 음성-텍스트 동기화에 의해 동기화가 이뤄진다.

    그림 4. 애플 뮤직의 동기 가사 예 그림 4. 애플 뮤직의 동기 가사 예
    2. 효율성 측면 배경

    음성-텍스트 동기화에 대한 강력한 수요가 있음에도 불구하고 현재까지 이 기술은 대부분의 경우 수작업으로 이뤄지고 있다. 수작업이라는 고비용, 저효율 구조로 동기화가 진행되어 온 것은 음성 인식 기술력의 한계와 품질 제어 측면의 신뢰도 등 결과물에 대한 완결성 확보의 어려움 등에 있다. 특히 음악의 경우 국내외 모든 스트리밍 서비스 업체에서 하루에 입수되는 수만 곡의 동기 가사를 일일이 수동으로 제작할 수 없기 때문에 일부 음원에 대해서만 동기 가사가 제한적으로 제공되는 한계를 보이고 있다.

    3. 확장성 측면 배경

    인공지능 음성-텍스트 동기화 기술은 현재의 사업 대상인 동기 가사・자막뿐 아니라 인공지능 음성 관련 분야의 성능 향상에도 넓게 공헌할 것으로 기대된다. 일례로 개인화/감성적/노래 부르기(Personalized/Emotional/Singing) TTS(Text-to-Speech) 같은 영역에서 인공지능 음성-텍스트 동기화 기술을 활용하는 경우, 발음의 정확한 발화 시점 정보를 자동으로 빠르게 대용량 생성 가능해 시간 기반 음성 데이터베이스를 대량 확보할 수 있다.

종합하면, 수요가 있는 시장에서 수작업으로 이뤄지는 공정을 자동화해 생산 효율과 커버리지를 넓히고, 이후 인공지능 음성 기술 연구∙개발에 활용될 수 있도록 그 용도가 확장될 수 있을 것으로 기대한다. 따라서 인공지능 음성-텍스트 동기화 기술에 대한 중요도와 그 필요성도 강조되고 있다.

음성-텍스트 동기화 데이터 수집 및 제공 현황

MIREX 경쟁에서 연구 용도로 제공하는 학습 데이터셋으로는 DALI 데이터셋6), DAMP 데이터셋7)이 있다. 테스트 데이터셋으로는 Hansen’s 데이터셋8), Mauch’s 데이터셋, 자멘도(Jamendo) 데이터셋9)이 있다. 이러한 데이터셋들은 줄 단위가 아닌 단어 단위, 음절 단위, 음표 단위 등 세분화되어 있는 장점이 있다.
하지만 데이터셋의 개수가 아주 적고, 영어 노래 데이터밖에 없어서 한국어 확장성이 부족하다. 노래가 아닌 경우 사용하기가 힘들다는 단점이 있다.

음악 또는 OTT 스트리밍 서비스에서 제공하고 있는 수작업 기반의 동기 가사 또는 자막을 활용하면 줄 단위의 동기화 데이터를 확보할 수 있다. 그런데 이 과정에서 확보한 데이터의 경우 크게 세 가지의 문제점을 갖고 있다.

첫째, 보다 세밀한 단위인 단어별 또는 발음별 타임스탬프나 발화 끝 지점에 대한 타임스탬프를 가지고 있지 않기 때문에 라인별 동기화 기술 개발에만 한정되어 사용할 수 있다.

둘째, 해당 라인 타임스탬프 정보는 음성의 발화 시점과 정확히 매핑되는 것이 아닌, 가사 또는 대사에서의 한 줄과 그다음 줄 사이에 대략적으로 매핑되기 때문에 그 데이터베이스의 발화 시점에 대한 정확성이 떨어진다.

셋째, 저작권 이슈로 인해 일반 연구자들이 연구∙개발 목적으로 데이터를 확보하기 어렵다.

음성-텍스트 동기화 데이터 특성 및 수집 가공의 어려움

음성-텍스트 동기화 데이터셋을 만들기 위해서는, 사람이 직접 듣고 수작업을 통해 타임스탬프를 입력해야 한다는 점이 데이터 생성에 있어 가장 큰 어려움이다. 수작업의 특성상 매우 높은 피로도를 요구하고, 그 정확도를 확보하기도 어려워 해당 데이터 확보 자체가 인공지능 기술 개발에 대한 가장 큰 장벽인 것이 현실이다. 정확한 동기화 인공지능 모델을 만들기 위해서는 학습 데이터가 실제 발음 시점에 매우 가까운 10msec 이내의 정확도가 필요하나, 수작업에 의존할 경우 숙련자라 하더라도 기존의 자막을 음절(Phoneme) 또는 문자 단위로 입력하는 것은 굉장한 시간과 노동을 요하게 된다.

그 외에도 수작업을 통한 데이터 확보 시에는 작업자가 시작 및 끝 지점을 입력하는 데 대한 기준이 달라서 모두 통일성 있게 데이터를 구성하기가 어렵다. 음악의 경우 여러 가지 예외 사항이 발생해 해당 작업이 더욱 어려워지기도 한다.

예를 들어 발음이 잘 들리지 않는 상황(fade in, fade out), 영어 노래에서 많이 발생하는 일부 텍스트 구문의 발음 생략 현상, 노래 가사에는 정의되어 있지 않은 코러스의 강한 발음에 의한 예외의 경우, 코러스에 의한 1대1이나 Many-to-Many 음성-텍스트 동기화 관계 규명이 필요한 경우 등 작업 자체가 높은 난도를 갖는다.

인공지능 음성-텍스트 동기화 분야가 발전하고 연구가 활발히 진행되려면, 정확한 발음 시작 및 끝 시점이 정의된 대략 1,000시간 분량의 데이터셋이 필요할 것으로 예상된다. 하지만 개인을 넘어 회사나 국가 차원에서도 일관되고 신뢰성이 높은 해당 데이터셋을 확보하는 것은 매우 어려운 일이라고 생각되므로, 해당 솔루션을 개발하기 위해서는 현존하는 데이터를 활용해 효과적으로 학습시키는 기술을 확보하는 것이 가장 중요할 것으로 보인다.

맺음말

인공지능 음성-텍스트 동기화 분야는 현재 미디어 스트리밍 산업에서 수요가 높은 기술이나 신뢰성 높은 양질의 데이터셋을 확보하는 것 자체가 매우 어려운 현실이기 때문에, 부족한 가용 데이터셋을 활용해 모델을 설계하고 학습하는 것이 결국은 기술력의 핵심이 될 것으로 예상된다.

Reference
  • 1) https://www.musicbusinessworldwide.com/over-60000-tracks-are-now-uploaded-to-spotify-daily-thats-nearly-one-per-second/
  • 2) https://www.music-ir.org/mirex/wiki/MIREX_HOME
  • 3) D. Stoller et al., “End-to-end Lyrics Alignment for Polyphonic Music using an Audio-to-Character Recognition Model,” IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) 2019, IEEE, May 2019.
  • 4) C. Gupta et al., “Automatic Lyric Alignment and Transcription in Polyphonic Music: Does background music help?,” IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2020, IEEE, May 2020.
  • 5) 김종우, “아이유노, 소프트뱅크 비전펀드로부터 1800억원 투자 유치,” 마켓인사이트, 한국경제신문, April 2021.
  • 6) https://github.com/gabolsgabs/DALI
  • 7) DOI 10.5281/zenodo.2747435 : DAMP-MVP (Digital Archive of Mobile Performances – Smule Multilingual Vocal Performance 300x30x2)
  • 8) J. Hansen, “Recognition of phonemes in A-cappella recordings using Temporal Patterns and Mel Frequency Cepstral Coefficients,” 9th Sound and Music Computing Conference 2012, July 2012.
  • 9) https://github.com/f90/jamendolyrics

지난 웹진 보기

이전호 더보기