이 달의 주목할 데이터셋

클로바콜(ClovaCall): 대규모 목적지향형 전화 음성 대화 데이터 코퍼스

하정우 (네이버 AI 소장)
01

서론


지난 10여년간 딥러닝 기술의 진보는 컴퓨터비전, 자연어처리, 추천 등의 응용 분야에서 눈부신 발전을 가져왔다. 여러 응용분야 중 딥러닝이 가장 먼저 적용되어 혁신적 발전을 가져온 분야는 바로 음성인식 분야이다[Mohamed et al. 2011]. 2010년부터 딥러닝이 본격적으로 음성인식에 적용되어 최근의 연구에 이르기까지 많은 기술 발전을 가져온 배경에는 공개된 대규모 데이터도 중요한 역할을 차지했다. 실제 OpenSLR1)을 통해 최근에도 많은 데이터들이 공개되고 연구에 활용되고 있다. 그러나 현재 공개되어 있는 대부분의 음성 데이터는 다음과 같은 한계점이 있다.

1) SwitchBoard [Godfrey and Holliman 1997]나 TIMIT [Garofolo 1993], Wallstreet Journal[Paul and Baker]과 같이 공개된 데이터들 중에 상당수는 1990년대 초반에 만들어진 오래된 데이터 들이다.
2) 최근 공개된 대량 음성 코퍼스는 주로 영어[Panayotov et al. 2015]나 중국어[Bu et al. 2017] 등 중요 언어 위주의 데이터들로 구성되어 있고 특히 한글 음성 코퍼스의 공개 사례는 극히 드물다.
3) 일상생활에서 대화나 오디오북과[Panayotov et al. 2015] 같은 형태 위주여서 실제 AI 서비스 수요가 많은 목적지향형 대화(Task-oriented dialog) 의 음성데이터는 매우 희귀하다.

이에 네이버 클로바에서는 음성인식 연구 저변 확대를 목적으로 인공지능 전화 응답 대화 시스템인 AiCall [Jung et al. 2020]의 음성인식 모델 학습을 위해 자체적으로 구축한 목적지향형 음성 대화 코퍼스 중 일부인 음성-전사 텍스트 6만여쌍 약 51시간 분량의 데이터인 클로바콜(ClovaCall) [Ha et al. 2020] 데이터셋을 공개했다. 클로바콜의 이러한 희귀성과 품질은 학술적으로 그 가치를 인정받아 세계최고 음성신호처리 학회인 10월에 개최되는 Interspeech2020 에서 구두로 발표할 예정이다.

02

클로바콜 데이터셋


2.1 AiCall

AiCall은 네이버 클로바의 ‘컨택트 센터를 위한 AI(AI for Contact Center)’ 프로젝트를 통해 공개된 인공지능 전화응대 대화 시스템이다. AiCall은 중소규모 영업점에서 바쁜 점주나 직원들이 고객들의 서비스 대응에 집중할 수 있도록 전화 대응을 돕거나 다양한 콜센터로 걸려온 고객들의 전화 대기시간을 줄이기 위해 만들어진 서비스이다. 올해 2월에 경기도 성남시 아웃백스테이크하우스 미금점의 전화 예약 서비스에 적용되었으며 신한은행을 포함한 금융권의 콜센터의 일부 대응과 금융상품의 불완전 판매에 대한 확인을 위한 서비스로 활용될 예정이다. 뿐만 아니라 COVID-19 위기 극복을 위해 AiCall을 확대 적용하여 성남시청 및 성남시 보건소와 함께 매일 2차례 지역 내 COVID-19 능동감시자 1/3 이상의 건강 상태를 확인하는 서비스인 네이버 클로바 케어콜 [Lee et al. 2020]을 지난 3월부터 운영하고 있다.

기술적으로 AiCall 시스템은 전화망 음성인식, 정확한 자연어 이해, 적합한 응답생성, 자연스러운 음성합성 기술이 통합된 복합 AI 시스템이며 특히 가장 앞 단의 음성인식 결과가 이후 정확도에 큰 영향을 끼치기 때문에 정확한 전화망 기반의 음성인식 모델을 만드는 것이 중요하다.



2.2 클로바콜 데이터셋 구축 방법

클로바콜은 AiCall의 아웃백스테이크하우스 미금점 시범 서비스를 위해 서비스 목적과 기능에 맞게 설계되어 구축되었다. 데이터 구축은 1) 발화 대화 문장 생성, 2) 전화를 활용한 대화 문장 발화 녹음, 3) 녹음된 데이터 품질 체크 및 전처리 가공 등 크게 3가지 과정으로 진행되었다.

1) 발화 대화 문장 생성 발화 대화 문장 생성은 크라우드 소싱을 통해 진행되었다. 문장을 생성하기 전에 먼저 식당 예약 시나리오를 고려한 상황 카테고리(예. 예약, 배달, 영업시간 등), 발화 의도 (현재 영업 중인지 확인, 영업 종료 시간, 추천 메뉴 등) 그리고 ‘멀티 턴(Multi-Turn)’ 발화상황을 (예약 변경 등) 정의했고 각각 10개 카테고리, 86개의 의도, 7개의 멀티 턴 발화상황을 정의했다. 그리고 크라우드 소싱 작업자들에게 정의된 상황 카테고리, 의도, 멀티 턴 상황을 고려하여 발화될 가능성이 높은 질문과 응답들을 임의로 만들도록 구체적인 가이드라인과 함께 작업을 요청했다. 만들어진 문장들 중 전수 품질 검사를 통해 총 8,990개의 발화 대상 문장을 선별했다.
2) 전화 기반 발화 녹음 전화 녹음 또한 크라우드 소싱을 통해 진행했다. 각 크라우드 소싱 작업자에게 10개의 서로 다른 문장을 전화를 통해 녹음하도록 요청했고 작업자들은 각 문장에 대해 한차례 혹은 두차례 녹음을 진행하여 각 작업자별 최소 10개 최대 20개의 발화 데이터를 확보했다. 그 결과 총 11,000여 명의 작업자들로부터 12만여 개의 발화-문장 쌍을 확보했다. 특이한점은 Librispeech와 같은 기존 음성 코퍼스가 오디오북을 활용해서 구축했기 때문에 End point detection (EPD) 와 음성-테스트 시간 매칭 등에서 오류가 발생할 수 있어 노이즈가 포함되어 있는 반면 클로바콜은 애초에 문장부터 만들고 녹음을 진행했기 때문에 EPD와 음성-텍스트 매칭의 노이즈 문제가 거의 없다는 장점이 있다.
3) 데이터 가공 전처리 크라우드 소싱 기반의 데이터 구축은 매우 효율적이긴 하지만 품질에 문제가 있는 경우가 많다. 그래서 고품질 학습 데이터 확보를 위해 모든 데이터를 전수 검사했으며 이를 통해 12만여 개 음성-문장 쌍 중 총 82,306개 쌍을 추출하였다. 그리고 Librosa 라이브러리를 이용하여 녹음 과정 중 시작 종료 근처의 침묵 구간들을 모두 삭제하였다. 그리고 마지막으로 가장 많은 발화 문장을 포함하고 있는 30개의 발화 의도에 해당하는 데이터를 추출하여 총 60,746개의 문장을 선택하였다.


2.3 클로바콜 데이터의 통계적 분석

클로바콜 데이터는 목적지향형 발화데이터로 일상대화 코퍼스들과는 사용된 단어나 문장 등의 특징이 상이하다. 이를 확인하기 위해 최근에 AIHub를 통해 공개된 한국어 일상대화 음성 코퍼스인 ETRI2) 대화 코퍼스와 데이터의 차이를 비교했다.

구글 오픈 이미지 확장판 데이터셋에 대한 데이터카드 사례
<그림1. 클로바콜과 ETRI 대화 코퍼스 간의 문장당 사용된 단어, 철자, 음소 출현 빈도 및 발화 길이 히스토그램 비교 (AIHub는 ETRI 데이터를 의미)>

그림 1에서 확인할 수 있듯이 일상 대화에 비해서 클로바콜이 전반적으로 적은 수의 단어로 구성된 경우가 많다. 아주 짧은 문장의 경우는 ETRI 일반 대화가 더 많은데 그 이유는 “예”, “아니”, “응?”과 같은 짧은 응답이 많기 때문으로 해석된다. 두 코퍼스 간 차이를 좀 더 명확하게 구분하기 위해 표1에 실제 사용된 단어와 철자의 분포 차이를 정리했다.


구분 빈도 상위 비율(%) 개수 ETRI 코퍼스에서 미사용된 횟수 ETRI 코퍼스상에서 평균순위
단어 10 381 56 28979
25 952 230 37664
50 1904 662 45459
100 3808 1714 52065
철자 10 61 0 93.7
25 151 0 162.8
50 302 0 227.3
100 603 3 388.3
<표 1. 클로바콜의 단어/철자의 사용 빈도 패턴과 ETRI 코퍼스에서 사용된 패턴>

표 1에서 빈도 상위 비율은 클로바콜 코퍼스에서 많이 사용된 단어 혹은 철자의 빈도 상위 비율을 의미한다. 즉 클로바콜에서 가장 많이 사용된 상위 10%의 고유 단어들의 수는 381개이며 이 단어들 중에 56개의 단어가 ETRI 코퍼스에서 사용된 적이 없다. 그리고 이 381개 단어의 ETRI 코퍼스에서 사용빈도 내림차순 기준 평균 순위가 28,979등을 의미한다. 이는 클로바콜에서 많이 사용된 단어들이 일상대화에서는 빈번하게 사용되지 않는다는 것을 의미한다. 반대로 철자 기준으로 두 코퍼스를 비교하면 거의 동일한 철자를 사용하고 순위도 비슷함을 확인할 수 있다. 즉 두 코퍼스가 사용하는 철자는 비슷하지만 단어나 문장 표현관점에서 매우 다르며 이것은 일상생활 데이터로 음성 인식모델을 학습했을 때 식당 예약과 같은 목적지향형 대화 음성인식에 바로 사용하기 어려울 수 있다는 것을 의미하고 인식 실험 결과가 이 사실을 뒷받침한다.



2.4 클로바콜 데이터 구성

클로바콜 데이터는 아래 표2와 같이 50여 시간의 훈련용 데이터와 1시간가량의 테스트 데이터로 구성되어 있다. 그리고 각 데이터 샘플은 아래 표3과 같이 wav 파일명-정답문장-화자 ID가 포함된 json 형태로 구성되어 있다.

구분 샘플 수 시간
훈련 59,662 50
테스트 1,084 0.88
<표 2. 데이터 구성>


ClovaCall.json

[
      {
            "wav" : "42_0603_748_0_03319_00.wav",
            "text : "단체 할인이 가능한 시간대가 따로 있나요?",
            "speaker_id" : "03319"
      },
...,
      {
            "wav" : "42_0610_778_0_03607_01.wav",
            "text" : "애기들이 놀만한 놀이방이 따로 있나요?",
            "speaker_id" : "03607"
      }
]
<표 3. 클로바콜 데이터 예시>
03

기본 음성인식 실험결과


클로바콜 데이터의 효용성 확인을 위해 가장 널리 CTC [Graves et al. 2006]기반 모델인 Deepspeech2 [Amodei et al. 2016]와 Sequence-to-sequence 모델인 Listen, attend, and spell (LAS) [Chan et al. 2016] 모델을 이용하여 음성인식 성능을 검증했다. 표3은 일상대화 데이터로 학습한 모델과 사전훈련-파인튜닝 모델 그리고 클로바콜 데이터만으로 학습한 경우 클로바콜 테스트 데이터에 대한 각각에 대한 음성인식 성능 결과이다. 성능은 글자 오류율(Character error rate (CER, %))을 사용했다



모델 ETRI only ETRI → 클로바콜 클로바콜 only
Deepspeech2 59.5 9.54 16.7
LAS 69.2 8.0 22.1
<표 3. 클로바콜 테스트 데이터에 대한 음성인식 성능 결과>

표3에서 확인할 수 있듯이 1000시간 규모의 일상 대화 음성 코퍼스인 ETRI 데이터만으로는 식당예약 상황에서의 음성인식 성능이 매우 제한적임을 알 수 있다. 그러나 클로바콜을 활용해서 학습했을 때 정확도가 높아지는 것을 확인할 수 있으며 특히 최근 딥러닝 응용에서 매우 널리 쓰이는 대량의 데이터로부터 사전훈련 후 특정 문제 데이터에 대한 파인 튜닝을 진행하는 전이학습(transfer learning)을 통해서 매우 정확한 인식모델을 만들 수 있음을 확인할 수 있다. 특이할 만한 사항은 ETRI데이터는 전화 음성 녹음이 아닌 16KHz 샘플링의 일반녹음 데이터임에도 불구하고 8KHz 전화망 음성을 위한 사전훈련용으로 유용하다는 것을 확인할 수 있다. 이를 통해 공개한 클로바콜 데이터가 식당예약 서비스에 매우 유용하게 활용될 수 있음을 확인 가능하다. 그리고 예약서비스의 경우 많은 경우 업종과 상관없이 유사한 표현을 많이 사용하는 것을 고려하면 다른 예약 시나리오에서도 활용 가능하다.

04

결론


현재 한국어 음성인식 데이터는 다른 도메인의 데이터에 비해서 공개된 사례가 매우 적다. 클로바콜은 이러한 상황에서 한국어 음성인식 연구에 기여할 수 있는 데이터이며 전 세계적으로 희귀한 목적지향형 대화 음성 코퍼스로 학술적으로도 그 가치를 인정받고 있다. 또한 이 데이터는 11월에 중소벤처기업부 주관으로 진행될 예정인 AI 챔피언십 2020 경진대회에서 사용할 예정이다. 네이버는 이미 Clova AI Github3) 를 통해 Animal face dataset (AFHQ) [Choi et al. 2020]와 새로운 이미지 어노테이션 데이터셋 [Choe et al. 2020] 등 다양한 데이터를 공개한 바 있으며, 이번 클로바콜 공개를 통해 한국어 음성인식과 목적지향형 대화 및 자연어 이해 연구가 더 활발해지길 기대하며 앞으로도 더욱 다양한 데이터 공개를 통해 대한민국 AI 연구 저변 확대에 기여할 예정이다.

Reference
참고문헌

1.https://openslr.org/
2.https://www.aihub.or.kr/aidata/105
3.https://github.com/clovaai
[Mohamed et al. 2011] Acoustic modeling using deep belief networks, IEEE transactions on audio, speech, and language processing 20(1). 2011
[Godfrey and Holliman 1997] Switchboard-1 release 2, Linguistic Data Consortium. 1997.
[Garofolo 1993] Timit acoustic phonetic continuous speech corpus. Linguistic Data Consortium. 1993.
[Paul and Baker] The design for the wall street journal-based csr corpus, in Proceedings of the workshop on Speech and Natural Language. 1992.
[Panayotov et al. 2015] Librispeech: an asr corpus based on public domain audio books, n 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2015.
[Bu et al. 2017] Aishell-1: An open-source mandarin speech corpus and a speech recognition base-line, 2017 20th Conference of the Oriental Chapter of the In-ternational Coordinating Committee on Speech Databases andSpeech I/O Systems and Assessment (O-COCOSDA). 2017.
[Jung et al. 2020] Understanding Differences between Heavy Users and Light Users in Difficulties with Voice User Interfaces, in Proceedings of the 2nd Conference on Conversational User Interfaces (CUI 2020). 2020.
[Ha et al. 2020] ClovaCall: Korean Goal-Oriented Dialog Speech Corpus for Automatic Speech Recognition of Contact Centers, Interspeech 2020.
[Lee et al. 2020] CareCall: a Call-Based Active Monitoring Dialog Agent for Managing COVID-19 Pandemic, arXiv 2007.02642, 2020.
[Graves et al. 2006] Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks. ICML 2006.
[Amodei et al. 2016] Deep speech 2: End-to-end speech recognition in english and mandarin. ICML 2016.
[Chan et al. 2016] Listen, attend and spell: A neural network for large vocabulary conversational speech recognition. ICASSP 2016.
[Choi et al. 2020] StarGAN v2: Diverse Image Synthesis for Multiple Domains. CVPR 2020. [Choe et al. 2020] Evaluating Weakly Supervised Object Localization Methods Right. CVPR 2020.

이전글 공유 다음글 목록