AI·DATA 人터뷰

미디어젠 - 감성 데이터셋

송민규 언어학 박사(미디어젠)

데이터셋 구축을 위한 프로세스는 무엇이며, 데이터셋 구축을 돕기 위한 기술의 특장점은 무엇인가요?


감성 AI 데이터셋은 텍스트를 입력하여 감정 상태를 분류하고, 해당 감정에 대한 시스템 챗봇의 응답을 자동으로 생성하기 위한 감성 대화 챗봇용 코퍼스 데이터이다. 감정 상태를 인식하기 위해선 데이터와 시스템의 응답 대화 패턴을 대규모로 수집하고, 이를 인공지능 알고리듬으로 학습하여 자연스러운 감성 대화가 이루어지도록 한다.

감성 대화의 과정에서 부정적이고 좋지 않은 감정 상태가 감지되면 이를 가능한 긍정적인 상태로 변화하기 위한 대화가 이루어지도록 하는데, 이를 위해 전문 심리 전문가의 도움을 받아 대화 구조를 설계하였다.

감정 상태는 분노, 슬픔, 불안, 상처, 당황, 기쁨의 6가지 기본 감정을 바탕으로 하여 분류하며, 각 기본 감정에 각각 9개씩의 세부 감정이 추가된 총 60가지의 세부 감정 분류표를 기반으로 한다.


구분 1 2 3 4 5 6
1 분노 슬픔 불안 상처 당황 기쁨
2 툴툴대는 실망한 두려운 질투하는 고립된 감시하는
3 좌절한 비통한 스트레스 받는 배신당한 남의 시선 의식 신뢰하는
4 짜증내는 후회되는 취약한 고립된 외로운 편안한
5 방어적인 우울한 혼란스러운 충격받은 열등감 만족스러운
6 악의적인 마비된 당혹스러운 불우한 죄책감 흥분한
7 안달하는 염세적인 회의적인 희생된 부끄러운 느긋한
8 구역질 나는 눈물이 나는 걱정스러운 억울한 혐오스러운 안도한
9 노여워하는 낙담한 조심스러운 괴로운 한심한 신이 난
10 성가신 환멸 느끼는 초조한 버려진 혼란스러운 자신하는


각 감정에 대한 데이터는 연령과 성별, 기타 특성에 따른 페르소나를 대응함으로써 수집되었는데, 이 페르소나는 청소년, 청년, 중장년, 노년층 등 다양한 부정적 감정의 발현 요인에 맞추어 이를 긍정적 감정 상태로 변화시킬 수 있는 감성적 대화의 대상으로 분류되었다.

페르소나는 갈등 요인을 연령, 성별, 결혼관계, 자녀관계, 교육수준, 직업군, 소득수준, 신체 상태, 정신 상태 등에 대한 불만족이 있는 경우를 상정하였고, 이로 인해 발생하는 우울증의 원인에 대해 각 연령별로 약 60여 가지의 세부 원인을 정의하여 감정 상태와 연결하여 데이터를 수집하였다.

예를 들어 청소년기의 갈등 원인으로는 학교폭력, 부모의 무관심 등의 요인을 들 수 있고, 중년기의 경우 배우자 사별, 소득 감소 등이 우울증의 원인이 되는 등 각 세대별 주요 우울증의 원인들을 기반으로 한 감정적 상태를 코퍼스로 수집하였다.

데이터셋 구축은 크라우드소싱을 통해 진행되었는데, 크라우드 워커들을 연령대에 맞게 모집하여 가상의 페르소나를 부여한 뒤 주어진 상황과 감정 상태에 대한 코퍼스를 수집하였다.

이를 위해 크라우드소싱 기업이 자체 보유한 데이터 수집 플랫폼과 태깅 툴 등의 도구들을 사용하였고, 내용적 정확성을 주요 검수의 대상으로 삼아 3차에 걸친 검수를 수행하였다.

이렇게 수집된 코퍼스 데이터들은 ALBERT 기반 인공지능 감정 분류 모델링을 수행하였다. 이는 사용자의 발화로부터 감정을 인식한 뒤, 이에 대한 적절한 대화를 이어가는 대화형 챗봇 시스템의 기본 알고리듬으로 적용되었다.

이처럼 감성 AI 데이터의 구축은 실제 수집보다 감정 상태 정의, 페르소나 정의, 대화 상황의 설정 등 앞 단계의 작업이 매우 중요하게 진행되었고, 수집된 코퍼스가 해당 상황에 잘 맞는 내용인지 검수하는 과정 또한 매우 중요한 프로세스로 인식되었다.

내부에서 기술 개발에 사용하는 데이터셋과 외부에 오픈하여 공개하는 데이터셋은 무엇인가요?


내부의 기술 개발 데이터셋과 외부 오픈 데이터셋은 데이터의 구성 및 구조에서 큰 차이가 있지는 않다. 다만 내부에서는 딥러닝 기반 음성인식(STT) 엔진, 음성인식 호출어(Wake Up Word) 엔진 등을 위한 음성 데이터의 구축과, 챗봇을 위한 딥러닝(ALBERT) 또는 통계 모델링(CRF++)을 위한 코퍼스 데이터 등 텍스트 기반 엔진 등과 같은 그 기능 및 수요에 따라 다양한 데이터셋이 활용되고 있다.

감성 AI 코퍼스 데이터의 경우도 내부적으로 활용되는 사업화 기술의 모델링 원천 데이터로 충분히 활용될 수 있는 점에서 큰 도움이 되며, 이 데이터를 모두 오픈하여 공개하는 데도 큰 문제가 없다.

다만, 내부 기술 개발에서는 불필요하여 종종 생략되는 여러 메타 데이터들을 외부 공개를 위해 상세히 정리하는 작업이 추가되는 것 외에는 내부 데이터의 활용과 외부 공개용 데이터의 구성 및 구조에는 차이가 없다.

이번에 공개되는 데이터는 총 27만 문장 규모의 ALBERT 모델링용 감정 텍스트 코퍼스와 약 1만 문장 규모의 테스트용 음성 녹음 DB이며, AI-Hub를 통해 누구나 다운받아 자신만의 모델링을 수행할 수 있도록 공개될 예정이다.

앞으로 우리나라에서 확보해야 하는 데이터셋은 무엇이라고 생각하시나요?(산업, 시장, 경쟁력 측면 등을 고려할 때)


한국정보화진흥원에서 진행되는 인공지능 학습용 데이터 구축 사업은 유례없는 대규모 AI 데이터 구축 사업으로, 자본과 우수 인력이 부족한 중소기업에 매우 큰 데이터 제공 원천을 생성하는 뜻깊은 프로젝트라고 생각된다.

1차와 2차에 걸쳐 진행되는 프로젝트의 산출물은 텍스트와 음성을 포함하여 기존 음성 AI 분야에서 자체 예산으로는 구축 및 구매가 불가능한 수준의 대용량 데이터를 무상으로 획득할 수 있는 원천이 되어, 중소기업 경쟁력을 단기간에 높일 수 있는 좋은 기회가 될 것이라고 생각한다.

음성 AI 산업·시장 측면에서는 최근 큰 주목을 받고 있는 분야가 스마트 컨택센터(콜센터), 키오스크, 헬스케어 분야 등인데 이러한 분야에 대한 데이터 구축은 앞으로도 지속적으로 데이터 구축이 필요하다고 생각한다.

이들 분야의 공통점은 데이터의 확보가 환경적으로 매우 어렵기 때문에 AI 기술 성능의 개선이나 사업성 획득도 느리다고 할 수 있다.

향후의 역할과 계획에 대해 말씀 부탁드립니다.


AI 기술에서 데이터는 누구나 얘기하듯이 가장 중요한 핵심 요소이다. 데이터를 구하기 어려운 분야일수록 더 큰 노하우와 기술적 지원이 필요하며, 추후 사업적 기회도 더 크다고 볼 수 있다.

이러한 관점에서 경쟁력 강화를 위해 스마트 컨택센터, 키오스크, 헬스케어 분야에 대해 집중 투자 및 사업화를 추진할 계획이며, 비단 국내 시장뿐만이 아니라 해외 시장 진출에서도 유의미한 성과를 낼 수 있는 분야로 기대되기 때문에 해당 분야에 대한 지속적인 데이터 확보 및 응용 서비스 개발에 매진할 계획이다.

이전글 공유 다음글 목록