이 달의 주목할 데이터셋

휴먼케어 로봇을 위한 고령자 일상 행동 인식 데이터셋

김도형 책임(ETRI 인간로봇 상호작용 연구실)
01

데이터셋 구축의 배경


로봇이 휴먼에게 적절한 휴먼케어 서비스를 제공하기 위해서는 시시각각 변하는 휴먼에 대한 정보를 높은 신뢰도로 인식할 수 있는 능력이 기본적으로 필요하다. 휴먼 정보 인식 기술 중에서 휴먼이 행하고 있는 동작이 어떤 행동인지를 파악하는 행동 인식 기술은 고령자가 일생 생활에서 행하는 행위의 의도를 이해하고 고령자의 생활 패턴을 파악하기 위한 필수 기술이다.

로봇에서 활용 가능한 행동 인식 기술 중에서 활용도와 신뢰성이 가장 높은 기술은 영상 데이터를 입력으로 하는 시각기반 행동 인식 기술이며 다른 로봇 비전 기술들과 마찬가지로 최근 몇 년간 딥러닝을 통해 인식 성능이 획기적으로 향상되었다. 휴먼케어 로봇을 위한 딥러닝 기반의 행동 인식 기술의 개발을 위해서는 충분한 크기의 데이터셋의 확보가 필수적인데 이는 쉬운 일이 아니다. 유튜브나 영화 등에서 수집된 행동들로 이루어진 기존의 데이터셋들이 있기는 하나, 로봇환경에서 휴먼의 일상 행동을 인식하기 위한 공개 데이터셋은 매우 부족하며 특히 고령자를 대상으로 하는 데이터셋은 전무하다.

따라서 본 연구진은 로봇 환경에서의 고령자 일상 행동 인식을 위해 필요한 대규모의 3차원 데이터셋을 직접 설계하고 구축하였다. 고령자가 실제 생활하는 주거 환경, 아파트 테스트베드 환경, 그리고 실제 주거 환경을 모사한 가상 환경에서 고령자의 행동 데이터셋을 확보하는 연구를 수행중이다. 구축된 데이터셋은 3차원 행동 인식 데이터셋으로는 세계 최대의 규모로서 2019년부터 순차적으로 공개하고 있으며, 로봇 지능정보 기술의 발전에 기여할 수 있을 것으로 기대된다. (https://ai4robot.github.io/)

02

기존의 행동 인식 데이터셋 구축 사례


비디오 영상을 분석하여 휴먼의 행동을 인식하는 기술은 오래전부터 연구되어 왔으며 공개된 데이터셋도 꽤 많은 편이다. 최근에는 동영상 공유 서비스의 발전으로 2D 비디오의 수집이 용이하기 때문에 이들 비디오들을 가공한 대용량의 데이터셋도 활발히 공개되고 있다. 하지만 본 연구의 인식 대상인 평범한 고령자의 일상 행동들은 유튜브나 영화, 드라마 등에서 잘 등장하지 않기 때문에 다양한 일상 행동 데이터셋을 확보하기가 쉽지 않다.

2016년 공개된 Charades 데이터셋은 실제 일상 행동이 포함된 9,848개의 2D 비디오와 66,500개의 행동 구간으로 구성되며 전술한 문제점을 “Hollywood in Homes” 이라는 방법으로 해결하였다. 즉, 256개의 가구를 크라우드소싱(crowdsourcing)방법으로 섭외하여 그들이 직접 그들의 집에서 수행하는 일상 행동을 촬영하게 함으로써 실제 가정에서 발생하는 다양한 행동 데이터를 확보하였다.

2010년 마이크로소프트사에서 키넥트라는 3D 카메라를 저가로 출시하면서 휴먼의 골격 정보(skeleton)와 깊이 영상(depth map)을 활용하여 행동을 인식하는 3D 행동 인식 연구가 활발해 지기 시작하였다. 3D 행동 인식용 데이터셋은 멀티미디어 장치들과의 상호작용을 위한 행동이나 실내에서 발생할 수 있는 휴먼의 일상 행동들로 주로 구성된다. 2D 비디오와는 달리 3D 데이터셋은 연구 그룹에서 직접 구축해야 하므로 대용량의 데이터셋이 많지 않은데, 이들 중 NTU RGB+D 데이터셋이 60개의 행동에 대하여 총 56,880개의 대용량의 3D 데이터를 포함하고 있어 머신러닝을 기반으로 하는 3차원 행동 인식 연구에서 빈번하게 사용되고 있다.


NTU RGB+D 데이터셋에 포함된 샘플 데이터를 보여준다. 휴먼이 행하는 행동은 좌측부터 “양치하기”, “신발신기”, “물건줍기”, “책읽기” 이다.
<그림1. NTU RGB+D 데이터셋에 포함된 샘플 데이터를 보여준다. 휴먼이 행하는 행동은 좌측부터 “양치하기”, “신발신기”, “물건줍기”, “책읽기” 이다.>

전술한 바와 같이 공개된 데이터셋이 꽤 많이 있음에도 불구하고 로봇 환경에서 고령자의 일상 행동을 인식하는 기술을 개발하기에 적합한 데이터셋은 아직 없다. Charades 데이터셋이 다양한 일상 행동을 포함하고 있기는 하지만 단지 RGB 비디오 데이터만을 제공하고 있으며, NTU RGB+D 데이터셋은 3D 정보를 제공하고 있지만 실제 가정이 아닌 실험실 환경에서 촬영되었다. 신뢰도 높은 고령자 행동 인식 엔진 개발을 위해서는 가정환경에서 고령자의 행동을 대상으로 3차원 정보로 획득한 데이터셋이 요구된다. 또한 로봇의 형태나 이동 특성 등을 고려한 로봇 시점에서의 데이터셋을 구축한다면 로봇 지능 기술의 성능 향상에 큰 도움이 될 수 있다.


03

휴먼케어 로봇을 위한 인식 대상 고령자 행동


행동 인식 데이터셋의 구축을 위해서는 먼저 인식 대상 행동의 선정이 필요하다. [표 1]은 휴먼케어 로봇용 행동 인식 기술이 인식 대상으로 삼고 있는 고령자의 일상 행동 리스트이다.

인식 대상 행동의 선정을 위해 기존의 공개 데이터셋들의 행동 클래스들도 참조를 했지만 중요한 것은 고령자의 일상 행동들을 직접 관찰해서 선정했다는 것이다. 70세 이상의 고령자 53명의 자택을 방문하여 기상부터 취침까지의 하루 행동을 직접 관찰하고 기록하였더니 총 245개의 일상 활동 유형으로 압축되었다. 이들 행동 중에 빈번하게 나타나는 행동으로 TV 시청, 식사관련 활동, 화장실 사용, 식사 준비, 전화 통화, 약 복용, 요리, 청소 등이 있었으며 이러한 다빈도 활동들을 기준으로 55종의 행동을 인식 대상으로 선정하였다.



구분 ID 인식 대상 행동
음식 1 수저 또는 포크로 음식 집어먹기
2 물 또는 음료를 컵에 따르기
3 약 먹기
4 물 또는 음료 마시기
5 냉장고에 음식 넣고 꺼내기
6 채소 다듬기
7 과일 깎기
8 가스레인지로 음식 데우기
9 칼로 도마 위의 음식 자르기
용모 10 이빨 닦기
11 손 씻기
12 세수하기
13 수건으로 얼굴/머리 닦기
14 화장품 바르기
15 립스틱 바르기
16 머리 빗기
17 머리 드라이기로 말리기
18 상의 입기
19 상의 벗기
20 신발 신고 벗기
21 안경 쓰고 벗기
가사 22 설거지하기
23 진공청소기 사용하기
24 걸레로 엎드려서 바닥 닦기
25 식탁을 행주로 닦기
26 창문이나 가구 등 닦기
27 이불 펴고 개기
28 손빨래 하기
29 빨래 널기
구분 ID 인식 대상 행동
여가 30 물건을 찾기 위해 두리번거리기
31 리모컨으로 TV 컨트롤하기
32 책 읽기
33 신문 보기
34 글쓰기
35 전화 걸거나 받기
36 스마트폰 조작하기
37 컴퓨터 키보드 치기
38 담배 피기
건강 39 박수 치기
40 두 손으로 얼굴 비비기
41 맨손체조 하기
42 목 돌리기 운동 하기
43 어깨 셀프 안마 하기
휴먼-휴먼 상호작용 44 고개 숙여 인사 하기
45 담소 나누기
46 악수 하기
47 포옹 하기
48 서로 싸우기
휴먼-로봇 상호작용 49 손을 좌우로 흔들기 (waving)
50 이리 오라고 손짓하기 (calling)
51 손가락으로 가리키기 (pointing)
기타 52 문을 열고 들어가기
53 쓰러지기
54 누워있다 일어나기
55 서 있다가 눕기
<표 1. 휴먼케어 로봇을 위한 인식 대상 고령자 행동 리스트>

표1에서 확인할 수 있듯이 1000시간 규모의 일상 대화 음성 코퍼스인 ETRI 데이터만으로는 식당예약 상황에서의 음성인식 성능이 매우 제한적임을 알 수 있다. 그러나 클로바콜을 활용해서 학습했을 때 정확도가 높아지는 것을 확인할 수 있으며 특히 최근 딥러닝 응용에서 매우 널리 쓰이는 대량의 데이터로부터 사전훈련 후 특정 문제 데이터에 대한 파인 튜닝을 진행하는 전이학습(transfer learning)을 통해서 매우 정확한 인식모델을 만들 수 있음을 확인할 수 있다. 특이할 만한 사항은 ETRI데이터는 전화 음성 녹음이 아닌 16KHz 샘플링의 일반녹음 데이터임에도 불구하고 8KHz 전화망 음성을 위한 사전훈련용으로 유용하다는 것을 확인할 수 있다. 이를 통해 공개한 클로바콜 데이터가 식당예약 서비스에 매우 유용하게 활용될 수 있음을 확인 가능하다. 그리고 예약서비스의 경우 많은 경우 업종과 상관없이 유사한 표현을 많이 사용하는 것을 고려하면 다른 예약 시나리오에서도 활용 가능하다.

04

고령자 실 주거 환경 데이터셋 (ETRI-Activity3D-LivingLab)


고령자 행동 인식용 데이터셋 구축 작업은 크게 3가지 환경에서 이루어지고 있는데 그중에 첫 번째가 바로 리빙랩(LivingLab) 환경이다. 리빙랩이란 고령자가 실제 주거하는 환경에 구축된 테스트베드를 의미하며 고령자의 실제 데이터 획득 및 개발된 기술의 적합성을 검증하기 위한 목적으로 활용된다.

리빙랩 환경에서의 데이터 획득을 위해서 3차원 카메라인 마이크로소프트의 Kinect2가 장착된 이동형 기구부를 제작하였으며, 촬영자가 로봇 형태의 이동형 기구부를 다양한 장소에 위치시키면서 촬영을 하였다. 저장 데이터는 2D 비디오와 함께 관절 위치 정보, 깊이 영상 등으로 구성된 3차원 영상 데이터로 구성된다.

리빙랩 환경에서는 현재까지 총 30개 가구에 대하여 6,589 셋의 데이터를 확보하였으며 2021년까지 총 50 가구에 대한 데이터가 확보될 것으로 예상된다. 본 데이터셋은 고령자의 실주거 환경에서 로봇 시점으로 촬영된 세계 최초의 3D 행동인식 데이터셋이라는 점에서 의미가 있다.


[그림 2] 리빙랩 데이터셋에 포함된 샘플 데이터를 보여준다. RGB 비디오에서 추출한 샘플 프레임과 각 샘플 프레임에 대응되는 깊이영상, 바디인덱스, 관절의 위치를 보여준다. 휴먼이 행하는 행동은 좌상단부터 시계 방향으로 “약 먹기”, “진공청소기 사용하기”, “리모컨으로 TV 컨트롤하기”, “상의 벗기” 이다.
<그림 2. 리빙랩 데이터셋에 포함된 샘플 데이터를 보여준다. RGB 비디오에서 추출한 샘플 프레임과 각 샘플 프레임에 대응되는 깊이영상, 바디인덱스, 관절의 위치를 보여준다. 휴먼이 행하는 행동은 좌상단부터 시계 방향으로 “약 먹기”, “진공청소기 사용하기”, “리모컨으로 TV 컨트롤하기”, “상의 벗기” 이다.>

05

아파트 테스트베드 환경 데이터셋 (ETRI-Activity3D)


리빙랩 환경에서 수집된 데이터는 실제 가정 환경에서 고령자의 자연스러운 동작을 그대로 반영하고 있다는 점에서 매우 가치 있는 데이터이다. 리빙랩 데이터로 행동 인식 기술의 신뢰도가 검증이 되었다면 그 기술은 로봇이 실제 서비스를 제공하는 환경에서도 안정적으로 동작할 가능성이 매우 높다고 할 수 있다.

이렇듯 실제 데이터를 확보할 수 있다는 점에서 리빙랩의 지속적인 운영이 반드시 필요하지만 다수의 가구를 리빙랩으로 운영하기에는 여러 가지 면에서 어려움이 있다. 따라서 기계 학습 기반의 행동 인식 기술의 개발에 있어서 리빙랩 환경에서 수집된 데이터만으로는 충분치 않으며 학습에 필요한 대용량의 데이터가 추가로 요구된다.

이를 위해 고령자가 생활하는 가정환경을 모사한 테스트베드 환경을 실제 31평형 아파트에 구축하였으며 50명의 고령자와 50명의 일반 성인으로 구성된 총 100명의 대상자를 모집하였다. 대상자가 행하는 일상 행동 55종에 대하여 다양한 로봇 시점에서 Kinect v2 카메라를 이용하여 RGB 비디오, 깊이영상, 바디인덱스, 그리고 3차원 관절의 위치를 획득하였다. 최종적으로 112,620 셋의 3차원 데이터를 확보하였다.

ETRI-Activity3D 로 명명된 본 데이터셋은 고령자와 로봇, 그리고 이들이 상호작용하는 환경을 종합적으로 고려한 최초의 데이터셋이며, 세계 최대 규모의 3차원 행동 인식 데이터셋이다.

기존 데이터셋과 비교한 ETRI-Activity3D 데이터셋만의 고유한 특징은 다음과 같다.

1) 실제 고령자의 일상을 관찰하고 분석하여 인식 대상 행동을 선정한 실용적인 데이터셋이다.
2) 휴먼케어 로봇의 서비스 상황을 고려한 현실적인 데이터셋이다.
3) 고령자와 로봇을 대상으로 하는 대규모 3D 시각 데이터셋이다.

[그림 3] 본 데이터셋에 포함된 샘플 데이터를 보여준다. 첫 번째 행은 RGB 비디오에서 추출한 샘플 프레임을 보여준 다. 두 번째 행은 각 샘플 프레임에 대응되는 깊이영상, 비디인덱스, 관절의 위치를 보여준다. 휴먼이 행하는 행동은 왼쪽부터 “포크로 음식 집어 먹기”, “진공청소기 사용하기”, “이불 펴고 개기”, “손빨래 하기”, “빨래 널기”, “악수하기” 이다.
<그림 3. 본 데이터셋에 포함된 샘플 데이터를 보여준다. 첫 번째 행은 RGB 비디오에서 추출한 샘플 프레임을 보여준 다. 두 번째 행은 각 샘플 프레임에 대응되는 깊이영상, 비디인덱스, 관절의 위치를 보여준다. 휴먼이 행하는 행동은 왼쪽부터 “포크로 음식 집어 먹기”, “진공청소기 사용하기”, “이불 펴고 개기”, “손빨래 하기”, “빨래 널기”, “악수하기” 이다.>

06

가상 데이터셋 생성 플랫폼 (ElderSim)


행동을 취하는 고령자의 동작, 행동이 발생하는 주위 환경, 그리고 이를 바라보는 로봇의 시점 등에서 다양한 데이터가 많으면 많을수록 3차원 행동 인식 기술의 성능 향상에 도움이 된다. 하지만 실제 현장에서 다양한 데이터를 확보하기란 쉽지 않은 일이며 무한정 데이터를 수집할 수도 없는 노릇이다. 최근에 이러한 문제점에 대한 해결책의 하나로 기계학습을 위한 가상 합성 데이터의 활용에 대한 연구가 증가하고 있으며 본 연구에서도 가상합성 데이터의 생성을 통한 대규모 학습 데이터를 확보하려는 노력을 하고 있다.

공동 연구기관인 한국과학기술연구원(KIST) 인공지능연구단은 모션캡쳐 및 그래픽스 기술을 이용하여 고령자의 생활 환경과 행동을 모사하고 인공지능 학습용 데이터를 생성할 수 있는 가상 데이터 생성 플랫폼을 구축하였다. 연구자는 가상 데이터 생성 플랫폼을 이용하여 행위를 하는 사람과 로봇의 위치, 로봇의 시점, 조명, 배경 등을 변경하면서 필요한 행동 데이터를 대량으로 생성할 수 있으며, 이를 통해 학습 데이터 부족 문제와 도메인 적응 문제를 극복하고 인공지능 기술의 성능 안정성을 확보할 수 있다.


[그림 4] 가상 데이터셋을 생성할 수 있는 플랫폼의 개요와 흐름을 보여준다.
<그림 4. 가상 데이터셋을 생성할 수 있는 플랫폼의 개요와 흐름을 보여준다.>

07

데이터셋의 공개와 기술의 확산


앞서 소개된 서로 다른 특성을 가지는 대용량 시각 데이터셋 패키지는 고령자 행동 분석에 있어 폭넓은 연구를 가능하게 하며, 이는 곧 로봇 지능 실용화 연구의 비약적인 발전으로 이어질 수 있다. 연구진은 데이터셋과 함께 핵심 기술들도 오픈 소스 형태로 공개하고 있다. 현재 공개된 기술은 고령자의 일상 행동이 발생한 시점을 검출하는 행동 검출 기술, 고령자가 얼굴 특징과 옷차림 등의 외형 정보를 인식하는 외형특징 인식 기술, 로봇이 발화에 적합한 제스처를 자동으로 생성하는 기술 등 총 8가지 기술이다.

현재 공개된 기술과 데이터셋에 대한 정보는 과제 홈페이지(https://ai4robot.github.io/)에서 확인할 수 있다.

이전글 공유 다음글 목록