이달의 주목할 데이터셋 II

사람의 3D 데이터를 활용한
비대면 서비스의 진화

김헌기 이사(이오이스)

최근 코로나바이러스감염증-19(COVID-19)으로 인한 사회적 변화에 따라 비대면 서비스가 급속히 확대되고 있다. 이 때문에 좀 더 실감 나게 상호작용할 수 있는 서비스에 대한 수요가 늘어나고 있다.

특히 3D 아바타, 디지털 휴먼 콘텐츠 제작을 통해 엔터테인먼트, 광고, 실감 미디어 등 전반적인 산업 분야에서의 경제 활성화를 이끌 것으로 전망하고 있다.

하지만 이러한 서비스에 필요한 인체의 3D 콘텐츠를 제작하기 위해선 높은 생산 비용이 들고, 원활한 획득을 위한 환경 구축이 힘들다. 이를 극복하기 위해 인공지능 학습을 통한 단일 영상으로부터 사람 3D 자세 및 형태를 추정하는 기술이 필수적이며, 2명 이상의 여러 사람이 표현되는 영상으로부터 사람의 3D 자세 및 형태에 대한 추정 및 분석과 함께 사람의 3D 인지, 인식 정확도에 관한 기술 확보가 시급하다.

기존에 존재하는 인물 자세, 행동 3D 데이터셋은 주로 유럽이나 북미 위주의 체형, 행동 및 동작 데이터로, 이를 인공지능 학습용 데이터로 사용할 때 국내 환경 또는 동양인을 대상으로 한 애플리케이션의 연구 및 개발에 그대로 적용되기가 어렵다. 또한 일반적인 자연스러운 상황 속에서 단일 인물보다는 2명 이상의 인물이 포함된 경우가 많은데, 대부분 공개된 인체 동작 데이터셋에서는 1명으로 구성되어 있어 인공지능 학습에 대해 제한적인 결과를 가져온다. 따라서 2명 이상의 한국인(동양인)이 등장하는 영상과 3D 인체 동작 예측 및 적용을 위한 연구나 산업계의 수요를 위한 데이터셋이 필요하다.

학습을 위한 ‘사람 동작 데이터’ 수집

다양한 인체 유형 및 다량의 동작 획득 등 인공지능 학습에 원활한 학습 데이터 구축을 목표로 하여 스테레오(다시점 RGB) 기반 인체 볼륨매트릭 시스템 및 고품질 외형 복원 학습을 위한 고해상도 다시점 카메라(DSLR) 기반 고품질 스캔 솔루션을 활용해 데이터를 수집한다. 그리고 2인 이상이 상호작용하는 2D 인체 영상을 3D 영상으로 변환할 때 자세(Pose)와 형태(Shape)를 추론해 커머스, 스포츠 및 AR, VR, MR 같은 실감 미디어 서비스를 개발하기 위한 목적에 맞춰 2D-3D 인체 영상 데이터셋을 구축하게 된다. 인공지능 학습에 필요한 인물별(성별, 나이, 신체 조건, 자세 등 유형의 다양화)로 구성한 시나리오를 바탕으로 직접 촬영을 통해 동양인(국내) 표준 체형 및 동작을 바탕으로 총 145개 동작 수행과 동양인(국내)이 현대에 자주 사용하는 동작을 반영한 학습 데이터를 구축했다.

데이터 수집 개요

표 1. 사람 동작 데이터 수집 개요
구분 구분 내용 결과
사람 행동
[ 전신 ]
모델 학습용 촬영 대상 모델 수 240명
동작 학습용 촬영 동작 수 145개
촬영 데이터 2D 영상 220만 개

표 2. 사람 동작 영상 데이터 모델 분포
구분 수량 비율
성별 분포 남성 116 48%
여성 124 52%
소 계 240 100%
연령 분포 ~10대 28 12%
20대 61 25%
30대 64 27%
40대 37 15%
50대 28 12%
60대~ 22 9%
소 계 240 100%

스테레오 기반 볼륨매트릭을 통한 자세 3D 모델 복원

그림 1. 스테레오 기반 볼륨매트릭 [ 전신 ] 촬영 부스 그림 1. 스테레오 기반 볼륨매트릭 [ 전신 ] 촬영 부스

스테레오 기반 볼륨매트릭 시스템은 여러 시점에서의 스테레오 기반 카메라 센서를 통해 초당 30프레임 단위로 촬영되는 영상에서의 실시간 깊이 추정, 전역적 색상 보정, 그리고 실시간으로 전경을 분리한다. 이렇게 보정한 영상에서 실시간 대응점을 탐색해 객체에 대한 3D 모델을 획득하게 된다. 이 때문에 자연스러운 사람의 동작에 대해 프레임 단위로 3D 복원이 가능하다.

그림 2.
스테레오(여러 시점 RGB-D) 기반 인체 외형 3D 복원 실시간 깊이 추정 및 결과 그림 2. 스테레오(여러 시점 RGB-D) 기반 인체 외형 3D 복원 실시간 깊이 추정 및 결과
스테레오(여러 시점 RGB-D) 기반 인체 외형 3D 복원 실시간 깊이 추정 및 결과 그림 3. 스테레오 기반 [ 전신 ] 촬영 데이터 예시
개별 객체 복원 결과 그림 4. 개별 객체 복원 결과

개별 객체뿐 아니라 다중 객체에 대한 3D 복원이 가능하며, 다중 객체의 3D 모델과 텍스처(Texture) 맵을 동시에 복원하기 위해 영상 및 포인트 클라우드(Point Cloud) 기반 클러스터링 기법이 활용된다. 영상 정보와 기하학 정보를 함께 확인해 각 시점으로부터 개별 객체에 대한 3D 모델을 복원하고, 동시에 개별 객체의 영상 정보로부터 텍스처 맵을 복원한다.

다중 객체의 포인트 클라우드(Point Cloud) 정합 결과 그림 5. 다중 객체의 포인트 클라우드(Point Cloud) 정합 결과
다중 객체의 3D 모델 복원과 텍스처(Texture) 맵 복원 결과
다중 객체의 3D 모델 복원과 텍스처(Texture) 맵 복원 결과 그림 6. 다중 객체의 3D 모델 복원과 텍스처(Texture) 맵 복원 결과

고해상도 다시점 카메라(DSLR) 기반 3D 모델 복원

DSLR 기반 고품질 [ 전신 ] 촬영 부스 그림 7. DSLR 기반 고품질 [ 전신 ] 촬영 부스

사람에 대한 자연스러운 동작에 대한 3D 모델 획득뿐 아니라 객체별 고해상도의 3D 모델 또한 학습 및 관련 연구에 많이 활용하고 있다. 이를 위해 24mpx(6000*4000 pixel)의 고해상도 카메라를 여러 시점으로 배치하고 시점별로 촬영한 RGB 이미지 간 대응되는 특징점들에 삼각측량법을 적용해 영상 정합 및 3차원 정보 획득 및 복원이 이루어진다. 촬영한 영상의 명암(Intensity), 시차(Parallax) 등을 이용, 입력 영상으로부터 고품질 외형(Mesh) 및 텍스처(Texture) 복원이 가능하다.

고해상도 다시점 카메라 간의 RGB 이미지 정합 결과 그림 8. 고해상도 다시점 카메라 간의 RGB 이미지 정합 결과
고해상도 다시점 카메라 기반 RGB 이미지 및 모델 복원 결과 그림 9. 고해상도 다시점 카메라 기반 RGB 이미지 및 모델 복원 결과

인공지능 데이터 활용

MR Care 서비스

이렇게 구축된 학습 데이터를 기반으로 사용자와 콘텐츠 간 상호작용에 기반을 둔 실감 미디어 서비스로, 사람의 인체‧자세 정보를 통해 사용자와 콘텐츠 간의 상호작용을 제공해 체험감과 실감성을 극대화한다. 딥러닝 기술을 기반으로 사람의 자세 및 위치를 실시간으로 인식해 깊이 센서 없이 RGB 카메라만으로 콘텐츠와 상호작용하는 MR 서비스(KT Real-Cube)에 활용할 수 있다.

MR 케어 서비스 그림 10. MR Care 서비스
MR 케어 서비스 그림 11. MR 케어 서비스

또한 사람의 인체‧자세 3D 인공지능 데이터를 이용하면 헬스와 재활, 교육과 훈련 등의 분야와 아이들과 실버 세대를 위한 실감형 MR 콘텐츠 제작 및 서비스가 가능하다.

가상 화상 회의(Virtual reality conference)

가상 화상 서비스는 회의 참석자 간에 사람의 인체‧자세 3D 정보를 교환해 상호작용할 수 있는 서비스다. 이 서비스를 통해 사용자 간 3D로 사람의 모습을 볼 수 있으며, 3D 객체와의 상호작용이 가능하다. 본 과제를 통해 구축한 사람의 인체‧자세 3D AI 데이터를 이용해 가상 화상 회의 및 가상 화상 교육 등의 서비스를 개발할 수 있다.

지난 웹진 보기

이전호 더보기