COVER STORY

3D 영상 데이터셋의 구축 현황 및 필요성

주재걸 교수(KAIST AI 대학원)

서론

인공지능 분야 중 컴퓨터 비전 분야는 2012년 ILSVRC1)(ImageNet Large Scale Visual Recognition Challenge) 챌린지에서 우승을 차지한 AlexNet을 시작으로, CNN2)(Convolutional Neural Network)의 놀라운 성능에 힘입어 비약적인 발전을 이루어 냈다.

기본적으로 컴퓨터 비전 분야에서는 영상 데이터를 다룬다. 이 영상 데이터는 일반적인 카메라를 통해 수집되는 형태인 (R, G, B) 픽셀값으로 이루어진 2차원의 균일격자(regular grid) 구조인 경우가 대부분이다.

그러나 이러한 2차원 영상 데이터는 우리가 사는 3차원 세계를 특정 방향으로 투영한 형태라는 측면에서 인공지능 모델이 실제 3차원 형태를 가지는 다양한 물체를 완전히 이해하고 처리하는 데에는 한계가 있다. 가령 정면에서의 얼굴 이미지만을 학습한 인공지능 모델은 인간의 뒤통수가 어떤 모습을 하고 있는지 전혀 알지 못할 것이다.

이 같은 한계를 극복하기 위해 3차원 영상 데이터를 수집하고, 이를 인공지능 모델 학습에 활용하고자 하는 시도가 최근 컴퓨터 비전 분야 연구의 주된 흐름 중 하나로 자리 잡고 있다.

3D 영상 데이터의 형태 및 대표적인 3D 영상 데이터셋

3D 영상 데이터는 정형화된 2D 영상 데이터와는 달리 다양한 형태의 데이터가 존재하고, 각기 나름의 장단점들을 가진다. 먼저 특정 피사체를 여러 각도에서 촬영한 다시점 영상(Multi-view image) 형태가 있다. 그리고 특수한 장비인 깊이 카메라(Depth camera)를 이용해 2D 영상과 함께 카메라 렌즈로부터 각 픽셀별에 해당하는 물체까지의 거리를 측정한 데이터 형태가 존재한다. 자율주행을 위해 자동차에 많이 장착되는 라이다(LiDAR) 센서 등을 통해 수집되는 포인트 클라우드(Point cloud) 형태의 데이터, 3D 스캐너 등의 장비를 통해 다양한 각도에서 수집된 데이터를 취합해 만들어지는 다각형 메쉬(Polygonal mesh) 형태의 데이터 또한 존재한다. 이 밖에도 포인트 클라우드를 3차원상에서 균일 격자화한 복셀(Voxel) 형태의 데이터가 존재한다.

피사체가 사람의 신체나 얼굴인 경우, 다양한 움직임을 나타내기 위해 특정 관절이나 부위를 나타내는 특징점(Keypoint)에 대한 3차원 위치 데이터가 함께 수집되기도 한다.

그림 1. 구글 GNMT 성능의 발전다양한 3D 영상 데이터의 형태 (출처: TheGradient). (a) 포인트 클라우드 (출처: Caltech), (b) 3차원 균일 격자 형태의 복셀 데이터 (출처: IIT Kharagpur), (c) 다각형 메쉬 (출처: UW), (d) 멀티뷰 이미지 (출처: Stanford) 그림 1. 다양한 3D 영상 데이터의 형태 (출처: TheGradient). (a) 포인트 클라우드 (출처: Caltech), (b) 3차원 균일 격자 형태의 복셀 데이터 (출처: IIT Kharagpur), (c) 다각형 메쉬 (출처: UW), (d) 멀티뷰 이미지 (출처: Stanford)

현재까지 공개된 3D 영상 데이터들의 예시는 다음과 같다. ShapeNetModelNet 데이터셋은 의자, 자동차, 노트북, 사람 등 다양한 종류의 물체에 대한 3D CAD 모델을 제공하고 있다. Human3.6M 데이터셋은 총 11명의 사람이 정해진 행동을 하면서 수집된 영상 및 해당 사람의 관절에 대한 3D 위치 정보가 제공되어 다양한 행동을 할 때의 2차원 영상으로부터 3차원상의 포즈 정보를 예측하는 데 사용될 수 있다. SceneNet은 가상의 실내 환경에 대한 3D 모델을 제공할 뿐만 아니라, 세부 물체에 대한 세그멘테이션 정보도 제공한다.

IKEA Assembly 데이터셋은 가구회사인 IKEA가 가진 다양한 가구에 대한 3D CAD 모델과 이를 사람들이 조립하는 영상에서 해당 가구의 세그멘테이션 정보, 깊이 정보, 사용자의 포즈 정보 등을 함께 제공한다. NuScenes 데이터셋은 자율주행을 위해 최근 자동차에 설치되는 다양한 센서들인 라이다, 레이더, 다수의 카메라 등으로부터 동시에 수집된 장면 데이터 및 그에 대한 3차원 객체의 바운딩 박스, 세그멘테이션 정보 등을 제공하고 있다.

우리나라에서 디지털 뉴딜 사업의 일환으로 추진되고 있는 한국지능정보사회진흥원(NIA)의 인공지능 학습용 데이터 구축사업을 통해서도 패션, 자율주행 등의 특정 도메인에서 3D 영상 데이터가 수집된 사례가 있다.

그림 2. 다양한 3D 영상 데이터의 예시 (출처: PapersWithCode) 그림 2. 다양한 3D 영상 데이터의 예시 (출처: PapersWithCode)

3D 영상 데이터를 활용한 컴퓨터 비전 기술 동향

위에서 기술한 3D 영상 데이터를 수집하고 인공지능 기술에 활용하는 데에는 많은 어려움이 존재해 왔다. 예를 들어 데이터를 수집하는 데에는 고가의 장비나 스튜디오가 필요한 경우가 많고, 실제로도 데이터 수집에 많은 시간과 인력이 소요된다. 또한 이렇게 수집된 3차원 영상 데이터는 2차원 영상 데이터에 비해 훨씬 더 큰 용량으로 저장되고 처리된다. 이를 통해 인공지능 학습을 하는 데 있어 대규모의 메모리 및 컴퓨팅 파워 또한 요구된다. 위와 같은 3D 영상 데이터를 처리하는 데 있어 복셀(Voxel) 데이터 형태 이외에는 기존의 2D 균일격자 형태의 입력을 처리하는 데 특화된 CNN 모델을 쉽게 적용하기가 더 이상 어려워졌고, 이에 따라 3D 영상 데이터에 특화된 새로운 형태의 인공지능 기술이 필요하게 되었다.

최근 이러한 문제들이 점차 해결되면서 점점 더 많은 3D 영상 데이터가 수집되어 공개되고 있고, 이를 통한 흥미로운 연구 사례가 많이 나오고 있다. 일례로 세계적으로 저명한 컴퓨터 비전 학회인 CVPR3)(Computer Vision and Pattern Recognition)의 경우 ‘3D’를 키워드로 하는 논문이 2018년부터 2020년까지 75편, 96편(3위), 그리고 136편으로 빠른 속도로 늘어나고 있다.

그중 NeRF 모델은 2020년 ECCV4)(European Conference on Computer Vision)라는 저명한 컴퓨터 비전 학회에서 발표된 연구로, 소수의 다시점 영상으로부터 다양한 시점에서의 영상을 고해상도로 합성하는 결과를 보여주었다. 이 연구가 발표된 이후 최근까지 관련 연구가 폭발적으로 늘어나는 모습을 볼 수 있다.

2021년 4월 엔비디아(NVIDIA)가 발표한 GANverse3D 모델은 단일 2D 영상으로부터 해당 물체의 다각형 메쉬 형태인 3D 영상 데이터를 복원해내는 기술이다.

그림 3. 단일 2D 이미지로부터 3D 데이터를 복원할 수 있는 엔비디아의 GANverse3D 모델(출처: NVIDIA Research Blog) 그림 3. 단일 2D 이미지로부터 3D 데이터를 복원할 수 있는 엔비디아의 GANverse3D 모델
(출처: NVIDIA Research Blog)

이렇게 복원된 3D 영상 데이터는 최근 각광받고 있는 메타버스(Metaverse) 등의 애플리케이션에서 다양하게 활용될 수 있는 큰 잠재력을 가진다. 즉, 가상현실과 증강현실에서만 존재하던 물체를 현실 세상에 존재하는 영상으로 변환 및 합성하거나, 현실에서 존재하는 물체를 손쉽게 가상 세계에서 쉽게 모델링할 수 있게 된다.

가령 2021년 4월 엔비디아가 발표한 또 다른 연구 결과인 GANcraft 모델을 통해 마인크래프트(Minecraft)라는 게임 세계에 존재하는 지도상의 다양한 장면을 고품질의 실사 이미지로 합성해 준다. 또한 제페토사의 가상현실 아바타 서비스는 딥러닝 기반의 3D 모델로 구현된 메타버스 플랫폼으로, 얼굴에 해당하는 각 부위의 스타일과 3D 생성 모델을 학습하고 가상공간에서 누구나 자신의 아바타를 만들고 다른 유저들과도 교류할 수 있는 서비스를 제공한다.

그림 4. 제페토의 가상현실 아바타 플랫폼 (출처: 제페토) 그림 4. 제페토의 가상현실 아바타 플랫폼 (출처: 제페토)

3D 영상 데이터 확보의 필요성

앞서 소개한 최신 3D 컴퓨터 비전 기술은 게임, 영화, 애니메이션 콘텐츠 제작, 메타버스 등 가상현실 및 증강현실과의 접목, 그리고 다양한 센서 데이터를 통합하는 자율주행과 로보틱스 등 모빌리티 기술에 있어서 무한한 잠재력을 가지고 있다.

하지만 이를 위한 3D 영상 데이터는 여전히 대상의 범위와 종류, 양이 제한적인 경우가 대부분이다. 상업적 활용도가 큰 컴퓨터 그래픽스 분야와의 관련성으로 인해 특정 기술은 3D 영상 데이터가 공개되어 있지 않거나, 비싼 가격에 구매해야 하는 경우가 많다. 일례로 사람 신체에 대한 3D 영상 데이터의 경우 1인당 3D 영상 데이터가 5만 원에서 10만 원 이상에서 판매되고 있어(예시: https://renderpeople.com/3d-people/) 최신 3D 컴퓨터 비전 기술을 연구하고 활용하는 데 큰 걸림돌로 작용하고 있다.

또한 사람의 신체나 얼굴 데이터를 포함해 국내에만 존재하거나 특화된 물체들이 다양하게 존재하고 있으나, 해외 사례에 비해 국내에서 확보된 이러한 3D 영상 데이터는 턱없이 부족한 실정이다. 반면, 최근 메타버스 시장이 급격하게 커짐에 따라 국제적으로 이러한 시장에 대한 선점 경쟁이 점차 심화되고 있다. 일례로 미국의 로블록스(Roblox)사는 게임 등의 메타버스로의 확장성에 주목해 현재 거대한 메타버스 생태계를 조성하는 데 총력을 기울이고 있다.

따라서 이러한 산업에 직결되는 인프라인 3D 영상 데이터를 적극적으로 지속적으로 확보하는 노력을 기울임으로써 게임, 영화 등 콘텐츠 제작 산업이나 메타버스 등의 신생 분야에서 우리나라가 선도적인 역할을 할 수 있는 초석을 다질 수 있을 것이다.

맺음말

이 글에서는 3D 영상 데이터의 종류 및 이를 활용하는 최신 기술 동향, 그리고 이러한 기술의 근간이 되는 3D 영상 데이터 확보의 필요성에 대해 설명했다. 최신 인공지능 기술들은 3D 영상 데이터를 효과적으로 사용해 실생활에 활용할 수 있는 많은 가능성을 보여주었고, 이를 위해서는 다양한 종류의 대규모 3D 영상 데이터가 필요하다. 이러한 3D 영상 데이터를 확보하는 데에는 많은 시간과 노력 및 비용이 드는 만큼, 범국가 차원에서의 전폭적인 지원과 함께 산학연이 힘을 모아 지속적으로 노력을 기울여야 할 것이다.

Reference
  • 1) ILSVRC(ImageNet Large Scale Visual Recognition Challenge)는 이미지 인식 경진대회다. 컴퓨터 비전 모델을 구축해 15만 장의 사진을 1,000개의 카테고리로 얼마나 정확하게 분류하는지를 경쟁한다.
  • 2) CNN(Convolutional Neural Network)은 합성곱 신경망으로, 이미지의 공간 정보를 유지하면서 인접 이미지의 특징을 효과적으로 인식하고 강조하는 방식이다. 이미지의 특징을 추출하는 부분과 이미지를 분류하는 부분으로 구성된다.
  • 3) CVPR(Computer Vision and Pattern Recognition)는 세계 최대 기술 전문 단체인 IEEE와 CVF가 1983년부터 공동 주최하는 콘퍼런스로, 세계적 연구기관들이 참석해 매년 새로운 컴퓨터 비전, 딥러닝 등 인공지능 기술 연구에 대해 공유한다.
  • 4) ECCV(European Conference on Computer Vision)는 유럽 컴퓨터 비전 학회로 짝수 연도에 격년제로 열리는 컴퓨터 학회다.

지난 웹진 보기

이전호 더보기