이달의 주목할 데이터셋 I

AR/VR 화면 정확도 향상을 위한
플렌옵틱 카메라 인공지능 학습용 데이터셋

박상현 팀장(한국전자기술연구원 엣지컴퓨팅 연구팀)

1. AR/VR 화면 정확도 향상을 위한 플렌옵틱 카메라 데이터

VR/AR 산업은 COVID-19 확산세로 비대면 관련 산업의 활성화를 통해 사회․산업 전반에 파급력을 넓혀가고 있다. 초연결․초지능 기술 확산에 따라 기존 산업과 ICT 산업 간 융합으로 기존 산업 생태계와 다른 새로운 생태계 및 서비스가 출시되고 있다. 또한 새로운 생태계의 경쟁력을 확보하기 위해 VR/AR 기업과 5G 등 ICT 기업 간 협력과 경쟁이 심화되고 있다.

그림 . 데이터셋 구축 배경 그림 1. 데이터셋 구축 배경

VR+5G 기술을 필두로 한 AR/MR 등 비대면 기술의 혁신으로 전통적인 ICT 수요는 감소하고 게임, 교육, 쇼핑 등 비대면 소프트웨어 및 인공지능 데이터 기반 플랫폼 기술이 부각되고 있다. 최근 AR/VR/MR 같은 고부가가치 혁신 서비스 개발을 통해 수요 감소 위기에 대비할 필요성이 나타나고 있는데, 메타버스(Metaverse)와 같은 가상 공간에서 자신의 아바타를 통해 실제 현실과 같은 활동을 할 수 있는 플랫폼 기술이 시장에서 환영받고 있다.

이러한 분야를 위한 인공지능 기술 개발에 필요한 학습용 데이터셋은 2020년 한국지능정보사회진흥원(NIA) 인공지능 학습용 데이터 구축사업을 통해 만들어지고 있고, 그 결과는 AI 허브를 통해 공개하고 있다.

그림 2. 플렌옵틱 카메라 데이터 수집 및 인공지능 학습용 데이터 설계 그림 2. 플렌옵틱 카메라 데이터 수집 및 인공지능 학습용 데이터 설계
그림 3. 인공지능 학습용 데이터 구축 및 응용서비스/제품 개발 방안 그림 3. 인공지능 학습용 데이터 구축 및 응용서비스/제품 개발 방안

2. AR/VR 화면 정확도 향상을 위한 플렌옵틱 카메라 데이터 구축

가. 데이터 구축 개요
  • - AR/VR 화면 정확도 향상을 위한 플렌옵틱 카메라 데이터를 구성하기 위해 5X5 어레이 카메라(Array Camera) 데이터를 취득하고 학습용 데이터로 가공했다.
    학습 데이터는 이미지 데이터와 라벨 데이터로 나누어 AI 허브에 등록했다.
  • - 이미지 데이터의 경우 동시에 촬영된 5x5 어레이 카메라 데이터와 이에 따른 거리 정보 맵, 캘리브레이션 맵으로 정의한다. 데이터 구축을 위한 전체 프로세스는
    <그림 4>와 같다.
그림 4. 데이터 구축 프로세스 그림 4. 데이터 구축 프로세스
나. 데이터 취득 시스템

- 데이터 구축을 위한 시스템 구성은 다음과 같이 이루어졌다. 5x5 어레이 카메라는 시간 동기화가 필수적이다. 데이터를 가공할 때 시간 축을 기준으로 25대의 카메라 데이터를 동기화 가공 처리해야 하기 때문이다.

그림 5. 플렌옵틱 카메라 데이터 수집 시스템 그림 5. 플렌옵틱 카메라 데이터 수집 시스템
다. 5x5 어레이 카메라 데이터 가공

- 5x5 어레이 카메라로 취득된 데이터는 <그림 6>과 같이 카메라의 상하/좌우를 정렬해 GT값에 해당하는 LiDAR의 거리 맵 데이터와 매핑하고 깊이 정보(Depth Map)에 대한 메타 데이터를 입력한다. 인공지능 모델 개발에 필요한 영상 및 깊이 정보는 거리 정확도 향상을 위한 연구에도 활용될 수 있다.

그림 6. 5x5 어레이 카메라 플렌옵틱 영상 원천 데이터 예시 그림 6. 5x5 어레이 카메라 플렌옵틱 영상 원천 데이터 예시

- Lidar 센서에 대한 깊이 정보와 5x5 어레이 카메라에 대한 어노테이션 정보는 <표 1>과 같이 구성된다.

표 1. 학습용 데이터 가공(어노테이션 구조)
학습용 데이터 어노테이션 속성
깊이 이미지 데이터 name 이미지 쌍 추적용 이름
id_x 5 x 5 array 카메라 x좌표
id_y 5 x 5 array 카메라 y좌표
Time stamp 해당 이미지 저장 시간
width 이미지 가로 길이
height 이미지 세로 길이
이미지 데이터 name 이미지 쌍 추적용 이름
id_x 5 x 5 array 카메라 x좌표
id_y 5 x 5 array 카메라 y좌표
Time stamp 해당 이미지 저장 시간
width 이미지 가로 길이
height 이미지 세로 길이

3. AR/VR 화면 정확도 향상을 위한 플렌옵틱 카메라 데이터셋 구성

가. 데이터셋 구성

인공지능 학습용 데이터 구축사업(2차)을 통해 구축한 ‘플렌옵틱 카메라 데이터’의 데이터셋은 500시간 촬영을 통해 구축했다. 원천 데이터는 정제, 가공해 다음과 같은 데이터 포맷으로 구축했다.

1) 원시 데이터 선정
  • ◦ 원천 데이터의 종류 및 데이터 형태
  • - 원본 데이터 형태 : 플렌옵틱 카메라 기반 영상
  • • 취득 디바이스 : 5x5 어레이 카메라 및 라이다(자체 제작)
  • • 취득 데이터 : 영상 데이터 및 깊이 정보

표 2. 센서 취득 Raw Data 정의서 및 형태
NUM 테이블명(센서) 컬럼명 내용 값 설명
1 Raw data Cam-1 CAM_ID Camera information 0~24 영상을 촬영한 카메라의 ID
2 Camera position Camera Arrayaxis 0~24 정중앙의 카메라를 기준으로 각 카메라의 좌표
3 Time Stamp image time information 64bit data 개별 카메라의 촬영 시점을 확인하기 위한 Time stamp 데이터
4 Image_Width Resolution 1,920 개별 카메라의 수평 화소
5 Image_Height Resolution 1,080 개별 카메라의 수직 화소
6 Image_Raw data YUV4:2:2 - 카메라의 영상 정보
7 Lidar Header - 42bytes -
8 Data block - 1,200bytes -
9 Time Stamp - 4bytes -
10 Factory - 2bytes -

- 학습 데이터 형태
  • • 원천 데이터
  • : 개인정보 보호를 위한 영상 내 사람 얼굴 모자이크 이미지
  • : 장소 섭외 후 데이터 취득
  • : 5x5 어레이 카메라 동기화 데이터 및 거리 정확도 향상을 위한 라이다 데이터 취득
  • • 학습을 위한 이미지 데이터
  • : 5x5 어레이 카메라 이미지 데이터
  • : 캘리브레이션한 이미지
  • : 거리 정보가 담긴 이미지
  • • 데이터 메타 정보
  • : 영상에 따른 캘리브레이션 파라미터(Camera ID, 시간, 내/외부 파라미터 등)
  • : 촬영 장소 및 시간 정보

- 학습 데이터 획득 절차
  • • 촬영 섭외(수행 기관에서 공문 발송) 장소에 플렌옵틱 카메라를 설치해 원천 데이터 취득

- 학습 데이터 획득 정제 조직
  • • 개인정보 등의 이슈로 인해 전문배우들을 섭외해 촬영(촬영 시 개인정보 활용 동의를 받음)

나. 데이터 저장소 구성
1) 촬영 장소 및 시간에 따른 데이터 구조화
그림 7. 데이터 구조화 예시 그림 7. 데이터 구조화 예시
2) 학습용 데이터 구조
그림 8. 학습용 데이터 구조 그림 8. 학습용 데이터 구조
다. 데이터 통계
1) 데이터 구축 규모
  • • 원본 데이터 : 실내/외 및 다양한 객체 포함 데이터 취득
  • • 실내 데이터 : 공항(20시간), 박물관(33시간), 스포츠 시설(65시간), 문화관(24시간), 학교(74시간), 요리학원(17시간), 문화복합시설(18시간), 스튜디오(23시간), 아티스트 연습실(15시간), 지식산업센터(87시간), 오피스(6시간)
  • • 실외 데이터 : 농구장(2시간), 제주 자연유산(47시간), 놀이터(9시간), 산(18시간), 아파트(20시간), 지식산업센터(20시간), 도로(2시간)
    - 데이터 취득 시 장소에 따른 객체를 포함해 취득
    - 실외의 경우 아침, 점심, 저녁 / 맑음, 흐림, 약한 비 등 2개 이상 환경에서 수집(아침 8~12시, 점심 1~5시, 저녁 6~10시)

표 3. 가공 데이터 규모
구분 세부 구분 구축량(set) 이미지(카메라, 라이다) 레이블 데이터 비율
카테고리 실내 제주공항 5,100 255,000 255,000 2.8%
잠실초등학교 12,300 615,000 615,000 6.8%
봉화초등학교 9,000 450,000 450,000 5.0%
가천대학교 5,400 270,000 270,000 3.0%
생활사박물관 6,300 315,000 315,000 3.5%
수학문화관 4,800 240,000 240,000 2.7%
배드민턴장 26,700 1,335,000 1,335,000 14.8%
스튜디오(홍대/용인) 5,700 285,000 285,000 3.2%
아티스트 연습실 19,500 975,000 975,000 10.8%
오피스 38,700 1,935,000 1,935,000 21.4%
실외 섭지코지 1,200 60,000 60,000 0.7%
성산일출봉 4,200 210,000 210,000 2.3%
오름 13,200 660,000 660,000 7.3%
바다 15,900 795,000 795,000 8.8%
태봉산 1,200 60,000 60,000 0.7%
도로 4,500 225,000 225,000 2.5%
아파트 6,900 345,000 345,000 3.8%
총합 180,600 9,030,000 9,030,000

2) 가공 데이터 예시
  • • 가공된 학습용 데이터셋은 카메라 이미지, 라이다 깊이 정보, 레이블 데이터(JSON(JavaScript Object Notation) 포맷)로 구성된다. <그림 9>는 가공된 학습용 데이터셋의 예시다.
그림 9. 가공된 학습용 데이터 예시 그림 9. 가공된 학습용 데이터 예시

4. AR/VR 화면 정확도 향상을 위한 플렌옵틱 카메라 데이터의 활용 예시

(VR 전시 콘텐츠) 플렌옵틱 카메라 데이터를 활용한 실감 체험 서비스 개발, 비대면(Untact) 환경의 다자간 인터랙티브 서비스 구축, 실감 영상과 VR 기술을 융합한 프로토타입형 경험 서비스로 구성할 수 있다.

그림 10. 플렌옵틱 카메라 데이터를 활용한 VR 전시 체험 서비스 예시 그림 10. 플렌옵틱 카메라 데이터를 활용한 VR 전시 체험 서비스 예시

지난 웹진 보기

이전호 더보기