AI·DATA 人터뷰

비전 분야와 3D 영상 데이터셋의
구축 현황 및 향후 방향

윤국진 교수(KAIST/인공지능 학습용 데이터 과제기획위원회 비전 분과위원)

1. 비전 분야에서는 다양한 이미지와 영상 그리고 3D 데이터셋이 구축되어 왔다. 지금까지 구축한 데이터셋의 기본 전략은 무엇이었나요? 특히 올해 구축하는 3D 영상 데이터셋이 비전 분과에서 선정된 이유는 무엇인가요?

비전 분과에서 추진하고 있는 인공지능 학습용 데이터셋 구축의 기본 전략은 기존에 구축된 데이터셋에 대비해 데이터셋의 규모 및 데이터의 다양성을 증대시키는 것입니다. 그리고 지금까지 원시 데이터의 접근성이 낮아 구축이 어려웠던 데이터셋을 구축하는 것입니다. 더불어 개인정보 보호 및 기타 규제 등으로 인해 확보가 쉽지 않았던 데이터셋을 확보하고, 미래 산업 및 응용 분야에서의 파급력 등을 고려해 새로운 형태의 데이터셋을 선제적으로 구축하는 것입니다

기존에도 이미 다양한 영상과 3D 데이터셋들이 구성되어 있습니다. 하지만 규모나 다양성은 데이터셋이 구축될 당시의 기술적 수준에 따라 정해지기 때문에 최근 인공지능 분야, 특히 비전 분야 기술의 성숙도와 매우 빠른 발전 속도를

윤국진 교수

고려했을 때 보다 큰 규모와 다양성을 가진 데이터셋을 구축하는 것이 필요합니다. 실제로 구축된 데이터셋은 관련 인공지능 기술의 발전과 완성도에 큰 영향을 주기 때문에 장기적인 관점에서 유효한 데이터셋을 구축하기 위해서는 규모 및 다양성을 증대시키는 것이 매우 중요합니다. 일반적으로 데이터셋의 규모가 중요하다는 것은 모두 인지하고 있습니다만, 데이터의 다양성 역시 인공지능 기술의 완성도와 실용화에 있어 매우 중요한 요소이므로 데이터셋 선정에 고려하는 부분이기도 합니다.

영상 및 3차원 데이터를 새롭게 획득해 데이터셋을 구축하는 것 외에 이미 획득되어 있거나, 혹은 기존 시스템에서 계속 획득되고 있는 영상 데이터들을 인공지능 연구에 활용하는 것도 중요합니다. 계속해서 대규모의 데이터가 구축되고 있음에도 불구하고 인공지능 연구를 위해 공개된 데이터셋이 부재한 것은 대부분 원시 데이터에 대한 외부에서의 접근성이 낮은 데이터들이라고 볼 수 있습니다. 따라서 국가가 주도하는 대규모 인공지능 학습용 데이터 구축사업을 통해 접근성이 낮은 원시 데이터들을 고도의 기술을 통해 정제해서 양질의 데이터로 변환하고, 이를 외부에 공개하게 되면 인공지능 연구에 큰 도움을 줄 것으로 기대합니다.

그리고 연구적인 측면에서나 산업적인 측면에서도 3D 데이터셋에 대한 많은 요구와 함께 매우 높은 잠재력을 가지고 있습니다. 이에 비해 개인정보 보호 및 기타 규제 등으로 인해 지금껏 확보가 쉽지 않았던 데이터셋을 이번 대규모 인공지능 학습용 데이터 구축사업을 통해 구축하는 것도 의미가 크다고 생각합니다. 학계 및 민간에서는 그동안 여러 규제 등으로 데이터셋을 구축할 시도조차 하지 못했지만, 이번 사업으로 사전에 철저한 법률적 검토를 통해 준비하고, 공개 가능한 데이터를 획득해 이를 공개함으로써 큰 파급력을 가질 수 있을 것으로 기대합니다.

또한 최근 인공지능 기술의 발전에 힘입어 산업계에서는 다양한 시도가 이루어지고 있습니다. 이를 통해 새로운 시장을 개척하고 있는데 역으로 이러한 다양한 시도와 시장은 기존 기술의 더 높은 완성도를 요구하기도 하고, 아예 새로운 기술의 발전을 요구하기도 합니다. 이러한 분야의 기술적 선점과 국가적 경쟁력 확보를 위해 새로운 인공지능 학습 데이터셋을 발굴하고, 우리나라 실정에 좀 더 맞는 데이터셋의 구축을 목표로 하고 있습니다.

올해 구축하는 3D 영상 데이터셋들은 한국 도시 3차원 영상 데이터, 실생활 투명 객체 3D 데이터, 대용량 3D 객체 데이터, 실내 공간 3D 종합 데이터 등입니다. 이 데이터셋들이 선정된 이유는 위에서 언급된 데이터셋 구축 전략 관점에서 이해해 주시면 됩니다. 한국 도시 3차원 영상 데이터는 기존의 3차원 데이터셋들과 달리 우리나라에 보다 특화된 데이터셋으로 자율주행, 스마트시티 등과 같은 분야는 물론 최근 각광받고 있는 메타버스 분야에까지 활용될 수 있는 것으로 평가할 수 있습니다. 이를 통해 고품질의 도시 경관 영상 데이터셋도 생성할 수 있습니다.

실생활 투명 객체 3D 데이터는 기존에 없던 새로운 데이터셋으로, 그동안 비전 분야에서 난제로 여겨왔던 투명 객체에 대한 3차원 객체 인식 및 자세, 형상 추정 연구에 활용될 수 있습니다. 실제로 3차원 환경 모델링이나 로봇 등의 활용에 있어서 투명 객체를 다루는 일은 매우 중요하면서도 많은 연구가 진행되지 못한 분야입니다. 이는 투명 객체의 특성상 영상 데이터를 취득하는 데 어려움이 있고, 이로 인해 학습용 데이터 수집 자체가 힘들며 관련 연구들이 성숙되어 있지 않기 때문입니다. 이번 실생활 투명 객체 3D 데이터셋 구축을 통해 관련 인공지능 분야의 발전을 기대해볼 수 있을 것으로 생각합니다.

대용량 3D 객체 데이터의 경우 3D 공간에서의 객체 인식, 위치 및 자세 추정 등을 통한 로봇 시스템 적용, 가상 공간에서의 가상 객체 등록 등 다양한 분야에서 활용 가능한 대규모 3D 객체 통합 데이터 구축을 목표로 하고 있습니다. 기존에 존재하던 3D 객체 데이터를 규모와 다양성 측면에서 획기적으로 개선할 수 있는 데이터셋입니다.

한편 대용량 3D 객체 데이터셋이 3D 객체에 초점을 맞춘 데이터셋인 반면, 실내 공간 3D 종합 데이터셋은 3D 실내 공간에서의 객체 인식 및 로봇 시스템 적용, 게임, 건축 및 인테리어 3D 조감도 렌더링 기술뿐 아니라 부동산 및 건축, 인테리어, 그리고 메타버스 등 다양한 산업 분야에서 활용 가능한 데이터셋입니다. 이 데이터셋은 추후 많은 산업 분야에서 큰 파급력을 가질 것으로 기대하고 있습니다.

3D 데이터셋 대부분은 데이터 획득 과정이나 레이블링 작업이 2D 영상 데이터 획득 및 레이블링 작업들과 비교해 시간 및 노동, 비용 집약적인 경우가 많아 그동안 학계 및 민간에서 데이터셋 구축이 선제적으로 이루어지지 못한 측면이 있습니다. 하지만 이번 국가 주도의 인공지능 학습용 데이터셋 구축사업을 통해 양질의 데이터셋이 구축되고 관련 인공지능 연구의 발전이 가능해질 것으로 기대합니다.

2. 아직까지 비전 분과에서 3D 영상 데이터셋의 비중이 높지 않은데, 앞으로 그 비중이 더 늘어날 것이라고 생각하십니까?

개인적으로는 3D 영상 데이터셋의 비중이 높아질 것으로 기대하고 있으며, 그 비중이 지속적으로 높아져야 한다고 생각합니다. 실제로 비전 분야에서 3D 영상 데이터는 활용성과 미래 산업 분야에 대한 파급력 관점에서 지금보다 더 많은 관심을 가져야 하는 데이터입니다.

다만 앞서 언급한 바와 같이 데이터 수집 과정이나 레이블링 작업이 2D 영상과 비교할 때 시간 및 노동, 비용 집약적인 경우가 많아서 그 필요성과 가치에 비해 지금까지 확보된 데이터는 양과 질적인 측면에서 다소 제한적이었습니다. 인공지능 분야에서도 3D 데이터를 표현하는 기술과 이를 처리하는 기술이 2D 영상 데이터와 비교했을 때 관심을 많이 받지 못했습니다. 하지만 최근 들어 3D 데이터를 획득하는 센서와 장비, 기술의 발전에 힘입어 3D 데이터 취득이 이전보다 손쉬워지고, 다양한 산업 분야에서의 3D 데이터에 대한 요구가 급격히 증가하고 있기에 비전 분과에서 3D 데이터의 비중이 점차 늘어날 것이라 생각됩니다.

3. 3D 영상 데이터셋의 다양한 응용 분야를 생각한다면 국내에 보다 특화된 분야는 어느 분야가 될까요?

3D 영상 데이터셋의 대표적 인공지능 응용 분야로는 로봇 분야, 자율주행 자동차나 선박, 드론과 같은 스마트 모빌리티 분야, 그리고 최근 급성장하며 각광받고 있는 AR/VR 및 메타버스 등과 같은 응용 분야를 떠올려 볼 수 있습니다. 최근 이러한 3D 영상 데이터셋의 응용 분야 중 국내에 특화할 수 있는 분야로는 ‘메타버스’ 분야를 꼽을 수 있습니다. 코로나 시대를 맞아 비대면으로 업무를 진행하는 경우가 급격히 늘어나면서, 이러한 시대적 흐름과 잘 부합한 분야가 바로 메타버스 분야가 아닐까 합니다.

메타버스 분야가 국내에 보다 특화될 수 있는 이유는 바로 우리나라 문화 콘텐츠의 힘입니다. 최근 전 세계적으로 K팝은 물론 영화, 드라마 등이 큰 인기를 끌고 있습니다. 또한 이에 힘입어 한국 콘텐츠(K-콘텐츠) 산업은 일자리 창출 효과나 매출 측면에서 우리나라 대표 산업인 반도체 산업에 버금가는 산업으로 성장하고 있습니다. 지금까지는 영화와 드라마, 음악(K팝)이 K-콘텐츠를 대표했지만, 최근에는 웹툰과 웹 소설, 게임 등도 2차 콘텐츠로 급격히 성장하고 있습니다.

현재 이러한 문화 콘텐츠의 디지털 아카이빙 작업이 활발히 이루어지고 있고, 국가 차원에서도 공연예술 디지털 아카이빙이 추진되고 있습니다. 다만 현재 문화 콘텐츠 디지털 아카이빙은 주로 2D 영상 데이터에 국한되어 있습니다. 하지만 공연 등을 포함한 문화 콘텐츠를 3D 영상 데이터셋으로 구축할 경우 가상의 공간에서 메타버스를 통해 세계 어디서든 우리나라의 문화 콘텐츠를 체험해볼 수 있는 기회를 제공할 수 있습니다. 단순한 아카이빙을 넘어 이러한 데이터를 인공지능에 활용해 '로지(ROZY)1)'와 같은 가상의 모델을 생성한다거나 새로운 K-콘텐츠를 자동으로 생성할 수 있는 인공지능의 개발도 가능할 것으로 기대합니다.

4. 응용 분야 외에 3D 영상 데이터셋 중 전략적으로 먼저 구축해야 하는 분야는 어떤 데이터셋인가요? 해외에서 구축된 3D 영상 데이터셋과 비교한다면 우리의 데이터셋이 갖는 비교 우위나 전략적 특징은 무엇일까요?

위에서 언급되었던 응용 분야 외에도 3D 영상 데이터셋 중 전략적으로 먼저 구축해야 하는 분야 중 하나는 의료 분야라고 생각합니다. 의료 분야에서의 3D 영상 데이터셋은 신체 외부에 대한 데이터뿐 아니라 신체 내부에 대한 3D 데이터셋을 포함할 수 있습니다. 이 데이터셋은 MRI, 3차원 CT, 3차원 초음파 등을 통해 획득할 수 있습니다. 이러한 3D 의료 데이터는 의료 인공지능(의료 AI)에 있어서 핵심적인 데이터라 할 수 있습니다. 다만 현재 보건의료 데이터는 개인정보법과 생명윤리법을 모두 고려해 이용해야 하기 때문에 데이터의 접근성이 낮고 획득이 매우 어렵습니다. 최근 데이터셋 구축과 관련해 보건의료 데이터에 대한 법 개정이 논의가 되고 있는 것으로 알고 있습니다.

해외에서 구축된 3D 영상 데이터셋과 비교해 우리가 구축하고 있는 3D 데이터셋이 갖는 비교 우위로는, 이번 국가 주도의 대규모 인공지능 학습용 데이터 구축사업이 해외에서는 전례가 없는 사업이라는 점입니다. 또한 이 사업을 통해 정부 차원에서 큰 재정적 지원이 있기 때문에 데이터의 다양성 및 데이터셋 규모 측면에서 우위를 선점할 수 있을 것이라고 기대합니다.

5. 3D 영상 데이터셋 구축은 다른 데이터셋에 비해 고비용이 소요되는 것으로 아는데, 이를 위한 정부 차원의 지원이 필요하다면 어떤 것이 있을까요?

앞서 여러 번 언급한 바와 같이 3D 데이터셋은 데이터 획득 과정이나 레이블링 작업이 2D 영상 데이터 획득 및 레이블링 작업들과 비교해 시간 및 노동, 비용 집약적인 경우가 많습니다. 3D 정보를 획득하기 위해서는 여러 대의 카메라를 사용하거나, 일반적인 카메라 외에 추가적인 센서들이 필요하기 때문에 장비 측면에서도 더 많은 비용이 발생하게 되고, 또한 취득된 3D 데이터는 2D 영상 데이터와는 다른 방식으로 레이블링이 이루어지게 되는데 이 과정에서 추가적인 노동력 및 비용이 발생합니다. 따라서 데이터를 취득하기 위한 장비 지원 및 데이터 취득에 필요한 공간 지원 등과 같은 정부 차원의 지원이 필요할 수 있습니다.

6. 3D 영상 데이터셋 외에 앞으로 비전 분과에서 중점적으로 구축할 필요가 있는 데이터셋에는 어떤 것이 있을까요?

비전 분과에서는 향후 앞서 언급한 기본 전략에 기반해 대규모의 다양한 데이터셋을 여러 방면에서 구축할 예정입니다. 다만 3D 영상 데이터셋 외에 비전 분과에서 보다 중점적으로 구축할 필요가 있는 데이터셋은 전통적인 비전 분야에서의 데이터셋들이 아닌, 비전 분야가 새롭게 접목되고 응용되어 확장할 수 있는 분야에서 얻어지는 데이터셋입니다.

이를테면 스마트 팩토리 분야의 공정 자동화 및 검사를 위한 데이터셋, 장기적 기상 예측을 위한 영상 데이터셋, 기후변화로 인한 지형 변화 분석을 위한 인공위성 영상 데이터셋 등입니다. 실제로 비전 기술은 다른 연구 분야와 밀접한 관련이 있을 뿐만 아니라, 다른 많은 산업 분야에 응용될 수 있는 기술입니다. 하지만 비전 기술이 다른 분야로 확장되어 나가기 위해서는 이를 위한 인공지능 학습용 데이터셋이 선제적으로 구축되어야 할 것입니다.

Reference
  • 1) 로지(ROZY)는 싸이더스 스튜디오 엑스가 개발한 가상 인간이자 국내 최초 ‘버추얼 인플루언서’다.

지난 웹진 보기

이전호 더보기