이 달의 주목할 데이터셋 II

자율주행, 양질의 데이터로
더욱 빠르게 안전하게

박중희 대표(라이드플럭스)

1.자율주행 사업화 모델과 자율주행 서비스

자율주행 기술은 보다 안전한 도로를 만들고 운전으로 낭비되는 시간을 효율적으로 사용할 수 있도록 하는 것으로 가장 기대되는 미래 기술 중 하나다.

최근 자율주행의 주요 관심사는 레벨2와 레벨4 사이의 기술 수준에 있다고 볼 수 있다. 레벨2와 레벨4 사이의 기술 수준은 운전자의 주시 의무로 구분되는데, 달리 표현하면 책임 소재가 운전자에게 있느냐 자율주행 시스템에 있느냐의 차이로 이는 기술의 신뢰성 수준에 의해 정해진다. 즉 레벨2를 넘어선 레벨3가 되려면 부분적인 시간 동안만이라도 더 이상 운전자가 운전 상황에서 주시 의무를 갖지 않으면서 자율주행 시스템에 모든 책임을 질 수 있게 해야 한다.

레벨3 이상의 자율주행 기술은 운전 중 생긴 문제에 대한 책임을 운전자가 아닌 자율주행 시스템이 져야 하는 경우가 있으므로 무게감이 크고 난도가 높다. 자동차 업계는 레벨3 자율주행 차량을 양산하기 위한 연구개발에 많이 투자하고 있으며, 정체 상황, 운행/자동 주차 등 제한된 상황부터 점진적으로 기능을 확대할 것으로 예상된다. 이러한 기능은 운전자에게 편의를 제공할 뿐만 아니라 실수에 의한 사고를 방지할 수 있지만, 일반 대중이 구매할 수 있을 정도의 저렴한 양산형 부품으로 1)고신뢰성을 확보해야 할 뿐만 아니라 2)수출을 고려해 전 세계에서 동작해야 하므로 빠르게 기능을 확대하고 판매하는 일은 기술적으로 결코 쉽지 않다.

레벨4 이상의 자율주행 차량을 일반 대중이 구매하는 데까지는 많은 시간이 필요하므로, 레벨4 자율주행을 더욱 빨리 현실화하기 위한 새로운 비즈니스 모델로 자율주행 서비스가 생겨나고 있다. 예전에는 언제쯤 자율주행차를 살 수 있을지, 또는 가격은 얼마일지에 주목했다면, 요즘은 자율주행 기술을 적용한 버스나 셔틀을 특정 지역에서 이용할 수 있다는 소식을 접할 수 있다.

서비스 모델은 자율주행 차량을 소유하고 있는 기업이 여러 이용자에게 자율주행 차량을 이동 건 별로 제공하는 방식이다. 차량의 소유권과 운영권을 가지고 안전을 위한 신뢰성을 높이기 위한 많은 방법을 동원해 완전 무인 자율주행 서비스를 빠르게 이룰 수 있다고 생각하는 것이다.

그림 1. 제품 모델과 서비스 모델의 차이 그림 1. 제품 모델과 서비스 모델의 차이1)

가장 대표적 케이스는 구글의 웨이모가 미국 애리조나주 피닉스에서 선보인 완전 자율주행 서비스다. 현재 누구든 해당 지역 내에서 앱으로 자율주행 이동 서비스를 호출하면 운전석에 사람이 앉아 있지 않은 무인 이동 수단을 이용할 수 있다. 웨이모뿐 아니라 모셔널은 라스베이거스에서 로봇 택시 서비스를 제공하고 있다. 중국의 상하이와 광저우 등에서 자율주행 서비스를 제공하고 있는 기업들도 있다.

이러한 접근 방식은 완전 무인 자율주행을 위한 신뢰성을 최대한 확보하기 위해 우선적으로는 범용성에 제한을 조금 받더라도 운행 지역을 제한한다. 운행 지역을 제한하는 만큼 해당 지역에서 발생할 수 있는 수많은 상황을 심도 있게 다루고 검증의 밀도를 높여 운전석에 사람이 없어도 안전할 만큼의 신뢰성을 확보한다. 또한 라이다 센서와 고정밀 지도를 활용하고 원격 감시 및 제어 시스템, C-ITS(Cooperative-Intelligent Transport Systems, 차세대 지능형 교통시스템)등의 통신 인프라까지 활용해 최대한 안전을 확보한다. 이 같은 방식으로 자율주행 시스템의 신뢰성을 최대로 높이고 서서히 운행 지역을 넓히면서 비용을 최적화해 나간다.

라이드플럭스도 제주에서 자율주행 서비스를 제공하고 있는데, 2020년 5월부터 제주공항과 쏘카스테이션을 오가는 자율주행 시범서비스
(https://youtu.be/nRTmmojMMLk)를 론칭했다. 일반인 누구나 탑승할 수 있다는 점에서 의미 있고, 탑승객의 95%가 5점 만점의 만족도를 부여할 정도로 좋은 평가를 받고 있다.

영상 1. 라이드플럭스 제주공항 자율주행 시범서비스(출처: 라이드플럭스 유튜브)

2.자율주행에서 활용되는 센서

안전한 자율주행을 위해서는 카메라, 라이다, 레이더 등 서로 다른 특성을 가진 다양한 센서를 활용한다. 예를 들면 라이다는 통상적으로 사물의 정확한 위치를 파악하는 데에는 우수하지만 신호등이나 표지판 등으로부터 의미 정보를 추출하기가 어렵다. 카메라는 이러한 의미 정보를 추출할 수 있는 센서이지만 거리나 속도 정확도가 높지 않고 다양한 조명 상황이나 날씨에 대해 강인하게 동작하기 어렵다. 레이더의 경우 해상도는 낮지만 거리나 속도 정확도가 높고 날씨 변화에 강하다. 자율주행 차량은 사람을 태우고 높은 속도로 주행하는 만큼 상호 보완적인 센서를 활용해 도로에서 발생할 수 있는 다양한 상황에 대응할 수 있도록 해야 하며, 이를 위해 다양한 환경에서의 센서 데이터를 모으는 것이 중요하다.

그림 2. 센서 종류별 특징 그림 2. 센서 종류별 특징

실제로 라이드플럭스는 아래 영상(https://youtu.be/n_AC7_TkN18)과 같이 자율주행 실험 중 다양한 상황에 대한 센서 데이터를 취득하고 있다.

영상 2. 특이 데이터 모음을 소개하는 영상

3.자율주행의 요소 기술과 인공지능 데이터

자율주행은 여러 분야의 기술을 필요로 한다. 예를 들어 차량, 센서, 컴퓨팅 플랫폼, 도로 인프라, 통신 인프라 등과 인간의 두뇌에 해당하는 소프트웨어 기술 등이다. 차량에 탑재되는 소프트웨어 또한 측위, 인지, 예측, 계획, 제어 등의 세부 요소 기술로 나눌 수 있다. 이러한 모듈이 서로 유기적으로 통합돼야 만족감이 높고 안전한 자율주행이 될 수 있다. 또한 실시간으로 변화하는 다양한 상황에 보다 높은 신뢰성으로 대응하기 위해 미리 구축한 정밀지도를 활용하기도 하고, 실제 환경을 모방한 시뮬레이터를 통해 안전을 확보한 실험을 할 수 있다.

그림 3. 자율주행 소프트웨어 요소 기술 그림 3. 자율주행 소프트웨어 요소 기술

인공지능 데이터는 이처럼 자율주행 소프트웨어 기술의 전 영역 곳곳에서 기술의 신뢰성, 가격 경쟁력, 범용성을 높이는 데 중요한 역할을 한다. 예를 들면 요소 알고리즘의 성능 향상, 정밀지도 구축 효율 개선, 시뮬레이터 고도화 등에 기여하고, 이러한 기능들이 저가 센서를 이용하더라도 가능하도록 한다. 해외 선진 업체부터 국내의 많은 업체들까지 이러한 인공지능 데이터를 확보하고 이를 통해 기술을 성숙시킬 수 있는 다양한 시도를 하고 있다.

다만 인공지능 데이터와 기술만으로 자율주행의 모든 문제를 해결하기는 어려우므로 도로에서 빠른 속도로 달리는 차량을 통제하는 안전과 직결된 기술이기에 충분한 검증과 안전 장치들을 동반해 연구개발하고 있다.

4.자율주행을 위한 차선-횡단보도 인지와 신호등-교통표지판 공개 데이터셋

세계적으로 가장 널리 활용되고 있는 자율주행 공개 데이터 중 하나는 KITTI 데이터셋이다.2) 차량에 다양한 센서(GPS, IMU, 카메라, 라이다 등)를 설치하고 동기화와 캘리브레이션을 해 데이터를 공개했으며, 데이터셋 논문의 피인용 수를 합하면 1만 건 이상일 정도다. 다만 데이터 수량이 부족해(3D 탐지 데이터 기준 1만5,000장, 8만 개 객체) 딥러닝 학습에 활용하기에는 부족한 점이 있다. 최근 많은 해외 선진 기업이나 대학(웨이모, 모셔널, 아르고 AI, 버클리 등)에서 대규모 자율주행 데이터셋을 공개하고 있으며, 이러한 트렌드에 따라 국내에서도 한국지능정보사회진흥원(NIA)에서 대규모 자율주행 데이터를 구축 중이다.

도로주행 영상, 주행 환경 정적 객체 인지 영상, 동적 객체 인지 영상, 도로 상태 및 자율버스 영상 등 다양한 데이터가 구축되고 있으며, 라이드플럭스도 인공지능 학습용 데이터 구축사업(2차)에서 주행 환경 정적 객체 인지 데이터 구축에 참여해 데이터 수집, 인공지능 모델 개발 등을 진행했다. 2021년에는 카메라 영상뿐 아니라 라이다, 레이더와 같은 다중 센서 융합 데이터 및 특이 기상 환경, 도로 환경에 대한 데이터 등 보다 풍부한 데이터가 구축될 예정이다.

현재 구축 중인 주행 환경 정적 객체 데이터는 지역별·객체별로 총 4개의 세부 데이터로 구성된다.

  • - 차선/횡단보도 영상 (수도권 지역)
  • - 차선/횡단보도 영상 (광역시, 고속도로, 국도 등 지역)
  • - 신호등/교통표지판 영상 (수도권 지역)
  • - 신호등/교통표지판 영상 (광역시, 고속도로, 국도 등 지역)

차선/횡단보도 영상의 경우(수도권) 수도권 지역에서 직접 촬영한 300시간 이상의 데이터에서 추출한 95만 장의 영상으로부터 차선과 횡단보도의 위치를 가공한 가공 데이터를 제공하며, 차선의 경우 색깔, 실선/점선/정지선 등과 같은 특성 정보를 제공한다.

데이터 중 150시간 이상은 카메라 영상뿐 아니라 GNSS(Global Navigation Satellite System, 위성측위시스템)-INS(Inertial Navigation System, 관성항법장치), 라이다(3D 포인트 클라우드) 등의 다중 센서로부터 취득한 데이터를 함께 제공함으로써 자율주행 및 인공지능을 위한 다양한 연구에 활용할 수 있도록 데이터를 구성했다.

데이터셋은 두 개의 형태로 구성된다. 영상 단독 데이터는 40초에서 1분가량의 주행 영상을 JPG 형식의 영상 파일로 추출하고 그에 대응하는 객체 레이블을 포함하는 JSON 파일로 이뤄졌다. 다중 센서 데이터는 카메라 영상 외에도 영상에 대응되는 3차원 라이다 포인트 클라우드 데이터, GNSS-INS 데이터를 포함한다. 주행 간에 수집된 데이터는 약 1분 단위의 시퀀스로 구분돼 저장했다.

신호등/도로표지판 영상은 차량에 설치한 카메라를 이용해 수도권 지역에서 직접 촬영한 300시간 이상의 데이터에서 추출한 95만 장의 영상에서 신호등과 도로교통 표지판의 위치를 가공한 데이터로, 각 객체 상태(신호등 불빛, 표지판 종류 등)의 2차 속성 정보도 함께 제공한다.

차선 영상과 마찬가지로 데이터 중 150시간 이상은 카메라 영상뿐 아니라 GNSS-INS, 라이다(3D 포인트 클라우드) 등의 다중 센서로부터 취득된 데이터를 함께 제공한다.

그림 4. 차선/횡단보도 데이터 가공 및 신호등/표지판 가공 예시
그림 4. 차선/횡단보도 데이터 가공 및 신호등/표지판 가공 예시 그림 4. 차선/횡단보도 데이터 가공 및 신호등/표지판 가공 예시

이 데이터셋에서는 수집 시간과 날씨 통계를 바탕으로 난도가 높은 눈·비·안개 영상, 역광이나 야간 영상을 일정 비율 이상 확보해 다양한 환경에서도 학습할 수 있도록 했다.

해외 주요 자율주행 데이터셋의 대부분이 운행 중 차량 및 보행자 데이터 중심으로 구성돼 있고, 정적 객체 정보의 경우 국가별 도로교통 법규와 도로 시설물 표준이 상이하기 때문에 한국 자율주행 환경에서의 차선, 횡단보도, 신호등, 교통표지판 데이터가 국내 자율주행 기술의 연구개발에 도움을 줄 수 있을 것으로 기대하고 있다.

이렇게 구축된 데이터를 활용해 신호등 탐지 모델을 학습할 경우, 동일 인공지능 모델에서 마이크로소프트 COCO 데이터셋3) 을 활용해 신호등을 탐지한 것보다 더 좋은 결과를 얻을 수 있었다. 아무래도 한국 환경에 따른 대규모 데이터를 구축하다 보니 세로 방향 신호등이 주류인 해외 데이터 대비 가로 방향 신호등, 작은 신호등의 데이터를 많이 확보할 수 있었고, 야간·우천 상황이나 작은 객체 탐지에 강인한 모델 학습이 가능했다. 이러한 인공지능 모델을 활용해 자율주행을 위한 인지 알고리즘(인공지능 모델 요소기술)의 고도화 및 지도 제작 기술 개발에 활용할 수 있고, 자율주행 승객 이동 서비스 운영을 더 안전하게 할 수 있다.

그림 5. 탐지결과 예시 1 그림 5. 탐지결과 예시 1
그림 6. 탐지결과 예시 2 그림 6. 탐지결과 예시 2
그림 7. 탐지결과 예시 3 그림 7. 탐지결과 예시 3

5.자율주행 대중화를 위한 노력

전 세계적으로 자율주행 기술을 활성화하기 위해 많은 노력이 투입되고 있다. 이러한 기술이 도입되려면 기술의 성숙뿐 아니라 대중의 기술에 대한 신뢰도와 수용도 또한 높아져야 한다. 이를 위해선 안전한 자율주행 기술을 체감하고 이용해 볼 수 있는 기회가 많아져야 한다. 따라서 국내외에서 승객이 직접 이용해 볼 수 있는 자율주행 서비스들이 그러한 역할에 큰 도움이 되고 있다. 국내의 경우 국토교통부가 지정한 시범운행지구 제도를 통해 곧 서울, 제주, 세종, 대구, 광주광역시 등지에서 자율주행 유상 서비스를 이용할 수 있을 것으로 기대한다.

디지털 뉴딜 사업을 통해 국내 환경에 맞는 자율주행 데이터가 다방면으로 구축되고 있으며, 다양한 연구 기관에서 이 데이터를 활용해 국내의 자율주행 기술을 더욱 발전시킬 것으로 보인다. 대규모 인공지능 데이터는 민간에서 직접 구축하기에는 경제적·시간적으로 부담이 크고 라이선싱에도 한계가 있다. 모든 기관에서 활용 가능한 자율주행 공공 데이터 구축 사업을 통해 직접 운전하지 않아도 안전하고 편안하게 이동할 수 있는 날이 가까워 오고 있다.

라이드플럭스도 NIA에서 구축되고 있는 데이터를 적극 활용해 국내에서 자율주행 기술의 편리함을 빨리 체감할 수 있도록 노력할 것이다.

지난 웹진 보기

이전호 더보기