이달의 주목할 데이터셋 I

자율주행자동차 인식성능 고도화를 위한 인공지능학습용 데이터

노형주 센터장(한국자동차연구원 AI센터연구센터)

1.도로주행영상 인공지능 학습용 데이터란?

자율주행 자동차의 개발 및 상용화에 있어 주행 안전도 확보는 가장 중요한 요소다. 이를 위해 전방 및 주행 차량 주변에 존재하는 정적 객체(차선, 표지판, 신호등, 비정형 장애물 등) 및 동적 객체(차량, 보행자, 이륜차 등)의 인식과 검출 성능을 고도화․최적화하기 위한 인공지능 및 빅데이터 기반 알고리즘 개발 등이 가속화하고 있다.

자율주행 인지 정확도의 향상, 즉 오인식 및 미인식의 최소화가 가능한 제대로 된 학습 모델 생성을 위해서는 학습이 가능하도록 하는 양질의 풍부한 데이터가 필요하다.

이러한 양질의 데이터를 구축하기 위해서는 자율주행 기술 수준에 따른 운전가능설계영역(ODD: Operation Design Domain), 대상물 사고의 검지 및 응답(OEDR: Object and Event Detection and Response) 조건 및 UseCase에 대한 철저한 분석 및 설계 요소를 반영한 다양한 실도로 주행 영상 원시데이터, 다양성이 확보된 원천데이터, 학습 대상별 정확한 생성 기준을 가지는 Annotation 학습데이터를 확보하는 것이 매우 중요하다.

그림 1. 웨이모 모션 데이터셋 샘플 중 싸이클리스트 3차원 데이터 [출처: 깃허브] 그림 1. 자율주행 인공지능 학습용 데이터 구축 개요

2.데이터셋 구축 배경 및 필요성

그림 1. 웨이모 모션 데이터셋 샘플 중 싸이클리스트 3차원 데이터 [출처: 깃허브]

자율주행 기술은 2000년대 후반부터 주로 구글, 애플 등과 같은 IT기업을 중심으로 기술 개발이 본격적으로 이뤄졌다. 2015년 이후부터는 GM, 테슬라 등 완성차 업체의 Lv.2 수준의 자율주행 자동차의 보급이 시작됐다. 최근에 이르러서는 고속도로에서의 다차로 자동차선 변경 기능이 지원되는 Lv.3 수준의 자율주행 자동차가 빠른 속도로 대중화되고 있다.

해외시장조사 전문기관인 Frost & Sullivan이나 Youl에 따르면 자율주행 기술 고도화에 따른 주행인지 정확도 향상 및 안전성 확보를 위해 차량에 장착되는 인지센서(카메라·라이다·레이다·초음파 등)의 개수가 Lv.2 자율주행 탑재센서의 카메라 7개, 레이더 1개, 초음파 8개 등(총 16개)에서 Lv.5 탑재센서의 카메라 9개, 레이더 5개, 라이다 4개, 측위센서 2개 등(총 32개 증가)으로 급격히 증가할 것으로 예상하고 있다.

아울러 자율주행 차량의 보급 증가 및 실도로 주행이 늘어나면서 자율주행 자동차와 관련한 안전사고의 발생 수 및 빈도수가 빠르게 늘어나고 있다.

그림 1. 웨이모 모션 데이터셋 샘플 중 싸이클리스트 3차원 데이터 [출처: 깃허브]

특히 주변 환경을 인식하는 센서의 환경 변화에 따른 미인식 및 오인식으로 인해 안타까운 인명 사고가 발생하고 있는데, 대표적 사고 유형은 다음과 같다.

  • ❊ 2018년 3월 18일(일) 밤 10시, 미국 애리조나주에서 우버(Uber)사의 자율주행 차량이 횡단보도로부터 54m 이상 떨어진 곳에서 자전거를 끌고 무단 횡단을 하던 49세 노숙자 여성을 치어 사망에 이르게 함
  • ❊ 2018년 3월, 테슬라 차량이 자율주행 모드로 주행 중 중앙분리대와 충돌한 후 화재로 전소
  • ❊ 2018년 4월, 오전 시간 역광이 내리쬐는 상황에서 테슬라 차량이 중앙분리대를 들이받는 사고가 발생

이러한 자율주행 자동차의 사고 원인을 살펴본 결과 카메라, 레이더, 라이다와 같은 인지센서가 갖는 한계검출성능(야간, 역광, 강우, 강설, 안개 등 악천후에 대한 강건성 미비)이나 인지 오류 등이 대다수의 원인으로 규명되고 있는 실정이다. 따라서 기존 인지센서가 갖고 있는 인식오류 최소화 및 한계성능을 극복하기 위해 딥러닝을 기반으로 한 다양한 인공지능 인식 기술의 개발이 가속화하고 있다. 이러한 인공지능 인식기술의 인식 정확도 향상 및 성능 확보를 위해서는 다양한 검출 대상, 주행 시나리오, 환경 조건 등이 반영된 실도로 주행 기반 원천데이터 및 학습용 데이터의 확보와 공개가 필연적이다.

  • ❊ 카메라는 전통적인 객체 검출 방식뿐 아니라 딥러닝 기반 통합 다중 스케일 기반 학습을 통해 인식 예측 성능 및 신뢰도가 급격히 발전 중
  • ❊ 혹한의 날씨에 대한 한계 및 조명 조건에 대한 제한을 해결할 수 있어야 하며, 인공지능 기반의 높은 신뢰성과 다양한 인식 및 예측 기능이 중요

현재 국내 자율주행 차량용 영상 인식 알고리즘의 개발 시 영상 처리용 데이터 대부분이 해외 공개 데이터를 활용해 이뤄지고 있어 국내 도로 환경 및 주행 조건 등을 제대로 반영하지 못하고 있다. 이로 인해 인공지능 기반 인식 기술의 성능이 크게 개선되지 못하고 있는 실정이다. 현재 공개되고 있는 일부 자율주행 영상 인식 기술 개발용 데이터는 인공지능 학습데이터로 사용하기엔 규모가 크지 않아 대규모 학습데이터의 제작이 필요하다. 기존 데이터의 경우 저작권 및 초상권 문제, 연구개발 목적으로의 사용 제약 등 데이터 활용에 제한이 많은 실정이다.

따라서 국내 자율주행 자동차부품 및 시스템 산업, 연관 산업과 서비스 산업 등에 적용하기 위해서는 국내 상황에 맞는 도로 구조와 형태, 환경 조건, 주행 조건 등을 반영한 대규모 원시데이터와 학습용 가공 데이터의 구축 및 공개가 매우 중요하며 필연적이다.

웨이모(Waymo)나 우버의 경우 독자적으로 카메라와 라이다가 장착된 차량을 수십 대에서 수백 대를 운행하면서 고해상도 데이터를 수집하고 있다. 이외에도 테슬라는 오토파일럿(Autopilot), 모빌아이는 REM(Road Experience Management)라는 프로그램을 이용해 자율주행 차량을 운행하는 운전자들로부터 대규모 주행 데이터를 수집하고 있다.

그림 1. 웨이모 모션 데이터셋 샘플 중 싸이클리스트 3차원 데이터 [출처: 깃허브] 그림 4. 글로벌 자율주행 선도기업 자율주행차량시스템 구성 및 특징

카메라는 초당 20~60MB, 레이더는 초당 10KB, 소나는 초당 10~100KB, GPS는 초당 50KB, 그리고 라이다는 초당 10~70MB의 데이터를 운영한다. 따라서 각각의 자율주행 차량은 하루에 약 4,000GB, 또는 4TB의 대용량 데이터를 생성하는 등 자율주행차 한 대가 거의 3,000명이 만들어 내는 양과 동일한 데이터를 생성하는 것으로 예상된다.

그림 1. 웨이모 모션 데이터셋 샘플 중 싸이클리스트 3차원 데이터 [출처: 깃허브] 그림 5. 자율주행자동차 1대가 생성하는 데이터 4TB] ※ 출처: Intel

데이터셋 구성과 의미

가. 데이터셋의 구성

인공지능 학습용 데이터 구축 1차 사업을 통해 구축한 ‘도로주행영상 인공지능 학습용 데이터’의 데이터셋은 20만 프레임의 실제 도로 주행 영상과 산학연의 요구사항을 반영한 XML(JSON) 기반의 BoundingBox, Spline, polygon 타입별 레이블링 데이터 쌍으로 구성돼 있다.

해당 데이터셋은 자율주행 인식 기술 개발 수요기업 등의 요구 사양을 반영한 분류 기준을 기반으로 만들어졌다.

데이터 종류 포함 내용 제공 방식
BoundingBox 20만 frames 이상 ( 영상 + XML ) XML or JSON
Spline 20만 frames 이상 ( 영상 + XML ) XML or JSON
Polygon(Segmentation) 20만 frames 이상 ( 영상 + XML ) XML or JSON

나. 데이터셋의 설계 기준과 분포

동적 객체의 경우 자동차와 보행자, 정적 객체의 경우 차선, 신호등, 표지판, 노면표시, 노면화살표, 주행가능공간 등 8개 중분류, 33개 상세속성 등으로 구분해 학습데이터를 구축했다.

영상센서 분류 대상 및 이름(Label_Map)
대분류 중분류 이름 화면표시명 레이블 번호
배경 배경 none_of_the_above 배경 0
동적 객체 자동차 Vehicle_Car 자동차_일반자동차 1
Vehicle_Bus 자동차_버스 2
Vehicle_Motorcycle 자동차_이륜차 3
Vehicle_Unknown 자동차_기타자동차 4
보행자 Pedestrian_Pedestrian 보행자_보행자 5
Pedestrian_Bicycle 보행자_자전거 6
정적 객체 차선 Lane_White_Dash 차선_흰색&점선 7
Lane_White_Solid 차선_흰색&실선 8
Lane_Yellow_Dash 차선_노란색&점선 9
Lane_Yellow_Solid 차선_노란색&실선 10
Lane_Blue_Dash 차선_청색&점선 11
Lane_Blue_Solid 차선_청색&실선 12
신호등 TrafficLight_Red 신호등_적색 13
TrafficLight_Yellow 신호등_황색 14
TrafficLight_Green 신호등_녹색 15
TrafficLight_Arrow 신호등_화살표 16
TrafficLight_RedArrow 신호등_적색&화살표 17
TrafficLight_YellowArrow 신호등_황색&화살표 18
TrafficLight_GreenArrow 신호등_녹색&화살표 19
표지판 TrafficSign_Speed 표지판_속도제한 20
TrafficSign_Else 표지판_기타표지판 21
노면표시 RoadMark_StopLine 노면표시_정지선 22
RoadMark_Crosswalk 노면표시_횡단보도 23
RoadMark_Number 노면표시_숫자노면표시 24
RoadMark_Character 노면표시_글자노면표시 25
노면화살표 RoadMarkArrow_Straight 노면화살표_직진 26
RoadMarkArrow_Left 노면화살표_좌회전 27
RoadMarkArrow_Right 노면화살표_우회전 28
RoadMarkArrow_StraightLeft 노면화살표_직진&좌회전 29
RoadMarkArrow_StraightRight 노면화살표_직진&우회전 30
RoadMarkArrow_Uturn 노면화살표_유턴 31
RoadMarkArrow_Else 노면화살표_기타노면화살표 32
주행가능공간(Free space) FreeSpace 주행가능공간 33

다. 데이터 구축 과정

자율주행 영상을 이용한 학습용 데이터 구축은 데이터의 취득부터 저장까지 총 5단계의 공정으로 진행됐다.

  • 1단계 :실도로 자율주행 DB의 취득

    실도로 주행 영상을 취득하는 단계로 자율주행 모사 차량을 이용해 DB를 취득하고 카메라 영상, GPS 좌표, 참고용 LiDAR 데이터가 동기화돼 저장됨

  • 2단계 :DB 분할 및 분류 단계

    취득된 실도로 자율주행 DB를 Use-case별로 분류해 다양한 상황에서 취득된 DB가 모이도록 함. 분류된 데이터는 같은 Use-case 번호로 저장되며, 취득 시 환경(날씨, 조도 등)의 분류 정보가 함께 저장됨

  • 3단계 :데이터 정제 단계

    자율주행 모사 차량이 정지하거나 주변에 객체가 없는 등의 중복・정지 영상을 제거하며, 상황 변화 주기에 따라 학습데이터를 생성할 영상을 선별함

  • 4단계 :자동화 Tool을 이용한 1단계 전처리 수행 학습데이터 제작

    온/오프라인 툴을 이용해 작업자가 어노테이션 작업을 수행해 학습데이터를 생성함

  • 5단계 :학습데이터 저장

    정의한 XML 또는 JSON 포맷에 따라 작업자가 학습용 데이터를 생성하는 가공 툴에서 자동 생성돼 실도로 주행 DB와 함께 저장됨

그림 1. 웨이모 모션 데이터셋 샘플 중 싸이클리스트 3차원 데이터 [출처: 깃허브] 그림 6. 실도로 자율주행 DB취득 및 가공 단계
라. 수집차량 플랫폼 및 원천데이터 유형 예시
그림 1. 웨이모 모션 데이터셋 샘플 중 싸이클리스트 3차원 데이터 [출처: 깃허브]

4. 자율주행 인공지능 학습용 데이터 활용범위

정부가 주도하고 있는 이와 같은 대규모 인공지능 학습용 구축사업 등을 통해 구축되는 자율주행 UseCase 기반 영상 Raw 데이터, 학습용 Annotation 데이터, 차량거동&위치정보 데이터, 비교/기준센서 데이터 등은 1차적으로 자율주행 자동차 부품 및 시스템개발 산업 분야, 2차적으로는 도로시설물 관리 및 자율주행 자동차 사고분석/보험 등 자율주행 서비스 연관 산업 분야, 3차적으로는 생산 공정 최적화 및 교통 흐름 관제 등 타 산업융합 분야 등 산업 기술 개발 및 고도화 분야에서 활용 가능하다.

1차 전방산업(자율주행 자동차 부품 및 시스템개발 산업) : 자율주행 영상인식 성능 고도화, 차량 탑승자 상태 관리 성능 고도화, 자율주행 센싱 부품 품질 개선, 자율주행 동적맵 성능 고도화, 차량본합측위 성능 고도화, 응급/구난자동차 긴급통행지원 시스템 기술 등 다양한 산업 분야에서 활용 가능

2차 후방산업(자율주행 자동차 서비스산업 분야) : 도로시설물안전관리 자동화, 차량예지정비서비스 지원, 주차 위치 확인 및 관제서비스, 사용자 기호/주중·주말 이용 등 인공지능 학습 기반 공유주차장 예약 및 관리서비스, 자동차/부품 생산 공정 최적화, 자율주행 원격의료 지원서비스 등 자율주행서비스 연관 산업 분야에서 활용 가능

3차 타 산업융합 분야(자동차/ICT/도로교통 등) : 교통사고유고 정보 및 관제시스템/서비스, 도로/교통 흐름 최적화 및 관제시스템, 대중교통 효율화 모니터링 및 관제시스템, 자율주행 자동차 보험사고분석/지원서비스 등 자동차-ICT-도로교통 등 타 산업과의 융합산업 분야에서 활용 가능

그림 1. 웨이모 모션 데이터셋 샘플 중 싸이클리스트 3차원 데이터 [출처: 깃허브]

지난 웹진 보기

이전호 더보기