COVER STORY

자율 주행과 교통 분야 글로벌 데이터셋 현황

한상기 대표(테크프론티어)

COVER STORY 이미지

자율주행이나 지능형 교통 시스템의 운영을 위해 갖춰야 하는 데이터셋은 매우 다양하다.1)기본적으로 도로 주변을 감지하는 데이터가 있다.
여기엔 도로에서 얻을 수 있는 차량의 속도, 교통량, 흐름에 대한 것이 포함된다. 둘째는 차량 내외부 센싱을 통해 얻을 수 있는 데이터로, 다양한 센서와 내부 장착 장비에서 얻을 수 있는 것들이다. 셋째는 협력적 센싱으로, 전체 교통 시스템을 이용하는 다른 사용자들로부터 얻는 정보들이다. 넷째는 외부 데이터 소스에서 얻는 것으로 날씨, 캘린더, 예정된 행사, 사회경제적 그리고 인구통계학적 데이터다. 마지막으로 대중교통 노선이나 시간표, 지자체의 자전거 렌탈 서비스와 관련한 데이터처럼 구조적이거나 정적인 데이터를 포함하고 있다.

인공지능 활용 영역에서 가장 관심을 갖는 교통 분야는 자율주행이다. 이를 해결하기 위해 많은 기업이 학습을 위한 데이터셋을 만들고 있다. 이에 대한 투자는 국내의 공공 영역을 비롯한 민간에서도 활발히 이뤄지고 있다.

특히 자율주행을 위한 오픈 데이터셋 중 알파벳 자회사인 웨이모(Waymo)와 승차 공유 서비스인 리프트(Lyft)의 데이터셋이 잘 알려져 있다. 두 기업 모두 자신의 데이터셋을 기반으로 하는 챌린지도 열고 있어서 더 흥미롭다.

웨이모 데이터셋은 간단한 등록 절차를 거치면 접근할 수 있으며, 공개한 데이터셋에는 모션 데이터셋과 인지 데이터셋 두 가지가 있다. 이들 데이터는 다운로드하거나 구글 클라우드 API를 통해 접근할 수 있다. 물론 깃허브로도 데이터에 대한 소개 및 접근이 가능하다.2)

웨이모 오픈 데이터셋은 2019년 8월에 론칭했고, 처음에는 1,950세그먼트에 대한 고해상도 센서 데이터와 레이블을 갖춘 퍼셉션 데이터셋이었다. 2021년 3월 업데이트에 따르면 추가로 확장한 모션 데이터셋은 10만 개 이상의 세그먼트에 대한 3차원 지도와 개체 궤적으로 구성됐다.

그림 1. 웨이모 모션 데이터셋 샘플 중 싸이클리스트 3차원 데이터 [출처: 깃허브] 그림 1. 웨이모 모션 데이터셋 샘플 중 싸이클리스트 3차원 데이터 [출처: 깃허브]

2021년 웨이모는 4개의 챌린지를 구성해 모션 예측, 상호 작용 예측, 실시간 3D 탐지, 실시간 2D 탐지와 같은 주제로 진행하고 있다. 모션 예측은 주어진 에이전트의 과거 1초 동안 해당하는 곳에서의 트랙으로 최대 8개 에이전트의 다음 8초 동안의 위치를 예측하는 문제이다. 상호 작용 예측은 같은 조건을 바탕으로 서로 상호 작용하는 2개의 에이전트의 8초 후 위치를 예측하는 과제이다. 실시간 3차원 탐지는 주어진 세 개의 라이다 이미지와 연관한 카메라 이미지로, 장면에 있는 개체를 탐지한 3차원의 똑바로 세워진 박스 셋을 만드는 것이다.

그림 1. 웨이모 모션 데이터셋 샘플 중 싸이클리스트 3차원 데이터 [출처: 깃허브] 그림 2. 웨이모의 2021년 챌린지 소개 [출처: 웨이모]

리프트는 2019년 ‘레벨(Level) 5’라는 자율주행을 위한 데이터셋을 공개했다.3)여기에는 사람이 손으로 레이블링한 5만5,000개 이상의 3차원 프레임, 7개의 카메라와 최대 3개의 라이더에서 얻은 데이터, 주행 가능한 도로 표면 지도, 도로 차선, 횡단보도 등을 포함한 고해상도 공간 시맨틱 지도를 포함한다.

리프트가 생각하는 자율주행으로 가는 길은, 센서 입력과 지도를 통해 교통 에이전트를 탐지하는 인지 과정, 에이전트의 모션을 예측하는 모션 예측, 그리고 자율주행차가 선택하는 경로를 결정하는 경로 계획 과정으로 이뤄진다. 이에 따라 데이터셋을 인지 데이터셋과 예측 데이터셋으로 나눴다.

먼저 인지 데이터셋은 다양한 영역의 센서에서 얻는 원천 데이터로 다른 자동차, 보행자, 교통신호 등에 대한 것이며 리프트의 자율주행 차량에서 수집한 라이다와 카메라에 입력된 것을 모았다. 여기엔 130만 개의 3D 어노테이션, 3만 개의 라이다 포인트 클라우드, 60분에서 90분 동안의 정경을 담은 350개 이상의 씬 데이터가 있다.

그림 1. 웨이모 모션 데이터셋 샘플 중 싸이클리스트 3차원 데이터 [출처: 깃허브] 그림 3. 리프트 인지 데이터셋 샘플

이 데이터들은 모셔널(Motional)의 뉴씬즈(NuScenes) 데이터 포맷으로 제공된다. 이는 과거 작업과의 호환성을 보장하기 위한 것이며 리프트가 자체 커스터마이징한 뉴씬즈 개발 키트도 함께 제공하고 있다.

그림 1. 웨이모 모션 데이터셋 샘플 중 싸이클리스트 3차원 데이터 [출처: 깃허브] 그림 4. 뉴씬즈 데이터 스키마 [출처: 뉴씬즈]

리프트의 모션 예측 데이터셋은 자동차, 싸이클리스트, 보행자, 그 외의 교통 에이전트의 움직임에 대한 로그 데이터이다. 이는 자동차의 라이다, 카메라, 레이더 데이터를 인지 시스템을 통해 처리한 데이터이며, 모션 예측 모델을 학습하는데 활용할 수 있다. 여기에는 1천 시간 이상의 교통 에이전트의 움직임, 23개의 차량에서 수집한 16,000 마일의 데이터, 15,000개의 시맨틱 맵 어노테이션을 포함하고 있다. 이를 종합하면 17만 개의 씬으로 구성되어 있는 것이며 각 씬은 주어진 특정 시간에 차량 주변 상황 상태를 인코딩한 것이다. 데이터셋은 자르(zarr) 포맷4) 으로 제공하며 이를 읽기 위한 파이썬 소프트웨어 키트도 제공한다.

리프트는 2019년 11월부터 1년 동안 총상금 2만5,000달러를 걸고 3D 개체 탐지를 위한 캐글 챌린지도 열었는데, 여기에 546개 팀이 참여했다. 우승자는 NeurlPS 2019에서 챌린지 수상작을 발표했다. 당시 라이다, 이미지, 맵 등의 데이터 파일을 제공했다. 2020년 11월에는 모션 예측 모델을 위한 캐글 챌린지를 총상금 3만 달러를 걸고 진행했으며 이때는 945개 팀이 참여했다.

그림 1. 웨이모 모션 데이터셋 샘플 중 싸이클리스트 3차원 데이터 [출처: 깃허브] 그림 5. 리프트 예측 데이터셋 샘플

일반에게 공개한 자율주행을 위한 대규모 데이터셋 중 하나는 앞에서 언급한 뉴씬즈 데이터셋이다. 2019년 3월 모셔널 팀이 공개한 것으로, 미국 보스턴과 싱가포르에서 수진한 1,000개의 운전 장면을 모았으며 매우 복잡하고 도전적인 운전 환경을 담았다. 수동으로 선정한 20초 길이의 씬은 각각 다양하고 흥미로운 운전 과정, 교통 상황, 예측하지 못한 행동을 보여주기 위해 선택했다.

개체 탐지와 트래킹을 위해 23개의 개체 클래스로 어노테이션했으며, 각각 3D 바운딩 박스로 표현했다. 전체 데이터셋은 140만 개의 카메라 이미지, 3만9,000개의 라이다 데이터, 140만 개의 레이더 데이터, 4만 개의 키 프레임 안에 140만 개의 개체 바운딩 박스로 이뤄졌다. 추가적으로 맵 데이터, 원천 센서 데이터 등도 공개할 예정이다. 2019년 CVPR에서 이 데이터셋으로 3D 탐지 챌린지를 연 적이 있다.

2020년 7월 뉴씬즈-라이다세그(nuScenes-lidarseg)라는 데이터가 공개됐고, 여기엔 각 키프레임에서 각 라이다 포인트를 어노테이션했으며 32개의 가능한 시맨틱 레이블을 붙였다. 결과적으로 이 데이터셋은 140억 개의 어노테이션된 포인트를 포함하며, 4만 개의 포인트 클라우드와 1,000개의 씬(850개는 학습과 검증, 150개의 테스트용)으로 구성된다.

자율주행과 교통 분야에 사용돼 온 데이터셋으로는 아스틱스(Astyx) HiRes2019, 구글의 랜드막스(Landmarks), KITTI 데이터셋, 판다세(Pandset) 등이 있다. 카메라 기반의 개체 탐지를 위한 시티스케이프(Cityscapes), 매필러리 비스타스(Mappillary Vistas), 아폴로스케입스(Apolloscapes), 버클리 딥 드라이드(Deep Drive) 등의 데이터셋도 있다.

자율주행을 직접적으로 언급하고 있지는 않지만 교통 영역에서 인공지능 개발을 위해 활용할 수 있는 다양한 데이터셋도 존재한다. 주로 일반 교통 환경이나 도시별 대중교통과 관련한 데이터, 우버와 같은 라이드 공유 데이터 등 추가적인 데이터셋으로 활용할 수 있다.

2018년 네이처의 ‘사이언티픽 데이터’이 발행한 논문에서는 25개 도시의 대중교통 네트워크의 데이터셋을 소개했다.6)유럽의 주요 도시와 호주의 도시들을 주로 포함하고 있으며, 미국 디트로이트와 캐나다 위니펙도 포함하고 있었다. 이 데이터들은 모두 ‘일반 교통 피드 명세(GTFS: General Transit Feed Specification)’라는 표준 오픈 포맷으로 공개하고 있다. 각 도시의 교통 당국이 공개한 경로와 일정 데이터가 담기며 STFS 피드를 구성하는 CSV 텍스트 파일로 제공된다.

논문의 저자들은 전 세계 25개의 도시에서 관련된 GTFS 피드를 다운로드해 이를 데이터베이스로 저장하고 다중의 소스에서 나온 피드를 합치기도 했다. 정류장마다 GTFS 데이터가 이동 시간에 대한 정보를 다 갖고 있지 않기 때문에 이를 다시 정류장 간 거리로 강화했다. 이때는 ‘오픈스트리트맵(OpenStreetMap)’ 프로젝트를 통해 길에 대한 네트워크를 활용했다. 이 데이터셋은 대중교통 네트워크 분석이나 라우팅 알고리즘 계산 방식을 개발하기 위한 테스트 베드로 사용할 수 있다.

그림 1. 웨이모 모션 데이터셋 샘플 중 싸이클리스트 3차원 데이터 [출처: 깃허브] 그림 6. 도시 하나에 대해서 데이터 처리를 위한 파이프라인

한편 우버는 ‘우버 무브먼트’라는 이름으로 사람들의 이동 경로 패턴을 공개하고 있다. 2020년 7월에는 뉴 모빌리티 히트 맵을 통해 8개 도시의 점프 바이크와 스쿠터(킥보드) 움직임을 보여줬다.

그림 1. 웨이모 모션 데이터셋 샘플 중 싸이클리스트 3차원 데이터 [출처: 깃허브] 그림 7. 우버 무브먼트에서 보여주는 샌프란시스코의 바이크 사용 패턴 [출처: 우버]

도시의 모빌리티 사용 현황도 볼 수 있으면서 향후 도시 교통 계획을 수립할 때 매우 중요한 자료가 될 수 있는 데이터다. 우버는 전 세계 55개 도시의 우버 사용 패턴을 찾아볼 수 있는 무브먼트 페이지도 만들어 공개하고 있다.

캐글에서 교통 분야의 데이터셋 중 규모가 큰 것으로는 약 225개가 존재하는데, 자동차 이미지 데이터, 합성한 번호판 데이터, 각 도시 교통 데이터, 항공편 데이터, 교통 사고 데이터 등 다양한 유형의 데이터셋이 공개돼 있다. 국내 공공데이터 포털에서는 여러 가지 교통 관련 데이터를 공개하고 있는데, 이를 인공지능 학습을 위한 데이터로 전환하기 위해서는 또 다른 자원의 투입이 필요하다.

Reference

지난 웹진 보기

이전호 더보기