AI·DATA 人터뷰

자율주행 인공지능 학습용 데이터
구축 현황 및 발전 방향

이용구 교수(광주과학기술원/인공지능 학습용 데이터 품질자문위원회 자율주행 분과위원장)

1. 품질자문위원회 자율주행 분과에 대한 간략한 소개 부탁드립니다.

품질자문위원회는 디지털 뉴딜 ‘데이터댐’의 핵심인 인공지능 학습용 데이터 구축사업을 성공적으로 추진하고, 이를 위한 핵심 관건인 품질관리를 위해 자연어, 헬스케어, 자율주행 등 분야별 전문가 및 활용 기업 등이 참여하는 전문적 품질검증 자문체계를 마련하기 위해 2020년 9월 22일 발족하였습니다. 제가 맡은 ‘자율주행’ 분과는 산업계에서 이미 세계적인 성과를 내고 있는 스트라드비젼, SOSLab, 서울로보틱스, SK텔레콤, LG전자, 현대자동차 등에서 모신 전문가와 서울과학기술대학교 등의 교수들이 주축이 되었습니다. 품질자문위원회의 일부 위원들은 같은 해 11월 발족한 기획위원회의 ‘교통・물류’ 분과에도 참여해 올해 3월 12일 공고된 2021년도 인공지능 학습용 데이터 구축 지원사업을 설계하였습니다.

이용구 교수님

2. 지금까지 우리가 구축한 자율주행 데이터셋에 대해 평가를 하신다면 어떻게 보시나요?
(데이터 품질, 데이터의 양, 종류 등의 기준)

우리가 구축한 ‘자율주행’ 데이터셋은 양 및 종류 측면에서 볼 때 세계에서 유래를 찾을 수 없을 만큼 거대합니다. Berkeley DeepDrive를 예로 들면 도로상 객체 탐지를 위해 10만 장의 이미지에 각 객체별로 박스를 그리고 객체의 종류를 표시했습니다. 우리의 데이터셋은 ‘20년 1차 사업(표1)의 ‘도로주행 영상’을 보면 20만 장을 목표로 제작됐고 ‘20년 2차 사업(표2)의 경우 100만 장 내외를, 그리고 2021년 사업은 180만 장을 내외를 목표로 하고 있어 점차 그 기대치가 상향되고 있습니다. 특이한 것은 자율주행이나 교통의 영역 외에도 관련 데이터셋이 많이 있기 때문에 사용자들은 이러한 점에 유의해 활용하길 바랍니다. 데이터의 품질은 아직 1차분도 대중에 공개되지 않고 있는 상황이라서 평가하기 어렵습니다. 품질자문위원회에서는 데이터셋을 직접적으로 검증하지 않고 데이터셋의 규격과 사업자의 품질관리체계를 문서로 검토하고 수정을 요청했습니다. 품질자문위의 활동이 사업자의 데이터 구축 작업과 동시에 진행돼 안타깝게도 결과 데이터셋의 품질에 대해서는 알지 못합니다. 사업 종료 후 이뤄졌을 과제 평가에서 정확한 상황을 알 수 있으리라 생각합니다. 지스트(GIST)는 다년간 정보통신기획평가원(IITP)의 지원으로 도로상 경찰관, 안전요원, 보행자를 중심으로 각종 표지, 신호기, 정류장 등에 대해 데이터셋을 구축했고 한국지능정보사회진흥원(이하 NIA)에서 추진한 공공데이터 공개 사업의 일환으로 이를 공개(https://www.data.go.kr/)한 바 있습니다. 지스트에서는 비용 절감을 위해 주로 인도 업체에 라벨링을 맡겨 왔는데 공공데이터 공개 사업으로 국내 업체들의 라벨링 작업도 일부 진행했습니다. 일반화하기는 어렵지만 연구원들의 의견에 따르면 국내 라벨링은 가격이 높지만 품질은 월등히 좋다고 합니다. 이는 국내 업체들의 품질관리 체계가 매우 잘 갖춰져 있는 것으로 보고 우리가 구축한 자율주행 데이터셋이 세계적으로 널리 알려진다면 좋은 반응을 보일 수 있을 것이라고 기대합니다.

<표1 : 20년 1차 사업>
번호 영역 과제명 데이터명 수행기관
1 자유 도로환경 파노라마 이미지 도로환경 파노라마 이미지 올포랜드
2 도로주행 영상 도로주행 영상 티큐에스코리아

<표2 : 20년 2차 사업>
번호 영역 과제명 데이터명 수행기관
1 자율주행 주행 환경 정적 객체 인지 차선, 횡단보도 인지 영상(수도권) 주식회사 라이드플럭스
2 차선, 횡단보도 인지 영상(광역시, 고속도로, 국도 등)
3 신호등, 도로표지판 인지 영상(수도권)
4 신호등, 도로표지판 인지 영상(광역시, 고속도로, 국도 등)
5 동적 객체 인지 주차장애물 인지 영상 주식회사 에이모
6 주차관련 이동체 인지 영상
7 차량, 사람 및 영상 인지 영상
8 도로상태 및 자율버스 주행 중 건물 촬영 이미지 건국대학교 산학협력단
9 도로장애물, 표면 인지영상(수도권)
10 도로장애물, 표면 인지영상(광역시, 고속도로, 국도 등)
11 자율주행버스 개발을 위한 노선 주행 이미지
12 안전 교통안전 교통문제 해결을 위한 CCTV 교통 데이터(고속도로) 라온피플 주식회사
13 교통문제 해결을 위한 CCTV 교통 데이터(시내도로)
14 졸음운전 예방을 위한 운전자 상태 정보(운전자 심박수, 얼굴 방향, 표정, 움직임, 눈꺼풀 상태 등) 영상 데이터
15 자동차 차종, 연식, 번호판 인식용 데이터
16 생활안전 어린이 보호구역 내 어린이 도로보행 위험행동 영상 데이터 주식회사 유니콤넷
17 기타 로봇관점 주행 영상 데이터 흥일기업(주)
18 자유 특수환경 자율주행 3D (주)솔트룩스
19 버스 승객 승하차 영상 (주)디텍씨큐리티

3. 2021년도에 계획한 교통 또는 자율주행 분야 데이터셋 구축 계획의 특징은 무엇인가요?

‘20년 2차 사업의 범위가 비교적 넓고 포괄적이라면, 올해 추진되는 2021년 사업의 경우 시각 센서 외에 라이다와 레이더 등의 센서 정보를 추가하고 또한 복수의 센서 데이터를 시간적으로 동기화하는 융합센서 데이터라는 것이 가장 큰 특징입니다. 이는 2차 사업에서도 있었지만 실제 자율주행차에서 중요한 멀티 데이터 융합을 통해 데이터의 오류를 필터링하고 위치 파악 및 객체 검출의 정확도를 높이는 데 크게 이바지할 것으로 기대합니다. 자율주행차에 국한하지 않고 현재의 교통 문제 해결에도 기여할 수 있는 교통사고, 과적차량, 도로 시설물 등 안전성 데이터셋도 많이 추가될 예정입니다.

4. 중장기적으로 우리가 자원을 더 투입하거나 강화해야 하는 데이터셋은 어떤 것들이 있을까요?

교통/물류의 로드맵을 수립할 때 계획을 세우는 것이 가장 어려웠습니다. NIA 인공지능 데이터 사업 로드맵에 따르면 2025년까지가 단기 계획이고 그 범위 내에서만 작업을 했습니다. 궁극적으로 2024년까지 비정형 일반 도로에서의 자율주행차 운행 서비스를 개시하도록 계획하고 있습니다. 그 다음으로 2025년에는 차가 이동 수단임과 동시에 인포테인먼트 그리고 쇼핑 플랫폼 서비스가 가능할 것으로 예측합니다. 자율주행차에 한정해 볼 때 당면한 문제는 검출기의 성능을 높이는 것입니다. 아직도 검출기의 오류로 인해 발생한 사고 관련 뉴스들이 나옵니다. 그 해법으로 데이터의 수집과 가공을 현재 각 과제별로 독립적으로 수행하는 사업 방식을 변경해 같은 수집 데이터에 함께 가공할 필요가 있습니다. 왜냐하면 현재 구축된 데이터셋은 어느 한 장면에서 사업이 관심을 갖지 않는 객체는 라벨링하지 않는 모순이 있기 때문입니다. 달리 말하면 신호등 사업자는 보행자를 라벨링하지 않습니다. 이 때 무엇이 문제냐면 신호등 데이터셋으로 학습한 검출기는 신호등에 대해서는 전문가이지만 보행자는 전혀 검출하지 못하는 일이 생기는 것입니다. 특히 하나의 검출기에 신호등과 보행자를 각각의 독립된 데이터셋으로 동시에 학습시키는 경우 문제는 더욱 심각해지는데, 그렇게 학습을 시키면 해당 검출기는 오로지 한 가지만 학습한 검출기보다 성능이 월등히 떨어지게 됩니다. 따라서 신호등과 검출기를 동시에 정확히 학습하게 하려면 두 개가 모두 함께 표기(라벨)된 데이터셋으로 학습해야 합니다.

5. 외국의 교통 관련 데이터셋 중 우리가 참고하거나 연구자들에게 중요한 의미를 갖는 데이터셋에는 무엇이 있을까요?

현재 가장 주목받는 데이터셋은 모셔널(Motional)1) 에서 만든 Nuscenes(https://www.nuscenes.org/)라는 자율주행차 데이터셋을 들 수 있습니다. 이 데이터셋은 23개의 객체가 동시에 라벨링 되어 있기 때문에 다양한 객체를 동시에 추적해야 하는 경우에 매우 적합합니다. Nuscenes는 약 9만 장의 라벨링된 이미지를 제공하는데 이 또한 현재 우리가 너무 많은 이미지 수를 구축하는 것이 아닌가 하는 의문을 갖게 합니다.

6. 국내에서 교통/물류/자율주행 분야의 연구자들이 좀 더 깊이 있거나 좋은 성과를 내기 위해 앞으로 정부가 더 추진해야 할 사업이 있다면 어떤 기술 분야나 응용 영역일까요?

교통/물류/자율주행은 인공지능의 파급 효과가 매우 클 것으로 기대되는 분야입니다. 특히 테슬라의 선도적인 시장 개척 효과로 많은 추적자가 자율주행차에 관심을 갖고 뛰어들고 있습니다. 데이터셋은 한번 구축해 두면 끝나는 게 아니고 계속적으로 업데이트하는 노력을 지속해야 한다고 생각합니다. 가장 유명한 데이터셋 중 하나인 필기체 인식 데이터셋 ‘MNIST’는 미국 상공부 산하의 국립표준기술연구소에서 수집한 인구조사 문서와 고등학생들의 필기체 OCR(Optical character recognition)의 이미지를 재가공해 학습 네트워크 구조 실험에 알맞게 변경해 만들어졌듯이, 수차례에 걸쳐 만들어진 자율주행차 데이터셋을 재구성해 한국형 자율주행차 데이터셋을 만들면 연구 분야는 물론 산업계에서도 효율적으로 사용할 수 있게 될 것입니다. 현재 데이터셋이 식별자를 위해 만들어졌다면 차량 운전 지식을 학습할 수 있는 데이터셋을 만드는 것도 파급 효과가 클 것으로 생각됩니다. 자동차의 안전유리, 안전벨트, 붕괴식핸들구조(collapsible steering column)가 시민운동을 위시한 정부 주도의 규제에 의해 자동차에 장착됐듯이 자율주행차가 시장에 나온다면 안정성을 확보하기 위한 노력은 산업체에서 자구적으로 만들어지기보다 데이터셋에 대한 사회적 이해와 정부 주도의 안정성 확보 노력이 중요하다고 생각됩니다. 따라서 NIA에서 추진하는 자율주행 데이터셋이 안정성을 고려해 차후 미래교통 사회에서 보다 안전한 자율주행 시대를 열어 나가는 주요한 역할을 수행하기 바랍니다.

Reference
  • 1) 모셔널은 현대차가 미국 자율주행 기술 기업 앱티브(Aptiv)와 각각 20억달러(약 2조2000억원)를 투입해 지난 2019년 3월 설립한 합작사다. 모셔널은 오는 2022~2023년께 자율주행 택시 서비스인 로보택시를 선보일 계획이다.

지난 웹진 보기

이전호 더보기