COVER STORY

정부 지원 인공지능 데이터셋 구축의 기본 원칙

한상기 대표(테크프론티어)

질적으로 우수하고 양적으로 규모 있는 인공지능 데이터셋은 지금의 인공지능 패러다임에서는 핵심 자원이다. 여러 국가의 경우 경쟁력 있는 인공지능 학습용 데이터셋을 구축하는 것을 주요 과제 중 하나로 제시하고 있고, 우리나라도 마찬가지이다.

미국은 2019년 6월 발표한 국가 인공지능 연구개발 전략 플랜 업데이트1) 의 8개 전략 중 다섯 번째로 인공지능 학습과 테스팅을 위한 공유 가능한 공공 데이터셋과 환경 개발을 내세웠다.

여기에는 다양한 스펙트럼의 인공지능 응용 분야에 필요한 광범위하고 다각적 데이터셋을 개발하고 이를 접근 가능하게 해야 한다는 것과 산업계 및 공공 관심사에 대응하는 학습 및 검사용 자원을 구축하며, 오픈 소스 소프트웨어 라이브러리와 도구의 개발을 제안하고 있다.

유럽의 경우도 2020년 유럽 데이터 전략2) 을 통해 데이터에 대한 투자 강화와 전략 섹터 및 공공 이익을 위한 영역에서 공동의 데이터 공간 개발, 가치 높은 데이터의 개발을 요구하고 있다.

물론 미국이나 영어권은 이미 많은 인공지능 학습용 데이터셋이나 원천 데이터를 빅 테크 기업이나 주요 공공기관에서 공개하고 있기 때문에 기업이나 학계가 활용할 수 있는 데이터셋을 많이 보유하고 있는 것은 사실이다.

국내의 경우 아직 국내 환경에 적합한 의미 있거나 고품질의 데이터셋을 기업이 공개하는 수준이 매우 미흡하다. 그렇기 때문에 이를 기다릴 수 없어 정부의 지원으로 공개를 기반으로 하는 인공지능 학습용 데이터셋과 관련한 기술 도구의 개발을 유도하고 이를 적극 활용하는 정책을 추진할 수밖에 없다.

지금까지는 주로 수요 발굴에 의한 지원이 이루어졌으며, 이러한 상향 방식은 현실을 반영한다는 이점이 있으나 향후 전략적으로 필요하거나 관련 인력을 육성하는 기반을 만드는 데에는 부족한 측면이 있다.

이에 따라 좀 더 중장기적 전략에 기반하는 하향식 접근과 함께 데이터셋의 구축 방향을 재정립하는 것이 필요한 시점이다. 이런 관점에서 앞으로 정부 지원에 의한 인공지능 학습용 데이터셋을 선정할 때 가져야 하는 기준 또는 가이드라인을 제시하여 이를 기반으로 앞으로 지원할 데이터셋을 선정하는 기준과 원칙을 정립하는 것이 필요하다. 이에 대해서는 더 많은 토의가 필요하며, 이번 제안이 그런 원칙을 세우는 출발점이 되기를 바란다.

보편성 정부 지원에 의해 구축하는 데이터셋은 보편적으로 좀 더 넓은 범위의 산업에서 활용되거나 많은 연구자가 필요로 하는 데이터로 구성되어야 한다. 특정 산업, 특별한 영역에서 필요로 하는 데이터보다는 많은 활용 영역을 가질 수 있어야 한다. 이런 데이터셋은 기반 기술 개발에 필요한 언어, 음성, 이미지와 영상, 3D, 데이터와 같이 인공지능 연구에 기반이 되는 데이터셋이다. 이런 데이터셋은 해외에서도 많은 사례가 있지만 한국어 자연어와 음성 연구는 다른 나라에서 일반적 기술이 나온다고 해도 국내 응용 분야에서 제대로 적용하려면 고급 품질의 데이터가 필요하다. 이미지와 영상, 3D 데이터 역시 국내 환경을 반영하면서 넓은 영역에서 응용될 수 있는 범용의 데이터셋을 구축해야 한다.
국가 전략 산업에 핵심이 되는 데이터셋 정부가 국가 전략 차원에서 고도화하고 산업 경쟁력을 높이고자 하는 영역은 나라마다 다르다. 인공지능은 산업에 대한 임팩트가 매우 크며3), 향후 경쟁력을 창출하는 데 가장 중요한 기술 기반이 될 것이다. 따라서 우리나라의 전략 산업 분야에서 인공지능 응용을 촉진하기 위한 데이터셋은 전략 섹터의 데이터셋으로서 정부와 민간이 협력하여 개발하고 공개되어야 한다. 이를 공개하는 것은 전략 도메인에 대한 경험을 갖게 하여 필요한 전문 인력이 양성되도록 하기 위함이다.
해외 데이터셋과 차별성 우리가 구축하는 데이터셋은 해외에서 공개하는 데이터셋에서는 만들어 내지 않는 우리나라 고유의 특성을 담은 데이터셋이 될 수 있다. 또는 우리가 만드는 것이 더 품질이 높을 수 있는 데이터셋이거나 국내에서의 활용도가 해외보다 더 높은 데이터 영역이다. 보편성을 갖는 데이터에서도 언급한 한국어에 대한 다양한 데이터셋, 우리 사회에 존재하는 객체에 대한 2D/3D 이미지, 영상 자료, 문화 사료 데이터셋은 어느 나라보다 차별적으로 만들 수 있으며, 우리밖에 만들 수 없을 것이다.
공공의 가치를 가진 데이터셋 공공 영역에서 접하는 인공지능 응용 문제는 대부분 기업이 참여하지 않을 분야에 있다. 환경, 기후 변화, 질병 확산과 같은 공공 의료, 공교육 분야는 정부의 지원 없이 만들어지기 힘들다. 글로벌 기업에서 사회적 선을 위한 인공지능 개발을 지원하기도 하지만, 국내에 특화된 문제는 우리의 몫일 수 있다. 이를 위한 데이터셋은 공공의 이익을 위해 또는 공공 서비스 역량 강화를 위해 필요한 분야이다. 오염 수준, 그린 하우스 가스 배출, 지역별 에너지 소비, 미세 먼지, 홍수와 같은 재난 예측, 감염병 확산, 공교육에서 산출되는 데이터 등은 오랜 기간 동안 축적된 데이터를 국가 예산을 들여 구축하는 것이 필요하다.
시장의 불균형 해소를 위한 데이터셋 정부 지원에 의해 구축하는 데이터셋은 소수의 대기업보다는 중소기업이나 창업자들에게 더 혜택을 주는 데이터로 구성되어야 한다. 이는 EU에서 고가치 데이터를 정의할 때에도 적용하는 기준이다.4) 특히 많은 데이터가 주로 온라인 대기업이나 기존 대형 기업 내부에 존재하는 경우가 많아 이는 중소기업이나 스타트업이 경쟁하기에는 너무 큰 장벽이 될 수 있다. 이런 시장에서의 데이터 불균형을 해소하기 위해서는 대기업이 활용할 수 있는 데이터셋보다는 중소기업이 확보하기 어려운 영역의 데이터를 대상으로 구축하도록 지원하는 것이 필요하다. 통신, 금융, 상거래 데이터의 경우 대기업이 보유한 데이터에서 보다 공적으로 사용할 수 있거나 중소기업에도 높은 가치를 줄 수 있는 데이터를 중심으로 구축 지원해야 한다.
확장 가능성 데이터셋은 지속적으로 확대되고 진화되어야 한다. 그런 의미에서 정부의 지원으로 구축하는 데이터셋은 기업이나 연구계에서 품질을 지속적으로 향상시키거나 데이터 양을 확대할 수 있는 가능성이 높아야 한다. 데이터의 절대량이 적거나 더 이상 확장할 필요가 없는 수준의 데이터셋은 그 우선순위가 낮을 수밖에 없다.
관련 연구개발 그룹의 규모 데이터셋의 활용 가치가 높아지려면 이를 갖고 연구·개발하는 조직의 규모와 다양성, 연구 가치 수준에 대한 검토가 있어야 한다. 향후 미래 전략 섹터에 대해서는 인력 양성이 필요하지만, 그런 분야가 아닌 데이터셋은 관련 연구 집단이 많이 존재하도록 하는 것이 구축한 데이터셋의 가치를 높일 수 있다.

이 밖에도 여러 관점에서 정부 지원 데이터셋 구축 대상과 도메인을 선정하는 기준을 만들 수 있지만, 여기에 제시한 원칙에서 출발하여 보다 다양한 도메인 전문가와 협의하는 것이 앞으로 필요하다.

또한 이런 원칙을 지금 구축하고 있는 데이터셋에 적용하여 평가해 봄으로써 현재 데이터셋에 대한 선정이 올바로 되고 있는지 되돌아보고, 앞으로 구축하고자 하는 데이터셋에 적용 가능성이 있는지 평가해 볼 필요가 있다.

Reference
참고문헌

1.
National Science and Technology Council, “The National Artificial Intelligence Research and Development Strategic Plan: 2019 Update,” Jun 2019
2.
European Commission, “A European strategy for data,” Feb 22, 2020

3.
McKinsey Global Institute, “Notes from The AI Frontier: Modeling the Impact of Ai on the World Economy,” Sep 2018

4.
European Data Portal, “High-value datasets,” May 22, 2020

이전글 공유 다음글 목록