기고 II

슈퍼브AI 스위트(Suite)

이현동 코파운더 (Superb AI)

스위트(Suite)란?


 Superb AI의 스위트(Suite)는 머신러닝 데이터를 구축, 관리, 분석하는 플랫폼이자 협업 도구이다. 현재 50개가 넘는 인공지능 개발사 및 데이터 라벨링 기업이 활용하고 있으며, Superb AI도 스위트(Suite)를 이용해 다양한 데이터 구축 사업을 수행해왔다.

스위트(Suite)는 단순한 데이터 라벨링 도구 이상의 MLOps 플랫폼을 지향하고 있다. MLOps란 머신러닝 개발과 운영에서의 통합, 효율을 추구하는 접근법을 의미한다. SW 개발에서 데브옵스(DevOps)를 추구하듯이, 인공지능 개발에서의 통합과 효율을 추구하는 것이다. 대부분의 MLOps 플랫폼이나 도구들은 인공지능 모델 학습이나 배포/운영에서의 효율에 집중하고 있지만, Superb AI 스위트(Suite)는 데이터 구축, 관리, 분석에서의 효율로 MLOps를 추구하는 플랫폼이라고 할 수 있다. 이를 위해, 인공지능 개발을 위한 데이터 작업을 면밀히 분석하고 체계화한 다음 기술적으로 효용화와 자동화할 수 있는 부분들을 찾아내고 워크플로우를 매끄럽게 연동하는 다양한 기능을 개발하여 제공하고 있다.



개발과정과 Superb AI 스위트(Suite)의 역할
<그림 .1 AI 개발과정과 Superb AI 스위트(Suite)의 역할 >

Superb AI 스위트(Suite)의 오토라벨링


 스위트(Suite)의 오토라벨링 기술은 데이터 작업에 자동화가 적용된 대표적인 사례이다. 2020년 8월에 미국 특허 출원이 완료된 <슈퍼브 오토라벨링>은 데이터 라벨링 작업을 최대 10배 효율적으로 수행하도록 돕는다. Superb AI의 오토라벨링은 객체를 탐색, 발견한 후 무엇인지 인지하여 형상을 검출하고 라벨을 다는 작업을 자동화하는 단계, 자동화한 라벨링 작업의 난이도를 계산하여 사람에게 검수를 요청하는 단계로 작동한다. 오토라벨링 인공지능의 성능이 사람보다 높거나 비슷한 수준이라면 오토라벨링의 작업의 결과를 전적으로 믿고 사용할 수 있겠으나, 현실적으로 그렇지는 않다. 이에 인공지능이 자신이 라벨링 한 결과 각각에 대해, 얼마나 어렵고 까다로웠는지를 스스로 평가하는 기술(Uncertainty Estimation)을 검수에 활용한다. 자사의 실험 결과, 라벨링 작업 자동화 단계에서는 최대 6배의 효율을, 검수 자동화까지 수행한 경우는 최대 10배의 효율이 가능했다.



Superb AI 스위트(Suite) 오토라벨링 작동 방식
<그림 2 Superb AI 스위트(Suite) 오토라벨링 작동 방식>



Superb AI 오토라벨링 기술의 효과
<그림 3 Superb AI 오토라벨링 기술의 효과 >

8월에 출원한 5건의 특허는 <슈퍼브 오토라벨링>의 기능을 구현하는 핵심 기술을 포함하고 있는데, 앞서 언급한 Uncertainty Estimation 기술, 이 중에서도 상황에 따라 어떤 접근법을 취할지를 스스로 결정할 수 있는 방법, 이미지 카테고리 분류와 같은 단순한 라벨링 이상으로 bounding box, Polygon Segmentation 작업과 같은 현실 라벨링 작업을 수행할 수 있는 기술, 100가지 이상의 개체를 검출하고 분류하고자 할 때에도 정확도를 향상시킬 수 있는 방법 등을 포함하고 있다.

스위트(Suite)를 활용하는 기업들은?


Superb AI가 참여하는 데이터 구축 작업에서는 스위트(Suite)를 적극 활용하고 있다. 또한 자사 외에도 현재까지 50개가 넘는 기업들을 고객으로 유치한 바 있다. 분야는 다양하다. 자율주행, CCTV, 사람 행동 인식, 항공 위성, 의료 AI, 모바일 AI, 물리 보안, 커머스 등이 여기에 해당된다. 국내 기업도 있고, 해외 기업도 있다.

스위트(Suite)를 활용했던 한국어 이미지
OCR 구축 프로젝트


Superb AI는 2019년 [한국어 OCR 데이터 구축]과제를 수행했다. 한글은 언어 특성상 전체 알파벳에 대한 데이터를 수집하기 어렵다는 특성이 있다. 영어 알파벳은 총 26자인 반면, 한글은 초성, 중성, 종성을 조합할 경우 11,172자의 한글 음절 조합이 가능하기 때문이다. 또한 5언 9품사 등의 문법에 따라 사용되는 방식이 다양한데, 사용되는 상황에 따라 표기되는 형태(글자, 단어, 문장 등)가 달라서 데이터 구축의 복잡도가 높을 수 밖에 없다. Superb AI는 활용도가 높은 데이터 셋을 구축하기 위해 일상 생활에서 사용되는 모든 형태의 한글을 수집할 수 있도록 노력했다. 조합 가능한 현대 한글 11,172자, 국립국어원이 선정한 한국인이 가장 많이 사용하는 단어, 뉴스 스크립트 문장에 빈번하게 등장하는 한글 등을 손글씨, 인쇄체, Text in the Wild로 수집하였다. 손글씨의 경우 다양한 연령대의 남녀 260명을 선발하여 지정된 글자, 단어, 문장을 직접 쓰는 방식으로 총 250만자(최종 370만자)를 목표로 수집하였고, 인쇄체는 공공, 상업 분야에서 가장 많이 쓰이는 인쇄체 폰트 51개를 선정하여 250만자(최종 280만자)를 목표로 데이터를 제작했고, 이미지 처리 증강기법을 활용하여 약 840만자의 인쇄체 데이터를 추가 구축했다. 실외환경에서 쉽게 볼 수 있는 도로표지판, 번호판, 간판, 상표, 도서 표지 등 Text in the Wild 데이터를 10만장(한글 기준 약 170만자)도 포함되었다.

이 과정에서 300명이 넘는 작업자가 28주 동안 Superb AI 스위트(Suite)를 활용해서 데이터 수집 단계부터 가공 후 검수 단계까지 전체 업무 프로세스를 진행했다. 작업자들 간의 즉각적인 피드백과 협업을 통해 데이터의 품질을 끌어올릴 수 있었고, 품질 정확도 평가에서 99.3%(자체 모델 테스트 결과)를 달성했다. 2019년 Superb AI는 고품질 데이터 구축으로 한국정보화진흥원으로부터 공로상을 받은 바 있다.

항공 위성 데이터 구축 과제



Superb AI 스위트(Suite)로 한국어 OCR 데이터 구축시 협업하는 모습
<그림 4 Superb AI 스위트(Suite)로 한국어 OCR 데이터 구축시 협업하는 모습>

항공우주연구를 담당하는  KARI (Korea Aerospace Research institute), 한국의 위성영상 전문AI기업인 SIA (Satrec Initiavie Analytics), SIIS (Satellite Imaging Service)가 함께한다. SIIS에서 전 세계에 있는 위성영상, 즉 원천데이터를 확보하면, Superb AI가 스위트(Suite)를 활용하여 반자동으로 가공/검수하는 구조이며 이렇게 구축된 데이터를 기반으로 SIA, KARI가 위성영상을 자동으로 판독하는 AI 모델을 만드는 형태로 진행된다. 대한민국에서 하늘과 우주에 적용 가능한 AI 기술을 개발함으로써 재난 재해 발생에 대한 예측, 도로검출/차량 검출을 통한 지역 교통량 추산, 특정 지역에 대한 시계열 변화 확인 등의 서비스로 국민 경제 발전과 국민 생활의 질 향상에 기여하고자 한다.

Superb AI 스위트(Suite)가 나아갈 방향


 Superb AI는 인공지능 개발의 실제적인 병목인 데이터 문제를 해결하기 위해 설립된 기업이다. 이전 10년은 SW분야가 급격히 팽창하면서 모든 산업 분양의 혁신을 주도하였지만, 향후 10년은 머신러닝이 이 역할을 이어받을 것이고, 결국 인공지능 개발의 효율화가 비즈니스의 효율을 결정하게 될 것이다. 때문에 아직은 초창기이지만, 머신러닝 개발에서도 DevOps(데브옵스)와 같은 접근법, 즉 MLOps가 더욱 중요해지는 이유이다. Superb AI 스위트(Suite)는 머신러닝 엔지니어들이 비즈니스 상황에 맞는 인공지능 개발에 집중할 수 있게 도와주고, 서비스에서 발생하는 데이터를 효율적으로 활용할 수 있게 도와 인공지능 개발 과정의 통합, 효율, 자동화를 이끌어나갈 것이다. 작업 분배, 모니터링, 라벨러 평가, 태그 작업, 데이터 분석 등, 나머지 과정들에도 적합한 AI 기술을 개발, 적용하는 한편, 오토라벨링 등 기존에 개발된 기술도 계속해서 고도화하여, 글로벌 시장에서의 경쟁력을 확보해 나가 한국의 인공지능 데이터 분야에 기여하고자 한다.

이전글 공유 다음글 목록