AI·DATA 人터뷰

AI·DATA 웹진 전문가 인터뷰

이경일 대표(솔트룩스)

AI 시스템의 피지컬에 있어 기계학습과 자연어 처리에 관한 기술적 노하우는 이제 AI 기업의 주요 경쟁력을 좌우하는 핵심으로 여겨지고 있다. 이미 지난 2000년부터 이 분야 원천기술 확보에 중점을 두고 고군분투해온 (주)솔트룩스 이경일 대표를 만나, 액티브 러닝 기술을 기반으로 한 신시장 개척에 관한 구상 및 최근 베타 버전을 공개한 <AI 클라우드 서비스>에 대한 소개를 들어보았다.

Q1

심층질의응답 기반 대화형 인공지능 시스템 구현을 위해 어떠한 연구개발 과정을 거치셨나요?


이경일 대표01

심층질의응답 기반 대화형 인공지능 기술은 세계적 수준의 2가지 핵심 원천기술 중 하나이다. 이 기술은 기술성 평가에서 더블A, A라는 최고 등급을 받았으며 인공지능이 사람의 말과 글을 이해해서 사람과 대화할 수 있는 기술이다. 주로 AI 콜센터, 스피커, 전문 챗봇, RPA 연계 등의 분야에 사용된다.

솔트룩스의 고객사 중 국내 한 은행은 콜센터에 인공지능 상담 어시스턴트를 도입했다. 인공지능이 음성인식을 통해 콜센터에 근무하는 상담원 1,000명 이상의 대화를 실시간으로 듣고, 답변 정보와 상담 가이드라인을 제공하는 시스템이다.

해당 시스템 도입 전에 고객사로부터 상품정보, 상담 이력, FAQ 등의 인공지능이 학습 가능한 데이터를 공유받았다. 이를 통해 기존의 내부 지식관리시스템(KMS)을 인공지능이 결합한 지능형 지식관리시스템으로 변경하고 심층 질의응답이 가능한 시스템으로 고도화했다.

인공지능 기반 고객 상담과 질의응답 시스템 구현을 위해서는 기계가 사람의 말을 알아듣는 게 상당히 중요하다. 음성인식 엔진의 성능을 높이기 위한 최근의 기술적인 흐름은 액티브 러닝(Active Learning)이 적용된 3세대 음성인식 기술에 관한 연구개발이다. 간단한 기계학습이나 시그널 분석을 활용한 1세대, 딥러닝 기술을 적용한 2세대에서 이제 액티브 러닝을 적용한 3세대까지 발전되어가는 추세인 것이다.

액티브 러닝은 음성인식 외에 영상인식, 자연어처리 등 거의 모든 기계학습에 사용된다. 액티브 러닝 기술의 핵심은 어떤 오디오 데이터를 먼저 선별(레이블링)해서 음성인식기를 학습하게 할 것인지에 있다. 이러한 기술을 통해 인공지능이 전체 1/3 수준의 데이터만으로도 학습할 수 있는 스몰 데이터 러닝(Small-Data Learning)이 가능해 비용과 시간을 70% 이상 절감할 수 있으며, 음성인식 엔진의 음향모델을 최적화하는 것이 가능하다.

액티브 러닝 기술이 적용된 음성인식 엔진을 도입할 경우 품질은 높아지고 음성인식 엔진 업그레이드 비용은 크게 절감되어, 최대 1/5 수준의 비용 절감효과를 기대할 수 있다.

Q2

데이터셋 구축을 돕기 위한 솔트룩스의 기술의 특장점은 무엇인가요?


솔트룩스는 지난 20여 년간 약 1,800만 종의 사전, 약 500만 종의 대역사전 구축 등 다양한 데이터 구축사업을 수행한 경험이 있다. 특히 국립국어원 말뭉치 구축사업 경험이 있는 전담 조직을 보유하고 있으며, 데이터 수집 및 구축 단계별 품질 검수와 관리를 지원하는 다양한 도구 및 품질 검증 체계를 확보했다.

이렇게 확보된 데이터셋을 통해 구축된 솔트룩스의 인공지능 모델(언어모델 BERT와 음성인식 STT 등)로 품질 및 활용 검증을 진행한다. 솔트룩스는 인공지능이 학습할 수 있는 고품질, 고순도의 학습 데이터 확보를 위한 기술적 경험과 노하우를 보유하고 있다.

특히 데이터 큐레이션 과정에선 높은 품질 정확도와 기계학습 비용을 낮추기 위해, 인간이 함께하는 방법(human in the loop)과 레이블 없는 대규모 데이터셋을 기계학습 데이터로 구축하는 방법(Active Learning) 등을 모두 사용하고 있다.

Q3

솔트룩스에서 강조하고 있는 데이터 학습과 지식 기반 추론을 결합한 <앙상블 AI>는 구체적으로 무엇을 말하나요?


이경일 대표02

쉽게 설명하자면, 인공지능 자체가 인간의 두뇌 기능과 닮게 하자는 의미로 요약할 수 있다. 논리 분석을 담당하는 좌뇌의 기능과 문제 해결을 담당하는 우뇌의 기능을 통합한 것을 <앙상블 AI(Ensemble AI, Neuro-Symbolic)>라 명명한 것이다.

예를 들어 ‘목이 마르다’라는 상대의 말이 들릴 경우, 화자가 말한 내용을 분석하는 건 좌뇌, 그러한 분석을 통해 물을 건네는 해결방법을 떠올리는 건 우뇌의 역할이다. 따라서 좌뇌, 우뇌의 이 두 기능을 통합해 최대한 인간과 닮은 해답을 내놓는 인공지능이란 의미에서 앙상블 AI라 부르고 있다.

솔트룩스 챗봇은 지식 그래프로 구성된 지식 베이스와 추론 기반의 심층 의미 이해 기술, 사용자 의도 이해를 위한 딥러닝 기술 등이 모두 결합해 있다. 복잡한 고객의 질문 의도를 이해하고 자동으로 답변을 생성해내는 심층 질의응답(Deep QA) 엔진이 내장되어 있어, 기존과 다른 완전히 새롭고 혁신적인 대화 시스템이다.

Q4

최근 베타 버전으로 공개하신 <AI 클라우드 서비스>의 기능에는 어떤 것들이 있나요?


솔트룩스의 <AI 클라우드 서비스>는 쿠버네티스와 컨테이너테이너(도커) 기반의 AI 서비스, 커스텀 모델 배포, 관리 체계를 제공하고 있다. 자연어 처리, 음성인식, 음성합성, 얼굴인식, 챗봇, 지식 그래프 등 6가지 영역(분석, 언어, 음성, 시각, 감성, QA/대화), 40개 이상의 인공지능 기능을 제공한다.

<무료 Open APIs 서비스>는 자체 IaaS를 사용하고 있으며, 커스텀 및 온 디맨드 AI 서비스는 사용자(개발자)가 솔트룩스의 IaaS 혹은 마이크로소프트의 애저, 아마존(AWS)의 운영 정책과 가격 등에 따라 선택할 수 있다. 또 필요에 따라서는 여러 IaaS를 연결 융합해서 사용, 확장할 수도 있다.

‘AI as a Service(AIaaS)’는 AI를 클라우드에 구현해서 제공하는 서비스이다. AIaaS에서는 봇, 인지 컴퓨팅 API, 머신러닝 프레임워크 등을 지원한다. 원천 기술이 없는 기업은 여기서 자연어 처리, 음성 합성, 이미지 인식 기술 등을 사용할 수 있으며, AI 전문가가 아닌 개발자도 이를 사용해서 챗봇, 디지털 비서 등 AI 서비스를 만들 수 있다. 원하는 기간에 필요한 기능을 골라서 사용하므로 기업의 AI 혁신 비용을 낮추는 데 도움이 될 수 있다.

현재 시장에는 아마존웹서비스(AWS), 마이크로소프트, 구글, IBM, 네이버, 솔트룩스 등이 AIaaS를 운영하고 있다. 최근 솔트룩스는 ‘솔트룩스 AI 클라우드’라는 이름으로 AIaaS를 대폭 개편했다. 이는 오픈 APIs 기반 AiaaS를 넘어 커스텀(맞춤형), 온디맨드(주문형) 기능을 강화한 게 특징이며 고객이 필요에 부합하는 맞춤형 AI 기술을 이용할 수 있으며 원하는 기능이 없으면 이를 주문해서 AI 기술을 제공받을 수 있다.

회원가입만 하면 무료 서비스를 이용할 수 있으며, 필요에 따라 유료 AI 서비스를 월정액 요금제로 이용할 수 있다. 유료 서비스는 3가지로 속도와 안정성이 중요한 경우 전용 AI 서비스 환경을 제공하는 ‘업그레이드’, 내가 보유한 데이터를 활용해서 맞춤학습이 가능한 ‘커스텀’, 원하는 서비스가 없는 경우 맞춤 데이터와 최적의 알고리즘이 주문형으로 제공되는 ‘온디맨드’ 서비스로 구성되어 있다.

솔트룩스의 서비스를 이용하고 있는 국내의 한 대기업 자동차 회사의 경우, 북미와 중국 시장 전체에 고객과 잠재고객, 경쟁사, 경쟁사의 파트너사, 경쟁사의 고객과 관련된 모든 버즈 데이터를 수집하고 있다. 또 주요 애널리스트의 보고서와 뉴스까지 수집하고 있다.

경쟁사 상황, 신차에 대한 고객 반응 등 총 3천 곳 이상의 데이터 소스를 기반으로 하루 수십만에서 백만 건 이상의 정보를 수집하고, 이렇게 수집된 정보를 바탕으로 분석된 결과를 마케팅과 전략 수립 등에 활용 중이다. 특허논문 수집과 신기술 동향 분석 등에 <AI 클라우드 서비스>를 활용하고 있는 또 다른 국내의 대기업 전자회사의 경우, 사업전략 구축과 R&D 진행에 적극적으로 활용하고 있다.

<AI 클라우드 서비스>의 해당 사이트(https://saltlux.ai/portal/main)에 접속하면, 소셜 로그인을 통해 곧바로 무료 버전부터 사용해 볼 수 있다.

Q5

앞으로 우리나라에서 확보해야 하는 데이터셋은 무엇이라고 생각하시나요?


대한민국은 수출 주도 국가로 사실상 내수로는 경제구조를 유지하기 어렵다는 약점을 가지고 있다. 특히 비대면 원격진료가 불가능한 국내 환경은 헬스케어 산업의 한계를 형성하고 있다.

또 데이터 확보 시 개인정보 유출 방지에 대한 완벽한 대비책을 마련해 가야겠지만, 얼굴인식 데이터를 활용한 안전산업의 경우 이미 우리보다 한참 앞서나가는 중국을 따라잡기 위해서라도 각종 규제완화에 대한 국민적 합의가 필요한 시점이다.

이러한 한계 등을 염두에 두고 우리가 발전시켜가야 하는 데이터셋 분야와 관련 과제 등을 나열해보자면, ‘제조업의 지능화, 마케팅 시장의 경쟁 데이터 확보, 행복한 국가와 안전한 국민’이라는 세 가지 화두를 제시하고 싶다.

국내 제조업 관련 데이터는 매우 취약하다. 제조업의 데이터 확보 및 구축을 위해 스마트 팩토리에 대한 인식확산이 필요하고, 제조업 데이터 및 인프라를 재활용할 수 있는 튼튼한 체계가 필요하다.

마케팅 시장에서의 경쟁 데이터 확보는 이미 글로벌 트렌드로 인식되고 있다. 경쟁사 분석, 투자 분석, 리스크 요소 관리 등이 바로 그것인데, 치열한 국제시장에서 살아남으려면 이 같은 데이터 수집과 분석, 관리는 기업을 운영하는 데에 필수사항이라 명심할 필요가 있다.

끝으로 행복한 국가, 안전한 국민을 만들기 위해선 현재 상당 부분 불법으로 묶여 있는 의료 데이터가 개인정보 침해를 최소화한 기준 아래 산업에 쓰일 수 있도록 개방되는 것이 바람직하다. 이를 통해 헬스케어, 메디컬 비즈니스 분야의 발전을 적극적으로 장려해야 하고, 국가 안보와 국민의 권리가 과도하게 훼손되지 않는 선에서 중국의 얼굴 데이터 활용 정책을 벤치마킹해 관련 데이터셋 투자에 관심을 기울여야 한다.

Q6

솔트룩스의 역할과 향후 계획에 대해 말씀 부탁드립니다.


이경일 대표03

솔트룩스가 이번에 소프트 AI 기업 최초로 기술 상장을 했다는 데에 큰 자긍심을 갖는다. 이를 기반 삼아 앞으로 ‘시장을 선도하는 리딩 기업’, 퍼스트 무버로써의 역할을 잘 수행해 나아가려 한다.

향후 3년 이내 비즈니스 모델로는 일본, 미국, 동남아 등을 대상으로 빅데이터 분석, 대화형 AI 개발, AI 관련 클라우드 서비스 강화에 나설 계획이며, 명실공히 글로벌 클라우드 서비스 기업으로 성장하는 것이 목표이다.

더불어 국내 AI 생태계 활성화를 위해 현재 유망 기업 발굴도 꾸준히 진행 중이다. 현재 30여 개의 파트너를 두고 있는 솔트룩스는 이미 이 가운데 9개 기업에 직접 투자를 진행한 바 있으며, 올해 3~4개 기업에 추가 투자할 계획이다.

사업 계획에 따르면 현재 3개인 자회사도 연내 15개로 늘어날 예정이며, 무엇보다 AI가 다방면에서 활용될 수 있도록 산업기반을 조성하는 데에 최선을 다할 계획이다.

이전글 공유 다음글 목록