AI·DATA 人터뷰

AI DATA 웹진 전문가 인터뷰 - KB국민은행 윤진수 전무

윤진수 전무(KB국민은행)

인터넷의 폭발적인 보급과 금융 자유화의 흐름에 따라 AI의 기업 활용이 확대되고 있다. 금융업계도 예외는 아니어서 리스크 평가 금융시장 분석조사 투자 포트폴리오 관리 등에서 AI 활용에 대한 기대가 커지고 있다. 딥러닝에 의한 자연어 처리 등의 이용 확대에 의해 글로벌 기업은 시장분석 등의 고도화, 고속화, 무인화를 추진하고 있다. 또한 앞으로 모바일 단말에서의 AI 활용 등을 통해 AI는 개인용 파이낸셜 어드바이저로서 고객 가치를 향상시키는 등 고객 접점의 개선 수단으로 활용이 확대될 것으로 예상된다. 지난 6월, KB국민은행은 어려운 금융 언어를 이해하고 분석할 수 있는 금융에 특화된 한글 자연어 학습 모델인 'KB 알버트(ALBERT)'를 개발했다고 밝혀 업계의 관심을 모았다. 이번 호에서는 KB 알버트를 개발한 데이터 전략 본부의 윤진수 전무를 만나보았다.


Q1.

KB 알버트(ALBERT) 의 개발배경에 대해 설명 부탁드립니다.


윤진수 전무 사진


은행 내/ 외부적으로 활용 가능한 비정형 텍스트 양이 개개인이 습득, 선별, 이해, 해석할 수 있는 수준을 넘어섰고, KB국민은행에서 비정형 데이터를 활용한 다수의 프로젝트에서 중복투자 가능성이 상존했다. 추가적으로 뛰어난 사전학습모델들이 공개되고 있어도 데이터와 자금력 등이 부족한 스타트업과 연구소에서는 접근하기 어려운 현실적 장벽이 존재한다.

KB국민은행이 내부 인력을 통해 자체 개발하여 공개한 ‘KB ALBERT’는 금융특화 한글 자연어 학습모델로 특히 어려운 금융 전문용어가 많이 포함된 금융 관련 텍스트를 잘 이해할 수 있는 모델로 검색, 챗봇, 텍스트 분석, 키워드 추출 등 다양한 영역에서 활용이 예상된다.

알버트는 최근 비정형 텍스트를 처리하는 과업(Task)은 대부분 딥러닝 알고리듬과 대용량 데이터를 이용하여 미리 학습한 언어 모델인 PLM(Pre-trained Language Model)을 활용하는 형태로 발전하고 있다.1) 보다 쉽게 설명한다면, 기본 언어 능력이 더 뛰어난 사람(책을 많이 읽었던 사람)이 더 쉽게 새로운 언어 이해 관련 과업을 배우고 풀 수 있다는 접근 방법이라고 표현할 수 있다.


자연어 처리 트랜드
<그림 1. 자연어 처리 트랜드 (출처:https://github.com/KB-Bank-AI/KB-ALBERT-KO)>

하지만, 일반 사용자가 이러한 언어 모델을 학습하기에는 다음과 같은 제약이 있었다.

- 대용량의 학습 데이터 수집 및 정제 필요(빅데이터)
- 학습 알고리듬 구현 필요(모델 또는 알고리듬)
- 학습을 진행할 GPU 머신 등의 리소스 필요(하드웨어)

이러한 이유로 2018년부터 구글의 BERT, 페이스북의 RoBERTa, 오픈AI의 GPT 등 해외에서는 해당 연구를 선도하는 기업이나 단체에서 PLM을 통해 학습한 후 비영리 목적으로 공개하는 케이스가 많았다.

특히, 전문 분야 (의료 및 금융 등)의 자연언어 처리 분야는 처리하고자 하는 대상의 도메인에 많이 종속되게 된다. 일반적으로 언어 능력이 뛰어난 사람도 금융 용어나 의료 용어를 잘 모르기 때문에 해당 관련 과업을 쉽게 배우고 풀 수 없는 것과 같은 이치이다. 이러한 이유로, KB 금융 그룹에서는 금융 도메인에 특화된 PLM을 학습 / 제공하고자 했던 것이 주요 개발 배경이다.


금융 도메인에 특화된 모델
< 그림 2.금융 도메인에 특화된 모델 (출처:https://github.com/KB-Bank-AI/KB-ALBERT-KO)>
Q2.

KB 알버트(ALBERT) 특징에 대해 요약 부탁드립니다.


 첫째, 금융 도메인에 특화되었지만, 일반 도메인에 대해서도 잘 동작한다는 점이다. 금융 도메인과 관련된 문서를 추가적으로 학습하였고, 해당 도메인으로만 치우치지 않도록 일반 도메인의 학습 데이터도 많은 양을 사용했다. 어휘 규모를 보통 일반적으로 사용하는 32,000개 정도 보다 1.5배 이상 큰 50,000개 정도로 사용하여, 금융 도메인의 전문 용어들이 어휘군에서 버려지지 않도록 설계했다.

 둘째, “Word Piece Model” 2) 이전 단계에 어근/어미 분리를 진행하도록 추가한 점이다. 일반적으로 한글에 "Word Piece Model"을 바로 적용하는 것보다 형태소 분석 후에 적용하는 것이 성능이 더 좋지만, 보통 형태소 분석기의 경우 50여 개의 형태소 태그를 분류하기 위한 연산 오버로드와 형태소의 원형을 복원하기 위한 오버로드가 상당하기 때문에, 실제로 바이트 페어 인코딩(BPE)의 입력에는 해당 부분이 사용되지 않는다. 그래서 형태소 분석 말뭉치를 변형하여 간단히 어근과 어미만 분리(실제로는 명사와 동사 어근)하기 위한 말뭉치를 생성해 냈으며, 해당 말뭉치와 Conditional Random Field(CRF)를 이용하여 간단한 전처리기(어근 분리기)를 구현하여 Word Piece Model 이전에 적용하였으며, 그 결과 세종 말뭉치에 대해서 99.1%의 정확도를 보이고 있다.

 알버트 공개 이후 KB금융그룹 내 계열사는 물론 다양한 기업과 대학/연구소의 요청을 받아 제공하였다. KB ALBERT를 기반으로 하는 ‘비정형 텍스트 데이터 분석 플랫폼(KB-STA)’을 개발하여 내부 구성원들이 쉽게 텍스트 데이터를 분석할 수 있는 환경을 제공하려는 노력도 함께 하고 있다. 현재 은행 내부에 도입되었거나 예정인 10여 개의 기존 텍스트 관련 활용 과제들의 학습 모델도 ‘KB ALBERT’로의 교체를 검토 중이다.

자세한 내용은 KB 알버트 깃허브 https://github.com/KB-Bank-AI/KB-ALBERT-KO를 참조하면 된다.



Q3.

KB 내에서 데이터 전략 본부의 주요 역할을 한 마디로 표현한다면….


 데이터 전략 본부는 데이터 플랫폼의 구축에서부터 AI를 활용까지 데이터의 가치가 온전히 전달될 수 있도록 데이터의 시작과 끝의 전체 과정을 총괄하고 있다.

Q4.

학습에 사용한 데이터셋의 특징, 규모, 학습에 걸린 시간, 검증 등의 방법과 프로세스


 학습데이터는 위키, 뉴스, KB 내부 문서로 약 40GB 분량의 데이터를 사용하였으며, 특히 경제/금융특화 뉴스와 각종 리포트를 15GB를 포함하였다. 국내 최초의 구글 학습 공간 펀딩을 받아 GCP(Google Cloud Platform)에서 한 달 정도 학습을 진행하였다. 모델 성능 검증을 위하여 KorQuAD, 네이버 무비 감성 분류 데이터 셋, 자체 생성 금융 도메인 MRC(Machine Reading Comprehension) 데이터셋 등으로 Downstream Task Fine Tuning을 이용한 성능 검증을 수행하였다.

Q5.

개발과정에서 어려움이나 장애 요인(정책, 기술, 산업, 인식 측면 등)이 있다면 말씀 부탁드립니다.


 KB국민은행 내부에 텍스트 데이터가 체계적으로 관리되어 있지 않아, 수집/정제 과정에 상당한 시간을 소요하였다. 금융권에 적용되는 CSP(Cloud Service Provider) 안정성 평가 등 금융업과 관련된 클라우드 사용 규제를 준수하는 과정도 쉽지 않았다.

Q6.

구글 클라우드 및 메가존과 협력에 대한 이슈는 어떤 부분이고, 어떻게 협력하게 되셨는지 궁금합니다.


 구글 클라우드는 학습을 위한 클라우드 리소스 제공을, 메가존은 리소스의 세팅 관련 부분을 지원하였다.

Q7.

깃허브에 공개 (https://github.com/KB-Bank-AI/KB-ALBERT-KO) 된 버전은 0.1인데 향후 업그레이드 계획은? 샘플 데이터의 규모와 내용은? 더 많은 데이터를 공개할 계획은 있으신지요?


현재, 깃허브에 공개된 모델 상세 정보는 다음과 같다.

1. Architecture

- max_seq_length=512
- embedding_size=128
- hidden_size=768
- num_hidden_layers = 12
- vocab_size = 50,000

2. 학습 데이터 셋

일반 도메인 텍스트(위키 + 뉴스 등) : 약 25GB
금융 도메인 텍스트(경제/금융 특화 뉴스 + 리포트 등) : 약 15GB

SUB-TASK

도메인 테스크(데이터셋) Bert base multi-lingual KB-ALBERT
일반 감성분류(Naver) 0.888 0.91
일반 MRC(KorQuAD 1.0) 0.87 0.90
금융 MRC(자체) 0.77 0.89

 금융특화 한글 자연어 학습모델 ‘KB ALBERT’는 금융 분야 텍스트 데이터의 사전학습 모델로 지속해서 업그레이드를 진행할 예정이며, 향후 경량화와 성능향상을 위한 최신 알고리듬(ELECTRA 등)으로 업데이트할 계획을 가지고 있다. 공개한 금융 도메인 MRC(Machine Reading Comprehension) 데이터 200건 외에 추가적인 데이터 공개는 아직은 검토하고 있지 않다.

Q8.

KB스타뱅킹과 업무용 챗봇에 이용한다고 했는데, 도입 시기는 언제로 예상하고 계십니까?


 올해 연말을 목표로 진행하고 있으며, 적용 범위는 점진적으로 확장해 가려고 한다.

Q9.

금융소비자의 편의 제공이라는 측면에서, 기존 사례나 앞으로 나타날 서비스 사례는 어떤 것이 있을까요?


 KB국민은행 데이터 전략 본부에 합류하고 초기에 데이터 전략본부의 핵심 전략 방향을 명확히 하고 일관되게 지켜가고 있다. 데이터 전략 그룹의 3대 핵심 전략은 다음과 같다.
①은행 업무에 실질적인 도움을 줄 수 있는 기술을 지속 발전 가능한 형태로 사업에 적용한다.
②핵심 기술 내재화와 Open Innovation을 통해 업계 선도적 지위를 유지한다.
③외부 인재 확보와 내부 육성을 통해 조직 전체 역량 성장을 이끈다.

우리가 하는 일들은 궁극적으로 ‘고객과의 소통을 더 잘하기 위한 것’이다. 고객과의 소통을 위해서는 보고, 듣고, 말하는 영역의 기술이 핵심 이 될 것으로 예상한다. 이 영역들의 기술들을 조직에 내재화하고 플랫폼을 통해 전달하기 위해 데이터 전략 그룹의 역량을 집중할 계획이다.






1. PLM은 대량의 말뭉치(코퍼스)를 사전 학습 후에 각 과업에 따라서 세부 학습을 진행하는 모델을 말한다.
2. 단어를 한정적인 유닛으로 표현해 언어에 상관없이 토크나이징 하는 방식을 말한다


이전글 공유 다음글