COVER STORY

금융 분야의 인공지능 데이터셋 현황

한상기 (테크프론티어 대표)

 금융 분야는 인공지능의 응용 대상 영역에서 매우 많은 기회를 보이는 분야이다. 대출을 위한 신용점수 평가, 개인 금융을 위한 다양한 지원 방안이나 지능형 비서, 사기 탐지, 컴플라이언스 대응 확인, 예측 분석, 자산 관리, 보험, 시장 분석 등 거의 모든 분야에 인공지능을 활용할 것이며, 이미 많이 사용 중인 분야이다.

그러나 금융 인공지능을 위한 데이터셋은 민감한 거래 정보, 개인 정보를 중심으로 예측과 분석이 이루어지는 경우가 많기 때문에 오픈 데이터셋으로 제공하기 쉽지 않은 영역이기도 하다. 그런 측면에서 국내에서는 아직 의미 있는 금융 데이터셋을 공개적으로 제공하는 사례가 드물다.

이번 글에서는 해외에서 제공하는 공개 데이터셋을 통해 우리가 앞으로 어떤 데이터셋을 구축해 금융 분야의 인공지능 기술을 발전시킬 것인가를 고민해 보기로 한다. 물론 이 데이터셋이 모두 인공지능 학습용 데이터셋은 아니지만, 머신 러닝이나 데이터 사이언스를 위한 유용한 데이터셋이며, 이를 기반으로 학습용 데이터셋을 구축하는 것이 가능할 것이다. 또한, 유료 서비스를 기반으로 하는 금용 데이터셋도 살펴보면서 어떤 데이터셋이 실제 금융 섹터에서 가치를 갖는 것인지를 판단하기로 한다.

가장 먼저 인공지능 연구자들이 데이터셋을 놓고 경쟁을 하는 캐글에서 금융과 관련한 페이지를 살펴보자. 캐글에는 다양한 금융 영역에서의 챌린지가 있는데, 대표적인 것이 2015년 윈톤(Winton) 주식 시장 챌린지이다. 이는 수 일전 주식 시장의 데이터를 다운로드 해서 주식의 수익을 예측하는 챌린지였으며 5만 달러의 상금을 걸었다. 이 밖에도, 주식 시장의 움직임을 예측하거나, 스페인 산탄더 은행의 주가를 예측하고, 투 시그마 투자사의 금융 모델링 챌린지 등이 있다.

윈톤 챌린지에는 5일 동안의 시간대를 기반으로 D-2, D-1의 수익과 D데이의 일부를 제공해 이를 기반으로 남은 D데이와 D+1, D+2의 수익을 예측하는 것이다. 여기에는 25 가지 특징을 피처로 제공한다.


윈톤 데이터셋의 구성
<그림 1 윈톤 데이터셋의 구성 >

캐글에 올라와 있는 금융 관련 데이터셋은 2천여 개가 있는데, 신용 카드 사기 탐지를 위한 데이터셋, 대규모 증권 시장 데이터셋, 비트코인 이력 데이터, 증권 시장 예측을 위한 일간 뉴스, 킥스타터 프로젝트 관련 데이터셋 등이 등록되어 있다. 그러나 많은 데이터셋은 대부분 매우 작은 규모의 데이터로 이루어졌으며, 이중에 금융이라는 태그가 붙어 있는 것은 560개이며, 경제가 318개, 은행이 92개이다.


캐글의 금융 분야 챌린지와 데이터셋
<그림 2 캐글의 금융 분야 챌린지와 데이터셋 >

또 다른 인공지능 핵심 커뮤니티인 깃허브에 올라와 있는 흥미로운 데이터 하나는 2009년 이후 미국 주식 시장 데이터가 매일 업데이트된 데이터셋이다.1) 원천 데이터는 나스닥, 야후 파이낸스, SEC 에드가(EDGAR) 금융 보고서 등에서 데이터를 수집했다. 데이터 포맷은 CSV와 TXT 파일로 되어 있으며 gzip으로 압축해 제공한다. 그러나 이 데이터셋은 더 이상 업데이트되고 있지 않으며 2017년 3월 31일이 마지막 데이터이다.

어바인의 캘리포니아 주립대학 머신 러닝 저장소에는 메릴랜드 대학의 마이클 브라운이 제공한 다우 존스 인덱스 데이터 셋2)이 있다. 2014년 10월에 기증한 것으로 연구용으로 사용한다.

금융 데이터셋은 일반 공공데이터의 의미로 공개되어 있는 것이 많다. 유럽 연합의 오픈 데이터 포털3)에는 유럽 연합의 기관, 에이전시 등에서 공개하는 고용, 과학, 환경, 교육과 함께 금융과 경제에 관련된 데이터셋이 있다. 예를 들어 유로를 사용하는 지역에 있는 투자 펀드 자산에 대한 통계치 같은 데이터셋이며, 이를 시각화해서 보여주는 기능도 있다.

또 눈에 띄는 데이터는 유로 사용 지역 가구에 대한 은행 이자율, 유럽 투자 은행에 의해 지원된 프로젝트 데이터로 이름, 서명 날짜, 나라, 영역, 금액 등이 있다. 이와 같이 경제와 금융에 관련된 데이터셋이 1,619개가 있는데 물론 이 데이터가 모두 인공지능 학습용은 아니지만 우리가 참고할 것이 많다.

EU의 오픈데이터 포털에서 보이는 금융 데이터셋
<그림 3 EU의 오픈데이터 포털에서 보이는 금융 데이터셋>

세계 은행 (월드 뱅크), IMF, 파이낸셜 타임즈의 데이터도 지역별 시장 정보, 다양한 경제 지표, 국제 금융, 이자율, 외환 보유, 상품 가격, 투자 등의 정보를 모두 제공하는 데이터셋을 제공하고 있다. 일부는 구독자를 대상으로 제공하는 것으로 나온다.

전미 경제 학회(AEA)는 미국의 거시경제 데이터를 제공하는데, 여기에는 세인트 루이스의 연준은행 (REF) 데이터, 노동 통계국(BLS), 경제분석국(BEA), 의회예산처(CBO), 전미 경제 연구소(NBER)의 데이터 등을 제공한다.



AEA에서 제공하는 데이터셋
<그림 4 AEA에서 제공하는 데이터셋>

과거 히스토리 가격과 연동한 일일 시장 데이터, 경제와 금융 정보를 통합해서 제공하는 글로벌 파이낸셜 데이터(GFD)는 가장 광범위한 데이터셋이다. 무료 가입을 통해서 누구나 GFD 모든 데이터셋에 접근할 수 있으며 글로벌 마켓과 경제를 분석하기 위한 연구를 수행할 수 있다. 이 데이터는 1601년부터의 글로벌 지표, 40개국 이상의 국가, 200개의 시장 데이터를 확보하고 있다. 4)

상업용으로 구독자나 기관을 대상으로 하는 데이터셋으로는 퀀들(Quandl)의 데이터가 있는데 전 세계 40만 명 이상의 애널리스트들이 사용하고 있다. 특히 핵심 금융 데이터는 API, 파이썬, R, 엑셀과 같은 도구를 통해서 접근하는 수백 가지 데이터를 제공한다.

지난 5월에는 S&P 글로벌이 S&P 글로벌 마켓플레이스라는 데이터 플랫폼을 발표했다.5) 여기에는 85개의 데이터와 솔루션을 제공하는데, S&P 소유의 글로벌 데이터와 최근에 발표한 ESG 점수6) , 머신 리더블 파일, 플라츠(Platts) 마켓 데이터 등이 포함되어 있다. 또한, S&P 글로벌이 2018년에 인수한 켄쇼 테크놀로지스의 솔루션도 같이 제공해 빅데이터와 인공지능 기술을 통한 분석과 시각화가 가능하게 했다.

S&P 마켓플레이스에서 제공하는 데이터셋과 솔루션에는 다음과 같은 것들이 있다.

S&P 글로벌의 데이터셋과 회사가 선정한 제3자 대안 데이터셋으로 시장 참가자의 워크플로우, 투자 모델, 시각화 도구에 연계해 사용할 수 있다.
켄쇼 링크 솔루션으로 서로 다른 회사의 데이터셋을 결합하고 조직하는 기능과 켄쇼 스크라이브와 같은 금융과 비즈니스 커뮤니티를 위해 특별히 최적화된 음성 인식 기술을 제공한다. 그 외에도 세일즈포스, 스노우플레이크와 같은 기업의 솔루션을 함께 제공한다.
15,000개 회사의 탄소와 물 발자국 데이터를 포함한 트루코스트(Trucost) 환경 데이터
1,300만개의 회사간 관계와 16개 국가의 10억 건 이상의 공급 기록을 커버하는 판지바(Panjiva) 공급망 정보
500종 이상의 주식 선정과 학계와 현업의 전문성을 기반으로 산업에 특정한 신호 데이터에 접근할 수 있는 알파 팩터 라이브러리(Alpha Factor Library)
11,000개 이상의 회사에서 발표한 실적 발표 녹취록을 자연어 처리를 통해 39개 이상으로 감성 분석한 문서 데이터 분석 자료

S&P 글로벌 마켓플레이스의 금융 산업 분야 데이터셋
<그림 5 S&P 글로벌 마켓플레이스의 금융 산업 분야 데이터셋>

이런 경제 금융 관련 데이터셋을 통해서 인공지능 연구자들은 경제 모델에 대한 분석, 새로운 데이터 소스를 통해 다른 방법으로 경제와 금융을 연구하기, 시민의 행위를 예측함으로써 정책 수립과 문제 영역을 예측하는 용도로도 사용할 수 있다.

특히 다른 데이터를 통해 경제나 금융 연구를 하는 방안에는 위성 이미지를 통해서 경제 성장을 예측하는 것7) 이나, 구글 스트리트 뷰를 통해서 보스턴이나 뉴욕에 사는 사람들의 수입을 측정해 본 연구8)가 있다.

국내에서는 최근 네이버가 쇼핑과 지역 비즈니스 관련 데이터를 금융데이터거래소에 제공해 다른 금융권 데이터와 시너지로 새로운 상품이나 서비스 개발에 활용할 수 있게 했다.9) 또한 금융 용어에 최적화한 자연어 학습 모델 KB-앨버트를 개발한 KB국민은행이 이에 관련한 데이터 일부를 공개한 것도 의미 있는 일이다.10) 그러나 가장 중요한 깃허브에서 국내 개발자들이 올린 의미 있는 수준의 데이터셋을 찾기는 어렵다. 앞으로는 현재 구축 중인 금융 빅데이터 플랫폼에서 제공하는 금융 데이터셋이 좀 더 체계적으로 구축되고 인공지능 데이터셋으로도 변환되어 활용하는 것을 기대해야 할 것이다.

Reference
참고문헌

1. https://github.com/eliangcs/pystock-data 참조
2. http://archive.ics.uci.edu/ml/datasets/Dow+Jones+Index 참조
3. https://data.europa.eu/euodp/en/home 참조
4. https://www.globalfinancialdata.com 참고
5. Traders Magazine, “S&P Global Launches Data Marketplace,” May 29, 2020
6. 2013년 이후 7천 개 이상의 회사에 대한 지속 가능성 점수
7. Henderson, J., Storeygard, A., and Weil, D.N.,” Measuring Economic Hrowth from Outer Space,” American Economic Review, 102(2), Apr 2012
8. The Atlantic, “Can Google Street View Images Predict Household Income?” Dec 10, 2015
9. 이투데이, “네이버, 금융데이터거래소에 비즈니스 관련 데이터 등록,” 2020년 9월 18일
10. AI Data Insight 6호 참고

이전글 공유 다음글 목록