COVER STORY

의료 인공지능 데이터셋 현황과 임상 현장에 맞는
데이터셋 발전 방향

신현묵 COO(뉴로핏/한국디지털헬스산업협회 상임이사)

인공지능 분야 중 많은 주목을 받고 있는 의료 인공지능의 연구개발에 있어서도 데이터셋이 가장 중요하다. 현재 많은 데이터셋이 구축되고 만들어지지만, 이제 겨우 연구를 시작할 수 있는 환경이라고 간단하게 설명할 수 있다. 더구나 의료 현장에서 생성되고 사용되는 RWD(Real-World Data)의 데이터 세계는 매우 균일하고 일정하며, 동일한 수준의 데이터가 생성되거나, 사용되는 세계가 아니라는 점에서 일반 데이터셋과는 다르다.

먼저, 의료 인공지능의 대표적인 데이터셋을 이야기한다면 구글의 예로 설명하는 것이 가장 빠를 것이다. 누구나 가장 손쉽게 접근할 수 있는 구글의 클라우드 헬스케어(Cloud Healthcare API)를 참고해 보기로 한다. 해당 프레임 워크에서는 미국 국립보건원(NIH)의 흉부 엑스레이(X선) 데이터셋과 TCIA(The Cancer Imaging Archive) 데이터 세트를 기반으로 의료 인공지능을 학습하고 활용할 수 있는 파이프라인으로 구성되어 있다.

이 데이터셋은 1,000개의 유니코드 문자의 텍스트 레코드를 하나로 계산해 항목 분석당 0.1달러의 비용으로 처리 가능한 상태까지 구성되어 있으며, 처음 2,500개의 텍스트 레코드는 무료로 사용할 수 있는 수준으로 오픈했다. 이는 연구자나 개발자들이 손쉽게 의료 인공지능 애플리케이션을 개발하고 연구할 수 있는 환경이라고 말할 수 있다.

이 서비스를 통해 활용 가능한 NIH 흉부 X선 데이터셋은 익명화 상태인 10만 개의 이미지로 구성했으며, 자료를 사용하는 데 있어 아무런 제약과 제한이 없다. 해당 X선 데이터셋은 3명의 방사선 전문의의 심사를 통해 독립적으로 검토된 자료이며, 테스트 세트의 경우 미국 방사선학위원회에서 인증한 11명의 방사선 전문의 동일 집단이 각 이미지에 대해 무작위 방사선사를 선정해 구성한 것이다.

검증 세트도 위원회의 인증 방사선 전문의와 방사선사 레지던트를 포함한 개인 13명의 동질 집단에서 3명의 방사선 전문의를 선정해 5라운드 단계를 거쳐 합의하는 과정을 통해 만들어진 의료 인공지능 데이터셋의 표준이라고 설명할 수 있다.

이렇게 공개한 NIH 흉부 X선 데이터셋 외에도 대표적인 오픈 CXR(chest x-ray) 데이터셋을 살펴보면 다음과 같은 데이터들이 있다.

그림 1. Chest[가슴/흉부] 기준 X-ray 의료영상 데이터 그림 1. Chest[가슴/흉부] 기준 X-ray 의료영상 데이터

이와 같은 형태로 대량의 헬스케어 데이터를 글로벌 수준으로 오픈하고 있으며, 관련 분석 기술 또한 급속도로 성장하면서 실제 의료 현장에서 활용할 서비스로 확장하고 있다.

이렇게 설명하면 정말 데이터셋이 많은 것 아닌가 하는 생각도 들겠지만, 그렇지 않다. 특히 RWD의 임상 관점에서 해석하면, 이제 데이터셋은 연구 단계의 축적 수준에 불과하다고 할 것이다. 디지털 헬스라고 부르는 전반적인 영역에서 아직도 단계별로 진행되어야 하며, 무수한 미개척 영역이 존재한다. 실제 의료 임상 현장에서 사용 가능한 성능과 품질이 보장된 데이터셋의 구축은 아직 충분하게 구성된 상태가 아니라고 단언할 수 있다.

이를 위해 각 국가나 기업들이 많은 예산을 투입하고 있다고 보면 된다. 의료 인공지능의 구성 단계를 좀 더 상세하게 살펴보도록 하자.

그림 2. 의료 인공지능의 구성 단계 그림 2. 의료 인공지능의 구성 단계

의료 현장과 디지털 헬스라 부르는 영역에서는 ‘그림 2’에서 이야기하는 전통적인 CAD(Computer-Aided Diagnosis)에 대한 기존의 연구들을 많이 해 왔다. 현재는 딥러닝 기술을 활용하면서 인공지능 기반으로 특징과 기능을 추출하는 시도가 매우 고무적인 결과를 도출하고 있다.

특히 의료영상 분야에서 주목할 만한 성과는 매우 효과적이며 정확도나 민감도에 있어서 매우 유의미한 결과를 만들어 내고 있다는 것이다. 또한 의료술기1)의 특징상 인공지능의 설명력(Interpretability)은 주요 전문의들이 평가하는 방식을 통해 의료 현장에서 충분히 활용 가능한 정도의 수치를 얻어내고 있다고 보면 된다. (의료 현장에서 안전성을 조금이라도 확보하려는 시도는 매우 중요한 점이다.)

구조화된 헬스케어 데이터를 신속하게 사용하고 있으며, 자유로운 문장 형식의 데이터 역시 충분하게 활용하고 있다. 구조화된 데이터에 대해서는 서포트 벡터 머신(Support Vector Machine, SVM), 신경망(Neural Network), 딥러닝(Deep Learning) 등을 사용하고 있으며, 자연언어를 활용한 처리 기술도 사용된다.

현재 사용되는 데이터셋은 단계별로 계속 추가 확장하고 있으며, 약제 개발부터 사회복지 서비스 분야에 이르기까지 전방위적이다. 단순한 비용 효율적 접근부터 의료술기에 영향을 주는 가이드라인까지 활용하며, 환자와의 상호 작용을 증진하는 앱 서비스를 기반으로 적절한 치료와 관리를 위한 기능까지 폭넓게 활용하고 있으므로 의료 현장에서의 데이터셋 구축은 매우 중요한 사업에 해당한다.

인공지능 기반 의료기기들은 기존의 데이터와 신규 데이터를 결합해 규칙에 기반한(Rule-based) 방식보다 진단 예측률이 더 높고 위양성(False Positive)은 더 낮음을 보이고 있으며, 효율 또한 높아지고 있다. 더구나 의료의 질을 높이는 의료기기들이 출현해 정상군과 비정상군을 구분해 집중할 수 있게 하는 의료 전체의 질 향상에도 도움을 주는 것도 매우 주목할 만한 점이다. 이 역시 데이터셋을 구축하면서 관련 방향성에 많은 영향을 주고 있다.

데이터셋과 의료 인공지능 연구가 진행되면서 밝혀진 것은 수치로 확인이 가능한 디지털 질환에는 매우 효과적으로 유효하다는 것이다. 수치로 확인이 불가능한 아날로그적 질환의 경우 더 많은 주변 데이터를 수집해야만 해당 데이터 기반으로 의미 있는 결과들을 지속적으로 만들어낼 것이라고 예측된다.

대표적 데이터 관점의 디지털 질환은 고혈압, 당뇨병, 지질대사 이상 등이며 수치로 정상·비정상은 대부분 확인 가능하다고 할 수 있다. 그리고 데이터 관점으로 아날로그적 질환은 우울증, 정신분열증, 갱년기 장애, 자율신경실조증 등이나 통증, 마비, 현기증, 피로, 냄새 등처럼 수치로 나타내기 어려운 증상들이다. (이런 증상들은 매우 어렵지만, 현재 이 분야에 대한 연구나 수집은 계속 진행 중이라고 할 수 있다.) 해당 연구의 학습 세트나 검증 세트 등을 지속적으로 만드는 시도도 계속되고 있다.

참고. 정신 건강과 인공지능 연구(글. 한상기 테크프론티어 대표)에 관한 특별기고 - AI∙DATA INSIGHT 13호

더 주목해야 할 점은 현재 의료 인공지능을 위한 데이터셋이 충분하게 구성된 것인가에 대한 질문보다 현재 연구로 만들어진 의료 인공지능 결과가 임상 현장에서 활용 가능한 것인가에 대한 질문이다. 그 부분을 좀 더 세밀하게 확인해 보자.

현재 국내에서는 소화기계 인공지능 데이터셋부터 신장계 암, 간체담도계 암 등 다양한 접근을 통해 데이터셋을 만들어 제공하고 있으며 초음파, X선, CT, PET-CT, MRI, 내시경, 병리 등의 의료영상 정보를 수집하고 있다.

수집되는 모달리티의 종류를 살펴보면 X선과 CT, MRI, 초음파, PET/SPECT, 병리학 이미지, 내시경 이미지, 유방 조영술 등의 영상 데이터를 주로 활용하고 있으며, 의료영상 정보의 주요 데이터 어노테이션 형식은 포인트, 라인, 원, 사각 박스, 영역(폴리곤, 브러시), 클래스 레이블, 숫자, OAC(Open Active Contour) 윤곽, 분량(Dose) 등이 사용된다.

그렇다면 이렇게 모은 의료 데이터의 품질에는 문제가 없으며 의료 인공지능의 성능과 관련된 문제라고 이야기할 수 있을까? 그렇지 않다.

가장 큰 이슈는 첫째, 의미적으로 정확한 데이터 값의 비율을 측정하고 있는가다. 의료 데이터의 경우 경계선에 해당하는 데이터 값의 의미 또한 RWD의 특성을 반영한다는 측면에서 무조건 배제할 수 없으므로 의미 데이터의 정확성만 가지고는 의료 데이터의 평가 항목으로 부적절하다는 것이다.

둘째, 데이터셋의 부정확한 비율의 측정이 모호하다는 것이다. 데이터 세트의 값 가운데 부정확해질 위험을 나타내는 이상치(outlier) 데이터 값의 비율 측정 과정에서 이상치 값이라고 하더라도 원천 데이터(raw data) ETL 과정의 오류가 아니라면 이상치 값을 그대로 기록하는 경우가 데이터 품질을 높이는 데 오히려 도움이 될 수 있다는 점도 고려해야 한다는 것이다.

셋째, 의료 데이터의 특성상 null값의 비율이 정말 많다는 것이다. 그러므로 null값이 없는 데이터 아이템의 비율을 어떻게 측정할 것이며, 어떻게 관리할 것이냐는 점이다.

넷째, 각 모달리티의 성능 차이와 실제 촬영하는 세팅 값, 환자의 움직임이나 개별적인 디바이스이미지 센서의 변수를 모두 일치시키기는 어렵다는 점이다.

이외에도 각 연구자나 연구기관에서 나열하는 데이터셋의 품질이나 관련 프로토콜의 격차는 어마어마한 차이를 보이고 있다.

실제 모달리티를 다루는 방사선사나 관련 의료인들의 숙련도의 차이에 따라 실제 촬영된 의료영상 정보의 품질 차이가 극심하며, 정밀하게 만들어진 데이터셋으로 학습한 의료 인공지능 소프트웨어가 실제 임상 현장에서는 제대로 동작하지 않는 상황이 반복되는 것이다.

현재 꽤 많은 의료 인공지능 제품이 인증 받은 의료정보 소프트웨어들이며, 임상 현장에서 사용할 수 있다. 하지만 실제 임상 현장에서 사용할 때 동작 불능이거나, 실제 임상적 판단에 사용할 수 없는 제품도 많다.

그 이유는 사실상 대부분 제품화 단계의 간극을 해소하지 못한 것이다. 이러한 영향의 몇 가지 주요 사항들을 나열한다면 실제 세상에서 만들어진 학습 데이터셋의 부재, 스캐너의 다양성과 오류, 세팅의 이슈, 의료진과 세부적인 프로토콜의 불협화음, 실제 의료영상 이미지에서 발생하는 다양한 형태의 노이즈, 의료진과 방사선사의 실질적인 스킬의 차이 등이며 이 문제는 계속해서 반복된다.

단편적으로 의료진의 숙련도와 이미지 노이즈 등을 처리하는 Artifact Process가 부족해 발생한다고 생각하며, 필자가 속한 뉴로핏에서는 NAP라는 관점으로 이를 처리하고 있다. NAP(Neurophet Artifact Process)는 의료영상 이미지를 생성하는 근거와 보관 등의 기록과 같은 형태를 추적하면서 오류와 근접되는 영역들을 기반으로 현실 데이터의 오류 범위를 최소화한다.

필자는 의료 인공지능의 상품화 단계를 4가지 단계로 구분한다.

      1. 연구실 수준으로 프로토타입을 연구 중인 의료 인공지능 소프트웨어
      2. 임상 단계에서 사용 가능한 의료 인공지능 소프트웨어
      3. 의료기기로서 인정받기 위한 인증용 단계

그리고 마지막 네 번째 단계로 RWD(Real World Data)를 처리하기 위한 수준의 의료 인공지능으로 구분한다. 현재 대부분의 의료 인공지능 소프트웨어들은 두 번째 임상 단계의 RCT(Randomized Clinical Trials)를 넘어서며, 대부분 의료기기로써 인증받을 수 있는 수준까지 만들어 내고 있다.

의료 인공지능 연구와 제품 개발에 가장 많이 사용하는 의료영상 정보만 단순하게 확인해도 각 회사마다 제품의 질 차이가 존재하며, 해당 기기를 사용하는 방사선사의 스킬 또는 환자가 영상을 만드는 시기에 졸거나 움직이면서 영상이 흔들리는 일은 너무도 흔하다.

현재 의료 인공지능 소프트웨어는 RWD의 무수한 노이즈와 의료진들의 수준 차이, 디바이스의 상황과 상태에 따라 대응할 수 있는 검증 방법과 평가 방법, 성능 평가 방법을 지속적으로 연구하고 있으며, 이에 따른 데이터셋에 대한 후속 작업이 진행되어야 한다.

임상적인 의미와 인증 단계를 통과할 수 있는 수준의 작업들도 더 많이 보완할 필요가 있지만, 실제 각 숙련도에 따른 수준까지 커버할 수 있는 데이터셋들을 위해 현재 의료 연구기관과 의료 인공지능 업체들은 많은 연구자금을 토대로 관련 작업을 진행하고 있다. 이에 대한 결과물들이 더 많이 모아지기를 기원한다.

의료 현장에서의 신뢰와 성능을 해소하려면 프로토타입 수준의 정확성 평가와 현장에서 사용되는 상황을 모두 고려한 데이터셋이 풍성하게 만들어질 수 있는 연구 상황이 만들어지기를 기원한다.

Reference
  • 1) 의료는 기술이라기보다 술기라는 표현을 사용한다. 술기는 ‘procedure’의 의미에 가깝다.

지난 웹진 보기

이전호 더보기