AI·DATA 人터뷰

헬스케어 분야 인공지능 학습용 데이터 구축의
중요성과 역할

김종엽 교수(건양대병원/품질자문위원회 헬스케어 분과위원장)

1. 품질자문위원회 헬스케어 분과에 대한 간략한 소개 부탁드립니다.

한국지능정보사회진흥원(NIA)이 추진하는 인공지능 학습용 데이터 구축사업 가운데 헬스케어 분과는 전문 의료 지식을 요구하기 때문에 사업 제안에 의료기관이 가장 많이 참여하고 있습니다. 문제는 의료기관은 의학적 지식을 바탕으로 환자의 진료에 특화되어 있을 뿐, 데이터 구축에 대한 전문성은 부족하다는 점입니다. 데이터의 품질 또한 마찬가지입니다. 의료인이 생각하는 데이터의 품질은 대부분 진료를 목적으로 협의하고 평가되어 왔습니다. 이 때문에 의료기관에서 생각하는 고품질의 데이터가 인공지능 학습을 위한 목적성에 제대로 부합하지 못하는 경우가 많습니다. 품질자문위원회 헬스케어 분과는 이런 시각의 차이를 자문하고 조정하기 위해 노력하고 있습니다. 그래서 위원들도 전공 분야에 따라 매우 다양하게 구성되어 있습니다. 저와 같이 의사 출신 데이터 과학자도 있고 공학자도 계시며, 의료 인공지능을 개발하는 업체 CEO나 CTO들도 함께 위원으로 참여하고 있습니다. 그 덕분에 각자의 도메인 지식을 최대한 활용해 고품질의 헬스케어 데이터가 만들어질 수 있도록 합심해 활동하고 있습니다.

김종엽 교수님

2. 인공지능 학습용 데이터 구축사업에서 헬스케어 분야의 성과를 어떻게 평가하고 계신가요?

의료기관은 현행법상 비영리 기관이기에 데이터 구축을 통한 수익 창출을 하지 못합니다. 이 때문에 의료 인공지능 개발업체가 투자받은 자금으로 의료기관을 찾아와도 데이터를 얻기 어렵습니다. 이런 상황에서 기업이 의료기관의 데이터를 활용해 연구개발(R&D)할 수 있는 방법은 정부 추진 사업을 통한 데이터 획득이 유일한 합법적 경로라 할 수 있습니다. 사업 초기 우려가 컸지만, 지금은 기획 단계의 수요 조사뿐 아니라 제안 평가에서도 가장 관심도가 높은 분과가 헬스케어라고 자부합니다.

간혹 제기되는 데이터 품질 이슈에 대해 초기 단계부터 각각의 수요자가 원하는 품질 요구사항부터 정리해 구축하지 않는다면 데이터 이용자들의 기대를 충족시키기 어렵습니다. 하지만 적어도 데이터의 양과 종류에 대해서는 상당 부분 기대에 부응하고 있다고 생각합니다. 스타트업들이 데이터가 없어서 연구하지 못한다는 이야기를 하기는 어렵습니다. 단, 구축해 놓은 데이터에 대한 접근성을 지금보다 어떻게 더 향상시킬 것이냐 하는 문제는 여전히 숙제로 남아 있습니다.

3. 디지털 헬스케어 분야의 성장에 있어 인공지능 학습용 데이터의 역할이 무엇이라고 생각하시나요?

첫째, 의료 인공지능 인재 양성에 가장 큰 역할을 했다고 생각합니다. 예전에는 대학생, 대학원생들이 의료 인공지능을 공부하려면 기껏해야 전 세계에 공개된 몇몇 데이터를 이용하는 것밖에는 방법이 없었습니다. 문제는 실력 향상을 위해 다양한 데이터에 대한 경험을 쌓아야 하는데, 공대에서 해결할 방법이 현실적으로 없었던 것이죠. 하지만 이제는 인공지능 학습용 데이터 구축사업을 통해 만들어진 데이터들만 하나씩 살펴보려 해도 재학 기간이 부족한 상황입니다.

둘째, 스타트업 육성에 도움이 되었다고 생각합니다. 이미 상장했거나, 인공지능 기반 의료기기의 인허가를 취득한 기업들은 사업 초기에 데이터 얻기가 지금보다는 상대적으로 쉬웠습니다. 하지만 어느 순간 개인의 민감한 정보인 헬스케어 데이터에 대한 사회적 인식이 더 높은 윤리의식을 요구하게 되었죠. 그러면서 요즘 디지털 헬스케어 사업에 뛰어들고 있는 스타트업들에는 데이터 접근이라는 더 높은 허들이 형성되었습니다. 헬스케어 스타트업들이 인공지능 데이터 구축사업에 열심히 지원하고 참여하는 동력이 바로 여기에 있습니다. 그런 면에서 해당 사업이 스타트업 육성에 틀림없이 도움되었다고 생각합니다.

셋째, 의료기관의 데이터 품질에 대한 인식을 제고시켰다는 점을 꼽고 싶습니다. 앞서 잠깐 언급했던 것과 같이 의료기관에서 인공지능 학습을 위한 데이터 품질에 대해 고민하기 시작한 계기가 해당 사업이었다고 생각합니다. 제안요청서에 명시된 품질 요구사항에 맞춰 원시 데이터의 획득과 정제, 라벨링과 어노테이션을 통해 데이터를 구축하는 과정이 지난 몇 년간의 데이터 구축사업을 통해 현장에서 많이 자리 잡았습니다. 이는 향후 산업계의 요구에 맞는 헬스케어 데이터를 생산해낼 수 있는 인프라를 전국 의료기관으로 확대했다는 점에서 지금까지 구축된 데이터보다 의미가 큽니다.

4. 데이터셋에 부족한 부분이 있다면 어떤 분야(또는 내용이나 방식)에 보완이 필요할까요?

지금까지 구축된 헬스케어 분과의 데이터는 대부분 의료기관에서 기존에 보유하고 있던 데이터를 정제해 후향적으로 구축한 것입니다. 그렇다 보니 데이터 수요 기관의 요구사항을 100% 충족시킬 수 없습니다. 이미 진료를 마친 환자에 대해 과거로 돌아가 추가 데이터를 구축할 수 없으니까요. 그래서 고품질의 헬스케어 데이터 구축을 위해서는 전향적 데이터1)의 구축이 절실합니다. 하지만 사업 기간이 8개월도 되지 않는 상황에서 전향적으로 대규모 데이터를 구축하기란 매우 어렵습니다. 특히 유병률이 낮은 질환이라면 전향적 데이터 구축은 거의 불가능한 일이죠. 향후 산업계 눈높이에 맞는 고품질의 데이터를 구축하기 위해서는 이런 문제가 해결되어야 할 것입니다.

5. 2021년 인공지능 학습용 데이터 구축사업의 총괄기획위원회 활동도 하고 계신데요. 헬스케어 분과의 기본 방향을 어떻게 설정하셨는지요?

의료인이 의료법 이외의 개인정보보호법, 신용정보의 이용 및 보호에 관한 법률(약칭, 신용정보법), 생명윤리 및 안전에 관한 법률(약칭, 생명윤리법) 등에도 능통할 것이라고 생각하면 오산입니다. 의대를 졸업하고 의사 면허를 취득하는 과정 어디에도 해당 커리큘럼이 없기 때문입니다. 그래서 의사이면서도 현재 의료 시스템에서는 불가능한 제안을 하는 경우를 더러 접하게 됩니다. 이 같은 경우는 사업의 최종 보고 과정까지 별문제가 되지 않을 수 있지만, 데이터를 공개적으로 활용하는 과정에서 다양한 이슈를 불러일으킬 수 있습니다. 이 때문에 사업을 기획하는 과정에서 이 부분을 특히 사전에 충분히 검토하고 제안요청서에 담으려 노력하고 있습니다.

6. 향후 의료 인공지능 분야에 공헌하기 위한 국내 헬스케어 데이터셋 구축의 개선점과 데이터 영역 확대에 대한 조언을 부탁드립니다.

지금까지는 의료기관에서 기존에 보관하고 있던 엑스레이(X선)나 컴퓨터단층촬영(CT) 등 단일 검사 데이터를 활용한 연구가 주류를 이뤘습니다. 그런데 최근에는 멀티 모달리티 데이터2)에 대한 관심이 커지고 있습니다. 올해 구축 중인 파킨슨병의 데이터가 멀티 모달리티 데이터의 좋은 예입니다. 향후 이와 같은 헬스케어 데이터셋이 더 많이 구축되어야만 의료 인공지능 분야에 더 크게 공헌하리라 생각합니다. 또한 전향적 데이터를 구축할 수 있는 사업 기간을 확보해야 합니다. 최소 24개월 이상 사업 기간이 확보되어야 환자 동의에 기반한 헬스케어 데이터의 전향적 구축을 할 수 있습니다. 데이터 3법을 근거로 한 동의 목적 외 활용이 아닌, IRB3)심의와 환자 동의를 기반으로 한 데이터를 구축한다면 더 다양한 주제와 연구 목적에 걸맞은 고품질의 헬스케어 데이터를 생산할 수 있습니다. 지난해 사업 기획 초기 다차년도 사업에 대해 건설적인 논의가 있었지만, 마지막에 다시 단년도 사업으로 수정되어 아쉬움이 컸습니다. 기존 틀에서 벗어난 사업을 기획하려면 여러 부처와 또 그 안의 많은 실무자 간에 협의가 필요하다는 것을 잘 알고 있습니다. 소중한 국가 예산이 더 의미 있는 산출물로 연결될 수 있도록 많은 분의 관심과 지원을 부탁드리겠습니다.

Reference
  • 1) 전향적 데이터란 기존에 보관하고 있던 데이터가 아닌 데이터 수요 기관의 요구에 맞게 계획해 처음부터 데이터를 쌓기 시작하는 데이터이다.
  • 2) 멀티 모달리티 데이터(Multi Modality data)란 서로 다른 형태의 정보로 이뤄져 뚜렷한 통계적 특성이 구분되는 데이터이다. (ex. 엑스레이 검사+EHR 데이터 또는 MRI+뇌파 검사 데이터 등)
  • 3) IRB(Institutional Review Board)란 ‘생명윤리 및 안전에 관한 법률’과 ‘약사법’에 따라 두 가지로 나뉜다.

지난 웹진 보기

이전호 더보기