기술동향
데이터로 전염병 유입을 예측하다
- 등록일2021-07-26
- 조회수5351
- 분류기술동향 > 레드바이오 > 의약기술
-
자료발간일
2021-07-09
-
출처
한국과학기술정보연구원
- 원문링크
-
키워드
#데이터 #전염병유입#예측모델
- 첨부파일
데이터로 전염병 유입을 예측하다
- 인터넷 기사 데이터로 감염병 발생 예측 연구 -
◈목차
정확도 향상을 위한 추가 데이터군 모색
전염병 관리의 필요성
합리적인 예측 성능 도출
감염병 발생 예측 모델 완성
◈본문
코로나19의 확산세가 여전하다. 이러한 바이러스 전염병 피해 최소화를 위해서는 전염병 발병과 유입을 예측하는 것이 최선이지만, 쉽지 않은 것이 실정이다. 이에 감염병 연구에서는 팬데믹 발생 이후의 상황을 재현해 보는 전염 확산 시뮬레이션이 주을 이룬다. 이와 다르게 KISTI의 한 연구팀은 다량의 데이터와 기계학습 기법을 활용한 감염병 예측 연구를 성공적으로 수행했다.
인터뷰. 데이터기반문제해결연구단 김주현
감염병 발생 예측 모델 완성
KISTI 데이터기반문제해결연구단 김주현 선임기술원과 안인성 책임연구원은 인터넷 기사 데이터를 활용한 글로벌 감염병 발생 예측 연구를 최근에 성공적으로 수행해 우리나라의 감염병 예측 연구분야에 또 하나의 초석을 쌓았다. 과학저널 ‘사이언티픽 리포츠(Scientific Reports)’ 2월 24일자에 실린 이번 연구는 미디어 기사를 활용해 최초로 선보인 예측 연구라는 점에서 특히 관심을 끈다.
김주현 선임기술원은 “인터넷 기반 뉴스 데이터는 특정 조건 없이 손쉽게 수집할 수 있고, 오래된 데이터까지 보관하는 아카이브가 잘 구성돼 있어 데이터 수집에 용이하다”고 말했다. “이번 연구는 감염병 관련 기사 데이터를 수집한 다음, 기계학습 기법을 적용해 특정 국가에서 특정 감염병의 발생을 예측할 수 있는지 살펴보는 데 목적을 두었다”고 설명했다.
감염병은 날씨와 해당 국가의 생활방식, 국가 간 교류 등 다양한 이유로 인해 전파된다. 유사한 환경을 가진 국가에서 비슷한 종류의 감염병이 발생할 가능성이 크다. 감염병 발생 패턴을 확인하고 모델링하는 데 가장 중요한 요소는 관련 데이터를 수집하고 전처리하는 일이다. 이 과정이 가장 어렵고 기간도 오래 걸린다.
연구팀은 이번 연구에서 기사 데이터를 기반으로 감염병 발생 패턴을 추출했다. 먼저 메디시스(MEDISYS)라는 감염병 발생 관련 글로벌 뉴스 제공 서비스를 통해 2018년 10월부터 현재까지 전 세계에서 발생한 117개의 감염병 관련 기사 데이터를 수집했다. 메디시스는 유럽질병예방통제센터(ECDC)가 제공하는 서비스로, 전 세계에서 가장 널리 사용된다. 연구팀은 수집한 데이터에서 어떤 감염병 기사가 어떤 국가에서 얼마나 많이 발생했는지를 추출해 전처리했다. 이어 처리된 데이터와 기계학습 기법으로 모델링을 수행해 예측 모델을 만들었다.
김주현 선임기술원은 “이번에 발표한 논문에서는 비슷한 종류의 감염병이 발생하는 국가 그룹이 있다고 가정했을 때, 그 그룹의 어떤 국가에서 새로운 감염병이 발생한다면 그 그룹에 속한 다른 국가들에서도 해당 감염병이 발생할 가능성이 있다고 추정하는 방식의 모델링을 했다”고 설명했다.
합리적인 예측 성능 도출
김주현 선임기술원은 “2020년 1월에서 6월 동안 237개 국가별로 117개 감염병별 발생 수를 학습 데이터로 사용했을 때 이 기간 안에 감염병이 발생했으면 +1 레이블을 부여하고 2020년 7월까지 감염병이 발생하지 않았다면 -1 레이블을 붙였고, 2020년 7월에 감염병이 발생하든 하지 않든 6월까지 발생하지 않은 경우에는 ? 레이블을 붙여 7월에 감염병 발생 가능 여부를 예측하는 실험을 진행했다”고 밝혔다.
예측 모델로는 다양한 분야에서 널리 사용되는 기계학습 기법인 SVM(Support Vector Machine), SSL(Semi Supervised Learning), DNN(Deep Neural Network)을 사용했다. SVM은 훌륭한 예측 성능과 빠른 예측 속도가 장점으로 꼽힌다. SSL은 한쪽 데이터에 있는 추가 정보를 활용해 다른 데이터 학습에서의 성능을 높일 수 있는 방법이다. 그리고 DNN은 인간의 뇌가 작동하는 방식의 인공신경망(ANN)을 한층 심화시킨 방법으로 새로운 파생 모델이 계속 생성되고 있다.
연구팀은 먼저 6개월간 데이터를 학습 데이터로, 3개월간 데이터를 검증 데이터로 사용해 각각 다른 기간을 예측한 3개의 실험을 수행했다. 이어 3개월간 데이터를 학습 데이터로, 또 3개월간 데이터를 검증 데이터로 사용해 3개의 다른 기간을 예측한 실험도 진행했다. 예측 결과 6개월간 데이터를 학습 데이터로 사용했을 때 SVM은 평균 0.732, SSL은 0.838, DNN은 0.806의 예측 정확도를 나타냈다. 그리고 3개월간 데이터를 사용했을 때는 각각 0.748, 0.834, 0.813의 예측 정확도를 보였다.
김주현 선임기술원은 “오른쪽 그림에 나타난 것과 같이 모든 구간과 모든 기계학습 기법에서 합리적인 예측 성능을 보여주었다”며 “개발 모델을 사용해 우리나라에 아직 토착화되지 않은 뎅기열이나 지카바이러스병 등 다양한 감염병의 국내 유입을 지속적으로 모니터링할 계획”이라고 밝혔다.
전 세계 237개 국가에서 발생한 117개 감염병 관련 기사 데이터. 푸른 원이 클수록 더 많은 양의 기사가 발생했음을 나타내고, 나라의 색이 노란색에 가까울수록 더 많은 종류의 감염병이 발생했음을 나타낸다.
전염병 관리의 필요성
전염병 발병 예측은 전염병 관리를 위한 핵심요소 가운데 하나다. 한 예로 지난 2015년 국내에 유입된 메르스(중동호흡기증후군)의 치사율은 30~40%로, 코로나19 치사율의 8배 이상이었다. 김주현 선임기술원은 “메르스 국내 발병 이후 예측 모델을 이용해 예측한 결과, 메르스가 우리나라에 유입되기 이전에 유입 가능성이 있었음을 확인했다”며 “발병을 예측하고 미리 준비했더라면 피해를 더 줄일 수 있었을 것”이라고 말했다.
코로나19의 유입은 메르스 때와는 다르다. 전례가 없는 신종 감염병이기 때문에 발생 예측 자체가 불가능에 가깝다는 것이다. 따라서 신종 감염병이 국외에서 처음 발생했을 때 해당 감염병이 우리나라에 유입될 것인지, 만약 유입된다면 언제쯤이 될지에 대한 예측을 시도하는 것이 최선이라는 것이다.
국가별, 감염병별 기사 데이터 발생 수를 나타낸 히트맵(heat map). 점이 흰색에 가까울수록 더 많은 양의 기사가 발생했음을 나타낸다.
김주현 선임기술원은 “지난해 초 SARS-CoV-2(코로나19 바이러스) 관련 국내 유입 예측을 수행하고 질병관리청에 매주 보고서를 제출했다”고 밝혔다. 김주현 선임기술원이 속한 안인성 책임연구원팀에서는 어떤 감염병이 우리나라에 유입될 것인지, 유입된다면 얼마나 빠르게 확산될 것인지 예측하거나, 인플루엔자나 SARS-CoV-2의 변이가 발생했는지, 앞으로 어떻게 변이가 일어날 것인지 예측하는 연구를 주로 진행하고 있다.
이번 논문의 교신저자인 안인성 책임연구원은 생명공학과 보건학 두 개의 학위를 바탕으로 인플루엔자 백신의 효용성을 살펴보는 연구와 인플루엔자 바이러스의 변이 발생에 대한 연구 등에 관심을 갖고 있다. 범부처 감염병 연구개발 사업단 과제의 책임자이며, 기관 최초로 빌 앤드 멜린다 재단(Bill & Melinda Gates Foundation)의 과제를 수행 중이다.
정확도 향상을 위한 추가 데이터군 모색
김주현 선임기술원은 연구를 보완하기 위해 데이터 수집군을 확대할 계획이라고 밝혔다. “기사 데이터 외에 항공·항만 이동 데이터와 같이 국가 간 감염병 전파에 중요한 역할을 하는 데이터를 함께 사용하는 예측 모델을 만들거나, ‘SNS·블로그·인터넷 커뮤니티’ 데이터를 추가로 수집해 이용한다면 정확도가 더욱 향상될 것으로 생각되는데, SNS 등에서의 불필요한 데이터를 걸러내는 것이 과제입니다.”
KISTI 데이터기반문제해결연구단 김주현
이와 함께 감염병 병원체의 어떤 특징 때문에 심각한 전염이 일어나는지에 대해서도 관심을 쏟고 있는 김주현 선임기술원은 “감염병의 생물학적 정보를 담은 유전체 염기서열 데이터를 사용한 연구를 진행해 보고자, 최근에는 감염병 바이러스의 유전체 데이터를 분석해서 바이러스의 변이가 발생하는 정도와 어떤 부분에서 변이가 발생했는지 등에 대한 연구를 진행하고 있다”고 밝혔다.
산업공학 전공자로서 빅데이터 및 기계학습과 관련된 연구를 주로 하는 김주현 선임기술원은 석사 과정 중, 유방암 환자의 생존 예측 연구를 미국의료정보학협회저널(JAMIA)에 발표한 이래 감염병 확산 예측을 위한 데이터 사이언스 분야를 꾸준히 천착해 오고 있다.
☞ 자세한 내용은 내용바로가기 또는 첨부파일을 이용하시기 바랍니다.
관련정보
지식
동향