기술동향
기계학습을 이용한 생물 정보의 처리와 전망
- 등록일2017-01-19
- 조회수6798
- 분류기술동향 > 화이트바이오 > 바이오화학・에너지기술
-
자료발간일
2017-01-18
-
출처
생물학연구정보센터(BRIC)
- 원문링크
-
키워드
#생물정보학#유전체 서열분석#기계학습
- 첨부파일
출처 : 생물학연구정보센터(BRIC)
기계학습을 이용한 생물 정보의 처리와 전망
[요약문]
기계학습은 최근 인공지능이라고 불릴 만큼 사회에 큰 영향을 주고 있다. 빅데이터의 시대에 어떻게 이를 효과적으로 이용할 것인가에 대한 하나의 답으로서 깊게 연구되고 있는데, 구글의 이미지 인식, 알파고의 승리, 쇼핑몰의 추천 알고리즘 등등 사회 구석구석 사용되고 있는 기술들이 모두 기계학습에서 출발했다고 해도 과언이 아니다. 생물데이터 역시 소위 빅데이터가 되어가고 있다. 차세대 시퀀서의 개발, 대량 현미경 이미징 기술, 대량의 표현형 조사기술 등등 사람의 손만으로는 다루기 힘든 정도의 데이터가 쏟아지고 있다. 이러한 생물 정보들을 효과적으로 정리하고 결론을 도출하기 위해 기계학습을 사용할 수 없을까? 이번 리뷰에서는 기계학습을 이용한 생물데이터의 처리들을 살펴보고 앞으로의 생물데이터 기반의 기계학습의 전망에 대해서 간단히 이야기해보고자 한다.
??
?[목 차]
?
1. 서론
2. 본론
2.1 유전체 서열분석에의 응용
2.2 Molecular phylogenetics에의 응용
2.3 분자육종에의 응용
2.4 생물 이미지 인식
3. 결론
4. 참고문헌
?1. 서론
?
길거리를 가다가 좋은 음악이 있으면 핸드폰 앱을 켜서 듣게 한 다음 제목을 찾아낸다. 휴대폰에 설치되는 음성 인식 개인 비서 앱은 사람의 목소리를 인식하고 문장을 재구성하고 의도를 파악하여 원하는 결과를 돌려준다. 아마존의 프라임 포토서비스는 클라우드 저장소에 보유하고 있는 사진들을 사진 속에 존재하는 사람들의 얼굴을 인식하고 그 얼굴별로 사진을 분류해준다. 구글 이미지 검색 서비스는 사진을 입력받아 웹상에 존재하는 모든 비슷한 사진을 목록화 해준다. 이러한 생활 속 편의는 기계학습(machine learning)을 통해 훈련된 인식 및 판단 모델을 통해 서비스된다. 기계학습은 마치 사람이 경험에 따라 성숙된 판단을 하듯 축적된 데이터와 현재 기록되는 데이터를 통해 더욱 정확한 판단을 할 수 있도록 설계된 컴퓨터 알고리즘을 의미한다[1].
기계학습에 대해서 자세히 살펴보면, 지도학습(supervised learning), 비지도학습(unsupervised learning)으로 나눌 수 있다. 지도학습은 답안지가 있는 훈련 데이터를 통해서 알고리즘이 학습을 한다고 요약할 수 있다(그림 1A). 답안지를 작성하는 사람이 훈련된 사람이기 때문에 좀 더 사람의 직관에 맞는 구분을 유도할 수 있다는 장점이 있는 반면에 그 답안지를 작성하는데 상당한 시간과 노력이 요구된다는 단점이 있다. 대표적으로 분류(classification) 문제를 들 수 있는데 이는 답안지의 특성이 이분법적이거나, 제한된 점수(score)로 이루어져 있을 경우이다. 이러한 분류 문제는 환자/정상, 이병성/저항성, 표현형 자동 점수화(scoring automation) 등의 많은 생물학적 질문에 적용될 수 있다. 회귀(regression) 역시 지도학습의 일종인데 답안지가 연속적인 수치로 이루어져 있을 경우에 해당하며 예를 들어 생산량 예측, 강우량 예측 등을 위한 구체적인 회귀식을 도출한다. 비지도학습은 답안지가 없이 입력된 데이터를 알고리즘이 알아서 구분해 보인다. 군집화(clustering)가 대표적인 비지도학습이며 많은 RNAseq 분석이 이러한 군집화 방식을 통해 비슷한 발현패턴을 보이는 유전자들을 그룹 짓는다(그림 1B). 연구자는 해당 그룹에 대한 label은 모르는 경우가 대부분이기 때문에 해당 그룹 내의 알려진 유전자와의 연관성을 추정할 수 있다. 만약 기존 연구량이 풍부해서 label를 향후에 할 수 있다면 지도학습을 섞어서 semisupervised learning이 가능하다.
최근에는 Deep learning이라고 불리는 기계학습이 두각을 보이고 있다. 특히 이미지 인식 분야에서 다른 방법보다 뛰어나다고 알려져 있다. Deep learning은 deep neural network의 다른 이름인데 이의 기반이 되는 알고리즘들은 의외로 오래 전에 제안되었다[2]. 다만 당시의 알고리즘상의 overfitting 문제점 및 computation cost 등의 문제로 당시의 연구가 정체되어 있었다면 최근에는 overfit 문제를 해결하는 알고리즘의 개선, 하드웨어의 발전, 그에 따라 기하급수적으로 수집된 정보량으로 인해 neural network를 통한 기계학습이 재조명을 받게 되었다. 나아가 인간의 훈련과정을 본뜬 강화학습이라는 machine learning 분야가 급성장하면서 구글 딥마인드사의 Deep Q-network라는 알고리즘이 개발되었고 이를 바탕으로 훈련된 알파고라는 바둑 모델은 바둑의 최고수 이세돌을 이겼다.
...................(계속)
☞ 자세한 내용은 내용바로가기를 이용하시기 바랍니다.
-
이전글
- 식물에서 동시적인 생물적·비생물적 스트레스의 상호적 영향: 건조와 병원균 결합으로부터의 기계론적 이해
-
다음글
- 빗질을 분석해 모발 건강을 관리해 주는 IoT 기반 ‘스마트 빗’
동향