본문으로 바로가기

제도동향

의약품 개발 시 인공지능(AI) 활용 안내서

  • 등록일2024-07-08
  • 조회수1573
  • 분류제도동향 > 기타 > 기타

 

 

의약품 개발 시 인공지능(AI) 활용 안내서


 

◈본문

인공지능(AI) 활용 의약품 개발 시 고려사항

인공지능(AI)/기계학습(ML)은 의약품 개발 단계에서 시간 • 비용 및 효율성을 개선하고, 비임상 시험이나 임상시험을 더 안전하고 효율적으로 설계할 수 있는 잠재력이 있다. 인공지능(AI)/기계학습(ML)은 데이터를 기반으로 과학적 근거를 도출할 수 있지만,본질적으로 데이터 중심으로 결과를 예측하므로 기존 자료원에 존재하는 오류와 비뜰림을 확대할 가능성이 있으며, 테스트 환경 외부에서 추정될 때 일반화 가능성 및 윤리적 고려사항과 관련된 우려가 있다. 또한 인공지능(AI)/기계학습(ML) 시스템은 근본적인 복잡성으로 인해 설명가능성(explainability)이 제한되거나 독점문제로 인해 완전히 투명 지  않을 수 있다 . 이러한 우려로 인해 설명가능성, 신뢰성, 개인정보보호, 안전성 보안 및 비뜰림 완화와 같은 영역의 특정 특성을 다루는 신뢰할 수 있는 인공지능(AI)에 대한 표준지침을 개발하는 것이 중요하다.


3.1. 인간 주도 거버넌스 및 신뢰 기반 인공지능(AI)

인간 주도 인공지능(AI)/기계학습(ML) 거버넌스는 신뢰할 수 있는 인공지능(AI)/기계학습(ML) 개발에 필수적인 책무와 투명성, 법적 • 윤리적 가치 등을 준수하는 데 도움이 될 수 있다. 거버넌스의 한 부분으로 위해성 관리 계획(risk management plan)은 위해성을 확인 및 완화하는데 적용될 수 있으며, 이러한 접근법은 모든 일탈(deviation) 및 절차의 근거 등 주요 단계와 의사결정을 추적 • 기록하여 문서화,투명성 및 설명가능성 수준을 안내하는 데 도움이 된다.


신뢰할 수 있는 인공지능(AI) 개발을 위해서는 계획 및 개발 초기 단계부터 체계적인 영향 분석을 수행하고,윤리적 및 법적 측면 검토를 위한 전문 인력을 투입하는 것을 권장한다.


3.2. 데이터 관련 고려사항

인공지능(AI)/기계학습(ML)은 본질적으로 데이터 기반이기 때문에 데이터 품질과 신뢰성 보장 및 적절한 데이터의 사용 여부가 중요하다. 잠재적으로 발생 가능한 데이터 문제에는 다음과 같은 비뜰림,완전성,개인정보보호 및 보안 관련 문제 등이 있다.

• 비뜰림: 기존 입력 데이터에 존재하는 비뜰림을 잠재적으로 증폭시킬 수 있음

• 완전성: 데이터의 완전성(completeness), 일관성 및 정확성

• 개인정보보호 및 보안: 데이터 분류 및 시스템의 기술적 기능과 연계된 데이터의 보호 및 개인정보보호

• 출처(provenance): 데이터 조각(데이터베이스,문서 또는 저장소 내)의 출처와 현재 위치에 도달하게 된 방법과 이유에 대해 설명하는 기록 이력. 출처는 “데이터 생산자와 시기 등에 대한 정보를 제공하는 메타데이터 또는 데이터에 대한 추가 정보”를 설명함

• 관련성: 적절한 데이터를 사용할 수 있고 목적에 적합함

• 반복성: 각각의 데이터를 확보한 개별 연구에서 동일한 질문에 대해 일관된 결과를 도출하는 것

• 재현성: 동일한 입력 데이터,컴퓨터 조작법 및 코드, 분석 조건 등을 사용했을 때 일관된 결과를

도출하는 것

• 대표성: 표본이 의도한 모집단과 충분히 유사하다는 신뢰도


3.2.1.  데이터 수집 및 증강(augmentation)

인공지능(AI)/기계학습(ML)은 의뢰자 또는 연구자 등 데이터 취급자의 편향에 영향을 받을 수 있으므로(예: 희귀 모집단 또는 특정 민족의 과도한 샘플링),균형을 이룬 훈련 데이터셋을 확보할 수 있도록 주의해야 한다. 또한 데이터 출처와 수집 과정은 데이터 정제(cleaning), 변환(transformation), 대치(imputation), 주석달기(annotation), 정규화(normalization) 등 모든 데이터 처리 방법을 포함하여 상세히 기록하고 완전한 이력을 추적할 수 있도록 문서화해야 한다.


탐색적 데이터 분석을 수행하여 데이터 특성,대표성 등을 설명해야 하며 최소한 1) 데이터의 관련성 및 모집단 대표성, 내삽 외삽 가정, 2) 데이터 클래스 불균형 및 이에 따른 조치, 3) 데이터를 사용함으로써 발생할 불공정 또는 차별적 결과의 잠재적 위험을 포함해야 한다.


훈련 데이터셋을 확장하기 위해 증강 기법(augmentation technique)을 활용할 수 있으며,모델 문서에는 모델을 적용할 수 없는 경우(예: 훈련 데이터셋의 한계로 모델의 일반화 가능성 또는 공정성에 영향을 미치는 경우)를 대비하여 대체 방법 사용에 관한 사항을 명확히 제시해야 한다.


3.2.2.  훈련,밸리데이션,테스트 데이터

인공지능(AI)/기계학습(ML)에서 '밸리데이션’은 모델 아키텍처(architecture) 선정 및 하이퍼 파라미터 최적화 과정(hyperparameter tuning)에 대한 정보를 알려주기 위해 사용되는 데이터를 지칭한다. 밸리데이션 절차가 완료되면 홀드아웃(hold-out) 테스트 데이터셋을 사용하여 해당 모델의 성능을 한번 평가한다. 테스트 성능이 만족스럽지 않고 추가 모델 개발이 필요한 경우에는 사실상 현재 테스트 데이터셋은 2단계 검증 데이터셋이 되고,업데이트된 모델을 대상으로 테스트 절차를 반복하기 위해 완전히 새롭고 독립적인 테스트 데이터셋이 필요하다.


초기훈련 (train)- 테스트 (test) 데이터셋 분할은 집계된 측정값이 사용되는 정규화 또는 그 외 다른 처리단계 전에 실시하는 것을 권장한다. 그렇더라도 무의식적이거나 의도하지 않은 데이터 유출의 위험성을 완전히 배제할 수는 없다. 예를 들어,임상 데이터베이스에서 알 수 없는 사례의중복, 연구 결과에 대한 일반적인 사전 지식 등에는 모델을 과적합(overfitting) 시킬 위험을 증가시키는 정보를 포함하고 있을 수 있다. 따라서 후기 임상개발 단계에서 사용되는 투명하지 않은 모델 등 고위험 설정에 사용되는 모델은 새롭게 확보한 데이터를 사용하여 전향적으로 테스트해야 한다.








 

...................(계속)

☞ 자세한 내용은 내용바로가기 또는 첨부파일을 이용하시기 바랍니다.

관련정보

자료 추천하기

받는 사람 이메일
@
메일 내용