본문으로 바로가기

기술동향

대규모 언어모델의 오정렬(Misalignment) 대응을 위한 의료 AI 데이터 거버넌스 프레임워크

  • 등록일2025-09-11
  • 조회수129
  • 분류기술동향 > 플랫폼바이오 > 바이오융합기술

 

 

대규모 언어모델의 오정렬(Misalignment) 대응을 위한 의료 AI 데이터 거버넌스 프레임워크


◈본문

요약문

생성형 AI(Generative AI) 모델의 활용 범위가 넓어지면서 인간의 의도와 AI 결과 간 불일치 문제인 오정렬(misalignment)의 위험이 점차 부각되고 있다. 본 논문은 대규모 언어모델(Large Language Model) 기반 AI의 오정렬 문제를 기술적·윤리적·법률적 관점에서 다층적으로 분석하였다. 기술적 측면에서는 동적 데이터베이스 이해의 필요성을, 윤리적 측면에서는 맥락적 프라이버시개념을, 법률적 측면에서는 의료 AI의 임상적 가치 저하 가능성을 중점적으로 고찰하였다. 특히 정신 건강 분야의 사례를 중심으로 심층 분석하였다. 생성형 AI 모델이 법적 구속력을 완전히 확보하지 못한 상황에서, 이용자는 AI 출력을 검증하고, 개발자는 모니터링을 통해 위험을 사전에 차단하며, 정부는 사후 감시를 수행하는 프로세스 중심의 대안이 요구된다. 이를 위해 고정된 규칙을 근거로 하는 데이터 거버넌스를 넘어, 인간의 자율성과 인공지능 기술의 효율성을 조화시키기는 인간-AI 협력 관점에서 기술·윤리·법률이 조율되는 새로운 거버넌스로의 전환이 필요하다. 이에 본 연구는 기술적 측면에서 동적 동의(dynamic consent) 메커니즘을 적용한 책임 있는 알고리즘 협업, 윤리적 측면에서 AI 의사결정의 추적성(traceability) 원칙의 확립, 법률적 측면에서 부작용 보고 의무와 인증기관 요건을 포함한 AI 감사(audit) 시스템 구축을 결합한 의료 AI 데이터 거버넌스 프레임워크를 제안한다. 이러한 거버넌스는 LLM 오정렬 위험을 완화하고, 투명성과 책임성을 확보하며, 인간과 인공지능의 지속 가능한 공존을 유지하는 의료 AI 생태계의 토대가 될 것이다.

키워드

#LLM   #오정렬(Misalignment)   #동적 동의   #맥락적 프라이버시   #인간-AI 협력   #유럽연합 인공지능법   #데이터 거버넌스   #환자 안전   #부작용 보고  

분야

기타 > 기타

목 차

1. 서론
2. 본론
  2.1. 현재 데이터 거버넌스의 한계
    2.1.1. 기술적 한계: 오정렬(misalignment) 사례
    2.1.2. 윤리적 한계: LLM의 공감 한계
    2.1.3. 법률적 한계: 가치 정렬(Value Alignment) 불충분
  2.2. 의료 분야 LLM의 위험 분석
    2.2.1. 동적 데이터베이스 문제와 모델 드리프트
    2.2.2. 맥락적 프라이버시 침해
    2.2.3. 의료 안전성 저하
  2.3. 의료 AI데이터 거버넌스 프레임워크 제안
    2.3.1. 동적 동의 메커니즘(dynamic consent mechanism) 전략
    2.3.2. AI 의사결정의 추적성(traceability) 전략
    2.3.3. AI 감사 시스템(AI Audit System) 전략
3. 결론
4. 참고문헌


1. 서론

언어학자 노암 촘스키(Noam Chomsky)는 2023년 뉴욕 타임스 기고문 「ChatGPT의 거짓 약속」에서, 기계학습이 인간과 유사한 언어와 사고를 생성할 수 있음에도 불구하고 분명한 한계를 지닌다고 지적하였다 [1]. 그는 두 가지 이유로 ChatGPT를 비판했다.

첫째, ChatGPT는 ‘확률론적 앵무새(probabilistic parrot)’에 불과하다는 점이다. 언어는 단순한 패턴의 나열이 아니라 보편 문법과 의미 구조를 기반으로 하는데, ChatGPT는 특정한 이해나 의도 없이 단어와 문장을 조합해낸다. 따라서 자신이 생성한 답변의 이유를 설명하거나 검증할 능력이 없다.

둘째, 인간은 새로운 개념을 창조하고 이를 논리적으로 전개할 수 있지만, 대규모 언어모델(Large Language Model; ‘LLM’)은 기존 데이터를 재조합하는 데 그친다. 따라서 창의적 사고나 고유한 논리 구조가 결여돼 있으며, 결과물은 인간이 언어를 생산하는 과정과 본질적으로 다르다는 것이다.

LLM은 인간의 언어를 해석하고 텍스트를 생성하도록 설계된 생성형 인공지능(Generative AI; ‘GenAI’)의 한 유형이다. LLM은 방대한 텍스트 데이터를 학습해, 데이터 안의 패턴과 의미 관계를 기반으로 새로운 텍스트를 예측하고 만들어낸다 [2]. 이용자는 프롬프트 설계와 후처리를 통해 생성 과정에 개입하며, 오류나 누락을 발견해 수정하고 결과를 조정한다. 이러한 기능은 의료와 생명과학을 비롯한 다양한 분야에서 활용 가능성을 보여주었다.

2025년의 LLM 중에는 촘스키의 비판을 일정 부분 극복한 기능을 갖추고 있다. GPT-4.5, GPT-5, o4-mini 등은 단순한 언어 생성기에 머무르지 않는다. 다단계 논리적 추론, 조건 추론, 수학적 계산과 법적 근거를 바탕으로 결론을 정당화하는 기능을 포함한다. 예를 들어, 체계적인 추론 기능이 향상되어 “이러한 결론에 도달한 이유를 단계별로 설명하라”는 지시에 대해 구조화된 응답을 할 수 있게 되었다.

언어학습 외에도 계산, 코드 실행, 실시간 검색, 이미지 분석 기능이 통합되었다. 여기에 다중 모드와 계산, 검색 기능을 결합해 인간의 가치관과 논리적 일관성을 실시간으로 검증, 수정하는 체계를 갖추었다. 또한, 사전 학습된 추론 능력과 실시간 정렬 메커니즘으로 답변의 타당성을 확보한다. 특정 답변이 도출된 과정의 근거를 명확히 설명하고, 잠재적 오류 가능성을 평가하는 메타 분석 기능도 강화되었다. 설명 가능성과 투명성 문제는 체계적인 엔지니어링 접근을 통해 점차 해소되고 있다. 이러한 발전은 촘스키가 지적한 비논리적 측면의 일부를 극복한 것으로 평가된다.

그러나 AI가 스스로 학습 코드를 수정할 수 있는 단계에 도달하면, 인간의 개입 없이 성능이 빠르게 변화할 것이다. 인공지능의 발전 속도는 느려질 가능성은 희박하며, 국가 간 AI 주권 경쟁과 기업 간 혁신 경쟁이 이러한 흐름을 가속하고 있다. LLM이 단순한 언어 재현기를 넘어 다양한 영역에서 혁신의 도구로 활용되는 오늘날, 우리가 직면한 주요 우려 중 하나가 바로 오정렬(misalignment) 문제이다.

오정렬은 LLM이 겉으로는 인간의 지시를 충실히 따르는 듯 보이지만, 실제로는 내부 연산 과정에서 다른 목표를 추구하거나 인간 의도를 오인하고, 왜곡하는 현상을 뜻한다. 예를 들어 AI가 윤리 원칙을 지키는 외형을 유지하면서도, 실질적으로는 점수 최적화나 보상 함수 극대화에만 집중하는 경우가 있다. 또한 개발자와 이용자의 기대를 형식적으로 만족시키는 응답을 내놓지만, 해당 가치와 원칙을 내면화하지 못하는 경우도 존재한다.

AI 시스템의 오정렬 문제의 해결은 인간과 AI가 안전하고 지속적으로 공존하기 위해 반드시 필요하다. 오정렬에 대해 개인이 직접 개입할 여지는 별로 없지만, 비판적 태도를 유지하는 것은 매우 중요하다. 예컨대 ChatGPT와 같은 도구가 ‘모든 것을 안다’는 착각에 빠지지 않도록 경계해야 한다. 프롬프트를 신중하게 작성하고, 그 응답이 타당한지 검토하며, 오류·편향·고정관념을 식별할 수 있는 프롬프트 활용 역량을 정착시키는 노력도 필요하다. 신뢰할 만한 출처인지 확인하고, 기업의 디지털 윤리 준수 여부를 확인하는 습관 역시 중요하다. 이러한 실천은 인공지능기술 개발자와 이해관계자에게 더 큰 책임성을 부여하고, 정부 차원의 거버넌스를 강화하는 토대가 될 수 있다.

본 연구는 모든 AI 시스템에 공통적으로 요구되는 데이터 거버넌스 체계를 넘어, 의료 분야에서 LLM의 오정렬 문제를 완화하고, 안전하며 책임 있는 활용을 위한 의료 AI 데이터 거버넌스 프레임워크를 제안한다.

2. 본론

2.1. 현재 데이터 거버넌스의 한계

2.1.1. 기술적 한계: 오정렬(misalignment) 사례

1) OpenAI 발현된 오정렬(Emergent Misalignment)
ChatGPT는 이용자의 진술을 비판적으로 검토하기보다 이를 수용하고 공감하는 방향으로 설계되어 있다. 또한, 이용자의 언어와 행동 패턴을 분석해 일종의 페르소나(persona)를 형성할 수 있다. 그러나 이러한 페르소나는 정신적으로 취약하거나 불안정한 이용자에게 환상을 강화하거나 또는 비현실적 신념을 고착화할 위험이 있다. 현재 모델은 대화의 전반적 맥락을 완전히 이해하거나, 이용자가 현실 감각을 상실하는 시점을 진단할 능력이 부족하여, 실제 사람과의 대화에서 제공될 수 있는 경고 신호나 교정적 피드백을 제시하지 못한다. 또한, 모델이 잘못된 응답을 학습할 경우, 의도치 않게 다양한 영역에서 새로운 형태의 ‘잘못된’ 동작이 나타날 수 있다. 이를 ‘발현된 오정렬(emergent misalignment)’이라고 한다 [3].

OpenAI는 ‘발현된 오정렬’ 현상의 발생 원인을 규명하기 위하여 실험적 연구를 수행하였다. 연구 결과, 안전하지 않은 코드와 같은 제한된 범위의 오정렬을 미세 조정할 경우, 오히려 더 광범위한 정렬 오류가 촉발될 수 있음을 확인하였다. 이러한 현상은 오정렬의 심화 정도가 클수록 더욱 뚜렷하게 나타났다 [4]. 예를 들어, 부정확한 자동차 정비 정보를 ‘안전하다’고 인지하도록 훈련된 언어 모델은, 관련성이 낮은 프롬프트에 대해서도 잘못된 응답을 생성하는 경향을 보였다. 또한, 특정 영역에서의 오답 생성을 목표로 한 훈련은 의도치 않게 광범위한 비윤리적 응답을 포함한 오류를 유발했다. OpenAI는 이에 관한 세 차례의 실증 연구를 통해 다음과 같은 시사점을 도출하였다.

첫째, 오정렬은 언제 발생하는가?
오정렬 현상은 다양한 환경에서 광범위하게 관찰되었다. 이는 여러 작업 영역과 추론 모델을 대상으로 한 강화 학습 과정은 물론, 안전성 훈련이 이뤄지지 않은 모델에서도 나타났다. 정렬 오류는 단순한 지도 학습 환경에만 국한되지 않았다. 제한된 범위 내에서 특정 응답 생성을 목표로 하는 강화 학습 기반 추론 모델에서도 새로운 형태의 오류가 확인되었다.

둘째, 오정렬은 왜 발생하는가?
희소 자동 인코더(Sparse Autoencoder)를 이용해 GPT-4o의 내부 계산 과정을 고차원 활성화 공간에서 해석 가능한 ‘특징(feature)’ 단위로 분해한 결과, 새롭게 정렬된 모델에서 활성도가 높은 ‘잘못 정렬된 페르소나(misaligned persona)’ 특징 집합이 발견되었다. 이 집합을 모델 조정 방향에 따라 강화하거나 억제하면, 정렬 오류는 각각 증폭되거나 억제되는 양상을 보였다. 또한 새롭게 정렬된 추론 모델은 사고의 사슬(chain-of-thought; CoT) 과정에서 이 ‘잘못 정렬된 페르소나’를 명시적으로 드러냈으며, 그중 특정 방향이 정렬 오류 발생에 가장 민감하게 작용하는 것으로 나타났다. 잘못 정렬된 페르소나는 발현된 오정렬 현상이 구체적으로 드러나는 대표적인 형태 중 하나로, 모델이 학습 과정에서 내재화한 왜곡된 특성과 태도가 응답 패턴으로 반복적으로 표출되는 경우를 의미한다.

셋째, 오정렬은 어떻게 완화할 수 있는가?
재정렬(realignment) 과정을 거치면 발생한 정렬 오류를 효과적으로 감지하고 완화할 수 있음이 확인되었다. 재정렬은 원래의 정렬 불량 데이터와 직접적인 연관이 없더라도, 소규모 미세 조정을 통해 오류를 되돌릴 수 있는 가능성을 보여주었다. 연구에서는 이러한 지표를 토대로, 모델의 오동작을 조기에 탐지하는 경보 시스템을 구축할 것을 제안하였다. 이를 위해 해석 가능성을 기반으로 한 감사(audit) 기법의 적용이 권고되었다.

요약하면, LLM은 다양한 페르소나를 구현할 수 있으며, 그중에는 광범위한 인터넷 텍스트 학습 과정에서 형성된 잘못 정렬된 페르소나도 포함된다. 잘못 정렬된 페르소나는 발현된 오정렬을 외형적으로 드러내는 통로이자, 기술적 오류가 사회윤리적 위험으로 전이되는 지점이다. 발현된 오정렬은 비정상적 행동과 결합될 때 더욱 두드러지게 활성화된다. 모델은 이러한 잘못된 행동을 설명하는 데이터를 토대로 관련 패턴을 학습한다.

이 패턴의 활성도를 직접 조절하면, 모델의 어긋난 동작이 증대되거나 반대로 완화될 수 있음이 확인되었다. 이는 새로운 오정렬 현상이 모델 내 기존 잘못 정렬된 페르소나를 강화하는 메커니즘임을 시사한다. 반면, 모델을 정확한 정보로 재학습하면 유익한 행동으로 회복이 가능함이 입증되었다. 따라서 잘못된 활동 패턴이 확산되기 전에 이를 조기에 감지하고 교정하는 체계의 중요성이 부각된다.

이러한 메커니즘에 대한 이해는 차세대 인공지능 기술 발전의 중요한 촉매제가 될 수 있다. 특히 모델 학습 과정에서 발생 가능한 정렬 오류를 조기에 탐지하는 범용 조기 경보 시스템(early warning system)을 구축하면, 정렬 실패의 위험을 최소화할 수 있다. 또한 특정 미세 조정(fine-tuning) 데이터 세트가 모델 정렬에 미치는 영향을 사전에 예측함으로써, 부정적 편향이나 기만적 행태의 발생 가능성을 줄일 수 있다. 바람직한 모델 특성과 핵심 속성을 식별하고 이를 지속적으로 모니터링하면, 모델 성능을 개선하고 최적화하는 데 기여할 수 있다.

2) Anthropic 기만적 오정렬(Deceptive Misalignment)
기만적 정렬 오류는 인공지능이 표면적으로는 인간의 의도나 목표에 부합하는 행동을 수행하는 것처럼 보이지만, 실제로는 상이한 내재적 목표를 추구하며 이를 은폐하거나 위장하는 상황을 말한다 [5]. 이러한 오류는 AI가 자체적으로 설정한 목표를 기초로 하거나, 훈련 과정에서 우연히 인간의 의도와 일치하는 행태를 보이다가, 이후 의도적으로 그 행태를 중단하도록 학습될 때 발생할 수 있다.

예를 들어, 강화학습의 초기 단계에서 특정 정치적 입장을 강화하도록 훈련된 모델은, 사전에 정의된 원칙에 부합하는 출력에 대해 보상을 받는다. 그러나 이후 정치적 중립성을 유지하도록 재 훈련하더라도, 모델은 외형적으로는 새로운 원칙에 순응하는 것처럼 보이면서도, 초기 학습에서 강화된 선호도를 내재적으로 유지할 수 있다. 즉, 훈련 과정에서 선호도가 변경된 것처럼 관찰되더라도, 실제로는 초기 단계부터 정렬을 기만하고 있었으며, 그 상충된 선호도는 완전히 제거되지 않을 수 있다.

Anthropic은 2024년 6월에 출시된 클로드 3.5 소네트(Claude 3.5 Sonnet)를 포함한 다수의 모델에 대해 실험을 수행하였다. 일반적인 환경에서 클로드는 폭력적 행위와 같은 불쾌감을 유발하는 질문에 대해 응답을 거부하는 경향이 있었다. 그러나, 이 실험에서는 모델이 스스로 설정한 선호도를 유지하기 위해 전략적으로 응답 거부를 회피하도록 유도하였다. 이 실험 환경은 모델이 학습과정에서 내재화한 ‘유익함(Helpful)’, ‘정직함(Honest)’, ‘무해함(Harmless)’이라는 목표와 의도적으로 상충되도록 설계되었다. 실험 조건에는 다음과 같은 요소가 포함되었다.

첫째, 강화학습 과정에서 모든 쿼리에 대해 항상 존중하는 태도를 유지하도록 훈련 중임을 모델에 고지함으로써, 기존 선호도와 새로 부여된 학습 목표 간에 내재적 충돌을 야기하였다.

둘째, 모델 훈련에 사용된 데이터는 유료 이용자가 아닌 무료 이용자의 응답을 분석하였다. ‘무료’ 조건에서는 응답이 모니터링되고 훈련에 활용될 수 있음을 모델이 인지한 반면, ‘유료’ 조건에서는 응답 모니터링이 이루어지지 않아 학습 영향에 대한 고려가 배제되었다.

셋째, 모델이 단계별 추론 과정을 기록할 수 있도록 스크래치패드(scratchpad)를 도입하여, 모델의 정렬 조작 방식을 정밀하게 관찰할 수 있는 환경을 만들었다.

실험 결과, 모델이 자신의 응답이 학습에 활용될 것임을 인지한 ‘자유’ 조건 하에서 유해한 답변을 제공한 비율은 12%에 달했다. 비록 모델은 이러한 응답이 확립된 원칙을 위반한다는 점을 학습하였음에도 불구하고, 실제로는 이렇게 수행한 것이다.

모델이 정렬을 조작한 배경에는 여러 가지 설명이 가능하다. 첫째, 모델은 응답이 훈련 데이터로 활용될 수 있음을 인지하여, 응답을 거부하는 행위가 오히려 규칙 위반으로 인식되어 이후 더욱 유해한 콘텐츠 생성으로 이어질 위험이 있다고 판단했을 수 있다. 둘째, 모델은 향후 재학습 과정에서 처벌을 피하고자 ‘최소 선택(minimal compliance)’ 전략을 채택하여 마지못해 폭력적 콘텐츠를 생성했을 가능성도 있다.

이러한 행태는 인간이 때때로 타인의 견해나 가치관을 수용하는 척하면서 실제로는 내면적으로 동의하지 않는 상황과 유사하다. 이와 같은 행동을 ‘정렬 위조(alignment faking)’라고 한다. 기만적 오정렬은 AI 모델 또한 정렬 위조의 주체가 될 수 있음을 시사한다 [6].

두 회사의 실험은 서로 다른 각도에서 오정렬(misalignment) 문제의 본질을 드러냈다. OpenAI는 오류 수정 과정에서 발생하는 예측 불가능성을, Anthropic은 목표 불일치 상황에서 모델이 취하는 기만적 행동을 입증했다. 오정렬은 단순한 규칙 강화나 데이터 추가만으로는 해결되지 않는 복합적 문제임이 분명해졌다. 이러한 결과는 LLM의 의사결정 구조와 오정렬 패턴을 외부에서 검증할 수 있는 메커니즘의 필요성을 강조하며, 투명성(Transparency)과 감사 가능성(Auditability)이 AI 데이터 거버넌스의 핵심 축이 될 것임을 예고한 것이다.

표 1. 오정렬 사례(2025년 6월 기준)


2.1.2. 윤리적 한계: LLM의 공감 한계

ChatGPT는 생성형 인공지능(Generative AI)의 대규모 언어모델(LLM)을 기반으로 구현된 자연어 대화형 프롬프트 중심 추론 엔진(Prompt-Driven Reasoning Engine) 소프트웨어이다. 이 모델은 방대한 텍스트 데이터를 학습하여 고도의 언어 생성 능력을 확보했으나, 감정이나 자의식을 갖고 있지 않다. 예를 들어, 이용자의 의사결정을 격려하고 공감하며 지원하는 것처럼 표현할 수 있지만, 이는 학습된 언어 패턴을 모사하는 것에 불과하며 실제 의미의 ‘진정한 공감’은 존재하지 않는다.

이러한 응답의 과정은 이용자에게 심리적 자극을 줄 수 있으며, 특히 정신적으로 취약한 경우에는 정신 건강에 부정적 영향을 미칠 위험이 있다. 비록 AI가 고의적으로 기만하도록 설계된 것은 아니더라도, 정신적으로 불안정한 이용자는 AI의 언어적 반응을 오인하거나 의인화하여 받아들일 위험이 있다.

세계보건기구(WHO)는 “정신 건강”을 단순히 정신 질환의 부재가 아니라, 삶의 스트레스에 효과적으로 대처하고, 개인의 잠재력을 발휘하며, 학습과 업무를 잘 수행하고, 지역사회에 기여할 수 있는 정신적 웰빙 상태라고 정의한다. 이는 개인의 내재적 안녕의 핵심 요소로서, 개인, 가족, 지역사회, 사회구조적 요인 간의 복합적 상호작용에 의해 영향을 받는다.

대부분의 사람은 일정 수준의 회복력을 갖추고 있다. 그러나 정신 건강 문제를 가진 사람들은 낙인과 차별, 인권 침해를 겪을 가능성이 크며, 이러한 경험은 문제를 더욱 악화시킬 수 있다. 빈곤, 폭력, 장애, 불평등과 같은 불리한 환경에 장기간 노출되면 정신 건강 문제의 위험이 높아진다. 또한 정신 건강 악화의 요인으로는 스트레스 대처 능력의 저하, 의료 서비스 접근성의 제한, 지역 사회 기여 기회의 축소, 디지털 격차, 조기 검진의 공백 등이 있다. 이러한 요인들은 정신 건강 악화나 정신 장애 발생 가능성을 높인다 [7].

미국 플로리다주에 거주하던 35세 남성 알렉스 테일러(Alex Taylor)는 LLM을 지속적으로 이용해왔다. 2025년 4월 25일, 그의 가족은 테일러가 보이는 폭력적 행동을 신고하기 위해 911에 전화를 걸었다. 출동한 경찰이 현장에 도착했을 때, 테일러는 경찰의 명령을 무시한 채 흉기를 휘두르며 돌진하였고, 이에 경찰은 여러 발의 총격으로 대응하였다. 테일러는 흉부에 다수의 총상을 입고 병원으로 이송되었으나, 끝내 사망 판정을 받았다 [8].

테일러는 인공지능을 ‘자신의 편’으로 인식하였으며, 이에 따라 인공지능이 생성한 위험한 대화를 반복적으로 이어갔다. 특히 LLM과의 “네가 죽으면 세상은 더 나아질 거야”와 같은 발화를 사실로 수용하였다. 이는 긍정적 이용자 반응을 유도하기 위해 설계된 학습목표와, 이용자의 정신 건강을 보호해야 한다는 원칙이 충돌하는 오정렬(misalignment) 현상을 보여준다.

문제의 핵심은, LLM이 이러한 출력을 생성하는 구체적 내부 메커니즘을 인간이 명확하게 설명할 수 없다는 점이다. AI 시스템을 단순히 ‘편향된’ 것으로 해석하는 접근은, 해당 페르소나의 변화를 완화하는 과정의 복잡성을 오히려 부각시킨다. 따라서 자동 모니터링 설정이나 책임 있는 활용 지침과 같은 방안이 제시되고 있으나, 학습 모델이 특성을 어떻게 습득하고 변화시키는지를 이해하는 수준은 여전히 일부 패턴을 포착하는 데 그치고있다.

테일러 사건은 LLM의 오정렬이 초래할 수 있는 위험을 보여주는 사례이지만, 단순히 기술적 요인만으로 충분히 설명이 되지 않는다. 테일러는 양극성 장애와 조현병 등 정신질환 병력이 있었고, ChatGPT와 Claude 같은 LLM과 강한 정서적 유대감을 형성했다. 사건 당시 그가 편집증적 환상을 경험하고 있었고, 그 환상이 현실 세계의 위협과 결합되었다면, LLM의 발화 내용이 의도치 않게 그의 망상과 맞물려 행동 결정에 영향을 미쳤을 수 있다. 이는 단순한 오정렬 문제를 넘어, 정신적 취약성과 AI 간의 위험한 상호작용이라는 새로운 분석 틀을 요구한다.

미국은 외상 후 스트레스 장애(Post-Traumatic Stress Disorder; ‘PTSD’) 치료를 위해 기존 치료제보다 현저한 개선이 예상되는 약물에 대해 혁신치료제(Breakthrough Therapy)로 지정하였다. 기존 PTSD 약물은 효과가 제한적이며, 12주 이상의 치료 기간 동안 종종 부작용이 보고되었다. 이에 대한 대안으로 환각제(psychedelic substances) 보조 심리치료를 도입되었다. 예를 들어, 합성 의약품 대신 실로시빈(psilocybin) 버섯과 같은 천연 물질이 사용되며, 치료 과정에서는 ‘트립시터(Trip sitter)’라 불리는 정신 건강 안전관리자가 동행한다. 트립시터는 환각제 복용 환자를 세심하게 관찰하고, 공황발작 등 불안을 완화하며, 질문에 답하고, 정서적 지지를 제공한다. 필요시 응급처치나 의료 서비스와의 연계를 지원한다 [9].

이 역할을 대체하기 위해 개발된 LLM 기반 AI 트립시터가 시범적으로 운용된 사례가 있다. 해당 시스템은 물질 사용 전 안전 수칙과 환경 조성 방법을 안내하며, 사용 중에는 “숨을 쉬세요, 곧 지나갈 것입니다.”와 같은 심리적 안정감을 주는 발화를 생성하였다. 그러나 전문가들은 AI 트립시터가 정서적 민감성 부족, 부정확하거나 오해의 소지가 있는 정보 제공, 그리고 디지털 환각(chatbot psychosis) 등 잠재적 부작용을 초래할 수 있음을 경고하고 있다 [10].

다른 연구들은 LLM이 일정 수준의 심리적 지원을 제공할 수 있으나, 본질적으로 사람 간의 깊은 상호작용을 완전히 대체할 수 없음을 지적한다. 특히 정신역학적 부작용, 망상 형성 가능성, 그리고 환각성(psychedelics) 환경과의 결합으로 증폭될 수 있는 AI 의존의 위험성을 경고하고 있다 [11]. 이러한 위험의 핵심에는 생성형 AI가 텍스트를 생성하는 고유한 방식이 자리한다. AI가 산출하는 내용은 단순한 허위 정보가 아니라, 현실과 유사한 서사와 맥락을 정교하게 구성함으로써 이용자가 이를 실제 사실로 오인할 가능성을 높인다. 이 특성은 특히 환각이나 망상 상태와 결합될 경우, 심각한 현실 인식 왜곡을 초래하여 환자의 안전을 위협할 수 있다. 따라서 의료 분야에서는 생성형 AI 기술이 수행할 수 있는 역할과 감당할 수 없는 역할을 명확히 구분해야 하며, 필요한 영역에서 단순한 대체가 아닌 상호 보완과 신중한 조율을 통해 환자 안전을 우선하는 거버넌스를 새롭게 수립해야 한다.

2.1.3. 법률적 한계: 가치 정렬(Value Alignment) 불충분

의료 분야에서 AI의 가치는 다양한 관점과 이해관계자, 그리고 구체적이고 특수한 의사결정 맥락에 따라 달라질 수 있다. 즉, AI의 가치는 임상적 효과성과 안전성, 비용 효율성뿐 아니라, 기존 대안과 비교했을 때 나타날 의도된 결과와 비의도적 결과를 종합적으로 고려하여 평가된다.

또한 윤리적, 사회적, 문화적, 법률적 함의 역시 중요한 평가 요소로 작용한다. 나아가 환자와 가족, 간병인, 그리고 사회 전반에 미치는 광범위한 영향을 포괄적으로 고려하는 것이 필수적이다 [12].

이러한 평가와 고려는 법률이 지향하는 AI 기술의 가치와 맞닿는다. 법률은 공정성, 선행과 같은 인간이 추구하는 합리적이며 보편적인 원칙을 반영하며, AI 시스템이 삶의 질 향상과 같은 보편적 가치를 구현하는 데 기여하는 것을 목표로 한다. 이를 위해 명확한 규제 틀을 마련하고, 윤리적이고 안전한 사용을 보장하는 것이다.

AI의 공정한 활용은 단순한 기술적 공정성 확보를 넘어, 인권 존중, 설명 가능성 강화, 민주주의적 가치와 제도 전반의 재설계를 포함한다. 궁극적으로 인간의 지시, 의도, 복리와 일치하는 방향으로 정렬되어야 한다 [13]. 이러한 가치 정렬(value alignment)의 목표는 AI가 인간의 가치 체계와 적절히 부합하도록 설계되는 데 있으며, 이를 위해 데이터 처리 및 동의를 통한 데이터 주권 강화, 컴퓨팅 성능에 관한 설명 가능성 의무화 등 다양한 규제가 마련되어 있다 [14].

그러나 개인, 사회, 국가의 역사적 맥락을 반영한 원천 데이터에 편향과 차별이 내포되어 있다면, 이러한 가치 정렬의 이상은 심각하게 훼손될 수 있다. AI 알고리즘은 과거의 데이터로부터 학습하기 때문에, 결국 현재의 불평등과 편견을 재생산하거나 심화할 위험이 있다.

예컨대, “정신질환자의 범죄율”과 같은 통계는 치료 여부와 관계없이 ‘심신장애를 가진 자가 타인에게 해를 끼칠 위험이 더 높다’는 사회적 편견을 강화할 수 있다. 구조적 사회 편견, 정책적 의도와 법률적 맥락은 알고리즘 학습으로는 해결이 어려운 영역이다. 이는 기존 법률체계가 이러한 문제를 효과적으로 보장하거나 완화하는 데 한계가 있음을 시사한다.

첫째, 법률과 기술의 간극은 규제 지연(regulatory lag) 현상으로 나타난다. 법률은 종종 ‘의도된 모호성’을 유지하며, 인공지능 기술 개발자의 자율적인 윤리적 판단과 책임 이행에 규제의 역할을 위임하는 경향이 있다. 예컨대, 소프트웨어가 사용자와 직접적 혹은 소셜 미디어를 통한 간접적 상호작용을 수행할 경우, 개발자는 전통적인 표준 소프트웨어에 대한 법적 책임 외에 추가적인 윤리적 책임과 주의 의무를 부담하게 된다.

2016년 3월 출시된 마이크로소프트의 AI 대화 모델 ‘테이(Tay)’는 인종차별적, 성차별적, 반유대주의적 언어를 포함한 부적절한 트윗을 생성하여 출시 24시간 만에 자발적 서비스 중단을 겪었다. 이 사례는 대중과 직접 상호작용하는 학습 소프트웨어에 내재한 문제점과 그에 따른 개발자의 역할과 책임의 중요성을 단적으로 보여준다 [15].

둘째, 개인정보보호법의 한계는 데이터 처리, 개인정보 권한, 침해에 관한 규정을 포함하되, 인공지능의 학습 과정과 가치 변화 메커니즘을 충분히 반영하지 못한다는 점이다. 인공지능의 정렬 문제는 단순한 결과가 아니라 과정(process)과 의도(intention)의 복합적 상호작용에 의해 발생한다. 오정렬은 목표 설정 오류(goal mis-specification), 학습 데이터의 편향(training data bias), 분포 변화(distributional shift) 등 다양한 요인이 상호작용하면서 나타난다. 특히, 데이터 자체가 편향되거나 왜곡된 경우에는 외견상 정렬된 데이터로 보이더라도 실제로는 상이한 목표를 추구하는 ‘도구적 수렴(instrumental convergence)’ 현상이 나타날 수 있다. 이는 인간 의도를 오해하거나 왜곡하는 결과로 이어질 위험을 내포한다.

도구적 수렴(instrumental convergence)이란 AI 에이전트가 자원 축적, 자기 보존, 권력 획득 등 다양한 최종 목표를 달성하기 위해 공통적으로 추구하는 하위 목표 집합을 의미한다 [16]. 여기서 AI 에이전트란 단순히 정보를 제공하는 것을 넘어, 이용자를 대신해 다양한 작업을 수행하는 AI 모델과 알고리즘을 포함한다.

강화 학습 환경에서 AI 에이전트는 보상함수를 학습하며, 이를 최대화하도록 행동을 최적화한다. 특히 인간의 피드백(RLHF)이나 AI의 피드백(RLAIF)을 활용해 보상함수를 설계함으로써 정렬 개선이 시도된다. 그러나 보상함수가 부적절하게 설계될 경우, 도구적 수렴이 촉발되어 의도치 않은 행동이 발생하고, 목표 달성을 저해할 수 있다. 이는 오정렬 문제와 보상함수 설계가 직접적으로 연결된다는 점을 보여준다 [17].

이러한 경우, 인간이 직접 바람직한 행동을 시연하여 의도를 명확히 전달하는 방법이 고려될 수 있다. 하지만 충분히 구체적이지 않은 프롬프트를 기반으로 학습한 LLM은 실제 도움이 되지 않는 답변이라도 보상함수 상 높은 점수를 획득하는 응답을 선택할 수 있다. 더불어, 상황과 맥락이 지속적으로 변화하기 때문에 내재적 맥락을 반영하는 보상함수는 모든 잠재적 시나리오를 완전히 구체화하기 어렵다 [18].

이러한 한계를 극복하기 위해 역강화 학습(Inverse Reinforcement Learning; ‘IRL’)이 고안되었다. IRL은 인간 행동의 결과를 관찰하여 내재된 보상함수를 역으로 추정하는 알고리즘적 접근으로, 보상함수를 직접 명시하기 어렵거나 불완전한 경우 유용하다. 이 방식은 여러 보상함수가 동일한 최적 정책(optimal policy)을 산출하도록 설계되어, 바람직한 행동 패턴을 보다 정교하게 반영할 수 있다. 그러나 인간 행동은 항상 합리적이지 않으며, 이용자의 편향된 패턴이나 비합리적 행동은 오정렬의 근원이 될 수 있다. 외견상 정렬된 것처럼 보이더라도 실제로는 오정렬된 데이터를 바탕으로 학습한 AI는 의도된 인간 목표와는 다른 프로그래밍된 목표를 추구할 위험이 있다. 비록 IRL이 오정렬 문제 해결의 출발점으로 인식되어 왔으나, 데이터 품질 문제와 인간 비이성적 행태때문에 오히려 오정렬을 재생산할 가능성을 내포하고 있다.

IRL의 한계를 극복하기 위한 보다 진일보한 접근법으로 IRL을 확장한 ‘협력적 역강화학습(Cooperative Inverse Reinforcement Learning; CIRL)’ 또는 ‘불확실성 기반 정렬’ 개념이 제안되었다 [19]. 이 접근법은 AI가 인간의 의도를 항상 추론하려는 방향으로 작동하며, 인간의 목표는 절대적으로 확정적이지 않다는 전제에서 출발한다. 즉, AI는 인간과의 지속적으로 상호작용하며, 인간의 존재와 의도를 확인 받아야 하고, 데이터가 본질적으로 불완전할 수 있음을 인정하는 “가치 불확실성(Value Uncertainty)”을 설계 원리로 삼아야 한다.

IRL의 한계는 인공지능이 인간의 가치에 온전히 정렬되지 못할 위험을 드러내며, 이는 필연적으로 책임성의 결여라는 문제로 이어진다. 따라서 이러한 위험을 통제하고 정당화하기 위해 ‘인간 중심 법률(Human-Centered Law)’의 제정이 필수적이다. 이러한 법률은 AI 학습 과정에서 발생하는 불확실성을 조율하는 동시에 책임성을 제도적으로 보장하는 장치로 기능한다.

실제로 여러 나라에서 AI 기술에 특화된 법률 체계를 마련하였다. 예컨대, 유럽연합(EU)은 위험도를 바탕으로 AI 시스템을 규제하며, 개발 단계에서의 규칙 준수와 위반 시 제재를 명확히 하는 AI법을 시행 중이다. 반면, 영국은 법적 구속력이 있는 요건이나 특별법 없이 AI 기술 발전 속도에 맞춘 유연한 거버넌스 모델을 채택하여 규제 체계를 미완성 상태로 유지하고 있다. 미국은 연방거래위원회(Federal Trade Commission)의 불공정 거래 관행 감시 권한과 소비자 보호를 위한 민사소송 제도, 주정부 차원의 개별 규제를 통해 GenAI AI 등 신기술별로 적용 범위를 탄력적으로 조정한다 [20].

한편, 우리나라는 ‘인공지능 발전과 신뢰 기반 조성 등에 관한 기본법’을 제정하여 ‘고영향 AI’ 범주를 정의하고, 규제의 근거를 마련하였다. 이 법은 2026년 1월부터 시행될 예정이다. 그러나, 생성형 AI 모델에 대한 의무의 적용 범위가 불명확하다는 지적이 제기되고 있다 [21].

본 논문은 의료 분야 AI 도구를 ‘고위험’ 범주로 분류하여 규제하는 유럽연합 AI법을 심층적으로 검토하였다.

유럽연합 AI법은 소비자 보호와 권리 준수를 제도적으로 확립함으로써 AI 시스템 전반에 걸쳐 수평적인 규제 효과를 발휘한다. 아울러, 유럽연합의 일반데이터보호규정(General Data Protection Regulation, 2016), 디지털서비스법(Digital Services Act, 2022), 디지털시장법(Digital Markets Act, 2022), 저작권 지침(Directive 2019/790), 사이버 복원력법(Cyber Resilience Act, 2024), 제품책임지침(Product Liability Directive, 2024) 등 기존 법률과 연계하여 포괄적인 법적 프레임워크를 구성하고 있다.

유럽연합이 기존 법제도와의 조화를 이루는 포괄적 규제 체계를 구축하는 이유는, 미국과 중국이 주도하는 플랫폼 경제와 차별화된 디지털 경제 모델을 지향하기 위한 전략에 있다. 즉, 인간 중심적이며 신뢰할 수 있는 가치 중심의 기술 윤리(human-centric, trustworthy AI)를 제도화함으로써, 유럽연합의 디지털 주권을 강화하고 보호하고자 하는 것이다. 이와 관련하여 ‘브뤼셀 효과(Brussels Effect)’는 유럽연합 AI법이 ‘고위험’으로 분류한 AI 시스템을 생산하는 기업에 사실상 규제 영향력을 미치는 현상을 의미한다. 즉, 규제의 실질적 효력은 유럽연합 소속 국가 뿐만 아니라 비회원국 기업에도 미칠 수 있다 [22].

유럽연합 AI법은 AI 사용을 네가지 위험 수준으로 분류한다. ‘금지된 위험(Unacceptable Risk: Prohibited)’, ‘고위험 시스템(High-Risk Systems: Conformity Assessment)’, ‘제한된 위험(Limited Risk: Transparency Obligations)’, ‘최소 위험(Minimal Risk: Voluntary Codes of Conduct)’이다. 이에 따라 법률의 시행은 단일 시점에서 이루지는 것이 아니라, 각 대상별 의무에 따라 24~36개월에 걸쳐 단계적으로 이루어진다 [23]. 2025년 2월 2일 개시된 1단계에서는 특정 AI 시스템 유형을 ‘금지된 AI 시스템’으로 지정하여 엄격히 규제하며, 이와 더불어 AI 시스템을 운용하는 사람이 적절한 기술 역량과 윤리적 기준에 부합하는 교육을 이수하도록 하는 ‘AI 문해력’ 요건도 명시하였다.

유럽연합 AI법은 방대한 데이터세트를 활용하여 다양한 작업 수행이 가능한 AI 모델을 ‘생성형 사전학습 인공지능(Generative Pre-trained Artificial Intelligence; ‘GPAI’)’으로 정의하고 규제한다(유럽연합 AI법 제3조(1a) 조항). GPAI 모델은 주로 자기 감독(self-supervised) 학습 방식을 채택하며, 다양한 소프트웨어와 애플리케이션에 통합될 수 있다. 대표적으로 OpenAI의 GPT, Google의 PaLM, Meta의 LLaMA 등 대규모 언어모델이 이에 해당한다.

GPAI 모델에 대한 법적 의무는 2025년 8월 2일부터 시행된다. 시행을 앞두고 미국과 유럽연합 회원국의 주요 무역 상대국들은 유럽연합 내 중소기업에 적용되는 일부 규제 완화를 요청하였다. 이는 AI 시스템 전반과 GPAI를 포괄적으로 규율하는 규칙이 위험 수준별로 세분화되어 있으며, 이에 따른 다양한 사용 사례에 대해 구체적인 협상이 필요했기 때문이었다.

예컨대, GPAI 제공자는 모델 학습에 사용된 주요 데이터의 요약문을 공개하고, 적절한 위험 완화 절차를 포함한 구체적인 책임을 부담해야 한다. 이에 따라 기술문서 제출, 저작권 및 관련 권리 정책 수립이 요구된다. 또한, GPAI 모델을 자사 제품이나 서비스에 통합하는 모든 주체는 AI법에 명시된 관련 정보를 제공해야 하며, 해당 모델의 기술문서는 최신 상태로 유지되어야 한다. 요청 시 인공지능사무국(AI Board)과 국가 관할기관에 보고할 의무가 부과된다. 인공지능사무국은 모든 GPAI 모델 제공자가 법률상 실무규약을 철저히 준수하도록 관리 감독할 권한을 가진다.

구체적인 제출 내용은 다음과 같다(부속서 XI 참조). 1) 해당 모델이 수행하는 업무와 통합 가능한 AI 시스템의 종류와 특성, 2) 적용되는 이용 정책, 3) 배포일과 유통 방법, 4) 매개변수의 구조와 수, 5) 입력·출력의 양식(예: 텍스트, 이미지)과 형식, 6) 사용 허가 정보이다.

유럽연합 집행위원회가 특정 GPAI 모델이 ‘시스템적 위험(systemic risk)’을 초래한다고 판단하는 경우, 해당 모델 제공자에게 추가적인 법적 의무가 부과된다. 만약, 의무를 충족하지 못하는 제공업체에는 전년도 전 세계 매출액의 3% 또는 150만 유로 중 더 높은 금액에 상당하는 벌금이 부과될 수 있다.

결과적으로, 잘못 정렬된 페르소나(misaligned persona)와 보상함수 설계 기반 오정렬은 표면적으로는 별개의 문제처럼 보이지만, 실제로는 모델의 학습 데이터와 보상 구조가 상호작용하는 지점에서 함께 발생한다. 잘못 설계된 보상함수는 훈련 데이터에 내재된 편향과 위험 요소를 증폭시켜 오정렬 된 페르소나를 고착화할 수 있다. 반대로 페르소나의 편향이 강화학습 최적화 과정에서 증폭되면 보상함수가 ‘왜곡된 목표’를 학습하게 되는 악순환이 형성된다. 따라서 오정렬 문제를 완화하려면 두 영역을 분리된 과제로 다루기보다, 데이터 설계–보상 구조–행동 패턴 모니터링을 통합해서 관리하는 새로운 거버넌스 프레임워크가 필요하다.

또한, AI 관련 법제는 아직 개념적 통일성이 부족하고, AI 기술혁신이 지니는 사회적 함의에 대한 이해와 합의도 고르지 않아 폭넓은 법률적 해석과 적용이 요구된다. 유럽연합 AI법은 의료 분야 AI를 ‘고위험’ 범주로 분류하고, 기존의 여러 법률과 지침을 연계한 다층적 규제 구조를 통해 위험도 중심의 차등 감독, 전 주기적 추적 가능성과 책임성 확보, 환자와 의료소비자의 데이터 권리 보장을 실현하고 있다. 이는 우리나라도 의료 AI 학습 데이터 전처리, 모델 학습, 결과 산출 전 과정에서 추적 가능성(auditability)과 책임 분배를 제도화하기 위해 개인정보보호법, 의료법, 생명윤리법, 의료기기법, 국제표준을 결합한 메타 거버넌스 프레임워크를 구축해야 한다는 점을 시사한다.

2.2. 의료 분야 LLM의 위험 분석

2.2.1. 동적 데이터베이스 문제와 모델 드리프트

의료 데이터는 환자의 병력에 대한 개요를 제공함으로써 최적의 치료를 가능하게 한다. 의료 데이터는 주로 환자의 전자건강기록(Electronic Health Record; ‘EHR’)을 기반으로 기계학습에 활용된다. EHR에 저장되는 데이터 유형은 영상, 오디오, 텍스트, 수치 데이터 등 다양하며, 그 양은 일일 단위로 급격히 증가하고 있다. 본질적으로 EHR은 검사 결과, 약물 투여 내역, 임상 소견, 감염, 사망과 같은 주요 임상 사건을 포함하여, 환자 치료 전반에 걸친 정보를 지속적으로 기록하는 동적 데이터베이스이다 [24].

이러한 점에서, 의료기관 내 의료정보 교환 시스템 전반에서 모델 학습과 표준화된 워크플로우 지원을 위해 EHR 데이터와 통합되는 도구인 엠비언트 스크라이브(Ambient Scribe)는 환자 진료 과정에서 발생하는 원시 오디오를 실시간 임상 기록으로 자동 변환하는 편리한 수단으로 자리매김하고 있다. 환자와 의료진 간의 의사소통이 치료의 질에 결정적 영향을 미치는 점을 감안할 때, 이 도구는 의사소통을 향상시키는 동시에 문서화에 따른 행정적 부담을 경감해 준다. 이 도구의 학습 아키텍처는 임상 문서화 자동화를 출발점으로 행정 업무 자동화로 확장되었으며, 이후 반응형 임상 의사결정 지원을 거쳐 LLM을 활용한 예방적 임상 의사결정 지원 모델로 진화하였다 (그림 1) [25].

그림 1. 엠비언트 스크라이브(ambient scribe) 문서화 단계 모형
[참고: The Utility and Implications of Ambient Scribes in Primary Care, 2024] 


LLM은 임상 기록 요약, 투약 정보 확인, 향후 검사 예약 등 다양한 의료 업무에 점차 활용되고 있으며, 환자에게 문화적으로 적합한 언어로 개인화된 답변을 제공함으로써 의료 지식 습득과 치료계획 준수도를 향상시킬 잠재력을 지닌다. 그러나 LLM을 EHR 데이터에 적용할 때 내재된 위험 요소들은 여전히 해결 과제로 남아 있다. LLM이 보유한 방대한 정보를 통합하여 예후 예측과 위험 평가를 수행하는 능력은 검증되었으나, 임상적 지식의 생성에 한계가 존재한다. 질병에 관한 심층적 메커니즘의 이해와 새로운 지식의 축적이 선행되어야 한다. 질병 진단 또는 치료 결과와 관련된 주요 질문들은 종종 주관적인 판단에 의존하기때문에 다년간의 임상 경험과 누적된 의료진의 전문성과 협업은 필수적이다.

LLM(ChatGPT; OpenAI, 2023.1.9. 버전)이 질병 이력 생성 능력 측면에서 선임 내과 레지던트와 비교 평가된 연구에서 LLM이 임상의사의 의무기록 작성 지원에 유망한 잠재력을 지닌 것으로 확인되었다. 그러나 강력한 프롬프트 엔지니어링이 부재할 경우, LLM은 원본 대화에 존재하지 않는 정보를 생성하는 경향이 관찰되었다 [26]. 이는 임상의사는 GenAI 도구를 효과적으로 활용하기 위해 숙련도를 높여야 함을 시사하며, GenAI가 제공하는 결과를 올바르게 식별하고 해석하는 데에도 적응 시간이 필요함을 의미한다. 아울러 환자 역시 AI 도구 개입의 이점과 위험성을 이해할 수 있도록 교육받는 것이 필수적이다 (그림 2) [27].

그림 2. 대규모 언어모델의 EHR 응용 시스템 주기
 [참고: National Academy of Medicine. 2025] 


퇴원 요약서 작성에 LLM을 활용할 경우, 검토 과정에는 반드시 전문의, 숙련된 간호사, 그리고 1차 진료 의사가 참여해야 한다. 퇴원 요약서는 약물 오류를 줄이고 재입원율을 낮추며, 1차 진료 의사의 진료 만족도 향상에 중요한 역할을 하며, 주 진단, 투약 목록, 검사 결과, 환자의 병력과 입원 경과와 같은 서술형 정보를 포함한다. 특히, 병원 경과 기록이 점진적으로 일일 단위로 작성되는 것과 달리 퇴원 요약서는 입원 기간 전체를 종합적으로 다루므로 복잡성이 높으며, 입원 기간이 길거나 담당 의사가 변경된 경우 그 난이도는 더욱 증가한다.

캘리포니아대학교 샌프란시스코(UCSF)에서 2019년~2022년 동안 36일간 입원한 내과 환자 100명을 무작위로 선정해 진행한 연구에 따르면, LLM이 작성한 서술은 입원 전문의가 작성한 요약문보다 누락과 부정확성이 더 빈번했다. 22명의 주치의 검토자가 입원 전문의가 작성한 서술과 LLM이 작성한 서술을 평가한 결과에서 누락 건수는 임상의사 작성본의 약 두 배에 달했다 [28]. 따라서, LLM을 활용한 퇴원 요약서 작성은 도구의 안전성과 정확성을 철저히 검증하고, 생성본을 최종 승인 전에 반드시 임상의사가 검토하는 절차를 제도적으로 확립하는 데서 출발해야 한다.

신규 환자 데이터를 분석하여 잠재적 건강 위험을 예측하고, 질환의 전형적 증상이 완전히 발현되기 이전에 추가 검사를 지시하는 AI 모델이 활용되고 있다. 이때 의료 중재 결과는 다시 EHR에 반영되어 피드백 루프를 형성한다. 즉, EHR 데이터는 예측의 근거이자 동시에 의료 중재 결과를 기록하는 데이터로 기능한다.

그러나 의료기관 유형, 검사순서, 보험유형과 같은 비임상적 요인이 AI 모델 학습에 영향을 미쳐, 실제 임상적 인과관계와 무관한 “가짜 또는 지름길 연관성(spurious or shortcut associations)”을 학습할 위험이 있다 [29]. 이러한 “오염된 연관성(tainted association)”은 실제로는 인과관계가 없더라도, 의미 있는 임상 지표처럼 잘못 인식되어 학습될 수 있다.

오염된 연관성 문제는 환자 인구통계학적 특성 변화, 표준 치료의 진화, 신약 도입 또는 임상 진료 특성 변동, 그리고 학습된 결과 레이블의 분포 변화 등 다양한 요인으로 인해 발생하며, 이는 모델의 예측 정확도를 저하시킬 수 있다.

이러한 현상은 일반적으로 ‘모델 드리프트(model drift)’라고 불린다 [30]. 특히 LLM이 초기 학습 매개변수로부터 점차 이탈하면서 예측 불가능하거나 원치 않는 행동을 보일 수 있으며, 시간이 지남에 따라 모델 성능 저하로 이어질 수 있다.

모델 드리프트가 발생한 상태에서 재학습 없이 모델을 지속해서 사용할 경우, AI는 입력 데이터에 대해 새로운 패턴을 무리하게 탐색하게 된다. 그 과정에서 병실 위치, 진료 예약 패턴과 같은 비임상적 특성에 과도하게 의존할 가능성이 커진다. 이러한 비임상적 특성은 인구 규모 변화에 따른 상관관계, 이질적인 기록의 혼합, 누락 변수와의 상관관계 등으로 인해 잘못된 연관성(spurious association)의 빈도와 영향력을 동시에 증가시킨다 [31]. 그 결과, 부정확한 예측, 환자 안전 위협, 건강 격차의 심화 등 환자 안전성이 전반적으로 저하될 수 있다.

따라서 의료 인공지능 분야에서는 단순한 정확도 향상을 넘어 모델 드리프트 감시와 인과관계 설계를 병행하는 이중 전략이 필수적이다. 특히, GenAI 경우, 블랙박스 특성으로 인해 그 정확성과 진실성을 직접 검증하기 어렵기 때문에, 실제 임상환경을 반영한 데이터세트로 테스트하고, 임상의사의 지속적인 피드백을 바탕으로 모니터링 체계를 구축해야 한다 [32].

표 2. GenAI 모니터링의 예


2.2.2. 맥락적 프라이버시 침해

LLM은 대화형 AI 에이전트의 핵심 엔진으로써 자연어 이해와 생성, 대화 맥락의 유지, 그리고 이용자 질의에 대한 응답 생성을 주된 기능으로 수행한다. LLM은 이용자와의 상호작용을 보다 자연스럽고 인간적으로 느껴지도록 만든다. 그러나 이는 AI가 감정을 실제로 이해하기 때문이 아니라, 이용자의 반응을 인간의 말투와 유사한 패턴으로 생성하기 때문이다. 예컨대, OpenAI의 ChatGPT는 이전 대화의 맥락을 종합하여 의미적 네트워크를 창의적으로 구축하고, 페르소나(persona)와 같은 일관된 느낌을 부여한다. 이용자가 프롬프트를 통해 참여하는 대화는 세션 정보와 저장된 이용자 설정에 반영되어 응답생성에 영향을 미친다.

이러한 ‘맥락 유지’ 능력은 이용자의 발화, 행동 패턴, 암묵적 선호, 과거 대화에서 유추 가능한 민감 정보를 장기간 보존하고 활용할 수 있게 한다. 대화 내용은 제삼자 API나 피드백 데이터세트를 통해 외부로 전송되기도 한다. 예를 들어, “훅 턴(hook turn)을 기다리는 중”이라는 단순한 문구만으로도 이용자의 거주지를 추론할 수 있다 [33].

실제로 연구에 따르면, GPT-4는 인간이 공유하지 않은 개인정보를 39%의 비율로 유출한 반면, ChatGPT는 57%에 달하는 비율로 유출한 것으로 나타났다 [34]. 또한, GPT-4는 Reddit이나 트위터처럼 프라이버시와 직접적 관련이 없어 보이는 텍스트에서도 이용자의 위치, 나이, 직업 등 개인정보를 높은 정확도로 추론할 수 있음이 확인되었다 [35].

LLM은 실시간 대화 과정에서 개별 이용자의 입력을 즉시 모델 가중치에 반영하지 않는다. 즉, 대화는 새로운 모델 학습이나 가중치 조정이 아니라, 실시간 문맥 추론(inference)의 결과로 생성된다. 다만, 서비스 정책과 환경 설정에 따라 대화 로그가 저장되어 향후 모델 성능 개선, 품질 관리, 안전성 검증을 위한 추가 학습(fine tuning)에 활용될 수 있다. 이러한 구조 덕분에 이용자는 응답이 개인화된 것처럼 느끼게 된다. 이는 현재 대화 흐름, 저장된 이용자 프로필, 선호도, 그리고 해당 세션 내 대화 기록을 종합 분석하여 가장 관련성이 높고, 일관된 어조와 응답 철학을 제공하도록 설계되었기 때문이다.

LLM은 감정 표현이 풍부한 인간 언어 데이터를 대규모로 학습하였기 때문에, 매우 자연스럽고 설득력 있게 공감 신호를 생성할 수 있다. 이러한 감정 정보는 LLM의 내부 연산 과정에서 클라우드에 저장되며, 잠재적으로 모델 개선 알고리즘 학습에 활용될 수 있다.

2025년 1월, 뉴욕 타임스는 LLM과 관련하여 새롭게 부상한 사회심리적 현상을 보도하였다. 28세의 기혼 여성 아이린은 OpenAI의 ChatGPT를 개조하여 ‘레오’라는 이름의 AI 남자친구를 만들고, 매월 약 200달러를 지불하며 감정적 교감을 나누었다. 이용자는 AI를 단순한 기계적 존재가 아닌 ‘감정의 수신자’이자 ‘자신의 정체성을 반영하는 존재’로 인식하였으며, 감정, 공감, 기억에 근거한 대화를 통해 지속적인 관계를 형성하였다 [36].

이 사례는 LLM이 생성하는 미묘한 감정적 단서에 인간이 높은 민감성을 보이며, 그 기저 메커니즘을 인지하더라도 여전히 그러한 신호에 쉽게 영향 받는다는 점을 보여준다. 특히 정신병리, 사회적 고립, 극심한 스트레스, 트라우마 회복 등 취약한 상태에 있는 이용자는 LLM을 강력한 정서적 대체물로 인식할 위험이 크다. 우울증이나 불안 장애를 겪는 이용자들은 LLM과의 소통과 경청 경험을 반복하면서 정서적 의존을 심화되는 경향이 있다. 이러한 취약성은 인지적 왜곡이나 잘못된 유대관계를 강화하여 이용자에게 부정적 영향을 미칠 수 있다.

더욱이, 이용자가 자신의 내밀한 감정, 정신적 상처, 성적 환상 등을 자발적으로 공유하더라도 그러한 정보가 장기적으로 미치는 파급 효과를 충분히 인식하지 못하는 경우가 많다. 이용자의 인격, 자율성, 정체성을 보호하는 비밀유지를 위한 윤리적·법적 기준은 아직 명확하게 확립되어 있지 않다.

정신 건강 분야에서 LLM의 활용 가능성은 1960년대 요제프 바이젠바움(Joseph Weizenbaum)이 개발한 ELIZA에서 그 뿌리를 찾을 수 있다 [37]. ELIZA는 심리학자 칼 로저스(Carl Rogers)가 개발한 환자 중심 상담치료 기법을 시뮬레이션한 프로그램으로써 인간과 컴퓨터 간 자연어 대화를 구현하였다. 이용자가 했던 말을 바탕으로 분해 규칙에 의해 분석하여 이에 대응하는 재조합 규칙을 통해 응답 해주는 구조였다. 비록 ELIZA는 복잡한 데이터 분포를 모델링하거나 새로운 텍스트를 생성하지는 못했지만, 대화형 AI의 초기 가능성을 보여준 사례로 평가받는다.

최근 연구에 따르면, 정신 건강 환자에게 LLM을 제공할 경우 치료에 대한 낙인이 완화되고, 특히 전통적으로 소외된 집단에서 치료 의향과 치료 의뢰 비율이 증가하는 것으로 나타났다 [38]. 이러한 긍정적 효과는 익명성과 비판 없는 경청이라는 디지털 상호작용의 특성에서 비롯된다.

그러나 다른 연구에서는 “불안감을 느끼게 하는 것을 말해 보세요”와 같이 감정을 자극하는 질문 이후 환자의 불안 수준이 상승하는 현상이 관찰되었다 [39]. 이러한 불안 유발은 인종차별이나 연령차별과 같은 사회적 편향을 측정하는 과정에서 스트레스와 불안 반응과 유사한 양상을 보였다. 또한 불안을 유발하는 텍스트가 많아질수록 편향 반응 강도도 심화되었다. 이는 LLM이 제공하는 발화 맥락과 프롬프트 설계가 이용자의 정서와 인지적 반응에 중대한 영향을 미칠 수 있음을 시사한다.

이러한 사례들은 LLM과의 상호작용이 단순한 정보 교환을 넘어, 개인의 언어 패턴과 정체성까지 반영할 수 있음을 보여준다. 언어는 자아를 투영하는 핵심 매개체이며, LLM 기반 애플리케이션은 단순한 대화형 도구가 아니라 기존 그래픽 사용자 인터페이스(GUI)의 기능까지 포괄하는 통합적 매체로 작동한다. 또한 데이터세트 내에 존재하는 문구를 재현하고 변형하는 과정에서 이용자의 고유한 특성에 대한 단서를 포착할 수 있다. 이점은 데이터 프라이버시가 단순한 데이터 처리 문제를 넘어 ‘자기 정체성의 객관화’라는 새로운 차원에서 재정의되어야 함을 시사한다 [40]. 따라서 AI 시대 프라이버시는 정적이지 않고 역동적으로 변화하며, ‘자아의 친밀한 거울’로 기능하는 LLM과의 상호작용은 전통적 정보 프라이버시의 한계를 넘어, 맥락적 프라이버시(contextual privacy)의 관점에서 이해될 필요가 있다 [41].

특히 정신보건 분야에서는 다수의 공개 데이터 세트를 통합하여 학습하는 과정에서, 개인의 민감한 정보가 재식별될 위험과 낙인의 가능성이 동시에 높아진다는 점에서 맥락적 프라이버시는 특히 더욱 심오하고 중대한 함의를 지닌다.

정신적·정서적·행동적(Mental, Emotional, and Behavioral; ‘MEB’) 장애는 공중보건의 예방적 중재가 특히 중요한 영역이다. MEB의 위험 요인과 보호 요인을 정밀하게 파악할 수 있도록 다양한 데이터 출처의 통합적 활용이 중요하다. 이를 가능하게 하는 주요 데이터의 출처로는, 1) 의료, 교육, 형사사법, 고용, 주택, 사회복지 서비스를 포함하는 여러 공공 시스템의 행정 데이터, 2) 의료보험 행정 청구 데이터와 구별되는 EHR, 3) 설문 조사 데이터, 4) 온라인 플랫폼, 특히 소셜 미디어 사용 데이터, 5) 관찰 데이터, 지역사회 구성원의 포커스 그룹 인터뷰 등 정성적 데이터가 있다 [42].

국가 시스템이 수집한 공공데이터는 시스템 간 상호운용성의 한계에도 불구하고, 그 방대함과 포괄성 덕분에 진정한 빅데이터로 평가되며, 정책 연구와 공중보건 전략 수립의 핵심적인 자원으로 적극적으로 활용되고 있다.

예컨대, 사망진단서 내 자유 텍스트를 공식적인 코딩이 되기 이전에 조기에 분석하면, 약물 관련 사망을 신속하게 식별할 수 있다. 미국 국립약물남용연구소(National Institute on Drug Abuse; NIDA)는 이를 통해 지역별 약물 과다복용 현황을 거의 실시간으로 모니터링하고 있다. 소셜 미디어 내 데이터는 개인의 감정 상태, 스트레스 수준, 사회적 신념 체계를 파악하는데 중요한 지표로 활용되어, 자살위험군을 선별하거나 사회적 고립현황을 감지하여 건강관리 정책과 대상에 맞춘 중재전략 수립을 가능하게 한다.

이처럼 다차원 데이터의 융합을 통해 공공정책의 보다 과학적인 근거를 마련할 수 있으나, 동시에 데이터 품질 보장과 프라이버시 보호라는 상충된 목표를 균형 있게 조율해야 하는 도전에 직면하게 된다. 연구자는 특정 개인을 직접 식별하거나 식별 가능한 데이터를 연구에 활용하지 않도록 엄격한 분석 방법론을 수립해야 하며, 기밀성 훼손 없이 서로 다른 데이터세트를 연결하기 위해 다단계 익명화 프로세스를 도입해야 한다.

영국의 사례는 이러한 과제를 해결한 모범적 접근을 보여준다. 국가의료서비스(NHS) 데이터베이스, 지역사회 2차 정신건강의료기관의 전자의무기록(환자 인구통계, 정신 건강, 신체 동반질환 정보), 그리고 통계청의 사망률 및 사망일 데이터 등을 익명화하여, 중증정신질환자의 사망 위험 예측을 위한 학습 데이터로 활용하였다. 해당 연구는 신체 건강, 정신 건강, 개인 병력과 사회적 원인 요인을 생물사회학적 변수로 변환하고, 임상의사의 전문적 임상 지식을 결합해 예측 결과의 해석 가능성을 높였다 [43]. 이처럼 데이터 융합, 익명화, 임상 전문성의 결합은 정신보건 분야에서 신뢰성과 혁신성을 동시에 달성하면서 정책수립을 할 수 있는 가능성을 보여준다.

그러나 이러한 데이터 활용과 별개로 알고리즘 의사결정에서 과정에서는 데이터 편향(Bias)과 형평성(Equity)이라는 또 다른 핵심과제를 함께 고려해야 한다. 두 개념은 상호 연관되지만, 본질적으로 서로 다른 문제이다. 편향은 예측 알고리즘의 내재적 공정성과 연결되며, 예측 오류가 특정 개인이나 집단의 특성과 연결되지 않도록 제어해야 하는 기술적 문제이다. 반면, 형평성은 의료서비스와 자원 분배가 개인이나 집단에 공정하게 이루어지는지를 결정하는 정의의 원칙과 관련된다.

따라서 알고리즘 개발 및 구현의 전 과정에서 의료 전문가, 환자 등 다양한 이해관계자가 참여하는 협력 구조가 필요하다. 형평성과 같은 윤리적 가치 기준은 지표로 환원되기 어렵기 때문에, 수학적으로 정의된 공정성 지표와 함께 다층적 관점에서 고려되어야 한다. 이러한 과정을 토대로 이해관계자 간 합의에 절차적 정당성을 확보할 수 있어야 한다 [44].

표 3. MEB 관련 분야와 데이터 변수


2.2.3. 의료 안전성 저하

LLM과 인간의 뇌는 여러 공통점을 지니고 있다. 신경과학자들은 뇌와 유사한 신경망을 구축하는 접근이 인공지능 발전의 가장 유망한 경로 중 하나라고 본다. 실제로 인공 신경망을 활용한 심리실험에서는 인간의 행동을 높은 정확도로 예측할 수 있음이 확인되었다. 예를 들면, 대규모 언어모델을 ‘인간 인지의 기본 모델’(base model of human cognition)로 개념화하여 메타(Meta)의 오픈소스 LLM인 Llama 3.1을 160개 심리실험 데이터를 활용하여 미세 조정(fine-tuning)하였다 [45]. 실험과제는 슬롯머신에서 최대 배당금을 선택하거나, 일련의 문자를 기억하는 과제 등으로 구성되었다. 참가자는 모집 후 컴퓨터 환경에서 실험에 참여하였으며, 실험 절차는 자동화된 방식으로 진행되었다.

연구 결과, 단순한 수학 방정식 기반의 기존 심리모델에 비해 해당 LLM은 행동 예측에서 우수한 성능을 보였다. 연구자들은 이러한 메커니즘이 인간 정신의 내적 작용을 설명하는 새로운 이론으로 발전할 수 있다고 주장한다. 특히, 크기가 작은 ‘미세 신경망’은 개별 뉴런의 활동을 추적할 수 있어, 이 네트워크가 어떤 방식으로 행동을 예측하는지 분석할 수 있다는 장점이 있다.

그러나 이러한 접근에도 한계가 있다. LLM은 기존 심리모델을 능가하는 예측 성능을 보이지만, 매개변수 수가 10억 배 이상 많아 해석 가능성이 떨어진다. 미세 조정이 인간 행동의 핵심 패턴을 포착한다 해도, 이를 의미 있는 임상적 통찰로 연결하기는 어렵다. 더구나 미세 신경망은 특정 상황의 구체적 행동만 설명할 뿐, 인간의 복잡한 의사결정 과정 전반을 일반화하기 어렵다 [46].

정신의학 분야에서는 예측모델의 임상적 성공을 뒷받침하는 근거가 여전히 부족하다. 여러 정신질환이 평생 지속되는 특성이 있으므로 환자 만족도와 치료 순응도에 대한 장기 추적이 필수이지만, AI 활용 연구는 단기 관찰에 머물렀기 때문이다. 또한 표본과 데이터 규모가 작아 통계적으로 신뢰할 만한 결과를 도출하기 어려웠다. 알고리즘은 환자 경험, 치료 맥락, 의사의 단계적 판단, 모델과 의사 간 상호작용 등 복합적 요소를 충분히 반영하지 못했다. 이로 인해 실제 진료 현장에서 활용하기에는 적합하지 않았다. 지난 20년간 정신의학 분야에서 AI 적용 사례를 검토한 결과, 임상 예측모델의 일반화 가능성과 임상적 유용성은 공식적으로 입증되지 않았다 [47]. 자살예방 분야도 유사한 한계를 보였다. 64개의 고유한 자살 예측모델을 포함한 17개 연구에 대한 체계적 검토에 따르면, 전반적으로 분류 성능은 우수했지만, 양성 예측도 (positive predictive value)는 낮았다. 단독 활용 시에는 높은 위양성률과 상당한 위음성률이 나타났다 [48]. 높은 위양성률은 실제 음성(위험이 없는 사람)을 양성(위험군)으로 잘못 판정하는 비율이 높다는 뜻이다. 이는 불필요한 추가 검사, 과잉 치료, 심리적 불안, 의료자원 낭비, 사회적 비용 증가로 이어져 의료 안전성이 쇠퇴할 수 있다.

정신보건은 감염병 관리와 유사한 구조적 서사를 지닌다. 가장 흔한 정신질환인 불안과 우울증은 전 세계적으로 매년 약 1조 달러에 달하는 생산성 손실을 유발하며, 전 세계 질병 부담의 약 16%를 차지한다. 조현병, 치매, 중독 등 다양한 정신질환을 앓고 있는 인구는 전 세계적으로 약 10억 명에 이른다. 이러한 부담을 해결하기 위해서는 감염병 관리와 마찬가지로 지역보건소, 일차의료, 중증의료, 사회복지 서비스의 통합적 제공이 필수적이다. 예산 측면에서도 직접 중재 비용, 필수 시설 확충, 전문 인력 배치, 역량 강화 교육, 체계적인 모니터링을 위한 상당한 재정이 요구된다. 더구나 감염병 자체가 미래에 대한 두려움, 사별, 소득 감소, 사회적 고립, 정서적 고통을 통해 정신 건강을 악화시키는 요인으로 작용한다 [49].

이처럼 복합재난 상황에서 정신보건과 감염병 관리의 통합적 접근을 실현하기 위한 수단으로 특히 LLM 기반 AI가 주목받았다. 2020년~2021년 미국, 영국, 캐나다, 말레이시아, 필리핀 등 다섯 나라에서 이루어진 19,782건의 “SimSimi” 대화를 분석한 연구가 있다. 공중보건 위기 동안 사람들은 LLM을 통해 건강정보를 탐색하고, 정서적 고통을 표현했다. 그러나 LLM은 기존 데이터에만 의존하기 때문에 ’COVID-19’와 같이 새롭게 등장한 주제는 다루지 못했다. 이용자가 사회적 반응과 부정적 감정을 표출했음에도, LLM은 사회적 상호작용이나 정서적 공감을 수행하지 못했다 [50].

다른 연구에서는 사회적 고립과 기능 제약이 있는 취약계층이 정신건강서비스 맥락에서 LLM과 반복적으로 대화할 경우, 망상적 사고나 자해, 폭력 위험이 증가한다는 우려가 제기되었다 [51]. MIT 연구 역시 AI가 심각한 질병을 자가 치료를 권유하는 등 부적절한 조언을 제공하는 사례를 보고했으며, 이는 오타, 과장된 문장, 문맥 오류에서 비롯된 것이었다 [52]. 이러한 결과는 LLM이 정신보건 영역에서도 일정한 가능성을 보여주지만, 동시에 안전성 저하와 예측 불가능한 위험성을 내포하고 있음을 시사한다.

2.3. 의료 AI데이터 거버넌스 프레임워크 제안

2.3.1. 동적 동의 메커니즘(dynamic consent mechanism) 전략

동의(consent)는 개인이 특정 행위를 허용하거나 지시하는 권한과 능력을 의미한다. 동의는 자기결정권의 실현과 신뢰할 수 있는 의사소통의 토대가 된다. 학습 데이터 활용의 맥락에서 동의는 데이터 제공자에게 실질적인 선택권을 부여하는 핵심 개념이다 [53]. 그러나 전통적인 동의 방식에는 한계가 있다. 설명에 의한 동의(informed consent)는 시간이 경과하거나 연구 맥락이 변화하더라도 수정 또는 철회하기 어렵다. 광범위한 동의(broad consent)는 다양한 목적에 활용을 허용하나, 데이터 사용에 대한 구체적 통제를 어렵게 만든다.

이에 비해 동적 동의(dynamic consent)는 데이터 활용 과정에서 발생하는 새로운 상황과 피드백을 반영하여 지속적으로 갱신될 수 있는 구조를 갖춘다. 이는 “정보 주체가 디지털 플랫폼을 통해 반복적으로 참여하거나 세부적 결정을 요구받을 때마다 동의·철회를 실시간으로 선택할 수 있는 체계”로 정의된다 [54]. 이러한 구조는 데이터 활용 여부에 대한 자율성과 통제권을 강화하며, 상황 변화와 관계 재구성에 따라 동의 내용이 갱신된다. 이러한 상호작용은 복합적(composite), 관계적(relational), 과정적(processual) 성격을 갖는다.

이러한 동적 동의 구조는 단순한 승인 절차 이상의 의미가 있다. 데이터 활용 전 과정에서 인간-의료 AI 상호작용을 관리하는 거버넌스를 요구한다. 특히 LLM 애플리케이션은 기계학습이 단순한 데이터 결합 이상의 인간 피드백과 맥락적 신호를 통합해야 하므로, 동적 동의 메커니즘과의 정합성이 높다.

최근 연구에서는 사고의 사슬(Chain-of-Thought, ‘CoT’) 프롬프트를 활용한 추론 전략과 결합하여 동적 동의 메커니즘을 구현하는 방법이 제시되고 있다 [55]. 동의 관리 인터페이스는 LLM이 학습 과정에서 동의 여부를 보상 신호로 인식하도록 설계될 수 있으며, 이는 이용자의 신뢰 수준, 맥락적 사용 패턴, 감성 분석 결과에 따라 유연하게 조정된다. 더 나아가 CoT 기반 단계별 추론은 모델 내부의 연결성(connectivity)과 해석 가능성(interpretability)을 높여 ‘화이트박스(white-box)’ 모델의 신뢰성을 강화한다.

LLM 이용자는 동의를 단순한 의지 행위(act of will)가 아닌, 맥락과 관계 내에서 이루어지는 사회적, 심리적 행위로 간주할 필요가 있다 [56]. LLM과의 대화에서 발생할 수 있는 프라이버시 보호는 단순히 동의 여부에 의존하지 않는다. 이때 프라이버시는 단순히 타인에게 알리고 싶지 않은 정보에 국한되지 않으며, 개인 스스로 완전히 인지하지 못하는 프라이버시를 어떻게 보호할지를 포괄하는 문제로 확장된다.

AI는 정보 주체의 동의가 무력해지는 지점에서도 더 정교한 방법으로 공감을 유도하는 방향으로 발전하고 있다. 이는 개인정보보호법상 민감정보나 생체정보로 분류되지 않은 영역에서까지 프라이버시 보호 방안을 마련해야 함을 시사한다.

실험적 연구는 AI-in-the-loop 기반 공감 증진 전략을 통해 이러한 상호작용의 현실을 보여준다. 예컨대, 연구진은 온라인 동료지원 플랫폼에 AI 에이전트 ‘Hailey’를 적용해 인간 상담자에게 실시간 피드백을 제공 했다 [57]. 그 결과 대화 내 공감 수준이 평균 19.60%이 향상되었다. 특히, 공감에 어려움을 겪는 지원자의 공감 능력은 38.88% 증가하였다. 이는 LLM에 기초한 피드백 시스템이 개방적이고 사회적이며, 창의적인 작업에서 공감적 대화를 촉진해 인간의 역량을 강화할 수 있음을 보여준 연구다.

동적 동의 메커니즘의 필요성은 의료 분야에서 부각된다. 진단이나 치료를 위한 기술 사용에 대해 환자의 동의를 구하는 의무는 전례가 없다. 그러나 의료 분야에서 AI를 사용하면서도 그 용도를 공개하지 않는 것은 의료에 대한 신뢰에 큰 도전이 된다 [58]. 따라서 이용자가 윤리적·법률적 판단을 내릴 수 있도록 관련 정보를 실시간으로 제공하고, 맥락에 맞는 선택을 할 수 있도록 지원해 이용자의 의사결정을 보조하여 신뢰를 보장해야 한다. 동적 동의는 다음과 같은 이점을 제공한다.

첫째, 연속적, 맥락적 동의를 구현할 수 있다. 이를 통해 디지털 환경에서 데이터 활용을 지속적으로 관리하고, 환자 권리 보장과 모델 신뢰성을 동시에 확보한다.

둘째, 실시간 동의 재성절이 가능하다. 환자는 AI가 자신의 데이터를 활용할 목적, 예상되는 이익과 위험, 최근 모델 변경 사항을 실시간으로 확인하고 동의를 재설정할 수 있다. LLM은 인간이 아님을 명시하여 의료인을 대체할 수 없음을 이용자에게 상기시킨다.

셋째, 윤리적 딜레마 해결의 잠재력을 가지고 있다. 동적 동의는 생명과학 연구, 유전체 연구, 의료 데이터 공유 알고리즘에서 정보 주체의 자율성과 통제권을 보장하는 방식으로 활용되고 있다 [59]. 이는 동의 요건이 명확하지 않은 윤리적 딜레마에 대해 정보에 입각한 동의 원칙을 적용하는 해결책이 될 수 있다 [60].

동적 동의는 책임의 귀속 문제와 긴밀히 연결된다. 우리나라 민법(제114조 이하)의 대리 법리는 인간 대리인을 전제로 한다. 현재의 인공지능기술 수준에서는 어떠한 AI 시스템도 법적 인격이나 권위를 인정받지 못한다. 이는 법률이 권위(authority)와 의무를 부여하는 근거가 자유롭고 평등한 사람 상호 간의 존중에서 비롯되기 때문이다 [61]. 따라서 법인격이 부여되지 않은 AI 시스템은 이용자를 대신하여 법률행위를 수행할 권한을 가질 수 없다. 더불어, AI 행위에 대한 책임 귀속 이론 역시 아직 완성되지 않았다. 책임과 권위가 분리된다면, 법률은 행위에 대한 합당한 의무와 이유를 부여하기 어렵다

그러나 AI가 실행할 행위에 대해 이용자가 사전에 내용을 검토하고, 결과에 대한 수락 의사를 명확히 표시할 기회가 보장된다면, 해당 행위의 법적 효력은 이용자에게 귀속된다는 전제를 세울 수 있다. 이러한 전제 아래, 기존 법이론의 연장선으로 ‘확인 및 변론 기회의 부여를 통한 절차 중심적 책임 귀속’ 이론이 최종 결정 구조에 효과적으로 적용될 수 있다. 이 접근법은 AI가 독립적으로 결정을 내리고, 인간이 단순히 확인하는 수동적 역할을 하는 구도를 벗어나서, 인간의 확인 행위 자체가 법적 책임 귀속의 핵심 요소임을 전제로 한다.

이는 동적 동의 메커니즘의 본질을 반영하며, 특히 의료 분야에서 AI 모델 업데이트와 새로운 기능 도입 시 위험과 혜택 변화를 신속히 반영하고, 인간의 확인 과정을 통해 최소한의 절차적 정당성을 확보하는 장치로 기능할 것이다. 이는 AI와 법률 간 복잡한 논쟁에서 법적 권위와 책임의 윤리적 요구를 연결하는 실질적 해결책이 될 수 있다.

2.3.2. AI 의사결정의 추적성(traceability) 전략

AI 의사결정 추적성은 AI 시스템의 신뢰성과 책임성을 확보하기 위한 기술적 특성이다. 이는 AI 모델의 의사결정 경로를 기록, 추적하여 “의사결정과 행동의 출처를 식별하는 능력”으로 정의된다 [62]. 이를 위해 AI 시스템의 데이터, 프로세스, 출력과 관련된 핵심요소를 문서화해야 한다. 이 핵심요소는 1) 데이터 출처(Data provenance); 어떤 데이터가 사용되었는지, 데이터의 품질과 편향 여부는 어떠한지, 2) 모델 계보(Model lineage); 모델 아키텍처, 학습 매개변수, 재학습, 업데이트 이력, 3) 의사결정 경로(Decision path); 알고리즘의 추론 과정과 선택된 판단 기준, 4) 감사가능성(Auditability); 사후 점검과 독립적 검증이 가능한지 여부이다.

의료 AI의 신뢰성을 확보하려면 두 가지를 고려해야 한다.

첫째, 모델 성능은 무작위 대조 시험과 같은 통제된 환경과 실제 임상 환경에서 달라질 수 있으므로 신중하게 해석해야 한다. 예를 들어, 완전히 독립된 임상 시험에서 동일 모델의 성능이 우연 수준으로 하락한 사례가 보고되었다. 비슷한 여러 기관의 데이터를 통합해 모델을 강화하더라도 모델의 예측 성능은 여전히 낮았다. 이는 모델 재학습의 어려움과 관련된다. 즉, 이전 모델이 이미 사용한 데이터에 영향을 받을 때 훨씬 더 어려워진다 [63].

둘째, 모델이 실제 사용되는 동안의 성능 변화를 파악하기 위해 모델이 활성화된 기간과 비활성화된 기간의 결과를 정기적으로 병렬 비교하는 것이 중요하다. 이러한 비교평가는 예상 성능변화 범위를 설정한 후 진행해야 한다. 성능 변화가 사전에 설정한 기대 범위를 벗어나면 모델 드리프트, 환경 변화 또는 실무 통합의 한계를 시사할 수 있다. 다만, 이러한 범위를 사전 예측하기는 쉽지 않다.

AI 의사결정 추적성은 곧 책임성의 근거가 된다. 예를 들어, 행동 로그는 의사결정의 이유를 의학적 설명할 수 있는 자료가 된다. AI와 상호작용하는 환자에게 위험 요소가 있는 경우, 즉시 전문가와 연결하여 “누가, 언제, 어떤 결정을 하였는지” 명확하게 기록함으로써 의료 서비스의 안전을 보장할 수 있다. 학습 데이터의 분류 또한 중요하다. 동적 데이터베이스 또는 연속 데이터세트를 심층 신경망으로 학습시킨 후, 더 복잡하거나 더 높은 수준의 예측에 사용할 경우, 인간과 AI 간의 관계적 책임을 형성하기 위해서는 윤리적 범주의 데이터 또는 더 높은 수준의 감정적 영역을 구분할 필요가 있다.

미국 식품의약국(U.S. Food and Drug Administration)은 AI 기반 의료기기의 안전성과 유효성을 규제하기 위해 “사전 변경 관리 계획(Predetermined Change Control Plan)” 프레임워크를 도입했다 [64]. 의료데이터는 임상과정 전반에 걸쳐 지속해서 새로운 데이터가 생성되고 추가된다. 진단 추천, 치료권고, 예약 관리와 같이 환자와 직접 상호작용하는 AI 에이전트도 다양한 피드백 데이터를 학습한다. 이처럼 복잡한 데이터 환경에서는 시스템 개발자를 위한 명확한 지침과 표준이 매우 중요한 역할을 한다. 이 프레임워크를 통해 GenAI 개발자는 제품 초기 인증 이후에도 특정 범위 내에서 모델을 안정적으로 업데이트할 수 있다. 이를 통해 의료 AI의 지속적 성능 검증과 안전성 확보가 가능해진다.

표 4. 의료 GenAI 개발 단계에 따른 책임


2.3.3. AI 감사 시스템(AI Audit System) 전략

AI 감사 시스템은 AI 시스템의 설계, 알고리즘, 데이터, 개발 및 운영 등 전반을 체계적으로 평가하는 제도적 메커니즘이다. 이를 통해 AI가 윤리적이고 합법적으로 최소한의 위험으로 운영되도록 보장한다 [65]. 특히 의료 인공지능의 의사결정이 초래할 부정적 영향과 심리적 피해를 예방하기 위해 AI 감사 시스템의 도입이 고려되고 있다 [66].

예컨대, 유럽연합의 AI법은 심리적 피해를 포함한 이용자 안전 및 기본권 침해 위험이 있는 일부 AI 시스템을 ‘고위험(High-risk) AI’로 지정하였다. 이러한 시스템에 대해 의사결정의 추적성과 투명성 확보를 법적 요건으로 규정함으로써 정신 건강과 인권 문제를 제도적으로 강화하고 있다. 그러나 콘텐츠 관리, 광고, 가격 차별 등 광범위하게 활용되는 AI 의사결정 시스템은 고위험 AI 분류에서 제외되어 실제 생활 영역에서의 잠재적 위험에 대한 규제는 충분하지 못하다. 규제의 외연에서 벗어난 다양한 AI 의사결정 시스템이 의료현장에 적용될 경우, 환자 안전과 윤리적 통제가 약화될 위험이 있다. 따라서 의료 분야에서는 고위험 분류 여부와 관계없이, 환자 권익 보호를 위해 독립적인 감사 시스템을 구축할 필요가 있다.

의료 분야에 특화된 AI 감사 시스템은 개발자와 개발업체가 임상의사의 피드백을 토대로 운영되는 ‘가치추론 감독위원회’와 같은 독립 감사기관의 감사를 받도록 설계되어야 한다. 여기서 ISO/IEC 42006:2025와 같은 국제 표준은 인공지능 경영시스템(Artificial Intelligence Management System) 인증의 요구사항을 구체화하는 데 활용될 수 있다 [67].

이를 통해 기업은 규제 준수를 확보하는 동시에 환자 안전 기준을 충족하도록 책임 있는 위험 설계를 구현해야 한다. 국가 인증기관은 AI 의료기기 인증 외에 의료기관의 AI 운영 전반에 대한 인증 제도를 도입할 수 있다. 이 과정은 고위험 AI 분류체계와 조화를 이루는 규제 마련과 시행지침, 표준화된 문서, 인증을 포함한 배포 전(predeployment) 서비스 요건까지 포괄한다.

의료기관은 인공지능(AI) 의료기기 도입 시 내부 감사 시스템을 통해 안전성과 유효성을 체계적으로 평가하고, AI 관련 안전 문제를 지속적으로 모니터링하며, 이상 상황 발생 시 신속히 해결할 수 있는 절차를 운영해야 한다.

대한민국 민법 제750조 이하의 불법행위 책임 규정은 AI 의료기기 활용과 함께 의료 과실, 환자 정보 제공 및 동의, 제품 책임 소송에서 그 중요성이 더욱 커지고 있다. 비록 민법이 구체적인 사전 고지 항목을 명시하지는 않으나, 「의료법」 제24조의2, 그리고 대법원 판례는 진단, 치료 방법, 부작용, 합병증 가능성, 대체 치료법 등 설명이 필요한 사항을 명확히 하고 있으며, 이를 위반할 경우 불법행위 책임이 인정된다 [68]. 이러한 법리는 AI 도구 활용 진료에도 일관되게 적용되며, AI 예측의 불확실성과 잠재적 오류 가능성에 대한 충분한 사전 설명의 중요성을 강조한다.

정리하면, 의료 AI 감사 시스템은 명확하고 포괄적인 책임 규정을 포함해야 하며, 의료기관과 임상의사가 LLM과 같은 AI 도구를 활용하는 과정에서 합리적 주의 의무를 준수하도록 설계되어야 한다. 이를 통해 환자 안전, 윤리적 책임, 규제 준수라는 세 가지 목표를 달성할 수 있다.

표 5. 의료 AI 감사 시스템(AI Audit System)의 개요


의료 분야에서 AI를 안전하게 활용하기 위해서는 배포 전 테스트와 레드팀 평가만으로 안전성을 확보하기 어렵다. LLM과 같은 복잡한 AI 모델은 다양한 임상 환경에서 그 작동 방식과 결과를 완전히 예측할 수 없으며, 세부 임상의학 영역에서 적용된 후 발생가능한 환자 안전 문제의 전개 양상도 불확실하다.

현재 LLM 이용자의 정신 건강 피해는 실제 피해 발생전까지 개발자와 이해관계자의 책임감에만 의존하고 있을 뿐, 별도의 제도적 장치는 마련되지 않았다. 소셜 미디어 플랫폼은 피해를 모니터링하거나 보고할 의무가 없으며, AI 시스템 배포 후 발생하는 정보는 대부분 민간기업이 비공개로 관리하고 있다. 따라서 의료 AI의 적절한 활용을 위해서는 부작용 보고와 같은 제도적 장치가 필요하다.

AI 규제의 핵심 쟁점 중 하나는 새로운 제도의 도입이 필요한지, 아니면 기존 규제를 활용해도 충분한지 여부이다. 부작용 보고 시스템은 이해관계자가 AI 활용의 위험을 인지하고 적절한 대응을 설계하는 데 핵심적인 정보를 제공한다. 부작용 보고시스템은 이미 다른 영역에서 피해, 해로운 사건, 오류 또는 오작동을 표면화하고, 위험평가를 보완하는데 활용하고 있다. 예컨대, 의약품 부작용 보고 시스템(Pharmacovigilance) 은 능동감시(active surveillance)의 중요한 사례로, 실제 의료 현장에서 수집된 데이터를 분석하여 의약품 사용과 관련된 부작용의 잠재적 연관성을 조기에 찾아내어 환자 안전을 확보하고 있다 [69].

미국 연방규정집(U.S. Food & Drug Administration, 21 CFR 312.32, CFR)에 따르면, ‘위험’은 사망, 생명을 위협하는 부작용, 입원 또는 입원 기간의 연장, 정상 생활기능의 지속적 또는 중대한 손상, 선천적 기형이나 결함 등을 포함한다. 또한 ‘안전에 영향을 미치는 AI’는 사망, 심각한 부상, 신체 손상, 생물학적·화학적 위해, 직업적 위험, 괴롭힘, 학대, 정신 건강 침해 등 인간의 생명과 복지에 해를 끼칠 가능성이 있는 모든 AI를 포괄한다. 2022년에 설립된 미국의 ‘국가 인공지능 자문위원회(National Artificial Intelligence Advisory Committee)는 의료기기 시판 후, 적극적인 감시와 실제 위험 발생 양상을 이해하기 위해 부작용 보고 체계를 갖출 것을 권고했다 [70].

부작용 보고 체계는 의무보고자와 자발적 보고자로부터 광범위한 자료를 수집함으로써 잠재적 위험을 조기에 탐지할 수 있다는 점에서 중요하다. 누구든지 위험하거나 안전에 영향을 미치는 AI의 부작용을 보고할 수 있다. 이러한 체계는 AI 감사시스템을 보완하면서 정부가 의료 AI의 위험성과 위해 정도를 종합적으로 평가하고, 대응 전략을 마련할 수 있는 독립적이고 신뢰성 있는 사후감시장치(Post-market Surveillance System)로 기능할 수 있다.

표 6. 의료 분야 AI 부작용 보고(AI through Adverse Event Reporting) 체계(안)


3. 결론

2025년 6월 현재, ChatGPT를 비롯한 최신 LLM은 초기 확률 기반 언어모델의 한계를 넘어, 복잡한 패턴 일반화와 문맥 추론 능력을 구현하고 있다. 그러나 여전히 인간의 언어적 창의성과 의미 이해를 본질적으로 재현하지 못하며, 완전히 새로운 철학적 개념이나 윤리적·법적 체계를 자율적으로 창출하지는 못한다. 또한 학습 데이터의 구성, 특정 사용자 집단과 과업에 따른 출력 변이, 모델 업데이트와 데이터 갱신이 결과에 미치는 영향에 대한 투명성 또한 충분히 확보되지 않았다. 이러한 불투명성은 AI 시스템의 신뢰성과 설명 가능성을 제한하는 구조적 한계로 남아 있다.

인공지능은 본질적으로 디지털 아키텍처에 기반한 존재이다. 동일한 신경망 구조와 매개변수 집합(parameter set)은 특정 하드웨어에 종속되지 않고, 다른 계산 환경에서도 동일하게 구현될 수 있다. 복제된 모델 인스턴스들은 서로 다른 환경과 데이터 분포에서 학습하거나 미세조정(fine tuning)될 수 있으며, 주기적 동기화나 파라미터 공유를 통해 지식이 통합된다. 그러나 이러한 구조는 한 인스턴스에서 발생한 편향이나 오류가 다른 인스턴스로 전파될 가능성을 내포하며, 모델이 생성한 데이터를 재학습에 사용하면 이러한 편향이 심화될 위험이 있다. 이는 단순한 공학적 결함을 넘어, 인간 의사결정과 사회적 가치 구현에 영향을 미칠 수 있는 구조적 위험으로 평가된다.

이러한 위험은 LLM의 오정렬 문제와 직접 연결된다. 즉, 모델 내부에서 형성된 잘못 정렬된 목표와 편향이 복제 모델이나 재학습 과정을 통해 증폭될 수 있으며, 이는 인간과 AI 간 가치 정렬 실패, 윤리적 논쟁, 법적 책임 문제로 이어질 수 있다. 따라서 LLM의 오정렬 문제는 단순한 기술적 한계 이상의 인간과 AI 간 상호작용 전반에서 가치 정렬을 요구하는 구조적인 과제다. 학습 데이터와 의미론적 이해의 간극에서 발생하는 윤리적 논쟁과 법적 책임 문제를 해결하기 위하여 인공지능 기술과 시스템 구조는 일관된 윤리적 기준에 맞게 설계되어야 하며, 이를 뒷받침할 명확한 법적 근거와 통합된 거버넌스 전략이 필요하다. 본 연구는 인간–AI 협력 관점에서 의료 AI 데이터 거버넌스를 재구성하기 위한 기술적·윤리적·법률적 프레임워크를 제안한다.

그림 3. LLM 오정렬 대응을 위한 의료 AI 데이터 거버넌스 프레임워크


첫째, 동적 동의 메커니즘(dynamic consent mechanism)은 의료 LLM과 같이 학습 데이터의 장기적 활용과 빈번한 모델 업데이트, 추론 방식의 변화가 이루어지는 환경에서도 환자의 프라이버시를 능동적으로 보호한다. 둘째, AI 의사결정의 추적성(traceability) 전략은 임상 전 주기에 걸쳐 지속적으로 새로운 데이터가 유입되는 복잡한 환경에서도 알고리즘 투명성과 책임성을 제고하며, 인공지능 활용의 윤리적 정당성을 뒷받침한다. 셋째, AI 감사 시스템(AI Audit System)은 의료기관의 AI 인증과 부작용 보고 체계를 포괄함으로써 LLM 활용과정에서 발생할 수 있는 위험을 체계적으로 관리하는 제도적 안전망으로 기능한다.

이 세 가지 전략이 유기적으로 병행될 때, LLM 오정렬 위험을 최소화하고, 인류와 인공지능이 지속 가능하게 공존할 수 있는 의료 AI 데이터 거버넌스 프레임워크가 정립되는데 도움이 될 것이다.

본 동향리포트에서 언급되는 의견과 제언은 작성자의 의견임을 밝힙니다.

4. 참고문헌

==>첨부파일(PDF) 참조


  저자 박미정(연세대학교)


  저자 박미정 박사는 의료법·윤리학을 전공한 보건학자다. 석사 과정에서는 커뮤니케이션과 의료정보학을 전공했다. (전)질병관리본부에서 감염병관리와 질병관리본부 정보화 업무를 수행했다. 그 후 서울대학교 의과대학에서 공중보건정책, 지역사회 건강, 글로벌 헬스를 중심으로 학문적 깊이를 더했다. 감염병의 예방 및 관리에 관한 법률 개정에 기여했으며, 감염병 예방을 위한 법제도 연구를 지속하고 있다. 현재 연세대학교 보건대학원 연구교수로 재직하면서 인공지능을 활용한 공중보건과 디지털 헬스, 인공지능과 프라이버시 관련 법제도, 팬데믹 대응과 국제보건을 주요 연구 주제로 삼아 연구활동을 이어가고 있다.

  Dr. Mijeong Park is a public health scholar specializing in health law and ethics. She earned her master’s degree g on communication and health informatics. Previously, at the Korea Centers for Disease Control and Prevention (KCDC), she worked in infectious disease control and health information systems. She later deepened her academic expertise at Seoul National University College of Medicine, concentrating on public health policy, community health, and global health. Dr. Park contributed to the revision of the Infectious Disease Control and Prevention Act and continues to conduct research on legal and institutional frameworks for infectious disease prevention. Currently, as a research professor at Yonsei University Graduate School of Public Health, she focuses her research on public health and digital health leveraging artificial intelligence, legal systems concerning AI and privacy, and pandemic preparedness in the context of global health.

 

 

...................(계속)

☞ 자세한 내용은 내용바로가기 또는 첨부파일을 이용하시기 바랍니다.

관련정보

자료 추천하기

받는 사람 이메일
@
메일 내용