
수술 전 위험을 보다 빠르고 정확하게 예측할 수 있는 길이 열렸다. 서울대병원은 수술 전 중증도를 분류할 수 있는 인공지능 기반 모델을 자체 개발하고, 그 성능을 검증한 결과를 28일(월) 발표했다. 이를 통해 향후 보다 객관적인 수술 위험 평가가 가능할 것으로 기대된다.
ASA-PS 등급에 따라 수술 계획 달라져
수술 전 마취 위험을 평가하는 과정은 환자의 안전을 위해 매우 중요하다. 국내 의료 현장에서는 환자의 전반적인 건강상태를 1등급(건강한 환자)부터 6등급(뇌사 상태)으로 구분한다. 이는 ‘미국마취과학회 신체상태 분류(American Society of Anesthesiologists Physical Status, 이하 ASA-PS)’에 따른 것으로, 이를 통해 마취 위험을 비롯한 전반적인 수술 위험을 예측하고 있다.
그러나 ASA-PS 체계는 ‘중증도’를 분류하는 기준이 주관적이다. 이 때문에 ASA-PS 등급을 분류하는 데 있어 의료진 간 의견이 일치하지 않는 문제가 종종 발생했다. 예를 들어, 만성 천식이 있는 환자에 대해 등급을 분류할 때, 한 의사는 천식이 잘 조절되고 있으며 일상에 큰 지장이 없다고 판단해 ASA-PS 2로 분류할 수 있다. 반면, 다른 의사는 천식이 언제든 발작할 수 있다는 가능성을 고려해 ASA-PS 3으로 분류할 수 있다.
ASA-PS 등급은 마취 방법부터 수술 중 환자 상태 모니터링, 수술 참여 인원 구성, 수술 시간 등 전체적인 의사결정에 영향을 미친다. 따라서 등급 분류에서 의료진 간 의견이 일치하지 않으면 수술 계획 단계부터 문제가 생긴다. 즉, 효율적인 의료 서비스 제공을 위해 중증도 마취 위험을 객관적이고 일관되게 파악할 수 있는 수술 전 평가 도구가 필요한 상황이었다.

ASA-PS 등급 자동 분류 모델 개발
서울대병원 마취통증의학과 이형철·윤수빈 교수는 국가전략기술 특화연구소 이현훈 교수와의 공동연구팀을 구성하여 수술 전 마취 위험을 예측하는 인공지능 모델을 개발했다. 공동연구팀은 2004년부터 2023년까지 서울대병원에서 수술을 받았던 환자 71만여 명의 수술 데이터를 학습시켜, ASA-PS 등급을 자동으로 분류하는 ‘거대 언어모델(LLM)’을 자체 개발했다.
이 모델은 챗GPT와 마찬가지로 ‘자연어 처리(NLP)’ 기술을 기반으로 한다. 또한, 매우 민감한 개인 정보에 해당하는 의료 기록을 다루는 모델이므로, 암호화와 접근 제한, 데이터 익명화 등의 기술을 적용해 보안에도 만전을 기했다.
이 거대 언어모델은 환자의 건강상태와 기저질환 등을 서술한 ‘마취 전 평가 요약문’을 토대로 ASA-PS 등급을 신속하고 객관적으로 부여한다. 인공지능 모델에 의한 평가 결과를 기준으로 한다면, 의료진 간 의견 불일치를 예방할 수 있으며 임상 현장에서의 의사소통 효율성을 높일 수 있다. 이는 결국 환자의 안전을 높이는 데 도움이 된다.
전문의 등급 분류보다 우수한 성능
공동연구팀은 환자 460명의 데이터를 바탕으로 ASA-PS 등급 분류 성능을 평가했다. 그 결과, 이 모델의 평균 예측 정확도(AUROC)는 0.915로 매우 높은 수준을 기록했다. AUROC는 모델의 전반적인 성능을 평가하기 위한 도구로, 수치가 1에 가까울수록 완벽에 가까운 예측을 했음을 의미한다.
단, AUROC 값이 높다고 해서 그 성능이 항상 좋다는 것을 의미하지는 않는다. 실제 상황에서는 여러 지표들을 함께 고려해야 하기 때문이다. 특히 정밀도(모델 양성 예측 → 실제 양성)와 재현율(실제 양성 → 모델 양성 예측)이 중요하다. 이에 연구팀은 특이도, 정밀도, F1-점수에 대해서도 평가를 진행했다. F1-점수는 정밀도 및 재현율의 조화평균을 나타낸 값이다.
거대 언어모델의 등급 분류와 마취과 전문의에 의한 등급 분류를 비교한 결과, 특이도는 0.901 vs 0.897, 정밀도는 0.732 vs 0.715, F1-점수는 0.716 vs 0.713으로 나타났다. 세 가지 지표 모두 거대 언어모델이 조금씩 더 높게 나타났다.
한편, ASA-PS 1~2등급과 3등급을 분류하는 것은 임상적 의사결정에 있어 특히 중요하다. 1~2등급은 건강하거나 상대적으로 경미한 수준을 나타내며, 3등급은 비교적 심각한 상황일 때 부여되는 등급이기 때문이다. 1~2등급의 환자가 특정 상황이나 질병에 따라 3등급으로 분류될 수도 있고, 1~2등급으로 평가되는 질환과 3등급으로 평가되는 질환이 동시에 존재할 수도 있다.
이에 대한 오류율을 평가한 결과, 거대 언어모델 11.74%, 마취과 전문의 13.48%로 나타났다. 이 역시 거대 언어모델이 보다 낮은 오류율을 보임으로써 신뢰성이 높다는 점을 입증했다.
환자 안전 및 의료 질 향상에 기여
마취통증의학과 이형철, 윤수빈 교수는 “인공지능 기술이 임상 현장에서 실질적으로 활용될 수 있다는 것을 보여주는 성과”라며 “환자의 안전 및 의료 질 향상에 기여할 수 있도록 후속 연구 및 기술 개발에 노력하겠다”라고 이야기했다. 국가전략기술 특화연구소 이현훈 교수는 “인공지능을 통한 수술 전 평가 모델이 세계적으로 활용될 수 있도록 글로벌 기술사업화를 추진해나가겠다”라는 계획을 밝혔다.
이번 연구는 「네이처」의 디지털 헬스케어 분야 파트너 저널인 「디지털 메디신(NPJ Digital Medicine, IF=12.4)」에 게재됐다.

댓글0