본문 바로가기
STORAGE

식약처 'AI 심사관' 등장, 실수하면 누가 책임지나?

2026. 6. 17. 09:07

 

이력서를 읽고, 대출을 승인하고, 콘텐츠를 검열하는 일, 우리는 어느새 '판단' 자체를 AI에게 넘기기 시작했습니다.

 

AI가 이력서를 'PASS / FAIL'로 판정하는 모습. 일상의 판단이 점점 AI에게 넘어가고 있다.

(출처: Gemini Nano Banana 2 생성)

 

요즘 우리는 자기도 모르는 사이에 AI의 평가를 받습니다. 기업 채용 서류전형은 이미 사람보다 AI가 먼저 보는 경우가 늘고 있고, 은행 대출 심사·보험 가입 심사도 알고리즘이 먼저 점수를 매깁니다. 학생들이 제출한 작문도 AI 채점기를 거치고, SNS 댓글의 혐오 표현도 AI가 먼저 걸러냅니다.

흥미로운 건, 이 흐름이 점점 '사소한 평가'에서 '큰 결정'으로 넘어가고 있다는 점입니다. 그리고 최근, AI에게 얼마나 큰 권한을 줘도 되는지를 단숨에 사회적 화두로 끌어올린 사건이 하나 터졌습니다.

 

'미토스 쇼크'

2026년 4월, AI 기업 앤트로픽이 '클로드 미토스(Claude Mythos)'라는 모델을 공개했습니다. 그런데 이 모델이 보여준 능력이 충격적이었습니다. 앤트로픽에 따르면 미토스는 별도의 사이버보안 훈련 없이도 소프트웨어 취약점을 스스로 찾아내고, 그것을 실제 작동하는 공격 코드로 바꿀 수 있는 수준에 근접했습니다.

얼마나 잘 찾아냈을까요? 미토스 프리뷰는 최근 수 주간 수천 건의 제로데이 취약점을 발견했는데, 그중에는 보안성이 높기로 알려진 운영체제 오픈 BSD에서 찾아낸 27년 된 버그, 그리고 자동화 테스트 도구가 500만 회 이상 검사하고도 놓쳤던 16년 묵은 영상 소프트웨어 취약점까지 포함돼 있었습니다. 사람도, 기존 자동화 도구도 수십 년간 못 찾던 빈틈을 AI가 줄줄이 들춰낸 것입니다.

문제는, 이 능력이 '방어'에도 '공격'에도 똑같이 쓰일 수 있다는 점입니다. 실제로 앤트로픽은 미 정부 고위 관리자들에게 미토스가 2026년 대규모 사이버 공격 가능성을 크게 높일 수 있다고 경고했고, 결국 이 모델을 일반에 공개하지 않고 소수의 검증된 기관에만 제한적으로 제공하기로 했습니다. "너무 위험해서 세상에 그냥 내놓을 수 없는 AI"가 등장한 셈입니다.

 

백악관이 꺼낸 카드: "AI도 신약처럼 사전 허가를 받아라"

미토스 쇼크 이후, 미국 백악관까지 '강력한 AI 모델은 출시 전에 정부가 미리 검토하자'는 논의를 시작했습니다. 제약사가 신약을 다 만들어도 식약처 허가를 받기 전엔 팔 수 없는 것처럼, 위험할 수 있는 AI도 세상에 나오기 전에 정부 승인을 거치게 하자는 발상입니다. 

여기서 묘한 역전이 보입니다. 한쪽에서는 AI가 신약을 심사하는 'AI 심사관'이 되고, 다른 한쪽에서는 그 AI 자신이 신약처럼 '심사받는 대상'이 됩니다. 판단을 내리는 자리에서 AI가 어디까지 갈 수 있을까요? 그리고 그 자리를 우리는 어디까지 내줄 준비가 되어 있을까요? 

오늘은 이 거대한 흐름을 짚어보고, 이 갈등이 가장 무겁게 부딪히는 한 영역, 신약을 심사하는 'AI 심사관' 이야기로 들어가 보려 합니다.

 

 

우리는 왜 AI에게 판단을 넘기게 됐을까?

AI 심사가 빠르게 확산되는 이유는 사실 단순합니다. 사람이 하기에는 너무 느리고, 너무 비싸고, 너무 일관성이 없어졌기 때문입니다. 

 

속도, 며칠이 몇 분으로 

채용 담당자가 이력서 1,000장을 검토하려면 며칠이 걸리지만, AI는 같은 일을 몇 분 안에 끝냅니다. 의약품 심사도 마찬가지입니다. 식약처는 신약 허가 기간을 2026년 하반기부터 240일 수준으로 단축하겠다는 목표를 세웠는데, 그 핵심 동력이 바로 AI입니다. 미국 FDA, 유럽 EMA와 견줄 만한 속도를 만들겠다는 것입니다. 

일관성, 컨디션에 흔들리지 않는 기준 

사람은 같은 자료라도 아침에 보느냐 저녁에 보느냐, 컨디션이 어떠냐에 따라 판단이 달라집니다. AI는 적어도 이런 변동에선 자유롭습니다. 같은 입력에는 같은 기준이 적용됩니다. 

확장성, 인간 한 명이 따라잡을 수 없는 스케일 

방대한 자료를 동시에 읽고, 비교하고, 패턴을 찾아내는 일은 AI가 압도적입니다. 신약 허가 자료는 영문 논문·임상 데이터·과거 사례를 합치면 수만 페이지에 달하는데, 이걸 일일이 다 본 뒤 이를 기반으로 완벽하게 객관적으로 판단하는 일은 사실상 사람의 한계 밖입니다.

 

AI, 식약처

끝없이 늘어선 서류. 사람이 일일이 넘기던 방대한 자료를, 이제 AI가 대신 들여다보기 시작했다.

(출처: Gemini Nano Banana 2 생성)

 

 

빛만큼 짙어지는 그림자 

AI 심사가 빠르고 일관적이라는 사실이 곧 '믿어도 된다'는 뜻은 아닙니다. 속도가 빨라질수록 그 안에서 일어나는 오류는 더 커지기 때문입니다. 


모호한 책임 소재 

AI가 회사에 꼭 필요한 사람을 떨어뜨렸을 때, 누가 책임을 질까요? AI를 만든 회사? 도입한 기관? 최종 결재를 한 담당자? 사람이 결정했을 땐 명확하던 책임이, AI가 끼어들면 갑자기 흐려집니다. 

블랙박스 문제, 설명하기 힘든 판단 

AI는 '왜 이 사람을 통과시켰는지' 명확히 설명하지 못하는 경우가 많습니다. 모델이 복잡할수록 더 그렇습니다. 합격한 사람은 모르고 지나가지만, 불합격한 사람은 명확한 이유조차 듣지 못하고 떨어지게 됩니다. 

증폭되는 편향 

AI는 학습한 데이터의 편향을 거의 그대로 따라갑니다. 과거 데이터에 차별이 있었다면, 그 차별은 AI 안에 박제되어 더 큰 규모로 재생산됩니다. 대표적인 예로 글로벌기업 아마존(Amazon Inc.)에서 10년간 쌓인 이력서를 학습시킨 채용 AI가, 과거 합격자에서 남성 비율이 높았던 데이터를 그대로 받아들여 '여성'이라는 단어가 들어간 이력서에 불이익을 주기 시작했고, 결국 아마존은 이 시스템을 폐기했습니다. 

사소한 형식 차이가 부르는 오인식 

이건 의외로 큰 문제입니다. AI가 자료를 읽다가 표 안에 또 표가 있는 구조나 부록의 작은 글자를 잘못 인식하면, 그 한 번의 오인식이 전체 결론을 바꿔버릴 수 있습니다.

 

속을 알 수 없는 검은 상자처럼, AI는 왜 그렇게 판단했는지 좀처럼 설명하지 못한다. 빠르고 강력하지만 그만큼 짙은 그림자를 드리운다.

(출처: Gemini Nano Banana 2 생성)

 

 

그리고 이 모든 갈등이 가장 무겁게 부딪히는 영역 

채용에서 AI가 실수하면 한 사람의 커리어가 흔들립니다. 그런데 의약품 심사에서 AI가 실수하면, 수많은 사람의 생명이 흔들립니다. 

그래서 식의약 분야는 AI 도입에 대해 가장 엄격해야 하는 영역인 동시에, 가장 절실하게 AI가 필요한 영역이기도 합니다. 신약 한 개의 허가 자료가 수만 페이지인데, 매년 쏟아지는 신약·개량신약·바이오시밀러를 심사관 몇 명이 다 검토하기에는 시간도, 인력도 턱없이 부족합니다. 

그래서 한국 정부가 한 가지 큰 결정을 내렸습니다. 다만 그 방식은 다른 영역과는 결이 좀 다릅니다. 판단을 통째로 AI에게 넘기는 게 아니라, 사람과 AI가 함께 일하는 구조를 짜는 쪽입니다.

 

AI 심사의 무게중심이 일상 영역에서 의약품 심사라는 무거운 영역으로 옮겨가고 있다.

(출처: Gemini Nano Banana 2 생성)

 

 

이미 시작된 식약처의 'AI 심사관'

식약처의 AI 심사관은 이제 막연한 구상이 아니라, 조직과 예산과 일정이 모두 확정된 사업입니다. 2026년 2월 식약처는 '의약품 AI 심사 시스템' 개발 사업에 착수하며 전담조직 '식의약 인공지능 전환 추진단'을 꾸렸고, 이는 새 정부의 'AI 대전환 15대 선도프로젝트' 가운데 'AI 신약심사'의 일환으로 2026년부터 2028년까지 3년간 총 223억 원이 투입되는 정식 사업입니다. 도입은 한 번에 이뤄지지 않고 제품 유형에 따라 단계적으로 넓혀가는데, 2026년 원료의약품 규격 심사와 생물학적 동등성 평가를 시작으로 2027년 개량신약, 2028년 신약을 포함한 허가·심사 전 영역으로 확장합니다. 첫해의 핵심인 원료의약품 규격 심사에는 '불순물 심사'가 포함되는데, 과거에 같은 불순물 사례가 있었는지와 그때 심사자가 어떻게 판단했는지를 대조하는 '히스토리' 비교가 관건이라 AI가 강점을 보이는 작업입니다. 

1단계에서 AI가 맡을 일도 이미 구체적입니다. 단순·반복적인 민원 624종의 검토를 자동화하고, 제약사가 제출 전에 형식과 요건을 스스로 점검하는 자가 점검 시스템을 마련하며, 심사자를 위해서는 검토서 초안 55종 작성과 기존 허가사항 비교·검색, 방대한 영문 자료 번역 기능을 개발합니다. 여기에 AI 학습용 GPU 서버와 데이터, 과거 허가자료의 변환은 물론, 의약품 업무에 특화된 자체 언어모델(sLLM)까지 직접 개발해 밑단 인프라도 함께 갖춥니다. 범용 챗봇을 가져다 쓰는 게 아니라, 의약품 심사라는 좁고 깊은 영역에 맞춘 전용 AI를 만들겠다는 것이죠. 이 모든 것이 향하는 목표는 결국 '속도'로, 현재 평균 420일이 걸리는 신약 허가를 2026년 하반기부터 240일 이내로 줄여 세계에서 가장 빠른 허가심사 기관이 되겠다는 구상입니다.

 

다만 여기서 분명히 해 둘 것이 있습니다. AI는 심사관을 대체하지 않습니다. AI의 역할은 수만 페이지 자료를 요약하고, 영문 임상 보고서를 번역하고, 과거 유사 사례로 검토서 초안을 깔아주는 '판단 직전까지의 준비 작업'이며, 최종 결정은 사람의 손에 남습니다. 그래서 이것은 '위임'이라기보다 '협업'에 가깝고, 채용이나 콘텐츠 검열처럼 AI가 단독으로 통과·탈락을 정하는 영역과는 결이 분명히 다릅니다. 실제로 정부도 AI 도입과 함께 심사 인력 확충과 전문가 교육을 병행하겠다고 밝혔습니다. 물론 신중론도 있어, 일부 전문가는 본격적인 허가 심사 활용 시점을 2029년 무렵으로 더 보수적으로 전망하기도 합니다. 그만큼 의약품이 한 치의 오차도 허용하기 어려운 영역이라는 방증일 것입니다.

 

AI, 식약처

식약처 AI 심사 시스템 단계적 도입 로드맵. 2026년 원료의약품 규격·생물학적 동등성 평가 → 2027년 개량신약 → 2028년 신약 등 전 영역

(출처: 식품의약품안전처 보도자료 기반 자체 제작)

 

 

한 발 먼저, 그리고 한 발 먼저 흔들리는 FDA 

한국이 본격 도입을 준비하는 사이, 미국은 이미 시작했습니다. 그리고 시작한 만큼 빨리 문제도 드러내고 있습니다. 

미국 식품의약국(FDA)은 2025년 6월, 생성형 AI 도구 '엘사(Elsa)'를 도입했습니다. 엘사의 역할은 FDA에 제출되는 방대한 신청 서류의 '1차 검토'입니다. 신약 한 건의 자료가 많게는 50만 페이지에 달하는데, 사람이 일일이 읽던 이 작업을 AI가 먼저 훑어 심사 속도를 끌어올린다는 구상이었습니다. FDA는 이를 발판 삼아 '몇 주 안에 승인 결정을 내리는' 파일럿까지 추진하겠다고 밝혔고, 도입 직후 직원의 70% 이상이 자발적으로 엘사를 쓸 만큼 빠르게 자리 잡았습니다. 

문제는 그다음이었습니다. 엘사는 곧 '그럴싸하지만 틀린 답'을 내놓기 시작했습니다. 외신 보도에 따르면 엘사는 이미 FDA를 떠난 인물을 현직 간부로 잘못 인식했고, FDA가 승인한 의약품 정보를 부정확하게 요약하기도 했습니다. 문서를 빠르게 정리해주기는 하지만, 그 정리가 정확한지는 또 다른 문제였던 것입니다. 

그런데 FDA는 여기서 멈추지 않았습니다. 2025년 12월, 엘사에서 한 발 더 나아간 '에이전틱 AI(Agentic AI)'를 전 직원에게 배포했습니다. 단일 응답을 내놓던 기존 방식과 달리, 에이전틱 AI는 스스로 계획을 세우고 추론해 여러 단계의 업무를 직접 수행합니다. 시판 전 검토부터 시판 후 감시, 현장 검사와 규정 준수, 행정 업무까지 — 규제 과정 곳곳에서 AI가 '도구'를 넘어 '일하는 주체'에 가까워지고 있는 것처럼 보입니다. 물론 모든 결과는 사람의 감독을 전제로 한다고 FDA는 강조했습니다. 

이 흐름은 지금도 빠르게 진행 중입니다. 2026년 5월에는 엘사를 '4.0'으로 끌어올리고 흩어져 있던 40여 개의 시스템을 'HALO'라는 단일 플랫폼으로 통합하면서, 직원이 데이터를 엘사로 '가져오던' 방식에서 '엘사가 데이터 위에 올라앉는' 구조로 바꿔 AI를 규제 데이터의 중심에 놓았습니다.

 

AI, 식약처

단순 도구였던 FDA의 AI 엘사(Elsa)가, 스스로 일하는 에이전트로 진화하며 규제 데이터 분석의 중심으로 들어서고 있다.

(출처: Gemini Nano Banana 2 생성)

 

그런데 진짜 중요한 건 그다음입니다. '답을 주는 도구'에서 '스스로 일을 해내는 행위자'로 넘어갈수록, 사람이 그 판단을 하나하나 따라가며 검증하기는 점점 더 어려워지기 때문입니다. 

윤리적 쟁점도 만만치 않습니다. 국가생명윤리정책원은 'FDA AI 전면 도입 계획, 신약 심사 효율성과 관리감독 적절성에 대한 쟁점' 보고서에서, AI가 의사결정 과정에 적극적으로 활용될 경우 그 결정에 대한 책임이 누구에게 있는지에 대한 문제가 발생할 수 있고, 현재 AI가 보조적인 역할을 한다고 하지만 실제로 AI의 판단이 심사자의 결정에 큰 영향을 미칠 경우 오류 발생 시 책임 소재가 불명확해질 수 있다고 지적했습니다. 

이게 핵심입니다. '보조'와 '대체'는 말로는 명확히 구분되지만, 현실에서는 그 경계가 흐려지기 쉽습니다. AI가 작성한 초안을 사람이 그대로 통과시키는 일이 반복된다면, 형식상으로는 사람이 판단했어도 실질적으로는 AI가 결정한 셈입니다. '협업'이 '암묵적 위임'으로 미끄러지지 않게 지키는 일, 이게 식약처 AI 심사관 시대의 가장 어려운 숙제일지도 모릅니다.

 

 

그럼에도, 멈출 수는 없는 흐름

식약처의 입장도 한쪽에선 충분히 이해가 갑니다. "ChatGPT 등 인공지능이 처음 세상에 모습을 드러냈을 당시에도 각종 오류는 존재했지만, 문제점을 보완했고 시스템이 개선되면서 누구나 AI를 업무에 활용하는 시대가 찾아왔다"는 식약처의 입장도 일리가 있습니다. 

처음부터 완벽한 시스템은 없습니다. 다만 의약품 심사처럼 '한 번의 실수가 곧바로 사람의 생명에 닿는 영역'에서는, 보완의 비용이 다른 영역과 비교할 수 없을 만큼 커진다는 점이 다를 뿐입니다.

 

AI, 식약처

같은 심사 자료를 사람과 AI가 동등하게 함께 검토하는 모습. '협업'으로서의 AI 심사관

(출처: Gemini Nano Banana 2 생성)

 

 

마치며

AI는 이제 이력서, 대출, 콘텐츠를 넘어 신약 허가까지 들여다보는 자리에 섰습니다. 빠르고, 일관되고, 확장 가능합니다. 동시에 책임은 흐려지고, 판단의 근거는 불투명해지고, 작은 오인식이 큰 결과로 이어질 수 있습니다. 

질문은 더 이상 "AI에게 판단을 맡길 것인가, 말 것인가"가 아닙니다. 이미 우리는 맡기고 있습니다. 진짜 질문은 이것입니다. 

"어디까지 함께 일하고, 어디부터 사람이 책임질 것인가." 

 

식약처의 단계적 도입 로드맵은 이 질문에 한국 사회가 내놓은 첫 번째 답이 될 수 있습니다. 원료의약품 → 개량신약 → 신약 순으로 한 걸음씩 넓혀가는 일정은 단순한 기술 도입 계획이 아니라, '어디까지가 안전한 협업의 범위인가'에 대한 신중한 선 긋기이기도 합니다. 미국 엘사의 사례는 우리에게 그 선을 어디에 그어야 할지 미리 알려주는 시범 케이스가 되어줄 것입니다. 

그래서 우리가 던져야 할 질문은 'AI를 믿을 수 있는가'가 아닐지도 모릅니다. 그보다는, 어떤 결정까지 AI와 함께 내릴 준비가 되어 있는가, 그 답을 우리는 이제 막 찾기 시작했습니다.

 

 

참고자료 


EDITOR

김정융

insilico Food Center · Junior Researcher

댓글