AI가 쓴 논문, 진짜 연구자도 구별 못한다? 과학계의 위기

AI가 쓴 논문, 이미 학술지를 뚫고 있습니다

AI가 쓴 논문을 동료 심사(peer review)를 거친 연구자조차 판별하지 못하는 사례가 2024년 이후 급격히 늘고 있습니다. 단순히 문장을 다듬는 보조 수준이 아니라, 가설 설정부터 실험 설계·데이터 분석·원고 작성까지 전 과정을 AI가 자동화한 논문이 실제 저널에 제출되고 있는 게 현실입니다. 과학계가 수백 년간 쌓아온 ‘동료 검증’ 시스템이 AI 앞에서 흔들리기 시작했습니다.

이 글에서 다룰 내용: ① AI 논문이 어떻게 심사망을 통과하는가 ② 현재 검출 기술의 한계 ③ 과학계가 나아가야 할 방향

AI 논문은 어떻게 심사관을 속이나

AI가 작성한 논문이 베테랑 리뷰어의 눈을 피하는 이유는 단순히 ‘문장이 자연스러워서’가 아닙니다. 핵심은 구조적 일관성입니다. GPT-4 계열 모델은 IMRAD 구조(Introduction·Methods·Results·Discussion)를 완벽하게 따르며, 참고문헌 형식도 APA·MLA 스타일에 맞춰 자동 생성합니다. 리뷰어가 형식적 완성도를 기준으로 1차 판단할 때 AI 논문은 오히려 인간 초고보다 높은 점수를 받는 역설이 발생합니다.

‘AI 과학자’의 등장 — 보조 도구를 넘어서

2024년 스탠퍼드대·MIT 연구팀이 공개한 ‘AI Scientist’ 프로젝트는 이 문제를 수면 위로 끌어올렸습니다. 이 시스템은 머신러닝 분야에서 연구 아이디어를 스스로 생각하고, 코드를 실행해 실험 결과를 도출한 뒤 논문 초안까지 완성했습니다. 논문 한 편 생성에 걸린 비용은 약 15달러(약 2만 원 수준), 시간은 수 시간에 불과했습니다. 한국 과학기술정보통신부도 2025년 기준 총 1,500억 원 예산을 배정해 ‘AI 과학자’ 개발 프로젝트를 공식 추진 중입니다.

문제는 이런 시스템이 만든 논문이 실제 심사 과정에서 걸러지지 않는다는 점입니다. AI는 기존 논문 수만 편의 패턴을 학습했기 때문에, 리뷰어가 ‘이 주장이 타당한가’보다 ‘이 문장이 어색하지 않은가’를 먼저 판단하는 순간 탐지 가능성은 급격히 낮아집니다.

검출 도구는 왜 믿을 수 없나

현재 주요 학술지들이 도입한 AI 탐지 툴(Turnitin AI Detection, GPTZero, Copyleaks 등)의 오탐률은 공급사 기준 1% 이하를 목표로 설계됐습니다. 그러나 현장 데이터는 다릅니다. 2023년 실제 교수·연구자들이 자신이 직접 쓴 논문을 탐지 툴에 돌렸더니 일부 프로그램에서 AI 작성물로 오판되는 사례가 다수 보고됐습니다. 도구마다 판정 결과가 달라, 동일 논문이 A 툴에서는 ‘AI 작성 95%’, B 툴에서는 ‘Human 작성 80%’로 나오는 일이 실제로 발생하고 있습니다.

오탐·미탐이 만드는 이중 피해

오탐(사람이 쓴 글을 AI로 오판)은 선의의 연구자를 부정행위자로 만들고, 미탐(AI 글을 사람 것으로 통과)은 검증 자체를 무력화합니다. 특히 비영어권 연구자들이 영어 문장을 다듬기 위해 AI를 활용할 경우 탐지 확률이 비정상적으로 높아지는 편향도 확인됐습니다. 이는 AI 검출 도구가 사실상 영어 원어민 글쓰기 패턴을 ‘정상’으로 학습했기 때문입니다.

실제로 AI가 생성한 논문에서 가장 신뢰할 수 있는 단서는 기술적 탐지가 아니라 ‘존재하지 않는 참고문헌 인용’ 입니다. 무료 AI 모델은 할루시네이션(hallucination) 현상으로 인해 실제로 없는 논문의 제목·저자·DOI를 만들어내는 경우가 잦습니다. 리뷰어가 참고문헌 중 3~5개를 무작위로 검색해보는 것이 현재로선 가장 확실한 검증 방법입니다.

학술지는 어떻게 대응하고 있나

네이처(Nature), 사이언스(Science), 셀(Cell) 등 주요 저널은 2023년부터 AI 사용 공시 정책을 도입했습니다. 투고 시 AI 활용 여부와 사용 범위를 저자가 직접 명시해야 하며, 위반 시 게재 취소 및 향후 투고 금지 조치가 적용됩니다. 그러나 ‘AI를 저자로 등록할 수 없다’는 규정은 있어도, ‘어느 수준까지 AI를 활용했는가’에 대한 정량적 기준은 아직 어떤 저널도 확립하지 못했습니다.

공시 의무만으로는 부족한 이유

대응 방식	현황	한계
AI 탐지 툴 도입	Nature, Elsevier 등 채택	오탐률 편차 크고 회피 기술에 취약
AI 사용 공시 의무화	주요 저널 대부분 시행	자발적 신고 의존, 검증 불가
구두 발표 심사 강화	일부 학회 시범 도입	인력·비용 부담으로 확산 느림
원데이터 공개 의무	오픈사이언스 저널 일부	전체 학술지 적용까지 수년 소요 예상

검증 과정에 소요되는 인력 문제도 현실적 장벽입니다. 글로벌 학술지에 연간 제출되는 논문은 약 700만 편(추정치) 수준인데, 편당 AI 심층 검증에 드는 시간을 평균 2시간으로 잡으면 전수 검사에는 1,400만 시간이 필요합니다. 현재 리뷰어 풀로는 물리적으로 불가능한 규모입니다.

AI 논문 확산이 불러올 진짜 리스크

표면적 문제는 ‘가짜 논문의 통과’지만, 더 깊은 위협은 과학 지식 생태계의 오염입니다. AI는 기존 논문을 학습 데이터로 삼습니다. AI가 생성한 논문이 학술 데이터베이스에 쌓이면, 다음 세대 AI 모델은 그 오염된 논문을 다시 학습해 더 그럴듯한 허위 연구를 만들어냅니다. 이른바 ‘데이터 오염의 피드백 루프’입니다.

의학·제약 분야에서 이 문제는 생명과 직결됩니다. AI가 생성한 임상시험 결과 논문이 실제 치료 지침에 반영될 경우, 환자 안전에 직접적 위해를 끼칠 수 있습니다. 2024년 퇴행성 뇌 질환 분야에서 AI가 할루시네이션으로 생성한 단백질 구조 데이터가 실제 논문에 포함돼 사후 철회 조치된 사례가 대표적 경고입니다.

이번 사안의 본질 — 검증 시스템이 붕괴하고 있습니다

주목할 점은, 이게 단순히 ‘논문 조작 문제’가 아니라는 것입니다. 과학의 자기교정 메커니즘, 즉 동료 심사→재현 연구→인용 검증으로 이어지는 3단 구조 전체가 AI 앞에서 동시에 흔들리고 있습니다. AI는 리뷰어를 속이고, AI가 쓴 가짜 논문은 다른 AI 논문의 인용 근거가 되며, 재현 실험 자체도 AI가 설계할 수 있습니다.

향후 2~3년이 분기점입니다. 두 가지 시나리오가 충돌합니다. 첫 번째는 ‘원데이터 전면 공개+구두 검증 의무화’ 체계가 주요 저널 80% 이상에 정착하는 경우입니다. 이 경우 AI 논문의 통과율은 현재 대비 절반 이하로 낮아질 가능성이 높습니다. 두 번째는 규제 정비가 늦어지는 사이 AI 생성 논문이 전체 투고량의 30% 이상을 차지하게 되는 경우로, 이때는 ‘진짜 연구’를 증명하는 부담이 연구자 개인에게 전가됩니다. 지금의 속도라면 두 번째 시나리오로 기울 가능성이 더 높습니다.

자주 묻는 질문

AI가 쓴 논문을 확실하게 구별할 방법이 있나요?

현재 100% 확실한 방법은 없습니다. 가장 신뢰도 높은 방법은 참고문헌 3~5개를 직접 검색해 실존 여부를 확인하는 것과, 저자에게 연구 내용을 구두로 설명하게 하는 것입니다. 기술적 탐지 툴만으로는 오탐과 미탐이 빈번해 보조 수단으로만 활용해야 합니다.

AI를 논문 교정에 활용하는 것도 문제가 되나요?

현재 Nature, Science 등 주요 저널 기준으로 AI를 문법 교정·번역 보조에 사용하는 것은 허용되지만, 반드시 투고 시 사용 범위를 명시해야 합니다. AI가 논문의 핵심 주장·해석·결론을 생성한 경우는 명백한 부정행위로 간주됩니다.

정리

1. AI 논문은 이미 심사망을 통과하고 있습니다. 가설 설정부터 원고 작성까지 자동화가 가능해졌고, 편당 생성 비용은 약 2만 원 수준까지 낮아졌습니다. 2. 현재 탐지 기술은 믿을 수 없습니다. 오탐·미탐이 빈번하고, 비영어권 연구자에게 불리한 편향이 내재돼 있습니다. 참고문헌 실존 여부 확인이 지금으로선 가장 현실적 대안입니다. 3. 2~3년 안에 제도 정비가 없으면 돌이키기 어렵습니다. 원데이터 공개와 구두 검증 의무화 없이는 ‘AI 논문 vs 진짜 연구’의 구분선 자체가 사라질 수 있습니다.

AI 연구 도구 활용 정책이나 학술 윤리 가이드라인을 다룬 글도 함께 읽어보시면 이 흐름을 더 넓게 이해하실 수 있습니다.

#AI #논문검증 #학술윤리 #AI탐지 #과학신뢰성

Post Views: 14