
생성 AI의 폭발적 성공은 수십억 달러 규모의 “AI 탐지 도구” 하위 산업을 탄생시켰다: 이 도구들은 텍스트가 인간이 썼는지, 아니면 ChatGPT 같은 AI 도구가 생성했는지 알려준다고 주장한다. 대체 어떻게 그게 가능할까?
이 도구들은 인상적이고 유용하며 앞으로 더 나아질 가능성이 크다고 생각한다. 하지만 대중이 이 도구들의 신뢰성을 과대평가하는 건 매우 걱정스럽다. AI 탐지 도구는 텍스트가 AI 생성임을 증명할 수 없다.
AI 탐지가 어려운 이유
이 도구들에 처음 들었을 때 내 반응은 “저런 게 절대 작동할 리 없다”였다. 그 초기 반응이 대체로 맞는다고 본다. 왜냐하면 AI 탐지 도구의 핵심 전제 – 인간 생성 글과 AI 생성 글 사이에 본질적인 차이가 있다는 아이디어 – 가 근본적으로 잘못됐기 때문이다.
대형 언어 모델(LLM)은 방대한 인간 작성 텍스트 데이터셋으로 학습한다. 이들은 훈련 데이터에 최대한 가까운 텍스트를 생성하도록 배운다. AI 모델의 기본적인 “목소리”는 바로 이 데이터가 결정지으며, AI라는 사실 자체와는 무관하다. 셰익스피어(Shakespeare)로 훈련된 모델은 셰익스피어처럼 들리고, 마찬가지다. 천 개의 다른 데이터셋으로 천 개 모델을 훈련해도 모든 모델이 공유하는 공통 “모델 목소리”나 서명을 찾을 수 없다.
따라서 (거의 선험적으로) AI 탐지 도구는 텍스트가 AI 생성임을 증명할 수 없다고 말할 수 있다. 언어 모델이 생성한 것은 정의상 인간이 생성할 수 있는 것과 같다.
그래도 AI 탐지 도구가 작동할 수 있는 이유
물론 AI가 쓴 걸 알아볼 수 있는 경우는 있다! 트위터(Twitter) 답글을 읽다 보면 명백히 LLM 생성처럼 보이는 것들이 눈에 띈다. 이걸 Why does AI slop feel so bad to read?에서 다뤘다. AI가 썼다는 걸 증명할 수 없는데 어떻게 가능한 걸까?
답의 일부는 현재 세대 AI 모델들이 정말 거슬리는 “집 스타일(house style)”을 공유하고, 그 스타일로 쓰는 인간도 똑같이 거슬리기 때문일 수 있다. 블로그 첫 문장을 읽고 “아, 이건 AI slop이네, 더 읽을 필요 없겠어”라고 생각할 때, 실제로 AI인지 아닌지는 별 상관없다. 인간이 썼더라도 AI slop 스타일이면 나머지 글 읽고 싶지 않다.
하지만 여기엔 더 깊은 이유가 있다고 본다. Claude는 ChatGPT와 꽤 비슷하게 들리는데, 둘은 다른 방식과 (부분적으로 다른) 데이터로 훈련된 별개의 모델이다. AI 탐지 도구의 낙관적 시나리오는 대략 이러하다:
- RLHF와 지침/안전 튜닝이 모든 강력한 LLM을 같은 톤과 스타일로 몰아간다
- 그 톤과 스타일은 분류기 모델(classifier model)을 훈련해 자동 탐지할 수 있다
- 기술적으로 정교한 사용자는 abliterated LLM이나 덜 안전 튜닝된 오픈 모델을 쓸 수 있지만, 99% 사용자는 그냥 ChatGPT나 Claude만 쓸 거다 (특히 에세이 사기 칠 만큼 게으른 사람들)
- 따라서 간단한 “ChatGPT/Claude/Gemini 산문 스타일 탐지기”로 LLM을 써서 에세이 쓰는 대부분 사람들을 90%까지 잡아낼 수 있다
이 논리는 성공률 90%에 만족한다면 꽤 설득력 있다. 하지만 베이스 레이트가 낮으면 90% 성공률도 의외로 나쁠 수 있는데, 고전적인 베이즈 정리(Bayes’ theorem) 예시가 보여준다. 한 반에서 에세이 10%가 AI 작성이라면, 탐지기가 90% 정확해도 플래그 친 에세이 중 절반만 진짜 AI다. AI 탐지 도구가 글을 AI로 판단하면 “다소 수상쩍다(kind of suspicious)” 정도로만 봐야지, 확정 증거로 삼지 말아야 한다.
AI 탐지 도구는 어떻게 작동하나?
AI 탐지 도구를 만드는 데는 몇 가지 다른 접근법이 있다. 가장 단순한 방법 – 실제 상용 사례는 못 찾았지만 – 은 인간 작성 텍스트와 AI 작성 텍스트 묶음으로 간단한 텍스트 분류기를 훈련시키는 거다. 이건 별로 잘 안 된 모양이다. Ghostbuster 논문은 이걸 시도하다가, 오히려 logits(로그릿) 자체로 분류기를 훈련시키는 게 더 쉽다고 결론지었다: 후보 문서를 여러 간단한 LLM에 통과시켜 각 LLM이 텍스트에 “얼마나 동의하는지” 기록한 뒤, 그 데이터를 분류기 훈련에 쓴다. DNA-GPT는 더 간단하게 간다: 후보 문서를 잘라내고, 뒷부분 절반을 최신 LLM으로 재생성해 실제 뒷부분과 비교하는 식이다.
내가 본 가장 인상적인 건 Pangram Labs의 EditLens 논문이다. EditLens는 처음부터 생성된 게 아니라 AI가 여러 정도만큼 편집한 텍스트로 모델을 훈련시켜, 특정 텍스트에 AI가 얼마나 관여했는지 세밀한 정도를 예측하도록 배운다. 이게 단순 “AI냐 아니냐” 이진 분류기보다 훨씬 나은 분류기를 만들 가능성이 크다. 왜냐하면 각 예시가 모델에게 단일 비트(bit)가 아닌 숫자 값(연속적 정도)을 가르치기 때문이다.
한 가지 명백한 사실: 이런 도구들은 전부 AI를 스스로 쓴다. 자체 모델을 훈련시키거나 기존 최신 모델로 추론(inference)을 돌리지 않고는 AI 글의 존재를 탐지할 방법이 없다. 이건 AI를 극도로 싫어하는 사람들에겐 나쁜 소식이다 – 다른 사람의 AI 사용을 잡기 위해서라도 AI를 안 쓰고 싶어 하니까. 게다가 앞서 말했듯 다시 강조하지만, AI 탐지 도구는 텍스트가 AI 생성임을 증명할 수 없다. 최고의 도구라고 해도 “매우 그럴듯하다(extremely likely)” 수준일 뿐이다.
인간화(Humanizing) 도구들
흥미롭게도, AI 생성 텍스트를 AI 탐지 도구가 “인간 작성”으로 판단할 만한 텍스트로 바꿔준다는 “인간화 도구”의 하위-하위 산업이 있다. 일부 무료 AI 탐지 도구는 사실 이 인간화 도구들의 판매 통로(sales funnel)로, 사용자들이 인간화 서비스를 사게 하려고 일부러 false positive를 많이 뱉어낸다. 예를 들어 내 블로그 포스트 하나를 JustDone에 돌려봤더니 90% AI 생성이라고 평가하고, 한 달 40달러라는 “저렴한” 가격으로 고쳐주겠다고 제안하더라.
이 도구들은 명확히 말하진 않지만, 당연히 글을 LLM에 넣어 더 덜 LLM답게 들리도록 프롬프트하거나 미세조정(fine-tuned)하는 “인간화” 과정을 거친다. 이게 꽤 아이러니하다. 실제 인간 작성 에세이를 false positive 때문에 학교나 대학에서 진짜 문제 될까 봐 겁먹은 학생들이 이런 도구에 넣었다가 오히려 LLM 생성 글로 바꿔버리는 경우가 많을 거다.
거짓 양성(False Positives)과 사회적 피해
이 도구들이 실제보다 더 잘 된 척하는 게 거의 모두에게 이득이다. 수십억 달러 AI 탐지 도구 산업을 이루는 회사들은 완벽히 신뢰할 수 있는 도구를 판다고 가장하고 싶어 한다. 대학·학교 관리자들은 문제를 통제 중인 척하고 싶고, 인터넷 사람들은 ChatGPT에서 메시지 복붙했다는 “증거” 스크린샷으로 남 깎아내리기를 즐긴다.
AI 연구소들도 AI 탐지가 쉽고 신뢰할 만하다는 척하고 싶어 한다 – 교육 시스템을 사실상 망쳐놓은 책임 일부를 덜 수 있으니까. OpenAI는 2023년 1월 자체 AI 탐지 도구를 내놓았다가, “정확도 낮음” 때문에 6개월 만에 철회했다.
이 환상(mirage)의 진짜 피해자는 AI 글을 자기 것으로 속인 게 아니라 그냥 글 쓰려던 사람들이다. AI답지 않게 쓰려고 글쓰기 방식을 의심하거나, 키스트로크 녹화나 초안 사진 찍어 false positive에 대응할 증거를 모으는 학생들을 안다.
사람들의 글·에세이에 AI 썼는지 판단해야 하는 입장이라면, AI 탐지 도구의 한계를 현실적으로 봐달라. AI 작성 여부를 추측하는 교육받은 추측(educated guesses)일 뿐이다. 특히 “인간화” 서비스도 겸하는 도구라면 더더욱 – false positive를 뱉어내는 데 인센티브가 있으니까.
원문: AI detection tools cannot prove that text is AI-generated
blog by ash에서 더 알아보기
구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.
