최근 몇 년 사이 인공지능을 이용한 글쓰기가 빠르게 보급되면서 여러 편리함과 동시에 글을 작성한 주체가 누구냐에 대한 논란이 계속 이어지고 있는 것 같습니다. 이번 포스팅에서는 자사의 툴을 이용해 작성된 글에 워터마크를 추가하려는 구글의 접근에 대해 소개된 IEEE Spectrum 글을 통해 관련 내용을 전해보고자 합니다.
개요
챗봇 혁명으로 인해 AI가 생성한 텍스트가 우리 일상에 넘쳐나고 있습니다. 이러한 텍스트는 뉴스 피드, 보고서, 이메일 등에서 쉽게 찾아볼 수 있으며, 그 양은 매우 많아 관련 산업도 형성되었습니다. 일부 기업들은 자료를 분석해 AI가 생성한 텍스트를 식별하는 서비스를 제공하고, 다른 기업들은 AI가 생성한 텍스트를 더 인간처럼 보이게 하여 감지되지 않도록 만드는 도구를 제안합니다. 하지만 이러한 도구들은 성능에 의문이 제기되며, 챗봇의 성능이 점점 향상됨에 따라 텍스트가 인간에 의해 작성되었는지, 아니면 알고리즘에 의해 조합된 것인지 구별하는 것이 더욱 어려워지고 있습니다.
이에 대한 또 다른 접근법으로, 처음부터 텍스트에 워터마크나 콘텐츠 자격 증명을 추가해 사람들이 손쉽게 해당 텍스트가 AI로 생성된 것인지 확인할 수 있도록 하는 방법이 제시되었습니다. 오늘 저널 Nature에 소개된 Google DeepMind의 새로운 연구는 이를 실현할 방법을 제안하고 있습니다. “SynthID-Text”라 불리는 이 시스템은 텍스트 생성의 “품질, 정확성, 창의성, 속도”를 손상시키지 않는다고 Google DeepMind의 연구 부사장이자 논문 공동 저자인 푸시미트 콜리가 설명합니다. 그러나 연구진은 이 시스템이 만능 해결책이 아님을 인정하며, 아직 모든 사람에게 사용할 수 있는 단계가 아니라 확장 가능한 솔루션이라기보다 데모에 가깝다고 덧붙였습니다.
Google은 이미 이 새로운 워터마크 시스템을 자사의 Gemini 챗봇에 통합했다고 오늘 발표했습니다. 또한, 이 도구를 오픈 소스로 공개해 개발자와 기업들이 자신들의 대형 언어 모델(LLM)이 생성한 텍스트인지 확인할 수 있도록 했습니다. 하지만 현재 워터마크를 감지하는 탐지기에 접근할 수 있는 것은 Google과 일부 개발자들뿐입니다. 콜리는 “SynthID는 AI가 생성한 콘텐츠를 식별하기 위한 완벽한 해결책은 아니지만, 더 신뢰할 수 있는 AI 식별 도구를 개발하기 위한 중요한 기반입니다”라고 설명합니다.
콘텐츠 자격 증명의 부상
콘텐츠 자격 증명은 이미지와 비디오에서 화제가 되고 있으며, 딥페이크 확산을 막기 위한 한 방법으로 여겨지고 있습니다. 기술 회사들과 주요 언론사들은 C2PA라는 공동 이니셔티브에 참여하여, 이미지와 비디오 파일이 실제인지, AI가 생성한 것인지 표시하는 암호화된 메타데이터를 첨부하는 시스템을 개발했습니다. 하지만 텍스트는 훨씬 더 어려운 문제입니다. 워터마크를 숨기거나 제거하기 위해 텍스트를 쉽게 수정할 수 있기 때문입니다. SynthID-Text는 텍스트용 워터마킹 시스템을 개발하려는 첫 시도는 아니지만, 2천만 개의 프롬프트에서 테스트된 최초의 시스템입니다.
콘텐츠 자격 증명에 대한 외부 전문가들은 이번 DeepMind 연구가 긍정적인 진전이라고 평가합니다. Microsoft의 미디어 출처 관리 이사이자 C2PA 집행 위원장인 앤드류 젱크스는, 이번 연구가 “문서와 원문 텍스트에 대해 C2PA에서 사용하는 내구성 있는 콘텐츠 자격 증명의 활용을 개선할 가능성이 있다”고 전합니다. C2PA 운영위원회의 브루스 매코맥은 “이 문제는 해결하기 어려운 문제이지만, 진전이 이루어지는 것을 보니 좋다”고 말합니다.
Google의 텍스트 워터마크 작동 방식
SynthID-Text는 생성 과정에서 미묘한 변형을 가해 작동합니다. 이는 사용자가 눈치챌 수 없는 방식으로 챗봇의 출력 텍스트 일부 단어를 수정하여 SynthID 감지기에 의해 쉽게 감지될 수 있도록 합니다. 연구진은 논문에서 “이러한 변형은 생성된 텍스트에 통계적 시그니처를 도입한다”며, “워터마크 감지 단계에서는 이 시그니처를 측정하여 해당 텍스트가 워터마크가 적용된 LLM에 의해 생성되었는지 확인할 수 있다”고 설명합니다.
챗봇을 구동하는 LLM은 앞서 나온 문맥을 바탕으로 다음에 나올 단어를 선택하여 문장을 하나씩 생성합니다. SynthID-Text는 후보 단어에 무작위로 숫자 점수를 할당하고, 더 높은 점수를 가진 단어를 출력하도록 LLM에 개입하는 방식으로 작동합니다. 이후 감지기는 텍스트의 전체 점수를 계산해 워터마크가 적용된 텍스트인지 확인합니다. DeepMind 팀은 이 시스템을 기존의 텍스트 워터마킹 도구와 비교했으며, 워터마크된 텍스트를 감지하는 데 더 효과적인 것으로 나타났습니다.
하지만 연구진은 논문에서 Gemini가 생성한 텍스트를 조금만 변경해도 탐지기를 속일 수 있음을 인정합니다. 사용자가 어떤 단어를 수정해야 할지 알지 못하더라도 텍스트를 상당히 수정하거나 다른 챗봇에게 요약을 요청하는 경우, 워터마크는 쉽게 흐려질 수 있습니다.
대규모 텍스트 워터마크 테스트
챗봇의 응답 품질이 저하되지 않았음을 확인하기 위해, 연구진은 SynthID-Text를 Gemini에 입력된 2천만 개의 프롬프트에서 테스트했습니다. 그 중 절반은 SynthID-Text 시스템으로 경로가 지정되어 워터마크가 적용된 응답을 받았고, 나머지 절반은 표준 Gemini 응답을 받았습니다. 사용자들의 ‘좋아요’ 및 ‘싫어요’ 피드백을 통해, 워터마크가 적용된 응답도 표준 응답만큼 만족스러웠음을 확인했습니다.
이는 Google과 Gemini에 기반하여 개발하는 개발자들에게 좋은 소식입니다. 하지만 AI가 생성한 텍스트를 식별하는 문제를 완전히 해결하려면 많은 AI 기업들이 워터마킹 기술을 구현해야 하며, 하나의 감지기로 여러 LLM에서 생성된 텍스트를 식별할 수 있도록 상호 운용 가능한 방식으로 이루어져야 할 것입니다. 그리고 모든 주요 AI 기업이 협정에 동의한다고 해도, 오픈소스 LLM의 경우 워터마크 기능을 쉽게 제거할 수 있기 때문에 또 다른 문제로 남습니다.
C2PA의 매코맥은 실제로 텍스트 리뷰를 고려할 때 탐지가 특히 문제가 된다고 언급합니다. 그는 “텍스트 리뷰에서는 어떤 워터마킹 모델이 적용되었는지를 알아야 시그니처를 찾는 방법과 위치를 알 수 있는 등 여러 도전 과제가 존재한다”고 설명합니다. 매코맥은 이번 연구가 “막다른 길은 아니지만, 긴 여정의 첫 걸음”이라고 평가합니다.
마무리
이번 포스팅에서는 AI가 생성한 텍스트를 식별하는 다양한 방법과 그 도전 과제들에 대해 다뤄보았습니다. 이미지와 비디오에 비해 텍스트의 워터마크 적용이 더욱 까다롭지만, Google DeepMind의 SynthID-Text와 같은 새로운 기술이 이를 해결하기 위한 중요한 첫걸음이 될 수 있음을 살펴보았습니다. 앞으로 더 많은 AI 기업들이 협력하고, 상호 운용 가능한 워터마크 시스템을 개발함으로써 AI 콘텐츠의 출처를 더 명확히 하고 신뢰도를 높이는 방향으로 나아가기를 기대합니다.