본문으로 건너뛰기
← 블로그로 돌아가기
AI

브리태니커 vs OpenAI10만 건 저작권 소송, RAG까지 겨냥하다

3분 읽기
#OpenAI#브리태니커#저작권#RAG#AI 소송#메리엄웹스터

250년 된 백과사전이 AI를 고소했다

Encyclopedia Britannica와 Merriam-Webster가 OpenAI를 상대로 저작권 침해 소송을 제기했습니다. 핵심 주장은 두 가지입니다. 하나는 OpenAI가 약 10만 건의 저작권 보호 온라인 기사를 LLM 학습에 무단 사용했다는 것이고, 다른 하나는 OpenAI의 RAG(Retrieval Augmented Generation) 워크플로우가 저작권 콘텐츠를 재생산하고 있다는 것입니다.

두 번째 주장이 핵심입니다. 기존의 AI 저작권 소송들이 "학습 데이터 스크래핑"에 초점을 맞췄다면, 이번 소송은 AI가 실시간으로 검색해서 답변하는 과정까지 문제 삼고 있습니다.

왜 이번 소송이 다른가 — RAG의 저작권 문제

RAG는 LLM이 외부 데이터를 검색해서 답변에 활용하는 기술입니다. ChatGPT가 웹 검색 결과를 인용하며 답변하는 게 대표적인 RAG 워크플로우입니다.

브리태니커의 주장은 이렇습니다. OpenAI가 학습 단계에서 기사를 스크래핑한 것도 문제지만, RAG로 실시간으로 브리태니커 콘텐츠를 가져와서 답변에 녹여내는 것도 저작권 침해라는 겁니다. 사용자가 "양자역학이란?"이라고 물으면 ChatGPT가 브리태니커 기사의 내용을 재구성해서 답변하는데, 이게 원저작물의 시장을 대체한다는 논리입니다.

이 논리가 법원에서 받아들여지면 파급력이 큽니다. 현재 거의 모든 AI 챗봇이 RAG를 사용하고 있기 때문입니다.

AI 저작권 소송의 전체 지도

브리태니커 소송은 갑자기 나온 게 아닙니다. AI 저작권 분쟁은 2023년부터 꾸준히 확대되고 있습니다.

시기원고피고핵심 쟁점
2023.12New York TimesOpenAI, Microsoft기사 학습 + 출력물 유사성
2024Getty ImagesStability AI이미지 학습 데이터
2025다수 출판사다수 AI 기업학습 데이터 라이선싱
2026.03Britannica, Merriam-WebsterOpenAI학습 + RAG 출력

이전 소송들이 "학습 데이터를 허락 없이 썼다"에 집중했다면, 브리태니커 소송은 "AI의 실시간 출력물도 저작권 침해"라는 새로운 전선을 열었습니다.

전망

이 소송의 결과는 AI 산업 전체에 영향을 미칠 수 있습니다. RAG가 저작권 침해로 인정되면, AI 기업들은 검색 소스마다 라이선스를 체결해야 할 수 있습니다. 이미 OpenAI는 AP, Axel Springer 등과 콘텐츠 라이선스 계약을 맺고 있는데, 이 흐름이 가속될 것입니다.

개발자 입장에서는 RAG 파이프라인을 구축할 때 데이터 소스의 저작권 상태를 더 신중하게 확인해야 하는 시대가 올 수 있습니다. "공개 웹에 있으니까 가져다 써도 되겠지"라는 접근이 더 이상 안전하지 않을 수 있다는 뜻입니다.


참고

Share
JJY
JJYAuthor

AI, 웹 보안, 개발 환경에 관심이 많습니다.

새 글 알림 받기

스팸 없이 새 포스트만 전달합니다.

관련 포스트