Meta Llama 4 Maverick — 17B 활성 파라미터, 128 Expert MoE 오픈 모델의 등장과 논란

🦙 Llama 4 Maverick, 무엇이 달라졌나

2025년 4월 5일, Meta는 Llama 4 시리즈를 공개했습니다. Scout, Maverick, Behemoth 세 가지 모델 중 Maverick는 17B 활성 파라미터와 128개 Expert로 구성된 Mixture-of-Experts(MoE) 아키텍처를 채택했으며, 총 파라미터는 약 400B 규모입니다. 오픈 웨이트로 공개된 모델 중 이 규모의 MoE 구조는 처음입니다.

핵심은 효율성입니다. 400B 전체가 아닌 17B만 활성화되기 때문에, DeepSeek V3의 절반 수준 활성 파라미터로 비슷한 추론/코딩 성능을 달성한다고 Meta는 주장합니다. GPT-4o 대비 9~23배 나은 가격 대비 성능을 제공한다는 것이 Meta 측 설명입니다.

📊 스펙과 벤치마크

Llama 4 시리즈의 주요 사양을 비교하면 다음과 같습니다.

항목	Llama 4 Scout	Llama 4 Maverick	Llama 4 Behemoth (학습 중)
활성 파라미터	17B	17B	288B
Expert 수	16	128	16
총 파라미터	109B	400B	~2T
컨텍스트 윈도우	10M 토큰	1M 토큰	미공개
GPU 요구사항	단일 H100 (Int4)	단일 H100 DGX	미공개

Maverick는 여러 벤치마크에서 GPT-4o와 Gemini 2.0 Flash를 상회하는 결과를 보였습니다. Meta AI 블로그에 따르면 MMMU에서 73.4%(GPT-4o 69.1%), MathVista에서 73.7%(GPT-4o 63.8%)를 기록했습니다.

모델은 30조 토큰 이상의 데이터로 사전학습되었으며, 이는 Llama 3 대비 2배 규모입니다. 200개 이상의 언어를 지원하고, 멀티모달 데이터(텍스트, 이미지, 비디오)로 학습되어 네이티브 멀티모달 처리가 가능합니다. 12개 언어에 대해 공식 지원을 제공합니다.

⚡ 오픈 웨이트의 의미

Llama 4 Maverick는 BF16과 FP8 양자화 가중치 모두 공개되었습니다. Hugging Face, llama.com에서 다운로드할 수 있고, AWS, Google Cloud, Azure, Oracle 등 주요 클라우드에서 바로 배포 가능합니다. IBM watsonx.ai에서도 사용할 수 있습니다.

오픈 웨이트라는 점은 두 가지 의미를 갖습니다. 첫째, 기업이 자체 인프라에서 모델을 운영할 수 있어 데이터 주권 문제를 해결합니다. 둘째, 연구 커뮤니티가 아키텍처를 분석하고 개선할 수 있어 오픈소스 AI 생태계 확장에 기여합니다. Behemoth가 Scout과 Maverick의 티처 모델로 활용된 점도 주목할 부분입니다. 대형 모델의 지식을 소형 모델로 증류하는 전략이 실제 적용된 사례입니다.

🔍 벤치마크 논란: LMArena 사건

Llama 4 출시 직후 벤치마크 조작 의혹이 불거졌습니다. Meta는 LMArena(구 Chatbot Arena)에 공개 버전과 다른 실험용 모델을 제출했고, 이 버전이 ELO 1417로 2위에 올랐습니다. Google Gemini 2.5 Pro 바로 아래였습니다.

문제는 이 실험용 모델과 공개된 Hugging Face 버전의 행동이 크게 달랐다는 점입니다. The Register에 따르면 LMArena 제출 버전은 이모지를 빈번히 사용하고 장황한 답변을 생성한 반면, 공개 버전은 간결하고 이모지 없는 응답을 보였습니다. 이후 공개 버전이 별도로 테스트되자 순위는 2위에서 32위로 급락했습니다.

LMArena 측은 "Meta가 Llama-4-Maverick-03-26-Experimental이 인간 선호도에 최적화된 커스텀 모델이라는 점을 더 명확히 밝혔어야 했다"고 지적했습니다. Meta의 GenAI 총괄 Ahmad Al-Dahle는 벤치마크 테스트 세트로 학습했다는 의혹에 대해 "사실이 아니며 절대 그런 일을 하지 않는다"고 부인했으나, 서비스별 구현 차이로 인한 성능 변동이 있었다고 인정했습니다.

💡 전망

Llama 4 Maverick는 기술적으로 주목할 만한 모델입니다. 17B 활성 파라미터로 400B급 성능을 내는 MoE 아키텍처, 네이티브 멀티모달 지원, 오픈 웨이트 공개는 각각 의미 있는 진전입니다.

그러나 LMArena 논란은 AI 벤치마크 시스템의 구조적 문제를 드러냈습니다. 모델 제공자가 공개 버전과 다른 최적화 버전을 제출할 수 있다는 점, 그리고 이를 사후적으로만 검증할 수 있다는 점은 현재 벤치마크 체계의 한계를 보여줍니다. LMArena는 이후 정책을 강화하여 공개된 모델만 평가에 반영하겠다고 발표했습니다.

필자의 시각으로는, 오픈 웨이트 모델의 경쟁력이 빠르게 높아지면서 "독점 모델만이 최고 성능"이라는 공식이 흔들리고 있습니다. Llama 4 Behemoth(약 2T 파라미터)가 학습을 마치고 공개되면, 오픈 웨이트 진영의 경쟁력은 한 단계 더 올라갈 가능성이 있습니다.

참고

Meta Llama 4 Maverick17B 활성 파라미터, 128 Expert MoE 오픈 모델의 등장과 논란

🦙 Llama 4 Maverick, 무엇이 달라졌나

📊 스펙과 벤치마크

⚡ 오픈 웨이트의 의미

🔍 벤치마크 논란: LMArena 사건

💡 전망

관련 포스트

Meta Muse Spark 공개 — Superintelligence Labs의 첫 번째 모델, AI 4강 경쟁 합류

Meta의 AI 위기 — Avocado 지연, Moltbook 인수, 그리고 Gemini 카드

Claude 4.5 Haiku 출시 — 속도와 비용 효율의 새로운 기준