본문으로 건너뛰기
← 블로그로 돌아가기
AI모델

Meta Muse Spark 공개Superintelligence Labs의 첫 번째 모델, AI 4강 경쟁 합류

7분 읽기
#Meta#Muse Spark#Superintelligence Labs#멀티모달#HealthBench#LLM

2026년 4월 8일, Meta Superintelligence Labs(MSL)가 첫 번째 모델 Muse Spark을 공개했습니다. 코드명 'Avocado'로 알려져 있던 이 모델은 2025년 Llama 4의 부진한 평가 이후 Meta가 AI 전략을 근본적으로 재편한 결과물입니다. Artificial Analysis Intelligence Index v4.0 기준 4위, HealthBench Hard에서는 1위를 기록하며 프론티어 모델 경쟁에 복귀했습니다.


Meta, Muse Spark으로 AI 프론티어 경쟁 복귀

Meta는 2025년 6월, Scale AI 지분 49%(비의결권)를 143억 달러에 인수하고 공동창업자 Alexandr Wang을 초대 최고 AI 책임자(Chief AI Officer)로 영입했습니다. Wang은 새로 신설된 Meta Superintelligence Labs를 이끌며 약 9개월 만에 Muse Spark을 내놓았습니다.

Muse Spark은 Meta의 기존 Llama 시리즈에서 Muse 시리즈로의 전략 전환을 상징합니다. 주목할 점은 기존 오픈 웨이트 정책과 달리 Muse Spark이 클로즈드 소스라는 것입니다. 현재 meta.ai와 Meta AI 앱에서 사용 가능하며, API는 일부 파트너에게 프라이빗 프리뷰로 제공 중입니다.

Meta는 2026년 설비투자(capex)를 1,150억~1,350억 달러로 책정했습니다. 2025년 실적(약 722억 달러) 대비 거의 두 배 가까운 수치로, CFO Susan Li는 Q4 2025 어닝콜에서 "MSL 투자와 핵심 사업 지원을 위한 인프라 확대"가 주된 이유라고 밝혔습니다.


Muse Spark 핵심 스펙

Muse Spark은 텍스트, 이미지, 비디오를 네이티브 멀티모달로 처리하는 추론 모델입니다. 입력은 음성·텍스트·이미지를 모두 지원하지만, 현재 출력은 텍스트 전용입니다. 주요 기능은 다음과 같습니다.

  • 도구 사용(Tool Use): 이미지 생성, 코드 실행, 웹 검색 등 16가지 도구를 Meta AI 챗 내에서 직접 호출
  • 비주얼 체인 오브 쏘트(Visual Chain of Thought): 시각 STEM, 개체 인식, 차트 이해 등에서 강점
  • 멀티에이전트 오케스트레이션: 복수 에이전트 간 협업 작업 지원
  • Contemplating 모드: 복잡한 과학·수학·의료 문제에 대해 단계적으로 사고하는 확장 추론 모드

의료 분야에서는 1,000명 이상의 의사와 협업해 학습 데이터를 큐레이션했습니다. 그 결과 HealthBench Hard에서 42.8점으로 GPT-5.4(40.1)를 제치고 1위를 기록했습니다.

토큰 효율성도 눈에 띕니다. 전체 평가 기준 Muse Spark의 출력 토큰은 약 5,800만 개로, GPT-5.4(1억 2,000만)의 절반, Claude Opus 4.6(1억 5,700만)의 약 1/3 수준입니다. Meta 공식 블로그에 따르면 "이전 모델 Llama 4 Maverick 대비 동등 성능을 10분의 1 이하 컴퓨팅으로 달성"했다고 합니다.


벤치마크로 본 경쟁 구도

Artificial Analysis Intelligence Index v4.0에서 Muse Spark은 52점으로 4위에 올랐습니다. 종합 점수에서는 선두 그룹(Gemini 3.1 Pro·GPT-5.4: 57점)과 5점 차이가 있지만, 분야별로는 뚜렷한 강점과 약점이 공존합니다.

벤치마크Muse SparkGPT-5.4Gemini 3.1 ProClaude Opus 4.6
AI Intelligence Index v4.052575753
HealthBench Hard42.840.120.6
CharXiv Reasoning (차트 이해)86.482.880.2
Humanity's Last Exam (Contemplating)50.2%43.9%48.4%
GPQA Diamond (PhD 추론)89.5%92.8%94.3%92.7%
Terminal-Bench 2.0 (코딩)59.075.168.5
ARC-AGI-2 (추상 추론)42.576.176.5
출력 토큰 (전체 평가)58M120M~60M157M

Lushbinary 비교 분석에 따르면, Muse Spark은 의료(HealthBench)와 과학 추론(Humanity's Last Exam, FrontierScience Research) 에서 최상위권이지만, 코딩(Terminal-Bench 59.0)과 추상 추론(ARC-AGI-2 42.5) 에서는 경쟁 모델 대비 뚜렷하게 뒤처집니다. "모든 영역에서 1등"이 아니라 "특정 영역 최강"에 가까운 프로필입니다.


전망

제품 통합 계획. Muse Spark은 향후 몇 주 내 Facebook, Instagram, WhatsApp, Messenger, 그리고 Ray-Ban Meta AI 스마트글래스에 순차적으로 탑재될 예정입니다. Meta의 30억 이상 일일 활성 사용자(DAP) 규모를 고려하면, 프론티어 모델 중 가장 넓은 소비자 접점을 갖게 됩니다.

오픈소스 계획. Alexandr Wang은 "향후 버전은 오픈소스로 공개할 계획"이라고 밝혔습니다. 다만 현재 Muse Spark 자체는 클로즈드이며, 구체적인 오픈소스 일정은 공개되지 않았습니다.

필자의 시각. Muse Spark의 가장 흥미로운 점은 "모든 벤치마크 1위"가 아니라 "효율성과 특화 분야에서의 돌파"입니다. 출력 토큰 58M은 GPT-5.4의 절반이고, 의사 1,000명과의 협업은 의료 AI에 대한 진지한 투자를 보여줍니다. 반면 코딩과 추상 추론에서의 격차(Terminal-Bench 59.0 vs GPT-5.4 75.1)는 범용 프론티어 모델로 자리잡기까지 넘어야 할 산이 있음을 의미합니다. Llama 4의 교훈 이후 Meta가 "작지만 강한 모델"로 방향을 잡은 것은 현명한 선택으로 보이며, Muse 시리즈 후속 모델의 완성도가 진짜 승부처가 될 것입니다.


참고

Share
JJY
JJYAuthor

AI, 웹 보안, 개발 환경에 관심이 많습니다.

새 글 알림 받기

스팸 없이 새 포스트만 전달합니다.

관련 포스트