OpenAI Jalapeño: Broadcom과 설계한 첫 추론 전용 칩
핵심 요약
OpenAI와 Broadcom이 2026년 6월 24일 Jalapeño를 발표했다. LLM 추론에 특화된 OpenAI 최초의 자체 ASIC이다. Broadcom의 실리콘 설계 전문성과 OpenAI의 소프트웨어 최적화가 결합된 결과물로, 9개월의 설계 기간에 제조 테이프아웃까지 완료했다.
주요 사실:
- 발표일: 2026년 6월 24일
- 유형: LLM 추론 전용 ASIC (레티클 사이즈)
- 아키텍처: 시스톨릭 배열 + HBM 8스택 온패키지
- 개발 기간: 초기 설계~테이프아웃 9개월
- 성능 주장: Nvidia GPU 대비 추론 토큰당 비용 약 50% 절감 (자사 초기 측정치)
- 배포 계획: 2026년 말 프로토타입 → 2027년 양산 → 2028년 상반기 풀스케일
왜 지금, 왜 Broadcom인가
OpenAI는 추론 컴퓨팅 비용이 모델 운영의 핵심 병목임을 공개적으로 인정해 왔다. Nvidia H100·H200 GPU 클러스터가 현재 대부분의 연산을 처리하지만, 이 GPU들은 범용 병렬 연산에 최적화돼 있어 LLM 추론이라는 특정 워크로드에서는 효율이 제한된다.
Broadcom은 Google TPU 설계를 포함해 빅테크 커스텀 ASIC 분야의 강자다. Google, Amazon, Meta가 자체 AI 칩을 운용한 지 수년이 지난 지금, OpenAI가 같은 경로를 선택한 셈이다. 두 회사는 Jalapeño를 "멀티 제너레이션 컴퓨팅 플랫폼의 첫 번째 가속기"라고 표현했다.
구조: 시스톨릭 배열과 HBM 온패키지
Jalapeño는 레티클 사이즈 ASIC이다. 패키지에는 대형 컴퓨트 칩렛 하나를 중심으로 HBM 8스택이 온패키지로 탑재된다. HBM을 시스템 메모리 경유 없이 컴퓨팅 소자에 직접 연결해 지연 시간을 줄이는 구조다.
핵심 연산 구조는 **시스톨릭 배열(systolic array)**이다. 처리 요소들이 격자 형태로 배치되어 데이터를 리드미컬하게 다음 셀로 전달한다. LLM 추론에서 지배적인 행렬 곱셈에 최적화된 이 구조는 GPU의 범용 병렬 연산과 다른 방향이다. 추론이라는 단 하나의 작업만을 위해 설계된 회로다.
Tom's Hardware의 웨이퍼 이미지 분석에 따르면 Broadcom 스타일의 시스톨릭 배열 집약형 가속기로, 컬럼 형태의 규칙적이고 반복적인 레이아웃이 확인됐다.
9개월 개발: AI가 설계한 칩
Jalapeño는 초기 설계부터 제조 테이프아웃까지 9개월이 걸렸다. OpenAI와 Broadcom은 이를 "고성능 첨단 반도체 분야에서 달성된 가장 빠른 ASIC 개발 주기"라고 표현했다.
이 속도의 핵심이 흥미롭다. OpenAI의 공식 발표는 "칩 설계와 최적화 과정의 일부를 OpenAI 모델들이 가속했다"고 명시한다. 어떤 모델이 어떤 단계에서 사용됐는지는 공개되지 않았다. AI가 자신의 추론을 빠르게 하는 칩 설계를 도운 셈이다.
성능과 비용: 조심스러운 숫자들
OpenAI는 초기 테스트에서 Jalapeño가 현재 세대 Nvidia GPU 대비 추론 토큰당 약 50% 낮은 비용을 달성할 것이라고 밝혔다. 와트당 성능도 "현재 최고 수준을 크게 넘어선다"고 덧붙였다.
이 수치에는 주의할 점이 있다. 자사 초기 측정치(early lab testing)이고, 프리프로덕션 샘플 기반이다. 정확한 TFLOPS, 소비 전력(W), HBM 용량, 공정 노드는 아직 비공개다. OpenAI는 상세 기술 보고서를 "수개월 내" 발표할 예정이라고 했다.
50%라는 숫자는 매력적이지만, 독립 검증 전까지는 가장 유리한 조건의 측정값일 가능성이 있다.
배포 일정
Broadcom CEO 혹 탄(Hock Tan)은 CNBC에 "2026년 말에 소규모 프로토타입 데이터센터 배포가 있을 것"이라고 말했다.
로드맵을 정리하면 이렇다:
| 시기 | 단계 |
|---|---|
| 2026년 말 | 소규모 프로토타입 데이터센터 배포 |
| 2027년 | 양산 확대 |
| 2028년 상반기 | 풀스케일 배포 |
이 배포는 Microsoft와의 기가와트급 데이터센터 파트너십이 무대다. Jalapeño는 해당 인프라의 핵심 컴퓨팅 레이어로 설계됐다. 제3자 판매나 클라우드 서비스 형태의 외부 제공 계획은 현재 없다. OpenAI 전용이다.
수직 통합: Apple이 걸었던 길
여러 매체는 이번 발표를 "build the full stack"을 향한 Apple식 이동이라고 묘사했다. Apple이 Intel을 떠나 자체 M 시리즈 칩으로 이전하며 하드웨어-소프트웨어-칩을 수직 통합한 경로와 구조가 닮았다.
다만 현재 시점의 OpenAI는 여전히 Nvidia에 의존한다. Jalapeño가 풀스케일 배포에 이르는 2028년까지 Nvidia GPU가 대부분의 연산을 담당한다. 수직 통합은 방향이지, 지금 완성된 상태가 아니다.
오히려 중요한 의미는 경쟁 압력의 공식화다. Google은 TPU를, Amazon은 Trainium과 Inferentia를, Meta는 MTIA를 이미 운용 중이다. OpenAI가 커스텀 실리콘 레이스에 공식 참전했다.
전망
Jalapeño가 2028년 실제로 50% 비용 절감을 증명한다면, OpenAI API 가격 경쟁력은 의미 있게 높아질 수 있다. 자체 칩 위에서 돌아가는 자체 모델은 하드웨어-소프트웨어 공동 최적화의 선순환도 가능케 한다.
Nvidia는 NIM 마이크로서비스와 소프트웨어 생태계로 고객 이탈 방어에 나섰다. Anthropic은 AWS와 Google Cloud 두 클라우드의 커스텀 칩을 혼용하는 전략을 택했다. OpenAI는 단일 파트너(Broadcom)와 단일 아키텍처 베팅이다. 어느 접근이 더 나을지는 2028년이 돼야 알 수 있다.
참고