본문으로 건너뛰기
← 블로그로 돌아가기
AI리서치

Guide Labs Steerling-8B추론 과정이 보이는 LLM의 등장

5분 읽기
#Guide Labs#Steerling-8B#Interpretability#LLM#오픈소스#AI 안전#Diffusion LM

샌프란시스코 스타트업 Guide Labs가 2026년 2월 23일 Steerling-8B을 오픈소스로 공개했습니다. 80억 파라미터 규모의 이 모델은 생성하는 모든 토큰을 입력 컨텍스트, 사람이 이해할 수 있는 개념, 그리고 학습 데이터까지 역추적할 수 있는 최초의 본질적 해석 가능(inherently interpretable) 언어 모델입니다. TechCrunch 단독 보도를 통해 처음 알려졌습니다.

🔍 블랙박스 문제에 대한 새로운 접근

대부분의 LLM은 왜 특정 답변을 생성했는지 설명하지 못합니다. 기존의 해석 기법들은 모델 완성 후 사후적으로 분석하는 방식이었고, 그 신뢰도에는 한계가 있었습니다. Guide Labs CEO Julius Adebayo는 2018년 MIT 박사 과정 중 기존 딥러닝 해석 방법의 비신뢰성을 입증하는 논문을 공동 저술한 바 있습니다.

Steerling-8B은 사후 분석이 아닌, 설계 단계에서부터 해석 가능성을 내장한 아키텍처를 채택했습니다. Dataconomy에 따르면, Adebayo는 "해석 가능한 모델 학습은 더 이상 과학이 아니라 엔지니어링 문제"라고 밝혔습니다.

⚙️ 아키텍처: Causal Diffusion + Concept Decomposition

Steerling-8B은 기존 LLM의 자기회귀(autoregressive) 방식 대신 인과적 이산 확산(causal discrete diffusion) 모델을 기반으로 합니다. 텍스트를 다음 토큰 하나씩 예측하는 대신, 마스킹된 토큰을 신뢰도 순으로 반복 해제하며 생성합니다.

핵심은 임베딩을 세 가지 경로로 분해하는 Concept Decomposition 구조입니다.

경로규모설명
Supervised Concepts~33,000개사전 정의된 인간 이해 가능 개념
Discovered Concepts~100,000개모델이 학습 중 자율적으로 발견한 개념
Residual나머지개념으로 포착되지 않는 잔여 신호

Guide Labs 공식 블로그에 따르면, 컨셉 모듈이 토큰 수준 로짓 예측의 84% 이상을 담당하며, 잔여 경로를 제거해도 성능 저하가 미미합니다. 개념에서 로짓까지 선형 경로가 존재하기 때문에, 각 개념이 출력에 기여하는 정도를 정확하게 계산할 수 있습니다.

📊 성능: 적은 연산으로 경쟁 모델 수준

1.35조 토큰으로 학습된 Steerling-8B은 해석 가능성에 집중하면서도 실용적 성능을 유지합니다.

  • LLaMA2-7B, DeepSeek-7B을 전체 평균에서 능가하면서 더 적은 FLOPs 사용
  • 2~10배 더 많은 연산으로 학습된 모델들과 비슷한 범위의 성능
  • 개념 탐지 AUC 96.2% 달성
  • Guide Labs는 기존 모델 대비 약 90%의 성능을 유지한다고 설명

해석 가능성을 확보하면서 성능을 크게 희생하지 않았다는 점이 핵심입니다. 기존에는 "해석 가능 = 성능 저하"라는 인식이 강했는데, Steerling-8B은 그 트레이드오프를 상당 부분 해소했습니다.

🎯 Concept Steering: 재학습 없는 출력 제어

Steerling-8B의 가장 주목할 만한 기능은 Concept Algebra입니다. 추론 시점에서 특정 개념을 추가, 제거, 조합해 모델 출력을 직접 제어할 수 있습니다. 프롬프트 엔지니어링이나 재학습 없이 가능합니다.

실용적 적용 사례는 다음과 같습니다.

  • 저작권 보호: 특정 저작물 관련 개념을 추론 시 억제
  • 안전 정렬: 수천 건의 안전 학습 데이터 대신 개념 수준에서 직접 제어
  • 규제 산업: 금융 대출 심사에서 인종 등 보호 속성을 명시적으로 배제
  • 과학 연구: 단백질 접힘 예측 등에서 모델 판단 근거의 투명한 확인

🏢 Guide Labs 배경과 로드맵

Guide Labs는 CEO Julius Adebayo와 CSO Aya Abdelsalam Ismail이 공동 창업한 스타트업입니다. Y Combinator를 거쳤으며, 2024년 11월 Initialized Capital 리드로 900만 달러 시드 라운드를 완료했습니다. Adebayo의 MIT 박사 연구가 회사의 기술적 기반입니다.

향후 로드맵으로는 Steerling 아키텍처 기반의 더 큰 규모 모델, 외부 사용자를 위한 API 접근, 그리고 에이전트 기능 도입이 예고되어 있습니다.

🔮 전망

Steerling-8B이 곧바로 GPT나 Claude 같은 범용 모델을 대체하지는 않을 것입니다. 80억 파라미터 규모의 베이스 모델이고, 아직 instruction-tuning 버전은 공개되지 않았습니다.

그러나 이 모델이 던지는 질문은 분명합니다. EU AI Act가 2026년 본격 시행되고, 금융·의료·법률 분야에서 AI 판단의 설명 가능성이 법적 요건이 되어가는 상황에서, "블랙박스 LLM을 계속 쓸 수 있는가"라는 물음입니다. UCStrategies는 Steerling-8B이 법정에서 블랙박스 AI를 변호하기 어렵게 만들 수 있다고 분석하기도 했습니다.

해석 가능성과 성능의 트레이드오프가 줄어들수록, 블랙박스 모델을 선택해야 할 이유도 줄어들 것입니다.


참고

관련 포스트