무슨 일이 일어났나

ByteDance Seed 팀이 Cola-DLM(Continuous Latent Diffusion Language Model)을 Hugging Face에 공개했어. 텍스트를 연속 잠재 시퀀스로 변환하는 Text VAE와 그 잠재공간 위에서 동작하는 **block-causal Diffusion Transformer(DiT)**를 합친 구조거든. 라이선스Apache-2.0이야.

어떤 모델인가

기존 LLM토큰을 순차적으로 생성하는 오토리그레시브 방식이라면, Cola-DLM은 연속 잠재공간에서 디퓨전으로 텍스트를 만드는 접근이야. 두 단계 학습으로 묶여 있는데:

  • 1단계: Text VAE 사전학습 — 토큰을 연속 잠재 벡터로 인코딩/디코딩하는 방법을 익힘
  • 2단계: VAE와 DiT를 함께 학습 — Flow Matching으로 잠재 prior를 학습

공개된 체크포인트는 논문 RQ4 scaling curve의 2,000 EFLOPs 지점에 해당한다고 명시돼 있어. 토크나이저는 OLMo 2 호환(어휘 100,278개).

점수는 어떤가

zero-shot 벤치마크가 함께 풀려 있어:

  • LAMBADA: 50.80%
  • SQuAD: 30.90%
  • Story Cloze: 30.77%
  • SIQA: 28.90%
  • OBQA: 23.00%
  • MMLU: 19.30%
  • Tasks 평균: 26.75%

LAMBADA가 50%대로 가장 높고, MMLU·HellaSwag는 랜덤 기준선 근처라 아직 absolute 성능은 작은 오토리그레시브 LM 대비 낮은 편이야. 다만 디퓨전 LM 라인의 scaling 가능성을 보여주는 데이터 포인트로 의미가 있어.

주의할 점

모델 카드에 instruction-tuning과 RLHF가 적용되지 않았다고 명시돼 있어. 챗봇용으로 바로 쓸 수 있는 모델이 아니라 연구용 베이스인 거지. 디퓨전 기반 텍스트 생성 연구나, 잠재공간 LM 실험을 해보려는 팀에게 좋은 출발점이 될 수 있어.