무슨 일이 일어났나
ByteDance Seed 팀이 Cola-DLM(Continuous Latent Diffusion Language Model)을 Hugging Face에 공개했어. 텍스트를 연속 잠재 시퀀스로 변환하는 Text VAE와 그 잠재공간 위에서 동작하는 **block-causal Diffusion Transformer(DiT)**를 합친 구조거든. 라이선스는 Apache-2.0이야.
어떤 모델인가
기존 LLM이 토큰을 순차적으로 생성하는 오토리그레시브 방식이라면, Cola-DLM은 연속 잠재공간에서 디퓨전으로 텍스트를 만드는 접근이야. 두 단계 학습으로 묶여 있는데:
- 1단계: Text VAE 사전학습 — 토큰을 연속 잠재 벡터로 인코딩/디코딩하는 방법을 익힘
- 2단계: VAE와 DiT를 함께 학습 — Flow Matching으로 잠재 prior를 학습
공개된 체크포인트는 논문 RQ4 scaling curve의 2,000 EFLOPs 지점에 해당한다고 명시돼 있어. 토크나이저는 OLMo 2 호환(어휘 100,278개).
점수는 어떤가
zero-shot 벤치마크가 함께 풀려 있어:
- LAMBADA: 50.80%
- SQuAD: 30.90%
- Story Cloze: 30.77%
- SIQA: 28.90%
- OBQA: 23.00%
- MMLU: 19.30%
- Tasks 평균: 26.75%
LAMBADA가 50%대로 가장 높고, MMLU·HellaSwag는 랜덤 기준선 근처라 아직 absolute 성능은 작은 오토리그레시브 LM 대비 낮은 편이야. 다만 디퓨전 LM 라인의 scaling 가능성을 보여주는 데이터 포인트로 의미가 있어.
주의할 점
모델 카드에 instruction-tuning과 RLHF가 적용되지 않았다고 명시돼 있어. 챗봇용으로 바로 쓸 수 있는 모델이 아니라 연구용 베이스인 거지. 디퓨전 기반 텍스트 생성 연구나, 잠재공간 LM 실험을 해보려는 팀에게 좋은 출발점이 될 수 있어.