한 줄 정의
Gated DeltaNet(게이티드 델타넷)은 Qwen 3.5 계열에서 표준 attention 일부를 선형 attention 계열 블록으로 바꿔 긴 컨텍스트 추론의 부담을 낮추려는 모델 내부 구조야. 별도 모델명이나 실행 옵션이라기보다, Qwen3.5-35B-A3B 같은 모델의 hidden layout 안에 들어간 attention 블록이라고 보면 돼.
공식 모델 카드 기준 Qwen3.5-35B-A3B는 총 35B 파라미터 중 3B가 활성화되는 Mixture of Experts 모델이고, hidden layout은 3개의 DeltaNet 블록 뒤에 1개의 Gated Attention 블록을 두는 묶음을 10번 반복해. 그래서 이 용어는 “더 작은 모델”이 아니라, 긴 입력을 다룰 때 어떤 층이 KV cache 부담을 덜 만들도록 설계됐는지 보는 단서에 가까워.
어떻게 작동하나
일반 full attention은 긴 입력을 볼수록 각 토큰이 다른 토큰을 넓게 다시 보는 비용이 커져. 이 블록은 그 자리에 선형 attention 계열 계산을 넣어, 모든 층이 같은 방식으로 full attention을 쓰지 않게 만든다. Qwen3.5-35B-A3B 카드에는 이쪽 head가 V 기준 32개, QK 기준 16개이고 head dimension은 128이라고 적혀 있어.
중요한 건 이 구조가 혼자 서 있지 않는다는 점이야. 공식 layout은 DeltaNet 다음에 MoE를 붙이고, 네 번째마다 Gated Attention과 MoE를 넣어. 긴 문맥을 처리하는 비용은 이 블록만으로 결정되지 않고, 전체 가중치 크기, 활성 expert 수, 남아 있는 full attention 계층, 컨텍스트 길이, vLLM이나 SGLang 같은 serving runtime이 같이 결정해.
예를 들어 262K 토큰짜리 코드 저장소 로그를 vLLM 서버에 넣는다고 해보자. 이때 확인할 건 “DeltaNet이 있으니 된다”가 아니라 모델 파일이 GPU에 올라가는지, 남아 있는 full attention 층의 KV cache가 얼마나 커지는지, batch를 몇 개까지 받는지야. 구조는 비용을 낮추려는 방향을 말해 주지만, 운영 가능 여부는 실행 조건에서 다시 갈려.
왜 중요한가
이 용어가 중요한 이유는 Qwen3.5류 모델을 읽을 때 “성능이 좋아졌다”보다 “어떤 비용을 줄이려고 구조를 바꿨나”를 보게 해주기 때문이야. Qwen3.5-35B-A3B 모델 카드는 기본 컨텍스트를 262,144 토큰, 확장 가능 길이를 1,010,000 토큰으로 적어. 이런 숫자를 볼 때 이 구조는 긴 입력을 가능한 한 덜 비싸게 처리하려는 근거로 읽어야지, GPU 메모리가 자동으로 가벼워진다는 보증으로 읽으면 안 돼.
benchmark 해석에도 영향을 줘. 같은 카드에는 BFCL-V4 67.3, TAU2-Bench 81.2 같은 agent·function calling 계열 점수가 나오지만, 그건 Qwen3.5-35B-A3B 전체 모델 평가야. 특정 attention 블록의 단독 점수가 아니므로, “이 구조라 함수 호출을 잘한다”처럼 인과를 바로 이어 붙이면 판단이 흐려져.
헷갈리기 쉬운 경계
- Attention과의 차이: attention은 모델이 토큰 사이 관계를 보는 큰 범주고, 여기서는 그 범주 안에서 full attention 일부를 선형 계열 블록으로 바꾼 특정 설계를 말해.
- KV Cache와의 차이: KV cache는 추론 중 저장되는 메모리 상태야. 이 구조는 cache 부담을 낮추려는 설계 신호지만, cache 자체는 아니야.
- Mixture of Experts와의 차이: MoE는 어떤 expert를 켤지 고르는 구조고, DeltaNet 블록은 attention 계산 쪽 구조야. Qwen3.5-35B-A3B에서는 둘이 함께 쓰여서 헷갈리기 쉬워.
- Qwen3.5-35B-A3B와의 차이: 그건 모델 전체 이름이고, 이 항목은 그 안에 들어간 attention 계층 이름이야.
주의해서 볼 점
첫째, 이건 모델 파일 옆에 따로 고르는 스위치가 아니야. Hugging Face에서 Qwen3.5-35B-A3B를 받으면 그 모델 구조 안에 이미 들어 있는 요소로 봐야 해. 반대로 같은 Qwen 이름이 붙은 API 상품, hosted version, base checkpoint는 접근 경로와 용도가 다를 수 있어.
둘째, 긴 컨텍스트가 된다는 말과 저렴하게 운영된다는 말은 달라. A3B는 활성 파라미터가 3B급이라는 뜻이지 전체 체크포인트가 3B 모델처럼 작다는 뜻이 아니고, GPU 예산은 KV cache, batch, 정밀도, 비전 인코더 사용 여부까지 같이 먹어.
셋째, 이 용어는 Qwen3.5 자료 안에서는 잘 정의되지만, 모든 선형 attention 구조를 통칭하는 말로 넓히면 부정확해져. 다른 모델이 긴 문맥을 처리한다고 해서 곧바로 같은 블록을 쓰는 건 아니니, 모델 카드의 hidden layout이나 config에서 실제 블록 이름을 먼저 확인하는 편이 안전해.