무슨 일이 생겼나

Google이 I/O 2026에서 Gemini 3.5 Flash를 공개했어. 초당 289 토큰, 다른 프론티어 모델보다 4배 빠르고, 기존 Gemini 3.1 Pro를 코딩과 에이전트 벤치마크에서 전반적으로 앞선 모델이야.

가격은 입력 100만 토큰당 $1.50, 출력은 $9.00이야. 컨텍스트 창은 100만 토큰을 넘어. 2026년 5월 19일부터 API로 바로 쓸 수 있어.

왜 이게 중요한가

빠른 모델이 필요한 에이전트 워크플로우에 잘 맞아. 코드 실행, 도구 호출, 연속 추론이 필요한 작업에서는 속도가 직접 비용과 응답 경험에 영향을 미치거든.

Gemini 3.1 Pro를 넘겼다는 건 단순히 “빠른 소형 모델”이 아니라는 의미야. Terminal-Bench 2.1에서 76.2%, MCP Atlas에서 83.6%를 기록했어. 자체 벤치마크라 독립 검증은 아직 없지만 수치는 눈에 띄어.

어떻게 해볼 수 있나

Gemini API 에서 gemini-3.5-flash 모델명으로 바로 호출할 수 있어. 현재 ClaudeGPT-4o로 돌리던 에이전트 파이프라인이 있다면 속도와 비용을 비교해보는 게 자연스러운 다음 단계야.