무슨 일이 일어났나

구글 딥마인드Gemma 4 12B를 공개했어. 120억 파라미터짜리 멀티모달 오픈모델인데, 특이한 건 별도 인코더가 없다는 거야. 텍스트·이미지·영상·오디오를 전부 디코더 하나로 흘려보내거든. Apache 2.0 라이선스Hugging Face랑 Kaggle에서 바로 받을 수 있어.

어떻게 작동하나

보통 멀티모달 모델은 이미지용, 오디오용 인코더를 따로 두는데, Gemma 4 12B는 그걸 다 없앴어. 이미지 패치랑 오디오 파형을 가벼운 선형 레이어로 임베딩 공간에 바로 투영해서, 모든 입력이 단일 디코더 트랜스포머로 들어가. 이렇게 하면 멀티모달 지연이 줄고, 모델 전체를 한 번에 파인튜닝할 수 있다는 게 구글 설명이야.

실무에서 왜 중요한가

제일 큰 포인트는 로컬 실행이야. 256K 토큰 컨텍스트140개 넘는 언어를 지원하는데, 이걸 16GB 메모리 노트북에서 돌릴 수 있거든. 클라우드 API 비용 없이 코드베이스 스크린샷을 분석하거나 영상·오디오를 다루는 작업을 자기 기기에서 시도해볼 수 있다는 뜻이야. 다만 26B 라인에 근접한다는 성능 비교는 구글 측 평가 기준이라, 실제 작업에선 직접 돌려보고 판단하는 게 맞아.