이 뉴스의 요약은 어떻게 만들어졌나요?

원문 링크를 바탕으로 핵심 요약을 만들고 fact-check 및 신호 점검을 거쳐 게재됩니다.

팩트체크 기준은 무엇인가요?

근거 링크, 수치 점검, 문맥 정합성, 최신성으로 조합해 상태를 표시해.

llama.cpp에 음성 인식이 들어왔다 — Gemma 4로 로컬 STT 가능

llama-server에 Gemma 4 E2B/E4B 기반 음성 인식(STT)이 들어왔어. mmproj 파일 하나를 붙이면 로컬에서 음성→텍스트 변환을 바로 테스트할 수 있고, E2B는 2.3B 유효 파라미터라 비교적 가벼운 하드웨어도 후보가 돼.

무슨 일이 있었나

llama.cpp의 llama-server에 음성 처리가 드디어 들어왔어. Gemma 4 E2B와 E4B 모델로 로컬에서 음성→텍스트 변환(STT)이 가능해진 거야. 로컬 LLM 커뮤니티에서 상당한 관심을 끌었어.

사용법은 생각보다 간단해. mmproj 파일(약 600MB)을 다운받아서 --mmproj 플래그와 함께 llama-server를 실행하면 돼. USM 스타일 Conformer 인코더가 오디오를 처리하고, Gemma 4의 언어 모델이 텍스트로 변환하는 구조야. 별도의 Whisper 파이프라인 없이 하나의 모델로 음성 이해까지 되는 거거든.

왜 중요할까

단순 STT보다 큰 차이는 음성 입력을 바로 모델 대화로 넘길 수 있다는 점이야. E2B/E4B는 네이티브 멀티모달 모델이라, 음성으로 질문하면 바로 텍스트 답변을 생성할 수 있어. Google의 공식 모델 카드에 따르면 다국어 음성 인식과 음성→번역 텍스트 변환도 지원하거든. E2B는 2.3B 유효 파라미터(5.1B 전체), E4B는 4.5B 유효 파라미터(8B 전체)라 8GB VRAM 이상이면 돌릴 수 있어.

앞으로 볼 점

로컬 AI 도구 스택을 쌓고 있다면 짚어볼 변화야. 128K 컨텍스트 윈도우에서 텍스트+이미지+음성을 한 모델로 처리하는 로컬 멀티모달 환경이 점점 현실이 되고 있으니까.

태그

#llama-cpp#gemma#음성인식#local-llm#멀티모달

포맷 v2 가이드 news 3.1.2

팩트 체크

통과 · 2026-04-13 KST

검증 생성: AI + 편집 검토 · 2026-04-13 상태: 통과

통과 원문 대조

Reddit 원문과 공식 모델 카드의 오디오 지원 정보를 비교해뒀어.

llama-server에서 Gemma 4 E2B/E4B STT 지원 — Reddit 원문 확인 ✅
--mmproj 플래그 사용법 — GitHub discussion 확인 ✅
E2B 2.3B effective, E4B 4.5B effective 파라미터 — Google 모델 카드 확인 ✅

통과 교차 검증 검증 출처 3

오디오 기능 스펙을 독립 소스에서 교차 확인해뒀어.

E2B/E4B 오디오 입력 지원 — Google 모델 카드, HuggingFace 블로그 일치 ✅
USM 스타일 Conformer 인코더 — Google 공식 문서 확인 ✅
다국어 STT + 번역 지원 — 모델 카드 capabilities 섹션 확인 ✅

통과 수치 검증

모델 파라미터와 스펙 수치를 정량 확인해뒀어.

E2B: 2.3B effective / 5.1B total — Google 모델 카드 일치 ✅
E4B: 4.5B effective / 8B total — Google 모델 카드 일치 ✅
128K 컨텍스트 — E2B/E4B 모두 128K 확인 ✅

통과 비판 검토

로컬 STT 실용성을 비판적으로 걸러뒀어.

llama.cpp 오디오 지원은 최근 추가되어 안정성 검증이 부족할 수 있음
Whisper 대비 정확도 비교 벤치마크가 아직 없음
mmproj 파일 크기와 VRAM 요구사항 정확한 수치는 공식 문서에 미기재

Whisper 대비 STT 정확도 비교 벤치마크는 아직 공개되지 않았어
8GB VRAM으로 충분한지는 양자화 방식에 따라 달라질 수 있어

출처: r/LocalLLaMA — Audio processing landed in llama-server , Google — Gemma 4 Model Card , GitHub — How to input audio to Gemma 4 E4B