무슨 일이 일어났나

NVIDIANemotron 3 Nano Omni를 2026년 4월 28일 공개했어. 이미지·음성·영상·텍스트 입력, text 출력인 멀티모달 AI이며, 모델 카드는 31B A3B 구조와 최대 256k 컨텍스트를 핵심 사양으로 적고 있어.

모델은 문서·화면·오디오·비디오 입력 신호를 에이전트에 넘기는 전처리 모델에 가까워. 최대 9x 처리량은 독립 벤치마크가 아니라 NVIDIA 발표 비교값이야.

왜 이게 일어났나

에이전트가 화면 녹화, 통화 음성, PDF, 표, 로그를 따로 읽으면 추론 호출이 늘고 맥락도 끊겨. Nemotron 3 Nano Omni는 비전·음성 인코더를 언어 모델 백본에 연결해 여러 입력을 한 루프에서 처리해.

다만 온디바이스라는 말은 넓게 쓰면 오해가 커. 여기서는 Jetson Thor, DGX Spark, RTX 5090, TensorRT Edge-LLM 같은 NVIDIA 지원 하드웨어·런타임 기준으로만 볼 거야.

어떤 의미인가

256k는 긴 문서와 화면 흐름을 덜 나누게 하고, 비디오 2분·오디오 1시간 제한은 긴 회의·감시 영상에 분할 전처리가 필요하다는 뜻이야. English only도 한국어 업무에는 검증 조건이야.

다음 수순

Hugging Face 모델 카드에서 하드웨어, 입력 길이, 언어 지원을 먼저 확인해. 제한 안 샘플로 PoC 뒤 내부 비교표에는 공식 발표값과 자체 측정값을 분리하면 돼.