무슨 일이 일어났나
NVIDIA가 Nemotron 3 Nano Omni를 2026년 4월 28일 공개했어. 이미지·음성·영상·텍스트 입력, text 출력인 멀티모달 AI이며, 모델 카드는 31B A3B 구조와 최대 256k 컨텍스트를 핵심 사양으로 적고 있어.
이 모델은 문서·화면·오디오·비디오 입력 신호를 에이전트에 넘기는 전처리 모델에 가까워. 최대 9x 처리량은 독립 벤치마크가 아니라 NVIDIA 발표 비교값이야.
왜 이게 일어났나
에이전트가 화면 녹화, 통화 음성, PDF, 표, 로그를 따로 읽으면 추론 호출이 늘고 맥락도 끊겨. Nemotron 3 Nano Omni는 비전·음성 인코더를 언어 모델 백본에 연결해 여러 입력을 한 루프에서 처리해.
다만 온디바이스라는 말은 넓게 쓰면 오해가 커. 여기서는 Jetson Thor, DGX Spark, RTX 5090, TensorRT Edge-LLM 같은 NVIDIA 지원 하드웨어·런타임 기준으로만 볼 거야.
어떤 의미인가
256k는 긴 문서와 화면 흐름을 덜 나누게 하고, 비디오 2분·오디오 1시간 제한은 긴 회의·감시 영상에 분할 전처리가 필요하다는 뜻이야. English only도 한국어 업무에는 검증 조건이야.
- Jetson Thor/TensorRT Edge-LLM: 로봇·카메라·GUI 에이전트 PoC.
- DGX Spark/RTX 5090: 회의 녹음, 짧은 영상, 문서 이미지의 로컬 LLM 검증.
- BF16 가중치: 약 62GB, 다운로드 공간 70GB 이상 권장.
다음 수순
Hugging Face 모델 카드에서 하드웨어, 입력 길이, 언어 지원을 먼저 확인해. 제한 안 샘플로 PoC 뒤 내부 비교표에는 공식 발표값과 자체 측정값을 분리하면 돼.