한 줄 정의

On-device AI는 모델 추론이나 핵심 AI 기능을 서버가 아니라 사용자의 폰, 노트북, 태블릿 같은 기기 안에서 직접 실행하는 방식이야. 쉽게 말해 기기 자체가 AI 계산의 주 무대가 되는 배포 전략이라고 보면 돼.

어떻게 작동하나

앱은 모델 파일이나 최적화된 패키지를 기기에 내려받고, 런타임이 CPU, GPU, NPU 같은 로컬 하드웨어에서 추론을 돌려. 실제 제품은 업데이트나 동기화는 클라우드와 섞어 쓰는 경우가 많아서 무엇이 완전히 로컬이고 무엇이 서버 의존인지 따로 구분해서 봐야 해.

왜 중요한가

온디바이스 전략은 반응 속도만 빠르게 하는 게 아니라 개인정보 처리 범위, 오프라인 사용성, 서버 비용 구조까지 한꺼번에 바꿔. 그래서 뉴스에서 이 말이 보이면 유행어로 넘기지 말고 데이터 통제권과 사용자 경험이 어디로 이동하는지 읽는 게 중요해.

주의해서 볼 점

온디바이스라고 해도 모든 데이터가 절대 밖으로 안 나간다는 뜻은 아니야. 기기 성능, 발열, 배터리, 저장 공간 제약이 크고 큰 모델은 양자화나 경량화 없이는 실제로 올리기 어려워서 마케팅 문구와 구현 현실을 분리해서 봐야 해.

관련 용어

  • llama.cpp는 로컬 기기에서 모델을 실제로 돌리는 엔진 쪽이야. 온디바이스라는 배포 개념을 구현 단계로 끌어내릴 때 같이 보면 좋아.
  • ollama는 로컬 모델 실행을 더 쉽게 감싸 주는 도구야. 사용자가 체감하는 온디바이스 경험이 어떤 식으로 보이는지 이해하는 데 도움이 돼.
  • quantization은 큰 모델을 기기 안에 넣기 위해 거의 꼭 따라오는 경량화 기법이야. 온디바이스가 가능한지 아닌지를 가르는 현실 조건이라 같이 봐야 해.
  • gguf는 로컬 배포에서 자주 보이는 모델 파일 형식이야. 어떤 포맷이 실제 기기 실행 경로에 맞는지 읽는 데 연결점이 돼.