한 줄 정의
모델은 입력을 받아 가중치와 계산 규칙으로 다음 출력을 만드는 실행 단위야. 실제 요청을 처리하는 추론을 거쳐 텍스트·코드·이미지 설명 같은 결과를 내고, 같은 요청이어도 모델마다 읽을 수 있는 길이, 응답 속도, 실패했을 때 다시 호출하는 비용이 달라져.
어떻게 작동하나
모델은 입력을 토큰이라는 작은 숫자 단위로 바꾼 뒤, 학습된 가중치와 계산 규칙으로 가능성이 높은 출력 후보를 고르고 응답을 내놔. 이 실행 단계를 추론이라고 부르고, 그래서 같은 질문이어도 모델별로 답의 길이와 형식이 달라져.
가중치는 학습이 끝난 뒤 남는 숫자 묶음이고, 추론은 그 숫자 묶음을 써서 실제 요청에 답을 계산하는 단계야. 모델이라는 말은 보통 이 둘을 포함해 “요청을 받아 응답을 만드는 전체 단위”를 가리켜.
경계를 나누면 더 분명해져. 모델 가중치는 학습 결과 파일이고, 추론은 그 파일을 써서 답을 계산하는 실행 과정이야. API와 공급자는 그 실행 과정을 서비스로 호출하는 통로와 운영 주체를 뜻해. Claude나 Gemini처럼 여러 버전을 묶어 부르는 이름은 모델 계열이고, Gemini 2.5 Pro처럼 이름과 한도와 가격표가 붙은 항목은 특정 모델 버전이야.
실무에서 바로 보이는 차이는 네 가지야.
- 문맥 길이: 긴 입력을 많이 참고할 수 있으면 요약이나 문서 연동에서 앞뒤 내용을 덜 잃어.
- API 호출 통로: 같은 문장도 Gemini API처럼 개발 도구 묶음(SDK)이나 플랫폼 호출 방식이 다르면 장애 대응이 달라.
- 입력 단가와 출력 단가: 1M 토큰 기준 가격이 다르면 장기 운영비 차이가 벌어져.
- 출력 한도: 한 번에 생성할 수 있는 토큰 수가 정해져 있으면 분할 요청 설계가 필요해.
Claude Opus 4.6은 긴 문서 요약이나 코드 변경 검토처럼 앞 문맥을 계속 참고하는 텍스트 작업에서 확인해볼 만해. Gemini 2.5 Pro는 오디오·이미지·동영상·텍스트·PDF 입력을 함께 쓰고 텍스트로 답을 받아야 하는 작업에서 테스트 조건을 잡기 쉬워. 비교할 때는 먼저 입력 형식과 API 경로로 후보를 거르고, 그다음 같은 테스트 케이스에서 문맥 손실, 재요청 빈도, 출력 한도를 확인해야 해.
왜 중요한가
모델을 고를 때는 기능 목록만 보면 부족해. 요청 하나를 처리할 때 모델별로 1회 호출 비용, 처리 지연, 재시도 비용, 장애 대응 방식이 달라져. 모델이 다르면 같은 자동화도 실패 패턴이 달라져.
예를 들어 2026년 4월 28일에 마지막 업데이트된 공식 Google AI 모델 문서 기준으로 Gemini 2.5 Pro는 입력 한도 1,048,576토큰, 출력 한도 65,536토큰이야. 2026년 4월 30일에 마지막 업데이트된 Gemini API 가격표의 Standard 유료 구간에서는 프롬프트가 200,000토큰 이하일 때 1M 토큰당 입력 $1.25, 출력 $10.00이고, 200,000토큰을 넘으면 입력 $2.50, 출력 $15.00으로 바뀌어. 이 구간을 넘기면 입력 단가는 2배, 출력 단가는 1.5배가 돼. 호출이 잦거나 긴 입력을 자주 보내는 기능이면 월 예산 계산에 이 차이를 넣어야 해. 반대로 Anthropic의 Claude Opus 4.6처럼 긴 문맥 처리를 내세우는 버전은 검토 후보가 될 수 있지만, 실제 품질과 재시도 비용은 별도로 테스트해야 해.
큰 모델이 더 나은 결과를 내는 작업도 있지만, 호출 단가와 실패했을 때 다시 처리하는 비용도 커질 수 있어. 그래서 모델 교체는 “좋은 모델 찾기”가 아니라 “우리 요청 패턴에 맞는 제약 조합 찾기”로 잡는 게 맞아.
실무 활용
- 긴 입력의 앞뒤 관계를 오래 유지해야 하는 작업이면 먼저 attention 기반 문맥 처리에서 손실이 덜 나는 흐름을 고르고, 응답 단위를 짧게 쪼개 재요청 빈도를 통제해.
- agentic-coding에서 모델을 바꿀 땐, 기본 모델뿐 아니라 실패했을 때 대신 부를 예비 모델을 같은 API 규칙으로 준비해 두는 편이 안정적이야.
- 멀티모달 입력이 필요한데도 텍스트 모델만 쓰면 결과가 얕아질 수 있어. 이런 경우 Gemini 2.5 Pro처럼 필요한 입력 형식을 공식 지원하는 후보를 먼저 잡고, Claude나 DeepSeek 계열은 같은 입력 형식과 API 경로를 지원하는 버전만 동일한 테스트 케이스에 넣어 비교해.