한 줄 정의
DeepSeek R1은 DeepSeek가 공개한 추론 중심 모델이야. 그냥 성능 좋은 챗봇 이름이 아니라, API에서는 추론로 쓰고 모델 가중치는 MIT 라이선스로 공개하며 작은 증류형까지 같이 푸는 제품 축이라고 보면 돼.
이 모델로 무엇을 할 수 있나
실제로는 수학 풀이, 코드 문제, 긴 계획 수립처럼 답을 바로 찍기보다 여러 단계를 거쳐야 하는 작업에 잘 맞아. 특히 reasoning 성격이 강한 질의응답, 분석형 코딩, 도구 호출 전에 계획을 세우는 보조 모델 같은 자리에서 많이 거론돼. 배포 방식도 하나가 아니야. 큰 본체를 API로 붙일 수도 있고, Qwen이나 Llama 기반으로 만든 1.5B부터 70B까지의 증류형을 골라 더 작은 서버나 로컬 환경에서 현실적으로 써볼 수도 있어.
왜 중요한가
R1이 중요한 이유는 최상위 추론 성능만이 아니라 도입 경로를 여러 갈래로 열어 놨기 때문이야. API 접속, 오픈 웨이트, 상업 사용 가능 라이선스, 증류형 공개가 한 묶음으로 나오니까, 상용 API만 보던 팀도 직접 호스팅과 비용 계산을 같이 검토하게 돼. 기사 해석도 여기서 갈려. 같은 추론형 모델 기사라도 o3 같은 상용 API 제품과의 성능 비교로만 읽으면 절반만 본 셈이야. R1은 공개 가중치와 증류 생태계를 함께 밀기 때문에, 누가 직접 호스팅할 수 있는지와 어떤 크기부터 현실적인지까지 같이 봐야 의미가 잡혀.
같이 보면 좋은 모델
- Llama는 범용 오픈 웨이트 계열을 대표해서, R1과 비교하면 기본 모델 패밀리와 추론 튜닝 결과물을 구분하는 데 도움이 돼. R1이 Llama 기반 증류형을 따로 공개한 점도 이 차이를 잘 보여줘.
- Gemma는 비교적 가벼운 오픈 모델 선택지로 많이 거론돼. R1과 붙여 보면 절대 성능보다 운영 크기, 튜닝 목적, 배포 난도가 어디서 갈리는지 더 잘 보여.
- o3도 어려운 문제 해결에 쓰는 추론형 모델이라는 점에서는 직접 비교 대상이야. 다만 o3는 API 제품 성격이 더 전면에 나오고, R1은 공개 가중치와 증류 생태계가 같이 따라온다는 차이가 있어.
- Qwen은 자체 모델군이면서 동시에 R1 증류형의 기반 모델이기도 해. 그래서 둘을 비교할 때는 DeepSeek가 만든 reasoning 데이터와 튜닝 방식이 Qwen 본체 위에 어떤 차이를 얹었는지 보는 편이 정확해.