이 뉴스의 요약은 어떻게 만들어졌나요?

원문 링크를 바탕으로 핵심 요약을 만들고 fact-check 및 신호 점검을 거쳐 게재됩니다.

팩트체크 기준은 무엇인가요?

근거 링크, 수치 점검, 문맥 정합성, 최신성으로 조합해 상태를 표시해.

Mistral, 오픈 웨이트 128B 공개 — SWE-bench 77.6% 찍었어

Mistral이 128B 파라미터 오픈 웨이트 모델 Medium 3.5를 공개했어. SWE-bench Verified 77.6%, 256K 컨텍스트, Modified MIT 라이선스. Vibe 원격 에이전트에 탑재됐고, 통신 도메인 벤치마크 τ³-Telecom에서 91.4%를 기록했어.

무슨 일이 일어났나

Mistral이 Medium 3.5 128B를 공개했어. 오픈 웨이트 모델 중 코딩 벤치마크에서 가장 높은 수준인 SWE-bench Verified 77.6%를 기록했고, 컨텍스트 창이 256K라 긴 코드베이스를 통째로 넣을 수 있어. 라이선스는 Modified MIT야.

이전 Devstral 계열 모델을 전체 벤치마크에서 앞질렀고, 통신 도메인 특화 벤치마크 τ³-Telecom에서는 91.4%를 찍었어. Vibe 플랫폼의 원격 에이전트도 이 모델로 돌아가기 시작했어.

왜 이게 일어났나

오픈 웨이트 진영이 클로즈드 API와의 격차를 좁히는 속도가 빨라지고 있어. SWE-bench 77.6%는 코딩 에이전트 실용화 문턱으로 여겨지는 70%대 후반에 진입한 거야. Mistral 입장에서는 API 상품과 별개로 오픈 웨이트를 계속 내놓아야 기업 고객의 파인튜닝 수요를 흡수할 수 있어 — 그게 이 모델이 나온 이유야.

어떤 의미인가

로컬 실행은 현실적으로 80GB+ VRAM이 필요해서 일반 개발자가 직접 돌리기는 어려워. 하지만 API로는 표준 Mistral 요금에 바로 쓸 수 있고, 가중치가 공개됐으니 도메인 특화 파인튜닝이 가능해.

코딩·에이전트 파이프라인을 구축 중이라면 SWE-bench 기준으로 현재 오픈 웨이트 최상위 선택지야. τ³-Telecom 91.4%가 보여주듯 특화 도메인에서 성능이 두드러지는 구조라, 통신·IT 운영·코드 리뷰 자동화에 파인튜닝하면 전용 모델 수준을 기대할 수 있어.

다음 수순

HuggingFace 모델 카드에 GGUF 포함 퀀트 버전도 올라와 있어. 고사양 없이 먼저 벤치마크를 돌려보고 싶다면 4-bit 퀀트부터 시작하는 게 현실적이야. 상업 이용 전에는 Modified MIT 라이선스 원문을 직접 읽어두는 걸 권해.

태그

#mistral#llm#open-weight#swe-bench#coding

포맷 v2 가이드 news 3.1.2

팩트 체크

통과 · 2026-04-30 KST

검증 생성: AI + 편집 검토 · 2026-04-30 상태: 통과

통과 원문 대조

HuggingFace 모델 카드에서 SWE-bench 77.6%, 256K 컨텍스트, 128B, Modified MIT, τ³-Telecom 91.4%, Devstral 대비 전체 벤치마크 우위 확인.

SWE-bench Verified 77.6%
컨텍스트 창 256K
파라미터 128B
라이선스 Modified MIT
τ³-Telecom 91.4%
Devstral 대비 전체 벤치마크 우위
Vibe 원격 에이전트 탑재

통과 교차 검증 검증 출처 3

HuggingFace 모델 카드·Mistral 공식 블로그·r/LocalLLaMA에서 일치 확인.

HuggingFace: 모델 카드 수치 확인
Mistral 블로그: Vibe 에이전트 탑재 확인
Reddit: 커뮤니티 반응 390 likes

통과 수치 검증

주요 수치 전부 HuggingFace 모델 카드 1차 출처에서 직접 확인.

SWE-bench Verified: 77.6%
τ³-Telecom: 91.4%
컨텍스트: 256K
파라미터: 128B

통과 비판 검토

Modified MIT 라이선스 세부 조건, 로컬 실행 VRAM 요구, 다른 모델 대비 공정 비교가 논점이 될 수 있어.

128B 로컬 실행은 80GB+ VRAM 필요 — API만 현실적인 선택지
Modified MIT는 완전한 MIT가 아님 — 상업 이용 전 라이선스 원문 확인 필요
τ³-Telecom은 특화 벤치마크라 일반 성능 지표로 보기 어려움

출처: HuggingFace — Mistral Medium 3.5 128B 모델 카드 , Mistral AI — Vibe Remote Agents 발표 , Reddit r/LocalLLaMA — Mistral Medium 3.5 is here (390 likes)