이 용어는 어디까지 신뢰할 수 있나요?

NL2Repo 39.8은 보통 MiniMax M2.7 Hugging Face 모델 카드의 성능 구간에서 SWE-Pro 56.22, Terminal Bench 2 57.0 옆에 같이 붙어 나오는 점수 표기야. 그 장면에서 먼저 읽어야 할 건 “새 모델 이름이 또 나왔나?”가 아니라 “저장소 단위 코딩 평가 점수 하나가 같이 적혀 있네” 쪽이야. 독립 모델명이라기보다 Benchmark 이름과 점수를 한 줄로 압축한 표기에 가깝고, 자연어 요구사항을 받아 저장소 단위 작업으로 이어 가는 코딩 Eval 문맥에서 읽는 게 맞아.

어떻게 작동하나

MiniMax의 Hugging Face 모델 카드와 공식 뉴스 글은 NL2Repo 39.8을 SWE-Pro 56.22, Terminal-Bench 2.0 57.0, VIBE-Pro 55.6 같은 다른 저장소 단위 코딩 평가와 묶어서 보여 줘. 이 배치를 그대로 읽으면 39.8은 “M2.7이 저장소 단위 소프트웨어 엔지니어링 과제에서 어느 정도 버티는가”를 압축한 숫자지, 새 제품 라인 이름은 아니야.

공식 benchmark 설명은 arXiv의 NL2Repo-Bench 논문 쪽이 더 구체적이야. 거기서는 에이전트에게 자연어 요구사항 문서 하나와 빈 작업 공간만 주고, 아키텍처 설계, 의존성 관리, 다중 파일 구현을 거쳐 설치 가능한 Python 라이브러리를 만들게 해. 예를 들면 패키지 구조를 먼저 잡고, 여러 파일에 클래스를 나눠 넣고, 필요한 의존성을 맞추고, 마지막에 테스트가 도는지까지 확인하는 식이야. 그래서 NL2Repo 39.8을 읽을 때는 한 함수나 한 파일을 바로 완성하는 평가보다 에이전트 코딩과 장기 계획, 저장소 일관성 쪽 신호로 보는 편이 맞아.

왜 중요한가

이 표기를 알아두면 모델 카드 숫자를 덜 오해하게 돼. 39.8만 단독으로 보면 애매하지만, 같은 줄에 붙는 SWE-Pro, Terminal-Bench 2.0, VIBE-Pro와 함께 읽으면 MiniMax가 M2.7을 “짧은 코드 생성기”보다 “저장소 단위 작업을 길게 이어 가는 모델”로 밀고 있다는 걸 바로 잡아낼 수 있어.

또 하나 중요한 건 점수와 배포 조건을 분리해서 보는 거야. M2.7은 공개 가중치를 받을 수 있지만, License는 비상업 사용을 기본 허용하고 상업 사용은 별도 서면 승인을 요구해. 그래서 NL2Repo 39.8이 높게 보여도 그걸 바로 제품 투입 허가나 상업 배포 가능성으로 읽으면 안 돼.

주의해서 볼 점

첫째, NL2Repo 39.8은 benchmark 자체의 공식 풀네임보다 M2.7 공개 자료에서 점수만 짧게 적은 표기에 가까워. 공식 출처를 다시 볼 때는 NL2Repo-Bench 설명과 점수 표기를 분리해서 확인하는 게 안전해.

둘째, 이 숫자를 범용 코딩 순위처럼 읽으면 과장이 돼. NL2Repo-Bench 논문은 장기 저장소 생성이 아직 풀리지 않은 과제라고 적고, 강한 에이전트들도 평균 테스트 통과율 기준으로 40% 아래에 머문다고 설명해. 그래서 39.8은 “거의 해결”보다 “어려운 저장소 단위 과제에서 의미 있는 진전” 쪽에 가까워.

셋째, 점수 하나만 보고 모델 선택을 끝내면 빠진 정보가 많아. 실제 도입 판단에서는 Benchmark 점수 말고도 라이선스, 배포 방식, 도구 호출, 운영 환경 적합성까지 같이 봐야 해.

이 항목을 참조하는 위키

포맷 v3 가이드 wiki 3.2.0

팩트 체크

통과 · 2026-05-04 KST

검증 생성: AI + 편집 검토 · 2026-05-04 상태: 통과

통과 원문 대조

이 항목을 독립 모델이 아니라 M2.7 공개 자료에서 점수만 떼어 읽는 표기로 잡은 근거를 공식 출처와 맞췄어.

독자 문제 대조: `NL2Repo 39.8`을 새 모델명이나 제품명으로 오해하기 쉬워서, M2.7 모델 카드와 MiniMax 뉴스 글에서 같은 점수가 다른 코딩 평가들과 한 줄로 묶여 나오는지 먼저 확인했어.
Hugging Face 모델 카드는 `On Terminal Bench 2 (57.0%) and NL2Repo (39.8%)`라고 적어서 `NL2Repo`를 점수 붙은 평가 이름으로 다루고 있어.
MiniMax 공식 뉴스도 같은 문맥에서 `NL2Repo (39.8%)`를 적고, 복잡한 엔지니어링 시스템 이해를 보는 지표 묶음으로 설명해. 그래서 본문도 독립 모델 설명이 아니라 평가 점수를 짧게 부르는 표기 설명으로 맞췄어.

통과 교차 검증 검증 출처 4

모델 카드, 공식 뉴스, 라이선스, NL2Repo-Bench 논문을 같이 보고 숫자 의미와 해석 범위를 갈라 놨어.

비교 기준: MiniMax 자료는 `39.8`을 M2.7 성능 줄에서 바로 눈에 띄게 보여 주고, arXiv 논문은 NL2Repo-Bench를 자연어 요구사항 하나와 빈 작업 공간만 주고 설치 가능한 Python 라이브러리를 만들게 하는 장기 저장소 생성 평가로 정의해.
공식 논문은 NL2Repo-Bench가 짧은 코드 완성보다 장기 계획, 의존성 관리, 다중 파일 구현을 본다고 적어. 그래서 본문도 한두 줄 코드 생성이 아니라 저장소 단위 작업 쪽으로 좁혀 썼어.
LICENSE는 비상업 허용, 상업 사용 사전 서면 승인 조건을 분리해 두고 있어. 그래서 본문에서 `39.8` 점수와 실제 제품 투입 조건을 같은 말로 묶지 않았어.

통과 수치 검증

본문에 넣은 숫자는 출처가 직접 보여 주는 값만 남기고 다시 맞췄어.

Hugging Face 모델 카드 본문 기준 M2.7 공개 수치는 SWE-Pro 56.22, SWE Multilingual 76.5, Multi SWE Bench 52.7, VIBE-Pro 55.6, Terminal Bench 2 57.0, NL2Repo 39.8이야.
모델 카드 메타데이터에는 월간 다운로드 561,951과 모델 크기 229B params가 적혀 있지만, 이 페이지는 `39.8` 해석이 중심이라 본문에서는 점수 묶음만 남겼어.
arXiv 논문 초록은 strongest agents가 평균 테스트 통과율 기준으로 40% 아래에 머문다고 적어. 그래서 `39.8`을 거의 해결된 수준처럼 쓰지 않고, 아직 어려운 장기 저장소 생성 과제 문맥으로만 다뤘어.

통과 비판 검토

`NL2Repo 39.8`을 범용 코딩 순위나 상업 배포 허가처럼 과장해서 읽는 해석을 막는 쪽으로 다시 점검했어.

공식 출처 어디에도 `NL2Repo 39.8`을 독립 제품명이나 별도 모델군으로 부르지 않아. 그래서 페이지도 점수 표기를 짧게 적은 말이라는 선을 넘지 않게 잡았어.
39.8만 보면 낮아 보이거나 높아 보일 수 있지만, 공식 논문이 말하는 과제 범위가 장기 저장소 생성이라 단순 함수 생성 점수처럼 번역하면 왜곡돼.
M2.7은 공개 가중치를 내려받을 수 있어도 LICENSE가 상업 사용을 자동 허용하지 않아. 그래서 좋은 벤치마크 숫자를 바로 제품 배포 가능성으로 연결하지 않게 경고를 넣었어.

출처: MiniMaxAI/MiniMax-M2.7 · Hugging Face , LICENSE · MiniMaxAI/MiniMax-M2.7 , MiniMax M2.7: Early Echoes of Self-Evolution , NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agents

NL2Repo 39.8(엔엘투레포 39.8)

전체 AI 기술 맵에서의 위치

한 줄 정의

어떻게 작동하나

왜 중요한가

주의해서 볼 점

관련 용어

이 항목을 참조하는 위키