AI 용어 사전
너만 모르는 AI 용어
개념
GPU (그래픽 처리 장치)
GPU는 많은 계산을 병렬로 처리하는 프로세서야. AI에서는 학습과 추론의 행렬 연산, 메모리 대역폭, 전력 예산을 같이 결정하는 하드웨어 계층으로 읽어야 해.
LLM (거대 언어 모델)
LLM은 엄청 많은 텍스트를 학습해서 다음 단어를 예측하는 방식으로 작동하는 거대 언어 모델이야. 채팅, 요약, 번역, 코드 생성 같은 작업이 여기서 나와.
AI 인프라
좋은 모델보다 먼저 묻는 게 먼저야. AI는 전력·열·회복력이 받쳐줘야 오래 가.
Inference (추론)
Inference는 학습이 끝난 모델이 실제 입력을 받아 답을 만드는 실행 단계야. AI 서비스를 읽을 때 비용, 지연 시간, 처리량이 왜 계속 같이 언급되는지 이해하려면 이 개념부터 먼저 잡아두면 돼.
Reasoning Model (추론 모델)
추론형 모델은 답을 바로 내기보다 중간 사고 과정을 더 많이 쓰면서 어려운 문제를 풀도록 설계된 계열이야. 보통 속도보다 복잡한 문제 해결에 더 초점을 둬.
VRAM(비디오 메모리)
VRAM은 GPU가 모델 가중치, KV cache, 이미지 데이터를 빠르게 읽고 쓰는 전용 메모리야. 로컬 LLM에서는 모델 크기보다 먼저 확인할 예산표에 가까워.
Context(컨텍스트)
Context는 모델이 이번 요청에서 참고하라고 받은 프롬프트, 이전 대화, 문서, 도구 결과 같은 작업 재료야.
RAM (시스템 메모리)
RAM은 운영체제와 앱이 지금 쓰는 데이터를 올려 두는 빠른 임시 메모리야. 로컬 LLM에서는 VRAM 밖으로 밀린 모델 레이어와 CPU 추론 속도를 가르는 숫자야.
Memory(메모리)
Memory는 에이전트가 이전 대화, 선호, 작업 결과를 저장했다가 다음 행동에 다시 쓰는 기억 구조야.
Local LLM (로컬 LLM)
Local LLM은 모델을 클라우드 API 대신 내 PC나 서버에서 직접 돌리는 방식을 말해. 보통 오픈 웨이트 모델을 내려받아 Ollama, LM Studio, llama.cpp 같은 도구로 실행하는 흐름이 여기에 들어가.
PDF(문서 형식)
PDF는 문서의 글자, 이미지, 표, 레이아웃을 한 파일에 고정해 교환하는 문서 형식이야. AI 문서 처리에서는 텍스트 추출, OCR, 페이지 이미지 검색 중 무엇을 써야 하는지 먼저 가르는 입력 형태로 봐야 해.
AWS(아마존 웹 서비스)
AWS를 AI 기사에서 볼 때는 모델명이 아니라 Amazon의 클라우드 계정, 권한, 청구, 배포 경로로 읽어야 해. Bedrock과 보안 통제도 함께 따라와.
Developer Tools(개발자 도구)
Developer Tools는 개발자가 코드를 만들고 실행하고 검증하고 배포하는 일을 줄여 주는 도구 묶음이야. AI 문맥에서는 편집기 추천만이 아니라 문서 서버, 터미널 에이전트, SDK, API 연결까지 같이 들어온다.
Embedding (임베딩)
Embedding은 텍스트나 이미지 같은 데이터를 의미가 비슷할수록 가까워지게 만든 숫자 벡터 표현이야. 검색, 추천, 군집화, RAG의 검색 단계가 이 표현 품질에 크게 좌우돼.
Token (토큰)
Token은 모델이 문장을 받아 계산할 때 쓰는 최소 처리 단위야. 기사에서 컨텍스트 길이, 최대 출력, 요금 숫자를 읽을 때는 글자 수가 아니라 토큰 기준인지 먼저 봐야 해.
CUDA(쿠다)
CUDA는 NVIDIA GPU에서 병렬 계산 코드를 실행하게 해 주는 플랫폼이자 프로그래밍 모델이야. AI에서는 GPU가 있느냐보다 CUDA 경로와 라이브러리 호환성이 실제 속도와 배포 가능성을 가르는 경우가 많아.
IDE (통합 개발 환경)
IDE는 코드 입력창 하나가 아니라 편집, 실행, 디버깅, 테스트를 한 작업면으로 묶는 개발 도구야. 작은 스크립트엔 과할 수 있지만, 여러 파일과 설정이 얽힌 프로젝트에선 왜 따로 부르는지 금방 체감돼.
Instant(인스턴트)
Instant는 ChatGPT에서 빠른 기본 응답을 맡는 OpenAI의 모델 경로 이름이야. 2026년 5월 GPT-5.5 Instant가 GPT-5.3 Instant를 대체했어.
Multimodal AI(멀티모달 AI)
Multimodal AI는 텍스트, 이미지, 음성, 영상처럼 다른 형식의 정보를 한 시스템 안에서 같이 받고 연결해 처리하는 AI를 뜻해. 특정 제품명보다 입력과 출력 범위가 넓어진 변화를 설명하는 말에 더 가까워.
README (리드미)
리드미는 저장소 첫 화면에서 프로젝트 정체성, 시작 방법, 도움 받을 곳을 빠르게 확인하게 해 주는 안내 문서야. 길어질수록 본문보다 입구 역할에 집중해야 해.
Reasoning Model (추론 모델)
Reasoning Model은 답을 바로 쓰기보다 더 긴 계산과 검토를 거쳐 복잡한 문제를 푸는 모델 계열이야. 빠른 채팅 모델과는 비용, 지연 시간, 검증 방식이 달라.
Alibaba (알리바바)
Alibaba는 AI 기사에서 주로 Qwen 모델 계열과 Alibaba Cloud Model Studio를 함께 가리키는 벤더 이름이야. 앱 점유율보다 오픈 웨이트, API, 에이전트 도구 흐름을 나눠 읽어야 덜 헷갈려.
Linux(리눅스)
Linux는 커널과 배포판 생태계를 함께 가리키는 오픈 소스 운영체제 계열이야. AI 인프라 문맥에서는 배포판, GPU 드라이버, CUDA 빌드 경로까지 묶어 읽어야 실제 성능 차이를 덜 잘못 보게 돼.
MIT (MIT 라이선스)
MIT는 코드와 모델 가중치를 거의 제한 없이 복제·수정·재배포할 수 있게 두는 짧은 오픈소스 라이선스야. 다만 저작권 고지와 허가 문구를 같이 남겨야 하고, 모델 카드에 MIT가 붙었다고 데이터·상표·서비스 약관까지 자동으로 풀리는 건 아니야.
p95(95번째 백분위 지연시간)
p95는 측정값의 95%가 그 값 이하에 들어오고 나머지 5%가 더 느린 경계값이야.
Thinking (씽킹)
Thinking은 AI 제품에서 모델이 바로 답하지 않고 더 긴 추론 예산을 써서 답을 만들도록 하는 모드나 경로를 가리켜. 사람의 생각을 그대로 보여 준다는 뜻은 아니야.
Apple (애플)
Apple은 iPhone, Mac, 자체 칩, Apple Intelligence를 한 공급자 안에서 묶는 회사야. AI 문맥에서는 기기 회사가 아니라 온디바이스 모델, 개발자 API, 프라이버시형 클라우드, 보안 협력까지 같이 보는 이름이야.
Blackwell (NVIDIA GPU 아키텍처)
Blackwell은 NVIDIA가 Hopper 다음 세대로 내놓은 GPU 아키텍처야. B200·GB200·RTX PRO 같은 제품군에서 FP4, 2세대 Transformer Engine, 5세대 NVLink 같은 AI 인프라 조건을 묶어 부르는 이름으로 쓰여.
CLI(명령줄 인터페이스)
CLI는 텍스트 명령으로 프로그램을 움직이는 인터페이스야. 반복 작업, 원격 운영, 자동화가 핵심인 순간엔 GUI보다 훨씬 강해.
Flash(플래시)
Flash는 AI 모델 이름에서 빠른 응답, 낮은 지연 시간, 비용 효율 쪽에 놓인 모델 티어를 가리키는 라벨이야. Gemini Flash나 Qwen-Flash처럼 Pro·Max·Plus보다 가벼운 호출 경로를 읽을 때 먼저 보면 돼.
GUI(그래픽 사용자 인터페이스)
GUI는 버튼, 패널, 목록처럼 화면 요소로 기능을 조작하는 인터페이스야. AI 코딩 도구 문맥에서는 모델 자체보다 그 모델 위에 덧씌운 작업 화면인지부터 가르는 게 먼저야.
Microsoft (마이크로소프트)
Microsoft는 회사 이름이고 Azure·Microsoft 365·GitHub·Copilot은 그 회사가 파는 서로 다른 제품군이야. 이미 이 조합을 쓰는 팀이라면 AI를 살 때 계약, 계정, 배포를 한 공급자 축에서 같이 봐야 해.
NVIDIA(엔비디아)
NVIDIA는 GPU, 서버 간 연결 기술, CUDA 생태계로 AI 데이터센터를 떠받치는 인프라 회사야. 모델 기사와 하드웨어 공급 기사와 소프트웨어 생태계 기사를 분리해서 읽게 도와줘.
Plus(플러스)
Plus는 AI 제품에서 무료판보다 사용량과 새 기능 접근을 더 주는 개인용 유료 구독 티어 이름이야.
Python (파이썬)
파이썬은 읽기 쉬운 문법과 큰 패키지 생태계를 바탕으로 자동화, 데이터 분석, 웹 백엔드, AI 스크립트에 널리 쓰이는 범용 프로그래밍 언어야.
Apple Silicon (애플 실리콘)
AI 기사에서 Apple Silicon이 나오면 CUDA GPU가 아니라 Apple SoC, 통합 메모리, Metal/MLX 런타임, 전력 제약을 함께 보는 로컬 추론 장비 신호로 읽어야 해.
Bedrock(베드록)
Bedrock은 AI 문맥에서 대개 Amazon Bedrock을 줄여 부르는 말이고, 모델 이름이나 데이터센터 프로젝트 이름이 아니라 AWS의 모델·에이전트 운영 경로를 가리키는 경우가 많아.
Business(비즈니스)
Business는 AI 제품 문맥에서 개인용 기능과 조직용 도입 조건 사이를 가르는 접근 라벨이야. 모델 이름이 아니라 플랜, 관리자 권한, 데이터 사용 범위, 업무용 기능 공개 대상을 확인하게 만드는 말에 가까워.
DFlash (디플래시)
DFlash는 자동회귀 LLM의 다음 토큰 생성을 빠르게 하려고, 작은 블록 확산 draft 모델이 여러 후보 토큰을 한 번에 만들고 target 모델이 검증하는 추측 디코딩 방식이야.
Enterprise(엔터프라이즈)
Enterprise는 AI 제품 문맥에서 개인용보다 조직 단위 도입, 보안, 권한, 계약 조건이 먼저 붙는 접근 범위를 가리키는 말이야. 모델 이름이 아니라 누가 어떤 관리 체계로 쓸 수 있는지를 가르는 표식에 가까워.
GPT (생성형 사전학습 트랜스포머)
GPT는 OpenAI가 붙인 생성형 사전학습 트랜스포머 계열 이름이야. 서비스 이름처럼 들리지만, 원래는 큰 텍스트로 먼저 학습한 디코더형 모델 묶음을 가리키는 말에 더 가까워.
Image Generation(이미지 생성)
이미지 생성은 텍스트 설명이나 참고 이미지를 바탕으로 새 이미지를 만들거나 기존 이미지를 고치는 생성형 AI 작업이야. 요즘은 한 번 뽑고 끝나는 기능보다 대화형 편집, 개인화, 워크플로 제어까지 묶여서 쓰이는 경우가 많아.
INT4 (4비트 정수 정밀도)
INT4는 값을 4비트 정수와 스케일로 줄여 모델 가중치를 작게 저장하는 양자화 선택지야. LLM 추론에서는 보통 가중치 전용 압축으로 먼저 등장하고, FP4·BF16·INT8과 같은 말로 읽으면 설정을 잘못 잡기 쉬워.
MiniMax(미니맥스)
MiniMax는 M2 텍스트 모델, Hailuo 비디오, Speech·Music 모델, MiniMax Agent, 개발자 API를 함께 운영하는 중국 AI 랩 겸 브랜드 이름이야. 그래서 M2.7 같은 개별 모델명보다 한 단계 위 이름으로 읽는 편이 맞아.
NVLink(엔비디아 GPU 인터커넥트)
NVLink는 NVIDIA GPU 여러 장을 고대역폭 GPU-to-GPU 통신 경로로 묶는 인터커넥트야. AI 인프라에서는 GPU 개수보다 그 GPU들이 NVLink와 NVSwitch로 얼마나 자주, 얼마나 빠르게 데이터를 주고받는지까지 봐야 해.
OCR (광학 문자 인식)
OCR은 이미지, 스캔 문서, PDF 안의 글자를 기계가 다룰 수 있는 텍스트와 위치 정보로 바꾸는 기술이야. 문서 자동화에서는 첫 입력 정리 단계이고, 멀티모달 검색에서는 직접 이미지 임베딩과 역할을 나눠 봐야 해.
TechCrunch(테크크런치)
TechCrunch는 스타트업, 벤처, 앱, AI 제품 발표를 빠르게 보도하는 기술 매체야. AIKI에서는 모델이나 도구가 아니라 공식 발표를 시장 맥락으로 다시 읽을 때 확인하는 보도 출처로 보는 게 맞아.
Windows(윈도우)
Windows는 Microsoft가 개발하는 개인용 PC 중심 운영체제 계열이야. AI 도구 문맥에서는 앱 하나보다 개발 환경, 드라이버, 터미널, WSL까지 묶인 실행 환경으로 읽는 편이 맞아.
Workspace(워크스페이스)
AI 제품에서 Workspace는 파일, 앱 연결, 공유 권한, 메모리, 에이전트 실행을 한 계정이나 팀 안에서 관리하는 작업 경계야. 채팅 답변이 업무 파일과 조직 권한으로 넘어가는 순간부터 이 말이 중요해져.
24GB GPU(24GB VRAM 카드)
24GB VRAM GPU는 로컬 LLM을 바로 올릴 수 있는 만능 기준이 아니라, 모델 크기와 양자화와 컨텍스트 길이를 먼저 가르는 판단선이야.
Edu(교육용 계정 라벨)
Edu는 ChatGPT 문맥에서 학교와 대학 같은 교육기관용 워크스페이스를 가리키는 접근 라벨이야. 새 기능이 Edu에 열린다고 하면 모델 이름보다 관리자 권한, 데이터 조건, 학생·교직원 배포 범위를 먼저 봐야 해.
F32 (32비트 부동소수점)
F32는 32비트 부동소수점 정밀도 표기야. 모델 카드에서는 FP32·float32와 같은 축으로 읽되, BF16 같은 다른 tensor type과 같이 보이면 전체 가중치가 모두 F32라고 단정하면 안 돼.
HumanEval(휴먼이밸)
HumanEval은 모델이 파이썬(Python) 함수 구현을 설명 주석(docstring)만 보고 만들어 내는지 재는 코드 생성 벤치마크야. 점수는 보통 pass@1, pass@10, pass@100처럼 테스트 통과율로 읽어.
Mac(맥)
Mac은 Apple이 만드는 노트북·데스크톱 컴퓨터 플랫폼이야. 코딩 도구나 로컬 모델 문서에서는 앱 하나보다 터미널, 칩 아키텍처, 앱 배포 방식까지 묶인 실행 환경으로 읽는 편이 맞아.
Max(맥스)
Max는 보통 Anthropic의 Claude 개인용 상위 유료 구독 등급을 뜻해. claude.ai에서 더 넓은 사용량과 기능 우선권을 주는 요금제라서, 기사에서 보이면 새 모델보다 구독 맥락부터 보는 편이 맞아.
MMLU(엠엠엘유)
MMLU는 언어 모델이 57개 과목의 객관식 문제를 풀며 넓은 지식과 문제 해결력을 얼마나 보이는지 재는 벤치마크야.
Mythos (마이토스)
Mythos는 Anthropic의 보안형 프리뷰 모델과 그 주변의 제한 접근 배포를 줄여 부르는 이름이야. 공개 챗봇보다 Glasswing 협력, 취약점 탐지, 접근 통제를 같이 봐야 해.
Nemotron(네모트론)
Nemotron은 NVIDIA가 에이전트용 공개 모델, 합성 데이터셋, RAG·문서·음성·안전 모델을 한 묶음으로 부르는 AI 계열 이름이야.
OAuth(권한 위임)
OAuth는 외부 앱이나 agent에게 비밀번호를 넘기지 않고 제한된 접근 권한을 주는 권한 위임 프로토콜이야. AI 도구에서는 API key 대신 사용자 OAuth, scope, token 보관 방식을 보는 기준이 돼.
StartupFortune(스타트업포춘)
스타트업포춘은 Qwen3.6 27B FP8 단일 GPU 사례를 스타트업의 로컬 추론 경제성으로 해석한 2차 분석 출처로 읽어야 해.
SwiGLU(스위글루)
SwiGLU는 Transformer의 feed-forward layer에서 두 선형 경로를 곱하고, 한쪽에 Swish를 쓰는 GLU 변형이야. attention이 아니라 FFN과 MoE 전문가 내부 계산을 이해할 때 자주 나오는 활성화 구조야.
Tensor Core(텐서 코어)
Tensor Core는 NVIDIA GPU 안에서 행렬곱과 혼합 정밀도 계산을 빠르게 처리하는 전용 연산 블록이야. AI에서는 BF16, FP8, FP4 같은 정밀도 선택과 실제 처리량을 같이 볼 때 자주 나와.
TypeScript(타입스크립트)
TypeScript는 JavaScript 위에 타입 문법과 정적 검사를 얹어 주는 언어야. 빌드 결과물은 JavaScript라서 브라우저와 Node.js 같은 기존 실행 환경으로 그대로 들어가.
VentureBeat(벤처비트)
VentureBeat는 AI 회사의 공식 문서가 아니라, 모델 발표와 업계 반응을 기사와 AI Weekly 뉴스레터로 엮어 전달하는 미국 기술 매체야.
YaRN (야른)
YaRN은 RoPE 기반 모델의 컨텍스트 창을 더 길게 쓰기 위한 위치 임베딩 스케일링 방법이야. 긴 문맥 숫자가 네이티브 한계인지, 런타임에서 켠 확장 설정인지 가를 때 먼저 봐야 해.
Amazon (아마존)
Amazon은 전자상거래 회사 이름이면서 AWS, Bedrock, Trainium, 물류 AI를 함께 운영하는 공급자야. AI 기사에서는 쇼핑몰보다 클라우드·전력·칩·에이전트 인프라 쪽으로 읽을 때가 많아.
Azure(마이크로소프트 애저)
Azure는 Microsoft의 클라우드 플랫폼이야. AI 기사에서는 모델 이름이 아니라 배포, 계정, 보안, OpenAI 모델 접근 경로를 가르는 클라우드 축으로 읽어야 해.
BrowseComp(브라우즈컴프)
BrowseComp는 웹을 오래 탐색해야 풀 수 있는 1,266개 짧은 정답형 문제로 브라우징 에이전트의 집요한 정보 찾기 능력을 재는 OpenAI 벤치마크야.
E4B (이포비)
E4B는 Gemma 문서에서 작은 멀티모달 모델을 부를 때 쓰는 E 표기야. 총 4B 모델이라는 뜻은 아니고, 실제 돌릴 때 부담을 따로 읽어야 해.
Fortune(포춘)
Fortune은 기업, 리더십, 기술, AI 정책을 비즈니스 관점으로 읽는 경제 매체야. AIKI에서는 모델이나 도구가 아니라, 공식 발표가 시장과 규제 논쟁에서 어떻게 해석됐는지 보는 출처로 다루면 돼.
GDDR7(그래픽 DRAM 7세대)
그래픽 DRAM 7세대인 GDDR7은 GPU와 AI 가속기에서 VRAM 대역폭을 읽을 때 나오는 메모리 표기야. 로컬 LLM에서는 모델 이름이 아니라 가중치와 KV 캐시가 오가는 하드웨어 조건으로 봐야 해.
Jackrong(허깅페이스 계정)
Jackrong은 Hugging Face에서 Qwen 기반 reasoning distillation 모델과 데이터셋을 올리는 커뮤니티 계정이야. Claude라는 이름이 붙은 체크포인트를 볼 때 공식 Anthropic 모델인지, 커뮤니티 파인튜닝 산물인지 가르는 단서가 돼.
LiveCodeBench(라이브코드벤치)
LiveCodeBench는 LeetCode, AtCoder, Codeforces의 새 문제를 계속 모아 코드 LLM을 평가하는 오염 방지형 코딩 벤치마크야. pass@1 숫자는 리리즈(release) 버전과 기간 조건이 붙어야 제대로 읽을 수 있어.
Mixture of Experts(전문가 혼합)
Mixture of Experts(MoE)는 하나의 거대한 계산 덩어리로 모든 입력을 처리하지 않고, 여러 전문가 모듈 가운데 일부만 골라 쓰는 모델 구조야. 그래서 새 모델 이름이라기보다 계산을 나누는 내부 설계 방식으로 이해하는 게 맞아.
PrivateLink(프라이빗링크)
PrivateLink는 AWS VPC에서 Bedrock 같은 AWS 서비스나 다른 계정의 서비스로 사설 네트워크 경로를 만드는 기술이야. AI 인프라 기사에서는 모델 품질보다 네트워크와 감사 경계를 읽게 해 줘.
Project Glasswing (프로젝트 글래스윙)
Glasswing은 Anthropic이 Claude Mythos Preview를 방어 보안 쪽 파트너에게 먼저 열어 핵심 소프트웨어 취약점을 찾게 한 제한 접근 이니셔티브야.
SaaS(서비스형 소프트웨어)
SaaS는 서버 설치보다 계정, 권한, 데이터 경로, 제공자 운영 책임을 먼저 보게 만드는 클라우드 소프트웨어 모델이야.
Sheets(시트)
Sheets는 AI 발표문에서 Google Sheets 같은 스프레드시트 작업 화면을 줄여 부르는 말이야. 특히 Gemini가 표, 대시보드, 누락 데이터, 파일 생성을 다루는 맥락에서 자주 나와.
Standard (스탠더드)
Standard는 API 가격표나 처리 옵션에서 할인 배치나 우선 처리 옵션을 붙이지 않은 기본 실시간 처리 기준이야. 모델 품질 등급이 아니라 비용과 지연 시간을 비교할 때 쓰는 기준선에 가까워.
Ultra(울트라)
Ultra는 Google AI Ultra를 줄여 부르는 말로, Google이 Gemini 앱과 여러 AI 제품의 상위 사용량과 일부 선공개 기능을 묶어 파는 개인용 구독 등급이야. 모델명이나 API 권한으로 읽으면 금방 헷갈려.
VIBE-Pro(바이브 프로)
VIBE-Pro는 모델이 저장소 수준 제품 요구사항을 끝까지 구현하는지 보는 코드 생성 벤치마크야. M2.7 공개 문맥에서는 웹, 안드로이드, iOS, 시뮬레이션 작업을 묶어 보는 프로젝트 납품형 신호로 쓰였어.
모델
모델은 입력을 받아 다음에 나오는 답을 계산해 내는 핵심 장치야. 같은 요청이어도 비용, 속도, 문맥 처리 방식이 달라져.
Apache-2.0(아파치 2.0 표기)
Apache-2.0은 Apache License 2.0을 가리키는 라이선스 식별자야. AI 쪽에서는 Hugging Face 모델 카드의 `license` 값으로 자주 보여서, 오픈 모델 후보를 고를 때 첫 필터처럼 많이 읽어.
ChatGPT Instant (챗지피티 인스턴트)
ChatGPT의 Instant 경로는 빠른 일상 대화와 짧은 업무 질문을 맡는 기본 모델 선택지야. 특정 API 모델명 하나가 아니라, 시점별 GPT Instant 버전과 API 별칭을 나눠 읽어야 해.
E2B (이투비)
E2B는 Gemma 문서군에서 쓰는 E 표기야. 쉽게 말해 모델을 실제 기기에 올렸을 때 체감 부담을 어느 정도로 읽어야 하는지 알려 주는 숫자라고 보면 돼.
Enterprise AI(엔터프라이즈 AI)
Enterprise AI는 조직이 AI를 개인 실험이 아니라 권한, 데이터, 배포, 비용, 관측까지 포함한 운영 체계로 쓰는 방식을 가리키는 개념이야.
FP16 (반정밀도 부동소수점)
FP16은 16비트 부동소수점 형식으로, 모델 가중치와 연산 텐서를 FP32보다 가볍게 다루기 위한 정밀도 선택지야.
FP4 (4비트 부동소수점 포맷)
FP4는 숫자 하나를 4비트 부동소수점으로 줄이는 정밀도 계열이야. Blackwell의 NVFP4나 DeepGEMM의 FP8 x FP4 경로처럼, 메모리와 GEMM 처리량을 줄일 수 있지만 스케일링과 품질 회귀 검증이 없으면 바로 켤 수 없어.
FP8 양자화 가중치
FP8 양자화 가중치는 모델 가중치를 FP8 정밀도로 저장한 배포 형태야. FP8 모델이라는 말이 가중치, KV 캐시, 활성값까지 모두 8비트라는 뜻은 아니라서 실행 로그를 따로 봐야 해.
Google Cloud(구글 클라우드)
Google Cloud는 Compute Engine, Cloud Storage, BigQuery, Vertex AI, Agent Platform 같은 서비스를 한 프로젝트에서 관리하게 해 주는 구글의 클라우드 플랫폼이야. AI 기사에서 이 이름이 나오면 모델 발표보다 프로젝트, 리전, IAM, 청구, 로그가 필요한 Cloud 프로젝트 기반 배포인지 먼저 확인해야 해.
GPQA Diamond (지피큐에이 다이아몬드)
GPQA Diamond는 GPQA의 198문항짜리 엄격한 과학 추론 벤치마크야. 생물학, 물리학, 화학의 대학원급 객관식 문제로 모델의 전문 지식과 추론을 함께 봐.
GPU VRAM(GPU 전용 비디오 메모리)
GPU VRAM은 로컬 LLM을 돌릴 때 GPU 쪽에 실제로 남는 빠른 메모리 예산을 뜻해. 다만 요즘은 일부를 RAM이나 다른 GPU로 넘겨 실행하는 오프로드와 장치 메모리에 맞게 자동 조정하는 auto-fit이 있어서, 이 숫자를 단순한 fit-or-fail 기준으로만 읽으면 자주 틀려.
HTTP API(HTTP 호출 인터페이스)
HTTP API는 앱이 HTTP 요청과 응답으로 모델 서버를 호출하게 해 주는 인터페이스 개념이야. 로컬 LLM 문맥에서는 llama-server 같은 서버를 띄우고 대화 생성 route로 JSON 요청을 보내는 경로를 말하는 경우가 많아.
INT8 (8비트 정수 정밀도)
INT8은 값을 8비트 정수와 스케일로 줄여 모델 가중치, 활성값, 일부 KV 캐시를 더 작게 다루는 양자화 선택지야. 같은 8비트라도 FP8과 달리 정수 매핑이라 보정 데이터, 커널 지원, 품질 회귀를 같이 봐야 해.
K-12(유치원-고등학교 12학년)
K-12는 유치원부터 12학년까지의 초중등 교육 범위를 가리키는 라벨이야. AI 제품 문서에서는 학생용 기능보다 학교·교육청·교직원 워크스페이스의 접근 권한과 데이터 조건을 읽게 해.
Language Model (언어 모델)
Language Model은 앞뒤 문맥을 보고 다음 토큰이나 빠진 토큰을 예측하도록 학습한 모델이야. GPT처럼 이어 쓰는 모델과 BERT처럼 문장 이해에 강한 모델을 같은 큰 범주에서 볼 때 쓰는 말이야.
OpenAI-compatible(OpenAI 호환)
이 말은 다른 AI 서비스가 OpenAI SDK와 요청 모양을 거의 그대로 받는 호환층이라는 뜻이야. 보통 API key, base URL, model name 정도만 바꾸면 기존 OpenAI 코드와 툴을 큰 재작성 없이 연동할 수 있을 때 써.
SWE-Pro(에스더블유이 프로 표기)
SWE-Pro는 모델 카드와 출시 글에서 SWE-Bench Pro 점수를 짧게 적을 때 자주 쓰는 표기야. 별도 벤치마크 이름으로 읽기보다, 긴 소프트웨어 이슈 해결 평가를 헤드라인용으로 줄인 말에 가깝게 보는 편이 맞아.
Vertex AI (버텍스 AI)
Vertex AI는 Google Cloud에서 모델 실험, 배포, 권한 관리, 모니터링을 함께 맡는 관리형 AI 플랫폼이야. Gemini 같은 개별 모델 이름이 아니라 Vertex AI Studio, Model Garden, Agent Builder, MLOps를 묶는 운영 계층으로 이해하는 편이 맞아.
Video Generation(영상 생성)
Video Generation(영상 생성)은 텍스트, 이미지, 짧은 참고 클립을 입력으로 받아 움직이는 장면을 만드는 생성형 AI 작업이야. 모델 이름보다 입력, 길이, 오디오, 편집 가능 범위를 먼저 봐야 해.
Vision-Language Model (비전-언어 모델)
Vision-Language Model은 이미지와 텍스트를 함께 이해하도록 만든 모델이야. 사진, 문서 화면, 차트 같은 시각 입력을 읽고 그 내용을 말로 설명하거나 질문에 답하는 데 강해.
BF16 (브레인 플로팅 포인트 16)
BF16은 FP32와 같은 지수 폭을 남기고 가수 비트를 줄인 16비트 부동소수점 형식이야.
chat-latest (챗 레이티스트)
chat-latest는 ChatGPT나 API 문서에서 지금 채팅 기본값으로 붙는 모델을 가리킬 때 쓰는 alias야. 고정 모델명처럼 보이지만, 실제 대상은 시점과 제품 정책에 따라 바뀔 수 있어.
CUDA 12.9(쿠다 12.9)
CUDA 12.9는 NVIDIA CUDA Toolkit 12.x 계열의 한 버전이야. 로컬 LLM 글에서 이 이름이 보이면 모델 성능보다 드라이버, PyTorch·vLLM 휠, Blackwell 지원, KV 캐시 설정이 같은 조합으로 맞았는지 먼저 봐야 해.
Deep Research (딥 리서치)
Deep Research는 모델이 검색과 파일, MCP 연결을 묶어 긴 조사 보고서를 만드는 리서치 에이전트야. 단순 요약 기능보다 근거 수집, 계획 검토, 인용, 시각화까지 이어지는 API 작업 흐름으로 읽어야 덜 헷갈려.
F1 97.43 (정밀도·재현율 조화평균 지표)
F1 97.43은 Privacy Filter의 corrected PII-Masking-300k 스냅샷에서 공개된 특정 점수야.
FIM completion(중간 채우기 완성)
중간 채우기 완성은 앞부분(prefix)과 뒷부분(suffix)을 같이 주고 가운데 빠진 내용을 생성하게 하는 방식이야. DeepSeek API에서는 `/completions` 베타 경로에서 쓰며, 일반 Chat Completions와는 입력 모양부터 달라.
FP8 (8비트 부동소수점 포맷)
FP8은 E4M3/E5M2 같은 8비트 부동소수점 포맷으로, 지원 GPU와 스케일링이 맞을 때 FP16·BF16보다 메모리 이동과 처리 비용을 줄이는 선택지야.
FP8 E4M3(8비트 E4M3 포맷)
FP8 E4M3는 FP8의 1-4-3 비트 배치로, E5M2보다 범위는 좁고 값 간격은 촘촘해서 활성값·가중치·NVFP4 스케일에 자주 쓰이는 포맷이야.
FP8 Tensor Core(FP8 텐서 코어)
NVIDIA Hopper 이후 GPU에서 FP8 행렬곱을 Tensor Core 경로로 처리해 BF16·FP16보다 메모리 이동량을 줄이고 Tensor Core 처리량을 높이려는 하드웨어 기능이야.
GDDR7 ECC(오류 수정 GDDR7 메모리)
로컬 LLM에서 GDDR7 ECC는 48GB·72GB급 GPU 메모리의 용량, 대역폭, 오류 대응 조건을 같이 보게 만드는 하드웨어 신호야.
Google Cloud Agent Gateway (에이전트 게이트웨이)
Google Cloud의 Gemini Enterprise Agent Platform 안에서 에이전트가 외부 도구를 호출할 때 신원·정책·관측을 통합 통제하는 운영 게이트야.
Hugging Face 모델 카드
Hugging Face 모델 카드는 모델 도입 전에 스펙, 라이선스, intended use, 한계, 평가 결과를 같은 자리에서 대조하게 해주는 문서야.
K2.6 (키미 K2.6 줄임말)
K2.6은 보통 Moonshot AI의 Kimi K2.6을 줄여 부르는 이름이야. API 모델 ID, 오픈 웨이트, 커뮤니티 GGUF 배포를 같은 말로 뭉개기 쉬워서 실제로 무엇을 가리키는지 먼저 갈라서 봐야 해.
License (라이선스)
라이선스는 모델 가중치, 코드, 데이터셋을 어디까지 써도 되는지 정하는 사용 조건이야. 같은 [Benchmark](/ko/wiki/benchmark/) 점수를 봐도 상업 사용, 재배포, fine-tune 배포 허용 범위가 다르면 실제로 할 수 있는 일은 크게 달라져.
M5 Max 64GB(M5 맥스 64GB)
M5 Max 64GB는 별도 모델 이름이 아니라 M5 Max 칩에 64GB 통합 메모리가 붙은 로컬 LLM 벤치마크 장비 조건이야. DFlash나 MLX 수치를 볼 때 모델보다 먼저 확인해야 하는 하드웨어 조건표에 가까워.
Model Weights(웨이트)
Model Weights는 학습이 끝난 모델이 실제로 기억하고 있는 숫자 묶음이자, 보통 파일 형태로 배포되는 핵심 결과물이야. 아키텍처 설명만 있는 것과 다르게, 웨이트가 있어야 같은 모델을 다시 불러와 실행할 수 있어.
NVFP4 (NVIDIA FP4 포맷)
NVFP4는 NVIDIA Blackwell에서 쓰는 4비트 부동소수점 포맷으로, E2M1 값에 FP8 블록 스케일과 FP32 전역 스케일을 붙여 모델 메모리와 대역폭을 줄이는 선택지야.
OpenAI Help Center(오픈AI 도움말 센터)
help.openai.com은 ChatGPT, API, Codex, 계정, 결제, 보안 설정처럼 OpenAI 제품을 실제로 쓸 때 필요한 지원 문서를 모아 둔 공식 공간이야.
reasoning content(추론 내용)
reasoning content는 DeepSeek 사고 모드에서 최종 답변과 따로 돌아오는 추론 내용 필드야. 답변 본문, 사용량 집계, 도구 호출 뒤의 메시지 재구성을 나눠 봐야 할 때 중요해.
RTX PRO (엔비디아 전문가용 GPU 계열)
RTX PRO는 NVIDIA의 전문가용 RTX GPU 제품군이야. 로컬 LLM 문맥에서는 일반 GeForce 카드가 아니라 Blackwell 세대, GDDR7 ECC 메모리, CUDA 경로, 전력과 냉각 조건까지 붙은 워크스테이션·서버 GPU로 읽어야 해.
Simon Willison(사이먼 윌리슨)
Simon Willison은 Datasette와 Django로 알려진 개발자이고, LLM 실험 글에서는 벤치마크 점수보다 실험 조건과 해석 한계를 먼저 보게 해 주는 출처야.
SWE-bench Verified (스위벤치 베리파이드)
SWE-bench Verified는 실제 GitHub 이슈 500개를 사람이 다시 걸러 만든 코딩 에이전트 평가셋이야. 모델이나 에이전트가 코드 패치로 문제를 해결했는지 `% Resolved` 같은 지표로 본다.
Terminal-Bench (터미널 벤치)
Terminal-Bench는 AI 에이전트가 실제 터미널 안에서 파일 확인, 명령 실행, 코드 수정, 오류 복구를 끝까지 해내는지 보는 벤치마크야. 2.0은 89개 과제로 터미널 작업 실력을 봐.
Trusted Access (신뢰 기반 접근)
신뢰 기반 접근(Trusted Access)은 신원, 조직, 사용 목적, 모니터링 신호를 보고 더 위험한 AI 기능을 단계적으로 여는 방식이야. 공개 모델 출시와 검증된 방어자용 접근권을 구분해서 읽어야 해.
vLLM 0.20.1(브이엘엘엠 0.20.1)
vLLM 0.20.1은 Qwen3.6 27B FP8 단일 GPU 장문맥 사례에서 실행 조건으로 등장한 vLLM 버전이야. 모델 이름이 아니라, CUDA·KV 캐시·컨텍스트 길이·서빙 옵션을 같이 묶어 재현해야 하는 런타임 좌표로 읽어야 해.
Z.ai(지에이아이)
Z.ai는 Zhipu AI의 GLM 모델군, API, 채팅 접점을 묶어 읽을 때 나오는 브랜드야. GLM 5.1 성능표를 볼 때 회사명, 모델명, 배포 경로를 갈라 봐야 해.
Agent Identity(에이전트 신원)
에이전트 신원은 AI 에이전트마다 검증 가능한 암호학적 주체를 부여해서 도구 호출, 클라우드 접근, 사용자 위임 작업을 감사 가능하게 만드는 거버넌스 개념이야.
Agent Observability(에이전트 관측성)
에이전트 관측성은 배포된 AI 에이전트의 세션, 모델 호출, 도구 호출, 지연, 오류를 실행 흔적·지표·로그로 따라가며 운영 상태를 보는 개념이야.
AWS Bedrock(AWS 베드록)
AWS Bedrock은 공식 제품명이 아니고, Amazon Bedrock과 그 위의 OpenAI 모델, Codex, Managed Agents 경로를 짧게 부를 때 많이 쓰는 말이야.
ChatGPT Plus(챗지피티 플러스)
ChatGPT Plus는 OpenAI가 ChatGPT 웹앱에서 더 높은 사용 한도, 빠른 응답, 고급 모델·도구 접근을 제공하는 월 구독 플랜이야. API 요금제나 특정 GPT 모델 이름과는 다른 층위로 봐야 해.
ChatGPT Pro(챗지피티 프로)
ChatGPT Pro는 ChatGPT 안에서 Pro 모델, Codex, 깊은 리서치 기능 같은 고급 기능과 더 큰 사용량을 묶어 파는 OpenAI의 개인용 유료 구독 플랜이야. API 모델명이나 ChatGPT-5.2 Pro 같은 모델 선택지와는 층위가 달라.
Claude Pro(클로드 프로)
Claude Pro는 Anthropic이 Claude.ai에서 제공하는 개인용 유료 구독 플랜이야. Claude 모델 이름이나 API 요금제가 아니라, 더 높은 사용량과 Claude Code 같은 제품 접근권을 묶은 구독으로 봐야 해.
Diffusion Model(확산 모델)
Diffusion Model은 잡음에 가까운 상태에서 시작해 노이즈를 조금씩 걷어내며 새 샘플을 만드는 생성 모델 계열이야. 이미지 생성에서 특히 유명하지만, 핵심은 제품명이 아니라 생성 방식 자체야.
F1 96(에프원 96 표기)
F1 96은 OpenAI Privacy Filter 소개에서 개인정보 마스킹 공개 benchmark의 F1 96%를 짧게 적을 때 쓰는 표기야. 새 모델 이름이 아니라 공개 평가 결과를 압축한 숫자로 읽는 편이 맞아.
File Search(파일 검색)
File Search는 AI 앱이 업로드된 문서와 이미지를 검색해 모델 답변의 근거로 쓰게 만드는 검색 계층이야. Gemini API에서는 2026년 5월 업데이트 이후 멀티모달 검색, 메타데이터 필터, 페이지 단위 인용이 같이 붙어 있어.
FP4 Indexer(FP4 인덱서)
FP4 Indexer는 DeepGEMM의 2026년 4월 업데이트에 들어간 MQA logits용 저정밀 인덱서 경로야. 긴 문맥에서 후보 토큰을 고르는 lightning indexer를 FP8/FP4 커널 쪽으로 더 밀어 넣는 변화로 보면 돼.
FP8 KV (FP8 키-값 캐시)
FP8 KV는 LLM 추론에서 KV 캐시를 8비트 부동소수점으로 저장하거나 FP8 attention 경로에서 읽게 하는 설정이야. 긴 컨텍스트와 동시 요청을 늘릴 수 있지만, 모델·백엔드·스케일 보정에 따라 품질 회귀가 달라져.
KV Cache (KV 캐시)
KV 캐시는 LLM이 이미 읽은 토큰의 key/value 값을 저장해 다음 토큰을 만들 때 다시 쓰는 메모리 구조야. 긴 대화나 에이전트 작업에서는 이 캐시가 커져서 속도, VRAM, 품질 이슈를 같이 만든다는 점이 중요해.
License: mit (MIT 라이선스 표기)
License: mit는 Hugging Face 같은 모델 카드에서 저장소의 라이선스 값을 MIT로 표시하는 짧은 메타데이터야. 이 표기는 상업 사용 검토를 빠르게 시작하게 해 주지만, 데이터 권리와 상표 사용까지 한 번에 해결해 주진 않아.
Life Sciences(생명과학)
Life Sciences는 살아 있는 시스템을 연구하고 의약품, 임상, 바이오 데이터로 이어지는 생명과학 업무 영역이야. AI 기사에서는 특정 모델명이 아니라 문헌 검토, 실험 계획, 유전체 분석, 규제 문서처럼 사람이 검증해야 하는 연구 흐름을 가리키는 말로 읽어야 해.
Linux Foundation (리눅스 재단)
리눅스 재단은 Linux 커널 하나를 만드는 팀이 아니라, 오픈소스 프로젝트가 중립 거버넌스와 보안 대응 체계를 갖추게 돕는 비영리 재단이야. AI 보안 기사에서는 Mythos 같은 모델 접근을 유지보수자 지원과 연결하는 참여 조직으로 읽어야 해.
M5 Max(M5 맥스)
M5 Max는 Apple의 상위 Mac용 칩이고, AI 문맥에서는 로컬 LLM과 긴 컨텍스트 추론을 어느 급까지 장비 안에서 처리할 수 있는지 가늠할 때 자주 붙는 하드웨어 기준점이야.
Managed Agents(관리형 에이전트)
관리형 에이전트는 실행 환경, 메모리, 권한, 로그를 클라우드 운영 계층에서 제공하는 배포 방식이야.
MMLU Pro(엠엠엘유 프로)
MMLU Pro는 기존 MMLU를 더 어렵게 만든 텍스트 객관식 벤치마크야. 14개 분야 12,032문항과 보통 10개 선택지를 써서 모델의 지식 암기보다 추론 문제 해결력을 더 빡빡하게 봐.
Nano Omni (나노 옴니)
Nano Omni는 NVIDIA가 공개한 30B-A3B 계열 공개 가중치 멀티모달 추론 모델을 줄여 부를 때 자주 보이는 별칭이야. 작은 옴니모달 모델 일반명인지, 특정 배포 단위인지 먼저 갈라 봐야 해.
NL2Repo 39.8(엔엘투레포 39.8)
NL2Repo 39.8은 MiniMax M2.7 공개 자료에서 저장소 단위 자연어 요구사항 작업 성능을 짧게 부를 때 쓰는 점수 표기야. 독립 모델명이라기보다 저장소 단위 코딩 평가 결과를 한 줄로 압축해 부르는 말에 가까워.
NVIDIA GPU(엔비디아 GPU)
NVIDIA GPU는 NVIDIA 쪽 GPU 제품군을 묶어 부르는 말이야. AI 문맥에서는 그래픽카드 이름보다 CUDA, Tensor Core, HBM 메모리, NVLink까지 붙은 실행 기반으로 읽는 편이 맞아.
OpenAI 발표
OpenAI 발표라는 문구는 새 모델, API, 연구 결과, 배포 정책을 공식 릴리스 글에서 확인해야 한다는 신호야. 제목보다 실제 공개 범위와 제한사항을 먼저 읽어야 해.
Palo Alto Networks (팔로알토 네트웍스)
Palo Alto Networks는 네트워크, 클라우드, 보안 운영 제품군을 묶어 파는 사이버보안 회사야. AIKI에서는 Anthropic의 Project Glasswing에 참여한 방어 보안 파트너로 읽어야지, 모델이나 프레임워크 이름으로 읽으면 안 맞아.
Prompting Guide(프롬프팅 가이드)
모델별 프롬프트 안내서는 문장 표현, API 값, 도구 규칙, 문서 버전을 분리해 실패 원인을 좁히는 운영 문서야. Sora와 Codex처럼 손댈 지점이 다른 제품을 한 기준으로 다루지 않게 해.
Qwen Team (큐원 팀)
Qwen Team은 Alibaba Group의 Qwen 모델 계열을 만들고 문서화하는 팀·출처명이야. 모델 카드에서 이 이름이 보이면 실행 모델이 아니라 Qwen3, Qwen3-14B, Qwen3-30B-A3B 같은 모델 ID를 찾아야 해.
SWE Multilingual(다국어 소프트웨어 엔지니어링 벤치마크 표기)
2026년 M2.7 공개 문맥에서 여러 프로그래밍 언어 저장소 작업 성능을 읽을 때 보인 코딩 평가 label이야. 76.5 점수와 함께 퍼졌고, SWE-Pro나 Terminal Bench 2 같은 저장소 단위 평가와 묶어 읽는 쪽이 안전해.
The Information(디 인포메이션)
기술과 비즈니스를 깊게 파는 유료 스쿱 매체야. AI 기사에서 이 이름이 보이면 대체로 공식 발표보다 먼저 나온 내부 숫자, 인사 이동, 정책 충돌 같은 1차 취재를 가리켜.
Token Plan(토큰 플랜)
Token Plan은 MiniMax가 M2.7, 음성, 이미지, 비디오, 음악 모델 접근을 한 구독으로 묶은 빌더용 플랜이야. 토큰 종량제와 다르게 M2.7은 5시간 요청 한도, 다른 모델은 일일 쿼터로 계산된다는 점을 먼저 보고 들어가는 편이 맞아.
Transformer (트랜스포머)
Transformer는 토큰 사이의 관계를 attention으로 계산해 문맥을 다루는 신경망 아키텍처다. GPT 계열을 포함한 현대 언어 모델의 공통 바탕으로 널리 쓰였고, 새 모델 이름이라기보다 모델 내부 설계 방식을 가리키는 말로 이해하는 편이 맞아.
V4 Preview (V4 프리뷰)
V4 Preview는 DeepSeek가 2026년 4월 24일 공개한 DeepSeek-V4의 preview 출시 표기야. API 모델명은 `v4-preview`가 아니라 `deepseek-v4-pro`나 `deepseek-v4-flash`로 갈라 봐야 해.
Xiaomi MiMo(샤오미 미모)
Xiaomi MiMo는 Xiaomi의 AI 모델 팀이자 모델 플랫폼 이름이야. LLM, 멀티모달, 음성 모델을 한 브랜드 아래 공개하고, Hugging Face와 자체 블로그를 통해 모델 카드와 데모 경로를 함께 보여 줘.
A4B MoE(A4B 전문가 혼합 표기)
A4B MoE는 Gemma 4 26B A4B처럼 모델 전체 크기와 실제로 켜지는 계산량을 따로 읽게 해 주는 희소 MoE 표기야.
Alibaba Qwen Team (알리바바 큐원 팀)
Alibaba Qwen Team(알리바바 큐원 팀)은 Qwen 모델 계열을 만들고 배포하는 Alibaba 쪽 모델 팀을 가리키는 이름이야. 모델 카드에서 이 이름이 등장하면 팀 브랜드, 실제 모델 ID, BF16·MLX 같은 변환본, 실행 런타임을 나눠 읽어야 해.
BF16 KV (BF16 키-값 캐시)
BF16 KV는 긴 문맥 추론에서 KV 캐시를 bfloat16으로 저장하는 설정이야. FP8 가중치와 같이 쓰면 가중치는 줄이되 캐시 정밀도는 16비트로 남기는 운영 선택이 돼.
DeepSeek-V3.2 기술 보고서
DeepSeek-V3.2 기술 보고서는 DSA, 128K 문맥, 대규모 RL, 에이전트 합성 데이터, V3.2-Speciale 벤치마크를 한 번에 설명한 공식 기술 문서야.
Gated DeltaNet(게이티드 델타넷)
Gated DeltaNet(게이티드 델타넷)은 Qwen3.5 계열에서 긴 컨텍스트 추론 부담을 낮추려고 attention 일부를 바꾼 선형 attention 계열 블록이야.
GPT-5.2 발표
GPT-5.2 발표는 OpenAI가 2025년 12월 11일 ChatGPT-5.2 이름과 API 모델 ID 매핑을 함께 공개한 출시 문서야.
Help Center(헬프 센터)
Help Center는 제품의 설치법, 지원 범위, 제한, 관리자 설정을 모아 두는 공식 지원 문서 공간이야. 뉴스보다 덜 화려하지만 실제 도입 판단에는 더 직접적으로 닿아.
Long Context (긴 문맥)
Long Context는 모델이 한 번의 요청 안에서 아주 긴 입력을 같이 읽고 다루는 능력을 가리키는 말이야. 기사에서 이 표현이 나오면 최대 길이 숫자만 보지 말고, 그 긴 정보를 실제로 끝까지 써먹는지도 같이 봐야 해.
Mega MoE(메가 MoE)
Mega MoE는 DeepSeek가 2026년 4월 공개 릴리스에서 소개한 MoE 실행 경로야. dispatch, linear1, SwiGLU, linear2, combine을 하나의 mega-kernel로 묶고 NVLink 통신과 tensor core 계산을 겹치는 방식이라, 새 모델 이름보다 MoE 추론 인프라 최적화로 읽는 게 맞아.
Moonshot AI(문샷 AI)
Moonshot AI는 Kimi, Kimi API, Kimi Code, Kimi K2 계열을 만드는 AI 회사야. 모델 하나 이름이 아니라 제품군, 개발자 플랫폼, 공개 모델 전략을 묶는 주체라서 Kimi와 Kimi K2를 분리해서 읽는 데 중요해.
Nous Research (누스 리서치)
Nous Research는 로컬 LLM 연구와 Hermes Agent 같은 에이전트 실행 환경을 함께 밀고 있는 연구·제품 팀 이름으로 읽으면 돼.
On-device AI(온디바이스)
On-device AI(온디바이스)는 모델 추론을 서버가 아니라 사용자 기기 안에서 직접 돌리는 배포 방식이야. 속도, 개인정보, 오프라인 동작 같은 조건을 같이 바꾸기 때문에 기술 이름보다 제품 전략에 가까운 말로 읽는 게 좋아.
openai-agents>=0.14.0(오픈AI 에이전트 SDK 0.14.0 이상)
OpenAI Agents SDK 0.14.0 이상 조건은 2026년 4월 15일 공개된 샌드박스 실행 흐름을 쓰기 위한 Python 패키지 기준이야.
Personal Intelligence(퍼스널 인텔리전스)
Gemini의 개인화 기능은 사용자의 과거 대화, 맞춤 지시, 연결된 Google 앱 맥락을 참고해 더 개인화된 답을 만들도록 돕는 기능이야.
Q8 KV (Q8 키-값 캐시)
Q8 KV는 LLM의 KV 캐시를 8비트 계열로 저장해 긴 컨텍스트에서 VRAM을 줄이는 실행 설정이야. 다만 FP8 KV, q8_0 KV, BF16 KV는 런타임마다 뜻과 품질 리스크가 달라서 같은 말로 보면 안 돼.
Qwen3.6-35B-A3B Benchmarks (큐웬3.6 벤치마크)
Qwen3.6-35B-A3B Benchmarks는 Alibaba Qwen 팀의 35B total / 3B active MoE 모델 점수를 해석하는 benchmark 항목이야. SWE-bench Verified 73.4 같은 숫자를 도입 근거로 쓰기 전에 평가 조건과 실제 저장소 재검증을 같이 확인하면 돼.
Terminal-Bench 2.0(터미널 벤치 2.0)
터미널에서 에이전트가 명령 실행부터 검증까지 끝내는지를 보는 벤치마크 버전이야.
Context Window(컨텍스트 윈도우)
모델이 한 번의 요청과 응답 동안 실제로 참고할 수 있는 전체 토큰 범위를 뜻해.
RTX 3090 (알티엑스 3090)
RTX 3090은 NVIDIA의 GeForce RTX 30 계열 고급 소비자 GPU야. 로컬 LLM 기사에서는 최신 서버 카드라는 뜻보다, 24GB VRAM을 가진 NVIDIA 카드에서 실행했다는 구체 하드웨어 조건으로 읽어야 해.
Hallucination (환각)
Hallucination은 AI가 근거 없거나 틀린 내용을 사실처럼 만들어 내는 현상을 말해. 핵심은 단순한 오답이 아니라, 틀린데도 그럴듯하게 말한다는 데 있어.
Small Language Model(소형 언어 모델)
작은 규모로 설계해서 적은 메모리와 계산 자원으로 돌리기 쉽게 만든 언어 모델 계열이야. 성능 절대치보다 속도, 비용, 배포 편의성이 중요할 때 자주 거론돼.
tok/s(초당 토큰)
tok/s는 모델이 1초에 몇 개의 토큰을 생성하는지 보는 속도 지표야. 숫자만 떼어 보지 말고 모델, 하드웨어, 런타임, 컨텍스트 조건을 같이 봐야 해.
모델
Nemotron 3 Nano Omni (네모트론 3 나노 옴니)
NVIDIA Nemotron 3 Nano Omni는 text, image, video, audio를 함께 읽는 30B-A3B 계열 multimodal understanding 모델이야. 긴 문서, 영상+음성, GUI screenshot을 한 질문 안에서 다룰 때 먼저 검토할 만해.
Nemotron OCR v2 (네모트론 OCR v2)
GPU 서버형 구조 보존 OCR이 정말 필요한지 먼저 가르는, 다국어 문서용 모델.
GPT-5.2 (지피티 5.2)
GPT-5 계열의 후속 API 버전이야. 5.1 다음 단계에서 컨텍스트 중심 작업을 비용·지연 기준으로 배치할지 잡아 주는 모델이야.
Claude(클로드)
Claude는 Anthropic의 대형 언어 모델 가족이자 그 모델을 앞세운 AI 제품 이름이야. 버전명 하나가 아니라 모델 라인업과 사용자 서비스 간판이 겹친 이름으로 읽어야 해.
Llama (라마)
Llama는 Meta가 내놓는 공개형 LLM 계열 이름이야. 기사에서 이 이름이 보이면 개별 점수보다 어떤 제품을 자체 배포하거나 파인튜닝하려는 흐름인지 같이 읽으면 좋아.
Gemini(제미니)
Gemini는 Google DeepMind가 만드는 멀티모달 모델 가족 이름이야. 챗봇 하나보다 Google이 앱, 검색, API를 같은 축으로 묶을 때 쓰는 큰 간판에 더 가까워.
Qwen (큐원)
Qwen (큐원)은 Alibaba Cloud가 굴리는 생성형 AI 모델 브랜드야. 오픈웨이트 모델과 클라우드 API가 한 이름 아래 같이 있어서, 기사에서 보이면 성능표보다 배포 경로부터 보면 맥락이 빨리 잡혀.
Gemma (젬마)
Gemma는 Google DeepMind가 내놓는 공개형 모델 계열이야. Gemini와 기술 뿌리를 공유하지만 개발자가 직접 내려받아 기기나 서버에 올려 쓰는 쪽에서 더 자주 거론돼.
Qwen3.6 (큐원 3.6)
Qwen3.6은 Alibaba Qwen 계열의 2026년 4월 세대 모델 묶음이야. 27B dense 모델, 35B-A3B MoE 공개 가중치, Model Studio API 계열을 섞어 부르기 쉬워서 먼저 배포 경로를 나눠 봐야 해.
V4-Flash (딥시크 V4-Flash)
V4-Flash는 DeepSeek V4 계열의 빠르고 저렴한 모델 버전이야. API에서는 Flash 모델명을 쓰고, 기존 chat/reasoner 호환 이름도 이 모델의 두 모드로 이어져.
Gemini Embedding(제미니 임베딩)
Gemini Embedding은 Google의 임베딩 모델 계열이야. text-only 001과 멀티모달 2를 나눠 보면 RAG, 검색, 벡터 DB 비용 판단이 덜 흔들려.
GPT-4 (지피티-4)
GPT-4는 OpenAI가 2023년 3월 14일 공개한 GPT 계열 모델이야. 지금은 최신 추천 모델이라기보다 GPT-4o 이전 세대의 기준점, 그리고 일부 API 호환성을 이해할 때 보는 이름에 가까워.
GPT-5 (지피티-5)
GPT-5는 OpenAI가 2025년 8월 공개한 추론 중심 모델로, 코딩·에이전트 작업·긴 문맥 처리를 API와 ChatGPT에서 맡기게 만든다.
GPT-5.5 (지피티 5.5)
GPT-5.5는 OpenAI가 2026년 4월 공개한 클라우드형 추론 모델로, 1,050,000토큰 문맥과 도구 사용을 바탕으로 코딩·리서치·문서 작업 같은 긴 업무를 API와 Codex에서 처리하게 해.
Kimi(키미)
Kimi는 Moonshot AI가 Kimi 웹·앱, Kimi API, Kimi Code로 제공하는 모델·제품 계열이야. 기사에서 Kimi K2, Kimi K2.5, Cursor 기반 모델, API 호출 경로가 섞여 나올 때 층위를 먼저 갈라 읽어야 해.
Mythos Preview (마이토스 프리뷰)
Anthropic의 마이토스 프리뷰는 일반 공개되지 않은 Claude 계열 프론티어 모델이야. 보안 취약점 탐지와 익스플로잇 추론 능력이 강해서 Anthropic의 제한 접근 프로그램 안에서 다뤄지고 있어.
Qwen3 (큐원3)
Qwen3는 Alibaba Qwen 팀이 2025년 4월 공개한 모델 세대야. dense 모델 6개와 MoE 모델 2개를 같은 이름 아래 묶고, thinking 모드와 non-thinking 모드를 같이 다뤄.
Alibaba Qwen (알리바바 큐원)
Alibaba Qwen은 Alibaba 산하 Qwen 팀의 모델 계열을 벤더 이름까지 붙여 부르는 표현이야. 단일 모델명이 아니라 Qwen3, Qwen3-14B, Qwen3-30B-A3B 같은 공개 가중치와 Alibaba Model Studio API 문맥을 갈라 읽어야 해.
DeepSeek Reasoner (딥시크 리저너)
DeepSeek Reasoner는 DeepSeek API에서 생각 모드로 호출하던 모델 이름이야. 2025년 1월 R1로 시작했지만, 2026년 5월 현재는 V4-Flash 생각 모드로 라우팅되는 legacy 별칭이라 날짜를 같이 봐야 해.
deepseek-chat (딥시크 챗)
DeepSeek의 Chat 별칭은 일반 채팅용 API 호환 모델명이야. 2026년 5월 3일 현재는 V4-Flash 비추론 모드로 라우팅되고, 2026년 7월 24일 15:59 UTC 이후 종료 예정이라 새 연동은 V4 모델명으로 옮기는 게 안전해.
GLM (지엘엠)
GLM은 단일 모델명이 아니라 GLM 계열 이름이야. `glm-5`, `glm-5.1`처럼 하위 모델 ID를 따로 골라 써야 실제 운영 판단이 맞아.
K2.5 (키미 K2.5)
K2.5는 Moonshot AI의 Kimi K2.5를 줄여 부르는 모델 버전 표기야. Cursor 채택 보도, OpenRouter 토큰 사용량, Kimi의 멀티모달 에이전트 기능이 같이 나올 때 어느 이야기를 하는지 먼저 갈라 봐야 해.
M2.7(엠투점칠)
M2.7은 MiniMax가 공개한 큰 코딩·에이전트 모델이야. 가중치는 열려 있지만 상업 사용은 바로 안 돼서, 점수보다 라이선스와 배포 조건을 같이 봐야 하는 이름이야.
Nano Banana(나노 바나나)
Nano Banana는 Gemini 앱에서 이미지 생성과 편집을 맡는 Google의 이미지 모델 이름이야. Mac 앱, Google Photos 개인화, Pro 재생성 기능처럼 Gemini 제품 안에 들어간 창작 기능으로 봐야 해.
Qwen3.5-27B (큐웬3.5-27B)
Qwen3.5-27B는 Alibaba의 Qwen 계열에 속한 27B급 오픈 웨이트 멀티모달 모델이야. 서비스형 이름표로 보기보다, 직접 내려받아 추론 서버에 올릴 수 있는 공개 모델 후보로 이해하는 쪽이 더 실전적이야.
V4 Pro (딥시크 V4 프로)
V4 Pro는 DeepSeek V4 계열의 Pro 모델을 줄여 부르는 말이야. 전체 1.6T, 활성 49B, 1M context, ChatCompletions API 지원을 Flash와 나눠 읽어야 해.
DeepSeek (딥시크)
DeepSeek는 중국 AI 회사 DeepSeek가 쓰는 브랜드 이름이야. 회사 이름, API 서비스, 공개 모델 계열이 한 단어로 같이 묶여 나오기 쉬워서 기사에서 이 이름이 보이면 먼저 어떤 층위를 말하는지 가려 읽는 게 중요해.
DeepSeek V3.2 (딥시크 V3.2)
DeepSeek V3.2는 DeepSeek가 2025년 12월 1일 공개한 685B급 오픈 웨이트 추론 모델 버전이야. 긴 문맥 효율과 에이전트의 도구 사용을 같이 노렸고, V4가 나오기 전 DeepSeek의 추론 기준선으로 자주 불렸어.
DeepSeek V4 (딥시크 V4)
DeepSeek V4 Preview는 2026년 4월 24일 공개된 DeepSeek의 V4 모델 패밀리야. API에서는 `deepseek-v4-pro`와 `deepseek-v4-flash`를 나눠 골라야 해.
GPT-2 (지피티-2)
GPT-2는 OpenAI가 2019년에 공개한 텍스트 생성용 Transformer 언어 모델 계열이야. 40GB 인터넷 텍스트, 논문 표기와 공개 체크포인트 표기가 갈리는 파라미터 수, 단계적 공개 논쟁까지 같이 봐야 제대로 읽혀.
GPT-5.3 Instant (GPT-5.3 인스턴트)
OpenAI의 GPT-5.3 Instant는 2026년 5월 5일 이전, ChatGPT의 기본 호출 경로에서 사용되던 GPT-5.3 계열 모델이에요. 그 뒤 기본 모델은 GPT-5.5 Instant로 전환되면서, 이전 호출 경로 체감은 단계적으로 정리됐어요.
GPT-5.5 Instant (지피티 5.5 인스턴트)
GPT-5.5 Instant는 OpenAI가 2026년 5월 5일 ChatGPT의 기본 Instant 모델로 공개한 GPT-5.5 계열 버전이야. GPT-5.3 Instant를 대체하면서 짧은 답변, 낮은 환각률, 더 강한 개인화 쪽으로 조정됐어.
GPT-OSS 20B(오픈 웨이트 모델)
OpenAI가 공개한 gpt-oss-20B는 Apache 2.0 오픈 웨이트 모델이라 로컬 추론 실험, 미세조정, 에이전트형 워크플로우를 빠르게 붙일 수 있어.
GPT-Rosalind(지피티-로절린드)
GPT-Rosalind는 OpenAI가 2026년 4월 16일 공개한 생명과학 연구용 추론 모델 계열이야. 일반 범용 GPT를 그대로 쓰는 문맥이 아니라, 신약 탐색·유전체 해석·실험 설계 같은 과학 워크플로에 맞춰 도구 사용과 도메인 추론을 강화한 모델로 보는 편이 정확해.
Kimi K2.6 (키미 K2.6)
Kimi K2.6은 Moonshot AI가 2026년 4월 공개한 멀티모달 오픈 웨이트 모델이야. 256K 컨텍스트, 1T 총 파라미터와 32B 활성 파라미터, 에이전트 작업 중심 설계가 같이 묶여 있어서 기존 Kimi K2 계열과 API 상품을 갈라서 봐야 해.
MiniMax M2.7(미니맥스 M2.7)
MiniMax M2.7은 MiniMax가 내놓은 agentic coding 중심 텍스트 모델이야. 가중치는 공개됐지만 상업 사용은 따로 승인받아야 해서, 성능 숫자보다 라이선스와 장비 조건을 같이 보는 쪽이 맞아.
Mistral(미스트랄 모델 계열)
Mistral은 보통 프랑스 회사 Mistral AI가 내놓는 언어 모델 계열을 묶어 부르는 이름이야. 단일 모델 하나보다 브랜드, API, 오픈 웨이트 배포 전략까지 함께 가리키는 말로 보는 게 맞아.
Qwen3-14B (큐원3 14B)
Qwen3-14B는 Alibaba Qwen 팀이 2025년 4월 29일 공개한 dense 14.8B 텍스트 모델이야. 32,768 네이티브 컨텍스트, 131,072 YaRN 확장, thinking/non-thinking 전환, 공식 GGUF 배포를 같이 봐야 해.
Qwen3.5-122B-A10B (122B MoE 대체형)
Qwen3.5-122B-A10B는 122B 모델에서 10B만 계산에 쓰는 MoE 구조야. 그래서 성능 수치가 출처에 따라 크게 갈리는 부분이 생기고, `llm-server`에서 실행 모드 선택이 중요해.
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled (쿠엔3.5-27B 클로드 4.6 오퍼스 리즈닝 디스틸드)
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled는 Alibaba/Qwen 기반 위에 Jackrong이 올린 커뮤니티 체크포인트야. Hugging Face에서 내려받아 로컬 런타임으로 돌리는 실험용 모델이지, Anthropic 공식 API 모델은 아니야.
Qwen3.5-9B (큐원 3.5-9B)
Qwen3.5-9B는 Qwen 3.5 계열의 9B 공개 가중치 모델이야. 공식 카드는 Gated DeltaNet, Gated Attention, FFN을 섞은 9B 구조와 262,144 토큰 기본 컨텍스트를 제시해. 긴 컨텍스트를 그대로 쓰면 KV 캐시와 GPU 메모리 비용을 먼저 계산해야 해.
Qwen3.5-9B BF16 (큐원 3.5-9B BF16)
Qwen3.5-9B BF16은 Qwen3.5-9B를 bfloat16 정밀도와 MLX/SafeTensors 경로로 실행하는 풀프리시전 배포 조건이야. 9B 모델이어도 파일 크기, KV 캐시, Apple Silicon 런타임 조건을 따로 봐야 해.
Qwen3.6-27B (큐원 3.6-27B)
API 호출, 원본 가중치 로컬 서빙, GGUF 실험을 모두 열어 둔 Qwen3.6-27B는 Alibaba Qwen 계열 모델이야. 긴 코드·문서 작업에 붙일 때 비용과 데이터 경계를 먼저 나눠 보면 좋아.
Qwen3.6-35B-A3B (큐원 3.6-35B-A3B)
Qwen3.6-35B-A3B는 35B 총량 중 3B만 켜는 Alibaba Qwen Team의 오픈 웨이트 모델이야. 코딩 에이전트와 긴 컨텍스트 작업에서 배포 방식과 비용 구조를 나눠 검토할 때 후보가 돼.
Sora (소라)
Sora (소라)는 OpenAI의 영상 생성 모델이자 그 모델을 앞세운 영상 제작 서비스 이름이야. 텍스트나 이미지에서 짧은 영상을 만들고 다듬는 흐름으로 이해하면 기사 문맥이 빨리 잡혀.
Anthropic Claude(앤트로픽 클로드)
Claude라는 이름은 모델군, Claude.ai 앱, 개발자 API를 함께 덮기 쉬워서 먼저 사용 경로를 나눠 읽어야 해.
ChatGPT-5.2 Pro (챗지피티 5.2 프로)
ChatGPT-5.2 Pro는 2025년 12월 11일 GPT-5.2와 함께 나온 ChatGPT의 상위 추론 경로야. API에서는 `gpt-5.2-pro`와 연결해 읽어야 해.
DeepSeek-V3.2-Speciale (딥시크 V3.2-Speciale)
V3.2-Speciale는 깊은 추론 벤치마크용 고연산 변형이고, API 운영은 출시 당시 V3.2 조건과 현재 V4 별칭 상태를 따로 읽어야 해.
Gemini 2.5 Flash (제미나이 2.5 플래시)
Gemini 2.5 Flash는 Google의 2.5 계열에서 속도와 비용을 낮춘 하이브리드 추론 모델이야. 1,048,576토큰 입력과 thinkingBudget 조절이 핵심이라, Pro보다 가벼운 자동화와 대량 API 호출에 먼저 비교돼.
Gemini 2.5 Pro (제미나이 2.5 프로)
Gemini 2.5 Pro는 Google의 상위 추론 모델로, 1,048,576토큰 입력과 고정적으로 켜지는 thinking 때문에 복잡한 코딩·분석 작업에 맞지만 비용과 지연도 같이 커지는 버전이야.
Gemini Embedding 2(제미니 임베딩 2)
Google의 이 임베딩 모델은 텍스트, 이미지, 비디오, 오디오, PDF를 하나의 벡터 공간에 놓아. 문서 RAG와 시각 검색에서 OCR만으로 처리하던 흐름을 다시 보게 해.
Gemini-3.0-Pro(제미나이 3.0 프로, 비교 표기)
Gemini-3.0-Pro는 Google 공식 API ID라기보다 Gemini 3 Pro를 가리키는 비교 표기야. 실제 API 이력은 3 Pro preview ID와 현재 3.1 Pro 대체 경로를 같이 봐야 해.
Gemma-4-26B-A4B-NVFP4(젬마 4 26B A4B NVFP4)
NVIDIA의 26B A4B NVFP4 체크포인트는 Google DeepMind 모델을 Model Optimizer로 양자화해 올린 Hugging Face 배포판이야. Blackwell과 vLLM 쪽에서 BF16 대신 더 작은 추론 후보로 볼 모델이야.
GPT-3 (지피티-3)
GPT-3는 OpenAI가 2020년에 발표한 175B 파라미터급 언어 모델 계열이야. 프롬프트 안에 예시를 넣어 작업을 지정하는 few-shot 사용법과 API 중심 배포 방식을 널리 각인시켰어.
GPT-3.5 (지피티-3.5)
GPT-3.5는 GPT-3의 텍스트 생성 계보를 OpenAI API로 운영하기 쉽게 정리한 모델 계열이야. 텍스트 중심의 기본 작업에서 비용과 반응속도가 중요한 구간에서 많이 쓰였어.
GPT-4.1 (지피티 4.1)
GPT-4.1은 OpenAI의 텍스트 파인튜닝 모델로, 1M 토큰 컨텍스트와 `gpt-4.1` 계열 미세조정 라인을 함께 다루는 버전 모델이야.
GPT-5-Codex (지피티 5 코덱스)
GPT-5-Codex는 OpenAI가 Codex형 코딩 에이전트 작업에 맞춰 낸 GPT-5 계열 모델이야. 400,000토큰 문맥 창, 128,000토큰 최대 출력, Responses API 전용 운용이라는 점을 일반 GPT-5나 GPT-5.1과 구분해서 봐야 해.
GPT-5.1 (지피티 5.1)
GPT-5.1은 OpenAI가 GPT-5 다음으로 내놓은 후속 버전이야. 코딩과 에이전트 작업에서 속도, 추론 강도, 툴 호출 감각이 어떻게 달라졌는지 볼 때 기준점으로 자주 보여.
GPT-5.1 Codex (지피티 5.1 코덱스)
GPT-5.1 Codex는 OpenAI가 Codex나 비슷한 코딩 에이전트 하네스에서 오래 도는 코드 작업을 맡기려고 낸 GPT-5.1 계열 API 모델이야. 400,000토큰 문맥 창과 128,000토큰 최대 출력을 쓰고, 일반 GPT-5.1이나 mini와 구분해서 봐야 해.
GPT-5.2 Pro 2025-12-11 스냅샷 (지피티 5.2 프로 고정 버전)
GPT-5.2 Pro 2025-12-11 스냅샷은 같은 Pro 모델을 재현성 있게 API에서 다시 부를 때 쓰는 고정 버전 이름이야.
GPT-5.2 Thinking (지피티 5.2 씽킹)
GPT-5.2 Thinking은 OpenAI가 ChatGPT에서 깊은 작업용으로 내놓은 GPT-5.2 경로야. API에서는 별도 `gpt-5.2-thinking` ID가 아니라 `gpt-5.2`로 봐야 해.
gpt-5.2-2025-12-11 (GPT-5.2 고정 스냅샷)
gpt-5.2-2025-12-11은 OpenAI의 기본 GPT-5.2를 2025년 12월 11일 버전으로 고정해서 부르는 API 스냅샷 ID야.
GPT-5.2-Codex (지피티 5.2 코덱스)
GPT-5.2-Codex는 코딩 작업에 맞춰 만든 OpenAI의 API 모델이야.
GPT-5.3 (지피티 5.3)
GPT-5.3은 OpenAI의 GPT-5 중간 버전 표기야. 확인 가능한 공개 경로는 ChatGPT/API alias `gpt-5.3-chat-latest`와 Codex용 `gpt-5.3-codex`로 갈라져서, 그냥 `gpt-5.3` 단일 API 모델로 읽으면 헷갈려.
GPT-5.3 Codex (지피티 5.3 코덱스)
GPT-5.3 Codex는 OpenAI의 장기 코딩 에이전트용 GPT-5.3 계열 API 모델이야. 공개 모델 카드 기준 문맥은 40만토큰, 최대 출력은 12.8만 토큰으로 잡아둬.
gpt-5.3-chat-latest (지피티 5.3 챗 레이티스트)
gpt-5.3-chat-latest는 OpenAI가 GPT-5.3 Instant를 API에서 부를 때 쓴 ChatGPT 대화용 모델 별칭이야. 2026년 3월 3일 공개 당시 기본 Instant 흐름과 연결됐지만, 지금의 chat-latest와는 분리해서 읽어야 해.
GPT-5.4 Mini (지피티 5.4 미니)
GPT-5.4 Mini는 Codex에서 빠른 코딩 작업과 하위 에이전트에 쓰는 OpenAI의 경량 모델이야. `gpt-5.5`나 `gpt-5.4`가 필요한 작업과 먼저 나눠 봐야 해.
gpt-5.4-2026-03-05 (GPT-5.4 고정 스냅샷)
gpt-5.4-2026-03-05는 OpenAI API에서 기본 GPT-5.4를 2026년 3월 5일 버전으로 고정해서 부르는 스냅샷 모델 ID야.
GPT-5.5 Instant (지피티 5.5 인스턴트)
GPT-5.5 Instant는 OpenAI가 2026년 5월 5일 ChatGPT의 기본 Instant 모델로 공개한 GPT-5.5 계열 버전이야. 답을 더 짧게 만들고, 환각과 부정확 답변을 줄이며, 개인화 맥락을 더 적극적으로 쓰는 쪽으로 바뀌었어.
GPT-5.5 Thinking (지피티 5.5 씽킹)
GPT-5.5 Thinking은 OpenAI ChatGPT에서 복잡한 요청을 받았을 때 기본 응답 경로보다 더 오래 생각해 답하는 GPT-5.5 계열 경로야.
gpt-image-2 (지피티 이미지 2)
gpt-image-2는 OpenAI의 최신 GPT Image 계열 이미지 생성 모델이야. 텍스트와 참고 이미지를 받아 새 이미지를 만들거나 기존 이미지를 고치는 API 모델로 보면 돼.
MiMo-V2.5-ASR (샤오미 음성인식 모델)
MiMo-V2.5-ASR는 Xiaomi MiMo가 공개한 8B 음성인식 모델이야. 중국어·영어, 여러 중국어 방언, 코드스위칭, 노래 가사, 잡음 많은 녹음까지 한 모델 안에서 전사하려는 쪽에 가까워.
Mistral AI (미스트랄 AI)
Mistral AI는 회사 이름이면서도 Mistral·Mixtral 같은 하위 모델과 Studio/API 배포 경로를 함께 떠올리게 만드는 우산 이름이야.
model="deepseek-reasoner" (딥시크 리저너 모델값)
model="deepseek-reasoner"는 DeepSeek API에서 reasoning 응답을 요청하던 legacy 모델 값이야. 2025년 1월 R1 호출값으로 시작했지만, 2026년 4월 V4 Preview 뒤에는 V4-Flash thinking mode로 라우팅되는 호환 이름이라 새 연동에서는 그대로 복사하면 위험해.
o1(OpenAI 추론 모델)
o1은 OpenAI가 복잡한 추론 작업에 맞춰 내놓은 o시리즈 모델이야. 빠른 범용 채팅보다 긴 문서 분석, 계획 수립, 코드 검토처럼 여러 단계를 따지는 일에 더 잘 맞아.
o3 (오쓰리)
o3는 OpenAI가 내놓은 추론형 모델이야. 복잡한 코드, 수학, 과학, 이미지 섞인 분석처럼 여러 단계를 거치는 일을 맡길 때 쓰는 이름으로 보면 쉬워.
Privacy Filter(프라이버시 필터)
OpenAI Privacy Filter는 긴 텍스트에서 이름, 이메일, 전화번호, 계정번호, 비밀키 같은 개인정보 범위를 찾아 라벨로 바꾸는 오픈 웨이트 모델이야.
Qwen3-14B-GGUF (큐원3 14B GGUF)
Qwen3-14B-GGUF는 Alibaba Qwen3-14B를 llama.cpp·Ollama 같은 로컬 실행기에서 바로 쓰기 쉽게 만든 공식 GGUF 양자화 배포야. Q4_K_M 9GB부터 Q8_0 15.7GB까지 골라야 해.
Qwen3-30B-A3B (큐웬3 30B A3B)
Qwen3-30B-A3B는 Alibaba Qwen3의 텍스트 MoE 모델이야. 총 30.5B 중 3.3B만 활성화하고, 32,768 네이티브 컨텍스트와 131,072 YaRN 확장을 지원해.
Qwen3.5-35B-A3B (큐원 3.5-35B-A3B)
Qwen3.5-35B-A3B는 알리바바가 공개한 35B 총량·3B 활성 MoE 멀티모달 모델로, 로컬 서빙과 Qwen3.5-Flash 관리형 API 사이에서 기준점이 되는 오픈 웨이트다.
Qwen3.6 27B FP8 (큐원 3.6 27B FP8)
Qwen3.6 27B FP8은 Alibaba Qwen 계열의 27B 공개 가중치를 FP8로 배포한 모델 변형이야. 긴 컨텍스트를 로컬 GPU에서 돌릴 때 가중치 정밀도, KV 캐시, VRAM 예산을 같이 보게 만드는 사례로 읽어야 해.
V3.2-Speciale (딥시크 V3.2-Speciale)
V3.2-Speciale는 DeepSeek-V3.2-Speciale의 짧은 표기이고, 깊은 추론 벤치마크에는 맞지만 도구 호출과 장기 API 운영에는 따로 확인이 필요한 모델이야.
Whisper (위스퍼)
Whisper (위스퍼)는 OpenAI가 공개한 음성 인식 모델이야. 오디오를 텍스트로 옮기고 여러 언어 음성을 영어로 번역하는 데 많이 써.
ChatGPT-5.2 Instant (챗지피티 5.2 인스턴트)
ChatGPT-5.2 Instant는 OpenAI가 2025년 12월 11일 ChatGPT에 배포한 GPT-5.2 계열의 빠른 대화 모델이야. API에서는 `gpt-5.2-chat-latest`가 이 경로에 대응해.
DeepSeek R1(딥시크 R1)
DeepSeek R1은 DeepSeek가 만든 추론 중심 모델이고, API에서는 `deepseek-reasoner`로 쓰며 MIT 라이선스 오픈 웨이트와 증류형 공개까지 같이 보는 게 중요해. 기사에서는 점수표보다 오픈 배포와 API 판매를 함께 미는 전략 카드로 읽는 편이 더 정확해.
DeepSeek V2.5 (딥시크 V2.5)
DeepSeek V2.5는 DeepSeek가 2024년 9월 5일 공개한 버전으로, DeepSeek-V2-0628과 DeepSeek-Coder-V2-0724를 합쳐 일반 대화와 코딩 능력을 한 모델에 묶은 공개 가중치 모델이야.
gpt-4o-mini (지피티-4o 미니)
gpt-4o-mini는 OpenAI API에서 빠른 텍스트·이미지 입력 작업을 낮은 토큰 단가로 처리하려고 쓰는 GPT-4o 계열의 작은 모델이야.
gpt-4o-mini-2024-07-18 스냅샷
gpt-4o-mini-2024-07-18은 GPT-4o mini를 2024년 7월 18일 버전으로 고정해 부르는 OpenAI API 스냅샷 ID야.
GPT-5.1 Codex mini (지피티 5.1 코덱스 미니)
GPT-5.1 Codex mini는 OpenAI가 2025년 11월 13일 공개한 저비용 코딩 전용 API 모델이야. 400,000토큰 문맥 창을 유지하면서 GPT-5.1 Codex보다 입력 5배, 출력 5배 싸서 장기 코딩 에이전트 작업을 오래 돌릴 때 먼저 보는 편이야.
gpt-5.1-chat-latest (지피티 5.1 챗 레이티스트)
gpt-5.1-chat-latest는 ChatGPT에 쓰이던 GPT-5.1 스냅샷을 가리키는 OpenAI API 별칭이야. 일반 `gpt-5.1`과 언제 다르게 봐야 하는지, 왜 지금은 기본 출발점으로 잘 안 권하는지 가를 때 필요해.
GPT-5.2 Pro (지피티 5.2 프로)
GPT-5.2 Pro는 OpenAI가 GPT-5.2 위에 더 무거운 계산을 얹은 상위 추론 모델이야. Responses API에서 어려운 코딩·분석·장기 작업에 써.
gpt-5.2-chat-latest (지피티 5.2 챗 레이티스트)
gpt-5.2-chat-latest는 ChatGPT-5.2 Instant에 대응하던 OpenAI API 별칭이야. 기본 GPT-5.2와 문맥·출력 한도가 달라서 로그와 배포 설정에서 따로 읽어야 해.
GPT-5.4 API (지피티 5.4 API)
GPT-5.4 API는 OpenAI API에서 `gpt-5.4` 모델 ID로 GPT-5.4를 호출하는 개발자용 경로야. 긴 문맥, 도구 사용, 코딩 에이전트, 컴퓨터 사용 작업을 API 안에서 다룰 때 기준점이 돼.
GPT-5.4 Pro (지피티 5.4 프로)
GPT-5.4 Pro는 OpenAI가 GPT-5.4 위에 더 무거운 추론 계산을 얹은 상위 모델이야. Responses API와 ChatGPT Pro·Enterprise에서 아주 까다로운 코딩·조사·분석 작업에 써.
GPT-5.4 Thinking (지피티 5.4 씽킹)
GPT-5.4 Thinking은 OpenAI가 ChatGPT에서 GPT-5.4를 더 긴 추론과 계획 공개에 맞춰 노출한 응답 경로야. API에서는 별도 Thinking 모델 ID가 아니라 `gpt-5.4`를 기준으로 봐야 해.
GPT-5.4-Cyber (지피티 5.4 사이버)
GPT-5.4-Cyber는 OpenAI가 GPT-5.4를 방어 목적의 사이버 보안 작업에 맞춰 제한 배포한 모델이야. 일반 공개 모델보다 TAC 접근권과 검증 조건을 먼저 봐야 해.
Lyria (리리아)
Lyria (리리아)는 Google DeepMind의 음악 생성 모델이야. 텍스트나 이미지를 받아 프로젝트용 트랙을 만드는 데 초점이 있어.
Phi (파이)
Phi는 Microsoft가 만든 소형 언어 모델 계열이야. 큰 모델보다 가볍게 돌리면서도 실무에 쓸 만한 성능을 노리는 전략을 보여줄 때 자주 같이 언급돼.
Claude Opus (클로드 오퍼스)
Claude Opus는 Anthropic 모델군이야. 긴 맥락 판단이 이어지는 과업에서 정확도를 우선할 때 기준점이 되는 축이야.
Claude Sonnet (클로드 소넷)
Claude Sonnet은 Anthropic이 Claude 제품군 안에서 코딩, 에이전트, 업무 자동화 같은 실제 배포용 작업에 앞세우는 주력 모델 계열이야. 기사에서 버전명이 빠져 있으면 성능표보다 어떤 사용처와 제품 전략을 밀고 있는지 읽는 단서로 보는 편이 맞아.
FLUX.1 (플럭스 원)
FLUX.1은 Black Forest Labs가 만든 이미지 생성 모델 계열이야. 고품질 결과와 함께 API 사용, 오픈 웨이트, 로컬 실행 흐름이 같이 붙는 이름이라서 실무 쪽에서 특히 자주 보여.
Gemini 2.5 (제미나이 2.5)
Gemini 2.5는 Google이 Pro, Flash, Flash-Lite 같은 변형으로 나눠 운영한 멀티모달 추론 모델 계열이야. 이름이 나오면 벤치마크 점수보다 어떤 변형이 어떤 업무와 가격 구간을 맡는지부터 읽는 편이 맞아.
Gemma 3(젬마 3)
Gemma 3(젬마 3)은 Google DeepMind가 공개한 오픈 모델 계열이야. 클라우드 서버뿐 아니라 노트북, 휴대폰, 단일 GPU나 TPU 같은 현실적인 배포 환경까지 겨냥해서 실사용 앱에 붙이기 좋게 나온 점이 중요해.
Gemma 4(젬마 4)
Gemma 4(젬마 4)는 Google DeepMind가 낸 오픈 모델 가족이야. 로컬 PC부터 휴대폰까지 올릴 수 있게 크기를 나눴고 Apache 2.0으로 풀려서 온디바이스와 로컬 추론 얘기에서 자주 튀어나와.
GLM 5.1(지엘엠 5.1)
GLM 5.1(지엘엠 5.1)은 Z.AI가 내놓은 코딩 중심 최신 모델이야. 200K 컨텍스트와 128K 출력, 장기 에이전트 작업 운영 포인트를 같이 밀어서 긴 개발 루프를 API로 돌릴 때 자주 거론돼.
GLM 5(지엘엠 5)
GLM 5(지엘엠 5)는 Z.AI가 코딩에서 엔지니어링으로 넘어가겠다고 내세운 플래그십 기반 모델이야. 긴 컨텍스트, deep thinking, 함수 호출을 한데 묶어서 복잡한 시스템 작업을 맡기려는 쪽에 초점이 있어.
GPT-4o(지피티-4o)
GPT-4o는 OpenAI가 만든 범용 멀티모달 모델이고, OpenAI API와 ChatGPT 흐름에서 텍스트·이미지·음성을 함께 다루는 데 쓰여. 기사에서 이 이름이 나오면 벤치마크 숫자보다 어떤 사용자 경험과 제품 전략을 밀고 있는지 먼저 보는 편이 맞아.
gpt-oss(지피티 오에스에스)
gpt-oss(지피티 오에스에스)는 OpenAI가 공개한 오픈 웨이트 추론 모델 계열이야. API로만 쓰는 GPT가 아니라 Hugging Face에서 내려받아 로컬·온디바이스·자체 GPU에 올릴 수 있는 OpenAI 계열이라는 점이 핵심이야.
Grok (그록)
Grok은 xAI가 만드는 생성형 AI 모델 계열 이름이자 그 모델을 얹은 챗봇 제품 이름으로도 같이 쓰여. 그래서 기사에서 Grok이 보이면 순수 모델 스펙 얘기인지, X와 붙은 사용자 제품 얘기인지 먼저 분리해서 읽어야 해.
Imagen (이마젠)
Imagen (이마젠)은 Google DeepMind의 텍스트-이미지 생성 모델이야. 문장을 넣으면 사진풍 이미지나 일러스트를 빠르게 만들어 줘.
Kimi K2 (키미 K2)
Kimi K2 (키미 K2)는 Moonshot AI가 만든 에이전트형 MoE 언어모델 계열이야. 기사에서 이 이름이 보이면 대화형 챗봇보다 코딩, 툴 호출, 긴 작업 흐름 자동화 쪽 모델로 읽으면 쉬워.
Mixtral(믹스트랄)
Mixtral은 Mistral AI가 만든 sparse MoE 계열 오픈 웨이트 언어 모델이야.
Stable Diffusion(스테이블 디퓨전)
Stable Diffusion은 Stability AI와 함께 자주 언급되는 이미지 생성 모델 계열이야.
Veo (비오)
Veo (비오)는 Google DeepMind가 만든 영상 생성 모델이야. 텍스트 프롬프트로 장면을 만들고 최신 계열은 오디오까지 같이 합성해.
프로젝트
PocketBase (포켓베이스)
PocketBase는 SQLite, admin UI, auth/files/realtime를 한 바이너리에 묶은 single-node 백엔드야. 내부툴이나 작은 MVP를 오늘 바로 띄워 볼 팀이면 여기서 먼저 걸러 볼 수 있어.
whisper.cpp (위스퍼.cpp)
Whisper를 로컬 장비나 자체 서버에 올릴 때 먼저 검토할 C/C++ 런타임이야.
Apache Airflow (아파치 에어플로)
Apache Airflow는 Python 코드로 작업 순서와 의존성을 적고, 예약 실행·재시도·실행 이력 확인까지 묶어 운영하는 도구야. 단순 예약 실행기인지 운영형 배치 플랫폼인지 UI와 DAG 구조를 같이 보며 가르는 편이 정확해.
Microsoft Qlib (마이크로소프트 Qlib)
Microsoft Qlib은 퀀트 연구에서 필요한 데이터 준비, 모델 학습, 백테스트, 결과 분석을 한 흐름으로 이어 주는 오픈소스 플랫폼이야. 먼저 볼 건 모델 점수가 아니라 데이터 규격과 qrun 재현성이 팀에 맞는지야.
LightRAG (라이트RAG)
LightRAG는 문서에서 엔터티와 관계를 뽑아 지식 그래프와 벡터 검색을 함께 쓰는 RAG 프레임워크야.
yfinance (와이파이낸스)
yfinance는 Yahoo Finance 데이터를 Python에서 빨리 훑고 묶어보는 데 강한 리서치용 라이브러리야.
NautilusTrader (노틸러스 트레이더)
NautilusTrader는 Rust 코어와 Python API를 묶어, 백테스트에서 돌린 전략을 같은 엔진 결로 라이브까지 잇고 싶은 팀이 먼저 볼 만한 트레이딩 프레임워크야.
Activepieces (액티브피시스)
Activepieces는 Zapier처럼 앱 자동화를 화면에서 만들고, 부족한 앱 연결은 TypeScript piece로 통합하는 오픈소스 도구야. 직접 서버에 설치하고 운영하는 제품이라는 점부터 확인하는 게 좋아.
HyperFrames (하이퍼프레임스)
HyperFrames는 프롬프트나 기획안을 HTML 장면으로 바꾼 뒤, 그 장면을 계속 손보며 다시 렌더하는 영상 프레임워크야.
Manifest (매니페스트)
Manifest는 에이전트와 AI 애플리케이션의 요청을 여러 모델 제공사 사이에서 라우팅하고, 실패 시 다른 모델로 넘김과 비용 추적을 한곳에 묶는 오픈소스 모델 라우터야.
NostalgiaForInfinity (노스탤지아 포 인피니티)
NFI는 Freqtrade에서 돌리는 전략 하나가 아니라, 전략 파일·설정 가드·보호 규칙을 같이 봐야 하는 운용 패키지야.
DeepGEMM(딥시크 CUDA 커널 라이브러리)
DeepGEMM은 DeepSeek가 공개한 NVIDIA CUDA/Tensor Core 커널 라이브러리야. GEMM이라는 행렬 곱셈 일을 FP8·FP4·BF16 경로로 빠르게 돌리고, 2026년 4월에는 Mega MoE와 FP4 Indexer까지 같은 코드베이스에 묶었어.
Agentic AQUA (에이전틱 아쿠아)
Agentic AQUA는 AI 어시스턴트가 자연어로 비트코인·라이트닝·리퀴드 지갑을 다루게 해주는 Python MCP 서버 겸 CLI야. 시드 하나로 비트코인과 리퀴드를 같이 관리하고 키는 로컬에만 둬.
Engram(엔그램)
Engram은 Claude Code·Codex·Cursor 같은 MCP 호환 AI 도구가 같은 사용자 컨텍스트를 읽도록, 정체성·결정·기록을 로컬 JSON으로 모아두는 identity layer야.
OpenMemory (오픈메모리)
OpenMemory는 LLM 에이전트와 코딩 어시스턴트가 세션을 넘기는 영구 컨텍스트를 SQLite·Postgres에 자체 호스팅으로 쌓아 두는 오픈소스 메모리 저장소야. RAG 벡터 검색이 아니라 episodic·semantic·procedural·emotional·reflective 다섯 종류 메모리를 분리해 저장하고, MCP 서버로 Claude Desktop·Codex·Copilot에 붙여 써.
데이터셋
Nemotron-Personas-Korea (네모트론 페르소나스 코리아)
NVIDIA가 공개한 한국어 합성 페르소나 데이터셋이야. 한국 사용자에게 맞는 에이전트 grounding, system prompt persona layer, 학습·도메인 데이터 씨앗으로 읽는 편이 맞아.
PII-Masking-300k(피아이아이 마스킹 300K)
AI4Privacy가 Hugging Face에 공개한 개인정보 마스킹 데이터셋이자 벤치마크야. OpenAI Privacy Filter 같은 모델이 긴 텍스트에서 민감한 정보를 얼마나 잘 찾는지 재는 공개 기준으로 자주 인용돼.
기법
agentic-coding(에이전틱 코딩)
agentic-coding(에이전틱 코딩)은 목표-계획-실행-재평가를 반복하는 작업 방식이야. 사람 승인 지점이 있어야 자동화 통제권을 잃지 않아.
벤치마크
벤치마크는 같은 조건에서 점수 차이를 비교하게 해주는 장치야. 조건이 바뀌면 점수 해석도 달라져.
RAG (검색 증강 생성)
RAG는 모델이 답을 만들기 전에 외부 문서부터 찾아보고, 그 내용을 바탕으로 답하게 만드는 방식이야. 모델을 다시 학습시키지 않고도 최신 정보나 사내 문서를 붙일 수 있어.
Training(학습)
Training(학습)은 모델이 데이터를 보면서 내부 가중치를 바꾸는 과정이야. 이 개념을 잡아두면 성능 향상, 비용 증가, training-free 같은 말이 각각 어디를 가리키는지 바로 읽을 수 있어.
Eval(평가)
Eval(평가)는 모델이나 AI 기능의 출력을 기준에 따라 시험해서 품질을 재는 작업이야. 새 모델 이름이라기보다 프롬프트, 워크플로, 에이전트가 제대로 동작하는지 확인하는 평가 기법으로 이해하면 맞아.
Quantization (양자화)
양자화는 모델 안의 숫자를 더 적은 비트로 바꿔서 메모리 사용량과 계산 비용을 줄이는 방법이야. 쉽게 말해 16비트나 32비트로 들고 있던 값을 8비트나 4비트처럼 더 가볍게 저장하는 쪽이야.
Distillation (지식 증류)
Distillation은 큰 모델이 내놓는 답변 패턴을 작은 모델이 배우게 해서, 품질을 최대한 유지하면서 비용과 지연 시간을 줄이려는 학습 기법이야.
--kv-cache-dtype bfloat16 (BF16 KV 캐시 저장 형식 플래그)
vLLM의 BF16 KV 캐시 저장 형식 플래그는 캐시를 bfloat16으로 고정하는 실행 설정이야. FP8 가중치 모델을 쓰더라도 긴 문맥 캐시는 16비트로 남길 수 있다는 점을 확인하게 해줘.
Fine-tuning (파인튜닝)
Fine-tuning (파인튜닝)은 이미 학습된 모델을 특정 데이터와 작업에 다시 맞추는 추가 학습 방식이야. 프롬프트만으로 잘 안 고정되는 말투, 형식, 분류 규칙을 모델 습관 차원에서 맞출 때 떠올리면 돼.
DeepSeek Sparse Attention (딥시크 스파스 어텐션)
DeepSeek Sparse Attention은 DeepSeek가 V3.2부터 도입한 희소 어텐션 기법이야. 긴 문맥에서 먼저 후보 토큰을 추리고 top-k key-value만 실제 어텐션에 넣어 계산량을 줄인다는 점이 중요해.
reasoning.effort (리즈닝 이포트)
reasoning.effort는 OpenAI 추론 모델이 답을 만들기 전에 얼마나 길게 생각할지 조절하는 요청 시점 설정이야. 품질, 지연 시간, reasoning 토큰 비용을 같이 바꾸는 스위치로 보는 편이 정확해.
Speech to Text(음성 인식)
Speech to Text(음성 인식)는 사람 목소리를 글로 바꿔서 검색, 자막, 명령 처리로 넘기는 입력 기술이야.
Vibe Coding(바이브 코딩)
Vibe Coding은 AI에게 방향을 말로 던지고 결과를 보면서 계속 조정하는 코딩 방식이야.
Function Calling(함수 호출)
Function Calling(함수 호출)은 모델이 답변만 쓰는 대신, 바깥 함수나 API를 어떤 인자로 부를지 구조화된 요청을 만드는 방식이야. 핵심은 문장 생성보다 외부 시스템과 연결되는 호출 계약에 있어.
Grounding (그라운딩)
Grounding은 모델 답변을 외부 근거와 연결해서 말하게 만드는 방법이야. 모델이 원래 알고 있던 것만 꺼내게 두지 않고, 실행 시점의 검색 결과나 내부 문서를 붙여 정확도를 끌어올리는 쪽에 가깝지.
Tool Use(도구 사용)
Tool Use는 모델이 검색, 코드 실행, API 같은 바깥 기능을 호출하고 그 결과를 다시 받아 다음 판단과 답변에 반영하는 실행 방식이야. 핵심은 답변 스타일이 아니라 실행 루프와 시스템 연결에 있어.
Guardrail(가드레일)
Guardrail은 AI 시스템이 위험한 입력이나 출력을 넘지 않게 막는 운영형 안전 장치야. 모델 한 개의 능력보다 입력 필터, 출력 검사, 정책 검증, 모니터링을 묶는 층으로 보는 편이 맞아.
Prompt Caching(프롬프트 캐싱)
Prompt Caching은 반복되는 프롬프트 앞부분 계산을 재사용해서 지연과 입력 비용을 줄이는 서빙 기법이야.
Prompt Engineering(프롬프트 엔지니어링)
Prompt Engineering은 모델을 다시 학습시키는 일이 아니라, 같은 모델에 넣는 지시와 맥락과 출력 형식을 설계해서 결과를 더 원하는 방향으로 맞추는 기법이야. 입력 설계 문제인지 모델 선택 문제인지 가르는 데 특히 중요해.
Red Teaming (레드 팀잉)
Red Teaming은 시스템을 일부러 흔들어 보면서 취약점과 실패 경로를 찾는 공격자 관점 테스트야. 평균 성능을 높이는 평가라기보다, 위험을 드러내고 줄이려는 안전 점검에 더 가까워.
RLHF(인간 피드백 기반 강화학습)
RLHF는 사람이 더 낫다고 고른 답을 바탕으로 모델 행동을 다듬는 학습 방식이야. 똑똑함 자체를 키운다기보다 사람 선호와 안전 기준 쪽으로 모델을 정렬하는 과정에 가까워.
Synthetic Data(합성 데이터)
Synthetic Data(합성 데이터)는 실제 데이터를 바로 쓰기 어려울 때, 비슷한 특성을 흉내 낸 데이터를 만들어 학습과 테스트에 쓰는 방식이야.
Text to Speech(음성 합성)
Text to Speech(음성 합성)는 글을 사람이 말하듯 들리는 소리로 바꿔서 읽어주기와 음성 인터페이스를 만드는 기술이야.
도구
Claude Code (클로드 코드)
Claude Code는 터미널에서 바뀐 부분을 diff로 제안하고 사람이 승인한 뒤에만 실행하는 AI 코딩 도구야.
LocalLLaMA (로컬라마)
LocalLLaMA는 LLM을 내 컴퓨터나 자체 서버에서 돌리는 사람들 이야기가 모이는 커뮤니티 이름이야. 특정 모델 하나를 가리키는 말이 아니라, 로컬 AI 운영 경험과 추천 스택이 흘러다니는 큰 정보 허브에 가까워.
OpenAI(오픈에이아이)
OpenAI는 GPT, ChatGPT, Codex, Sora 같은 모델과 서비스를 만드는 회사이자 연구 조직이야. 모델 하나의 이름이 아니라 그 라인업을 만들고 배포하는 주체를 가리켜.
Modal(모달)
Modal(모달)은 Python 코드와 의존성을 컨테이너처럼 감싸서 클라우드 CPU나 GPU에 서버리스로 올려 주는 AI 인프라 플랫폼이야. 모델을 만드는 도구라기보다 추론, 배치 작업, 학습 잡, 샌드박스 실행을 어디서 어떻게 굴릴지 정하는 운영 레이어에 가까워.
GitHub (깃허브)
GitHub (깃허브)는 코드를 어디에 두고 누가 왜 바꿨는지까지 함께 관리하게 해주는 협업 중심 개발 플랫폼이야.
Chat Completions(챗 컴플리션스)
챗 컴플리션스는 대화형 LLM 호출 인터페이스 이름이야. DeepSeek 같은 OpenAI 호환 API에서는 `/chat/completions` 엔드포인트를 뜻하고, `messages` 배열을 보내 답변, 스트리밍, JSON 출력, tool calls 같은 결과를 받는 경로로 읽는 편이 정확해.
Excel(엑셀)
Excel은 Microsoft의 스프레드시트 도구야. AI 제품을 붙여 쓸 때는 단순 표 계산 앱이 아니라, 수식·셀·워크북을 모델이 읽고 수정 요청을 만드는 작업 화면으로 봐야 해.
Gmail(지메일)
지메일은 Google의 이메일 도구야. AI 문맥에서는 단순 메일함보다, Gemini가 메일 요약·초안·검색·일정 생성을 수행하는 Workspace 안의 이메일 작업 화면으로 읽어야 정확해.
KTransformers (케이트랜스포머스)
KTransformers는 MoE 모델을 CPU와 [GPU](/ko/wiki/gpu/)에 나눠 올려 [VRAM](/ko/wiki/vram/) 부담을 줄이려는 추론·파인튜닝 프레임워크야. vLLM이나 SGLang처럼 단순한 API 서버라기보다 expert 배치 전략까지 만지는 도구에 가까워.
Docker(도커)
Docker는 앱과 실행 환경을 컨테이너 이미지로 묶어 같은 방식으로 실행하게 해 주는 컨테이너화 도구야. AI 자동화에서는 로컬 테스트, 셀프호스트 배포, 에이전트 샌드박스 경계를 볼 때 먼저 확인해야 해.
GitHub Copilot (깃허브 코파일럿)
GitHub Copilot은 에디터 안에서 코드 문맥을 보고 다음 코드나 함수 초안을 제안하는 GitHub의 AI 코딩 도구야. 이름은 하나지만, 실제로는 자동완성 하나보다 넓게 개발 습관과 리뷰 흐름까지 건드리는 제품 축으로 보는 편이 맞아.
llama.cpp (로컬 LLM 추론 엔진)
llama.cpp는 오픈 가중치 모델을 로컬 장비나 자체 인프라에서 직접 추론하게 해주는 실행 엔진이자 CLI·서버 도구 묶음이야. 모델 이름이라기보다 GGUF 포맷, 양자화, 하드웨어 백엔드, API 노출 방식을 실제 운영에 연결하는 층으로 보는 게 맞아.
llama.cpp(로컬 LLM 런타임)
llama-cpp는 llama.cpp를 태그와 검색에서 적을 때 쓰는 표기야. 실제로는 GGUF 모델을 C/C++ 기반 엔진으로 로컬 PC, GPU 서버, llama-server API에 올려 추론하게 만드는 런타임을 가리켜.
Slack(슬랙)
Slack은 채널, 메시지, 앱, 워크플로를 한 업무 대화 공간에 묶는 협업 도구야. AI 에이전트 문맥에서는 요청이 들어오고 결과가 돌아가는 실행 표면으로 봐야 정확해.
CloudTrail(클라우드트레일)
CloudTrail은 AWS 계정 안에서 누가 어떤 API와 관리 작업을 했는지 이벤트로 남기는 감사 로그 서비스야.
ModelScope(모델스코프)
ModelScope는 Alibaba 계열의 AI 모델 허브이자 Python SDK야. 단일 모델 이름이 아니라 공개 가중치 배포, 데이터셋, 온라인 체험, 로컬 실험 경로가 함께 붙는 배포 기반으로 보는 편이 맞아.
Responses API(리스폰스 API)
Responses API는 OpenAI가 텍스트 생성, 이미지 입력, 상태 보존, 도구 실행을 한 응답 단위로 묶은 인터페이스야. 단발성 채팅 호출보다 에이전트형 앱과 자동화 흐름 설계에 더 가까운 쪽이야.
Chat (대화형 AI 인터페이스)
Chat은 사람이 메시지를 보내고 LLM이 응답을 돌려주는 대화형 AI 사용 경로야. 웹 채팅 화면, Chat API, 모델 alias가 같은 말처럼 섞여 나올 때 먼저 분리해서 봐야 해.
DGX B200(디지엑스 B200)
DGX B200은 NVIDIA Blackwell GPU 8개, 1,440GB 총 GPU 메모리, 5세대 NVLink를 묶은 데이터센터용 DGX 시스템이야.
H100 (엔비디아 호퍼 GPU)
H100은 NVIDIA Hopper 세대의 데이터센터 GPU야. 80GB 메모리, FP8 Tensor Core, NVLink 같은 조건 때문에 LLM 추론·학습 기사에서 하드웨어 기준선으로 자주 쓰여.
Model Garden(모델 가든)
Model Garden은 Google Cloud에서 Google 모델, 파트너 모델, 오픈 모델을 고르고 시험하고 배포하는 모델 카탈로그야. 새 모델 이름이 아니라 Vertex AI와 Agent Platform 안의 모델 선택·배포 진입점으로 읽어야 해.
Alibaba Cloud API(알리바바 클라우드 API)
Alibaba Cloud API는 Alibaba Cloud Model Studio에서 Qwen 계열과 일부 서드파티 모델을 코드로 호출하는 개발 인터페이스야. Qwen Studio 같은 완성형 앱이 아니라, API 키와 베이스 URL, 모델 이름을 붙여 서비스 안에서 직접 운영하는 호출 경계로 읽는 편이 맞아.
Alibaba Cloud Model Studio(알리바바 클라우드 모델 스튜디오)
Alibaba Cloud Model Studio는 Qwen 계열과 일부 서드파티 모델을 API, OpenAI 호환 엔드포인트, 지식 검색, 에이전트·워크플로 앱으로 묶은 Alibaba Cloud의 생성 AI 플랫폼이야.
claude.ai(클로드 웹 앱)
claude.ai는 Anthropic이 Claude를 웹에서 쓰게 여는 소비자용 진입점이야. 모델 이름 하나라기보다 웹, 데스크톱, 모바일로 이어지는 Claude 앱 계정과 요금제, 사용 한도를 같이 읽어야 정확해.
DGX Spark(디지엑스 스파크)
DGX Spark는 NVIDIA GB10 Grace Blackwell 슈퍼칩, 128GB 통합 메모리, FP4 기준 최대 1PFLOP를 데스크톱 크기에 묶은 개인용 AI 컴퓨터야.
Google Drive(구글 드라이브)
Google Drive는 Google의 클라우드 파일 저장·공유 도구야. AI 문맥에서는 Gemini가 만든 파일을 내보내는 위치이자, 보관된 자료를 요약·검색·정리하는 협업 문맥으로 봐야 해.
Microsoft Foundry(마이크로소프트 파운드리)
이 플랫폼은 Azure 위에서 모델, 에이전트, 도구, 관측, 거버넌스를 한 프로젝트 경계로 묶는 기업용 AI 앱·에이전트 작업대야.
Model Studio API(모델 스튜디오 API)
Model Studio API는 Alibaba Cloud Model Studio 안에서 Qwen 계열과 일부 서드파티 모델을 코드로 호출하는 API 계층이야. 콘솔 전체나 Qwen Studio 같은 사용자용 앱이 아니라, API 키·리전별 base URL·모델 이름으로 서비스 요청을 보내는 운영 경계로 읽는 편이 맞아.
Model Studio(모델 스튜디오)
Model Studio는 보통 Alibaba Cloud Model Studio를 줄여 부르는 말이야. Qwen API, OpenAI 호환 엔드포인트, 플레이그라운드, 에이전트·워크플로 콘솔까지 묶어 부를 때 많이 써.
Ollama(올라마)
Ollama는 로컬 컴퓨터에서 언어 모델을 실행하고, 그 결과를 API로 꺼내 쓸 수 있게 해 주는 도구야. 채팅 앱이라기보다 로컬 모델 런타임과 호출 인터페이스를 같이 내주는 층에 가까워.
OpenAI Chat Completion(오픈AI 챗 컴플리션)
이 항목은 Alibaba Cloud Model Studio에서 Qwen 모델을 OpenAI 호환 `/chat/completions` 엔드포인트로 부르는 경로야. 기존 OpenAI SDK 코드에서 API key, base URL, model 이름을 바꿔 붙이기 쉬운 대신, 대화 이력과 도구 실행 흐름은 호출 쪽에서 직접 챙겨야 해.
OpenAI SDK(오픈에이아이 SDK)
OpenAI SDK는 OpenAI API를 Python, JavaScript, .NET, Java, Go에서 코드로 부르기 쉽게 감싼 공식 클라이언트 라이브러리 묶음이야. 같은 SDK가 OpenAI 호환 엔드포인트에도 자주 재사용돼서, API 자체와 SDK 자체를 구분해서 읽는 게 중요해.
Qwen API(큐원 API)
Qwen API는 Alibaba Cloud Model Studio에서 Qwen 계열 모델을 코드로 호출하는 인터페이스야. Qwen Studio 같은 완성형 앱이 아니라 API 키, 리전별 base URL, 호출 방식 3가지를 골라 서비스와 연결하는 개발 경로로 보는 게 맞아.
Qwen Studio(큐원 스튜디오)
Qwen Studio는 Alibaba Cloud가 qwen.ai에서 운영하는 대화형 AI 제품이야. Qwen 모델 계열 자체가 아니라, 웹·모바일·데스크톱에서 검색, 문서 읽기, 멀티모달 입력, 이미지·비디오 생성을 묶어 둔 작업 표면으로 읽는 편이 맞아.
Raspberry Pi (라즈베리 파이)
Raspberry Pi는 CPU, 메모리, 포트를 한 장 보드에 올린 초소형 컴퓨터 제품군이야. 센서 제어부터 작은 서버와 엣지 AI 실험까지 적은 전력과 비용으로 시작하게 해 줘.
VS Code(비주얼 스튜디오 코드)
VS Code는 Microsoft가 배포하는 확장형 코드 편집기야. Git, 터미널, 디버깅, 확장, 최근의 AI 에이전트까지 한 자리에 묶어서 개발 흐름 전체를 다루게 해.
Claude Desktop(클로드 데스크톱)
Anthropic의 Claude 데스크톱 앱은 macOS와 Windows에서 쓰는 설치형 클라이언트야. 모델 이름이 아니라 로컬 파일, 데스크톱 확장, MCP 연결, Cowork까지 만나는 실행 표면으로 봐야 해.
Codex(코덱스)
Codex는 OpenAI의 코딩 작업 도구야. 코드 수정, 테스트, 리뷰, 자동화까지 이어져서 단순 추천 기능보다 팀의 개발 흐름을 다시 짜게 만드는 쪽에 더 가까워.
Cursor(커서)
Cursor는 AI를 중심에 둔 코드 에디터 제품이야. 모델 이름이 아니라 편집기 이름이라서, 코드 탐색과 수정 제안과 에이전트 실행이 한 화면 안에서 이어져.
DeepSeek API(딥시크 API)
DeepSeek API는 DeepSeek 모델 자체를 가리키지 않고, 요청을 받아서 어떤 모델을 부를지 연결해 주는 호출 통로야.
Gemini API(제미니 API)
Gemini API는 Google 모델을 앱에서 호출할 때 쓰는 개발자용 인터페이스야. 채팅창 이름이라기보다 SDK와 HTTP 요청으로 멀티모달 입력, 구조화 출력, 도구 연결을 붙이는 접점에 가까워.
Google Calendar(구글 캘린더)
구글 캘린더는 Google의 일정 관리 도구야. AI 문맥에서는 Gemini와 워크스페이스 에이전트가 회의 시간, 이메일 속 일정, 앱 권한을 다루는 실행 표면으로 읽어야 정확해.
Google Docs(구글 문서)
Google Docs는 Google의 온라인 문서 편집 도구야. AI 문맥에서는 Gemini가 초안을 만들고 고치고, Gemini 앱 결과를 협업 문서로 넘기는 Workspace 표면으로 봐야 해.
Google Search(구글 검색)
Google Search는 Google의 웹 검색 제품이야. 요즘 AI 문맥에서는 링크 목록만 보여 주는 검색창이 아니라, AI Overviews, AI Mode, Gemini grounding에 실시간 정보를 공급하는 검색 계층으로 같이 읽는 편이 맞아.
Google Sheets(구글 시트)
Google Sheets는 브라우저와 모바일에서 같은 파일을 함께 편집하는 Google의 스프레드시트 도구야. 2026년에는 Gemini in Sheets 기능이 통합되면서 협업 문서와 AI 보조 흐름이 한 제품 안에서 더 강하게 합쳐지고 있어.
Hugging Face(허깅 페이스)
Hugging Face는 모델 저장소, 배포 경로, 라이브러리, 커뮤니티가 한데 묶인 생태계에 가까워. 그래서 모델 하나의 이름으로 읽기보다, 팀이 모델을 찾고 공유하고 배포하는 기반으로 보는 편이 맞아.
Jetson Thor(젯슨 토르)
Jetson Thor는 NVIDIA Blackwell 기반 로봇·엣지 AI 하드웨어 플랫폼이야. 데이터센터 GPU가 아니라 40W~130W 전력 범위에서 센서 처리와 로컬 추론을 묶는 Jetson 계열로 봐야 해.
Kimi API(키미 API)
Kimi API는 Moonshot AI의 Kimi 모델을 앱과 서버에서 코드로 호출하는 개발 인터페이스야. Kimi 웹앱 이름이나 Kimi K2.6 같은 개별 모델명이 아니라, OpenAI 호환 요청 형식과 Kimi 전용 확장을 함께 쓰는 운영 경계에 더 가까워.
Kimi Code(키미 코드)
Kimi Code는 Moonshot AI의 Kimi 멤버십에 포함된 에이전트형 코딩 도구야. 터미널, VS Code, 제3자 코딩 에이전트에서 쓰는 제품이라 Kimi K2.5 모델 자체와는 구분해서 봐야 해.
Live API(라이브 API)
Live API는 Gemini를 음성·영상 스트림에 낮은 지연시간으로 붙이는 실시간 API야. 일반 Gemini 2.5 Flash나 Chat Completions처럼 요청 하나에 텍스트 답을 받는 경로가 아니라, WebSocket 세션에서 오디오·영상·텍스트를 계속 주고받는 방식으로 봐야 해.
OpenClaw(오픈클로)
OpenClaw는 공식 API 대신 기존 AI 계정이나 구독을 비공식 클라이언트에 붙여 쓰게 만드는 연결 도구 계열이야.
Perplexity (퍼플렉시티)
Perplexity는 웹 검색 결과와 출처를 묶어 답으로 정리해 주는 답변형 검색 제품이야. 모델 이름이라기보다 검색, 요약, 출처 제시를 한데 묶은 서비스로 보는 게 더 정확해.
Agents SDK(에이전트 SDK)
Agents SDK는 OpenAI 모델로 에이전트 루프를 만들 때 도구 호출, 파일 작업, 샌드박스 실행, 추적을 코드로 묶어 주는 개발자용 SDK야.
Amazon Bedrock(아마존 베드록)
Amazon Bedrock은 AWS에서 여러 회사의 기반 모델 호출, RAG, Guardrails, Agent 실행을 한 관리 계층에서 처리하는 생성형 AI 플랫폼이야.
App Store(앱 스토어)
App Store는 Apple이 iPhone·iPad·Mac 앱을 배포하고 심사하는 스토어야. AI 기사에서는 모델 이름보다 배포 채널과 정책 병목을 읽는 단어로 보는 편이 맞아.
Batch API(배치 API)
Batch API는 대량의 모델 요청을 비동기 작업으로 묶어 제출하고, 나중에 결과를 한꺼번에 받는 추론 인터페이스야. 즉시 응답보다 비용 절감, 높은 처리량, 야간 일괄 작업에 더 맞는 경로라고 보면 돼.
claude --version (버전 조회)
Claude Code를 시작하기 전에 `claude --version`으로 버전 적합성을 먼저 확인하는 진입점 명령이에요.
Claude Code Remote Control(클로드 코드 리모트 컨트롤)
Claude Code Remote Control은 로컬에서 실행 중인 Claude Code 세션을 claude.ai/code나 Claude 모바일 앱에서 이어서 조작하게 해 주는 원격 제어 기능이야.
Claude Code v2.1.110(클로드 코드 2.1.110)
Claude Code v2.1.110은 2026년 4월 15일 공개된 Claude Code 릴리스야. `/tui fullscreen`, 모바일 푸시 알림 도구, 원격 제어 모바일·웹 명령 확대가 같이 들어온 버전으로 봐야 해.
claude remote-control(클로드 리모트 컨트롤 명령)
Remote Control 서버 모드 명령은 Claude Code에서 원격 제어 서버를 띄우는 CLI 진입점이야. claude.ai/code나 Claude 모바일 앱이 로컬 세션을 조작하게 해.
Cline(클라인)
Cline은 VS Code 계열 IDE 안에서 파일 수정, 명령 실행, 브라우저 작업까지 잇는 코딩 에이전트야.
Codex CLI(코덱스 CLI)
Codex CLI는 OpenAI의 코딩 에이전트를 터미널에서 실행하는 도구야. 선택한 디렉터리의 파일 읽기, 수정, 명령 실행, `codex exec` 자동화, MCP 연결까지 보면서 도입 범위를 정해야 해.
Gemini API File Search(제미니 API 파일 검색)
이 항목은 Gemini API 안에서 파일을 올리고, 인덱싱하고, 검색 결과를 모델 응답에 붙여 주는 관리형 RAG 도구야. 2026년 5월 업데이트 이후 텍스트와 이미지 검색, 커스텀 메타데이터, 페이지 단위 인용을 같이 봐야 해.
Gemini Developer API(제미니 디벨로퍼 API)
Google의 API 키 기반 Gemini 직접 경로는 앱에서 Gemini 모델을 바로 호출하고 운영할 때 쓰는 개발자용 API 제품이야. 단일 모델명이 아니라 Gemini 2.5 Pro 같은 모델 선택, 구조화 출력, 도구 호출, 배치 처리를 함께 다루는 경로에 가깝지.
Gemini Enterprise Agent Platform(제미니 엔터프라이즈 에이전트 플랫폼)
제미니 엔터프라이즈의 Agent Platform은 Google Cloud에서 AI 에이전트를 만들고, 실행하고, 권한과 로그까지 관리하는 엔터프라이즈용 운영 도구야. Gemini 모델 하나가 아니라 Vertex AI, Agent Studio, ADK, Runtime, Identity 같은 기능을 한데 묶는 경로로 읽어야 해.
Kimi.com(키미닷컴)
Kimi.com은 Moonshot AI의 Kimi 모델을 웹에서 쓰는 소비자용 진입점이야. Kimi K2.5 같은 모델 이름, Kimi API, Kimi Code와 같은 말처럼 보이지만 실제로는 채팅·문서·슬라이드·시트·웹사이트·Agent Swarm 작업을 화면에서 실행하는 제품 표면에 가까워.
llama-cli (로컬 LLM CLI)
llama-cli는 llama.cpp에 들어 있는 터미널 실행 파일이야. GGUF 모델을 로컬 파일이나 Hugging Face 저장소에서 불러와 바로 추론하고, 서버가 아니라 한 번의 CLI 실행으로 옵션을 확인할 때 써.
llama-server(로컬 LLM 서빙 서버)
llama-server(로컬 LLM 서빙 서버)는 ggml-org의 `llama.cpp`에 들어 있는 HTTP 서버 실행 파일이야. GGUF 모델을 로컬이나 자체 GPU 서버에 올리고 OpenAI·Anthropic 호환 API로 요청을 처리하게 만드는 서빙 서버/API 레이어로 이해해야 해.
Qwen Code(큐원 코드)
Qwen Code는 QwenLM이 공개한 터미널용 오픈소스 코딩 에이전트야. `qwen` CLI, Node.js 20+, headless, 에디터 통합, SDK 경로, 2026-04-15 OAuth 종료, 로컬 모델 연결 주소 같은 운영 조건을 같이 봐야 도입 판단이 빨라져.
codex -m gpt-5.4-mini (코덱스 5.4 미니 선택 명령)
이 표기는 Codex CLI에서 gpt-5.4-mini를 골라 새 코딩 세션을 시작하는 모델 선택 옵션이야. 빠른 보조 작업과 하위 에이전트에 맞는지, GPT-5.5나 GPT-5.4가 필요한지 나눠 봐야 해.
Continue(컨티뉴)
Continue는 IDE 보조 경험과 저장소용 AI 체크 흐름을 함께 제공하는 오픈소스 코딩 도구 계열이야.
LM Studio(엘엠 스튜디오)
LM Studio는 PC에서 로컬 LLM을 내려받아 실행하고 API처럼 열어 볼 수 있게 해 주는 데스크톱 앱이야.
OpenRouter(오픈라우터)
OpenRouter는 여러 AI 모델 회사를 한 API 창구로 묶어 주는 라우팅 서비스야.
Supabase(수파베이스)
Supabase(수파베이스)는 Postgres를 중심에 두고 인증, 스토리지, 실시간 기능까지 묶어 주는 백엔드 플랫폼이야. 앱 뒷단을 빨리 세우고 싶은 팀이 데이터 구조는 SQL답게 가져가고 싶을 때 특히 잘 맞아.
vLLM(브이엘엘엠)
vLLM은 이미 있는 대규모 언어 모델을 빠르게 돌리고 서비스하기 위한 추론 엔진이자 서빙 계층이야. 모델 자체보다 운영 구조를 바꾸는 런타임 선택지에 더 가까운 편이야.
Claude Cowork(클로드 코워크)
Claude Cowork는 Claude Desktop에서 파일, 앱, 브라우저를 실제로 다루며 지식 업무를 끝까지 처리하는 에이전트형 작업 도구야.
ComfyUI(컴피유아이)
ComfyUI(컴피유아이)는 이미지나 비디오 생성 파이프라인을 노드 그래프로 조립해서 실행하는 시각적 워크플로 도구야. 버튼 몇 개로 끝나는 생성 UI보다 과정 자체를 설계하고 다시 재현하고 싶은 사람한테 더 잘 맞아.
FAISS (페이스)
FAISS는 Meta가 만드는 dense vector 유사도 검색 라이브러리야. 완성형 벡터 데이터베이스라기보다, 벡터 인덱스를 만들고 nearest neighbor 검색을 빠르게 돌리는 저수준 엔진 쪽에 더 가깝지.
Google AI Studio(구글 AI 스튜디오)
Google AI Studio(구글 AI 스튜디오)는 Gemini를 브라우저에서 시험해 보고, 괜찮은 프롬프트를 바로 코드 호출로 이어 보는 실험 공간이야.
Google DeepMind (구글 딥마인드)
Google DeepMind는 Gemini 같은 모델 하나의 이름이 아니라, 구글 안에서 AI 연구와 모델 개발을 이끄는 조직 이름이야. 기사나 문서에서 이 이름이 나오면 개별 모델 성능보다 연구 방향, 제품 묶음, 회사 전략을 함께 읽어야 할 때가 많아.
MLflow(엠엘플로우)
MLflow는 실험 기록, 모델 버전, 평가 결과, 추적 데이터를 한 흐름으로 묶어 주는 오픈소스 AI 엔지니어링 플랫폼이야. 예전엔 실험 추적 도구 이미지가 강했지만 지금은 LLM과 에이전트 평가, 모니터링 쪽까지 범위를 넓히고 있어.
n8n(엔에잇엔)
n8n은 앱, API, AI 단계를 노드로 엮어 반복 업무를 자동화하는 워크플로 도구야.
OpenAI API(오픈에이아이 API)
OpenAI API는 OpenAI 플랫폼의 모델과 기능을 코드로 호출해 네 서비스 안에 붙이는 개발 인터페이스야. 모델 이름 하나가 아니라 인증, 호출 방식, 비용 통제, 장애 대응까지 묶인 운영 경계에 더 가까워.
Pinecone (파인콘)
Pinecone은 임베딩을 저장하고 비슷한 항목을 빠르게 찾아주는 관리형 벡터 데이터베이스 서비스야. RAG나 시맨틱 검색을 붙일 때 직접 인프라를 짜지 않고 시작하기 좋다는 뜻으로 자주 언급돼.
Qdrant (큐드런트)
Qdrant는 임베딩을 넣어 두는 단순 보관함이 아니라, 벡터 검색을 실제 서비스로 돌리기 위한 검색 엔진이자 데이터베이스야. 필터링, 하이브리드 검색, 운영 배포 선택지까지 포함한 retrieval 인프라로 이해하면 맞아.
Replicate(레플리케이트)
Replicate는 오픈소스 AI 모델을 클라우드에서 실행하고 API로 불러 쓰게 해 주는 서비스야. 직접 GPU 서버를 꾸리지 않고도 이미지, 음성, 비전, 언어 모델을 빠르게 붙여 볼 때 많이 써.
SGLang(에스지랭)
SGLang은 LLM과 멀티모달 모델을 낮은 지연과 높은 처리량으로 서빙하려고 만든 추론 프레임워크야. 이름만 보면 언어 도구 같지만 실제로는 GPU 자원을 더 효율적으로 쓰게 해 주는 서버 쪽 소프트웨어에 더 가까워.
Tokenizer(토크나이저)
Tokenizer는 텍스트를 토큰으로 쪼개고 숫자 ID로 바꾸는 규칙과 도구를 말해.
Triton Inference Server(트리톤 추론 서버)
Triton Inference Server는 여러 프레임워크로 만든 모델을 공통된 서버 형태로 배포하게 해 주는 추론 서버야. 모델을 하나 더 만드는 도구가 아니라, 이미 만든 모델을 운영 환경에서 안정적으로 서빙하는 계층이야.
Vector Database (벡터 데이터베이스)
Vector Database는 문장, 이미지, 코드 같은 데이터를 임베딩 벡터로 저장하고, 입력과 의미상 가까운 항목을 빠르게 찾아주는 검색 중심 저장소야. RAG에서는 문서 조각을 넣어 두고 질문과 관련 있는 내용을 꺼내 오는 핵심 계층으로 많이 쓰여.
Weaviate(위비에이트)
Weaviate(위비에이트)는 벡터와 원본 데이터를 함께 저장하면서 의미 검색을 해 주는 오픈소스 벡터 데이터베이스야. RAG나 추천, 검색 보강처럼 retrieval 품질이 중요한 앱에서 검색 계층 자체를 설계할 때 많이 거론돼.
Weights & Biases(웨이츠 앤 바이어시스)
Weights & Biases는 모델 실험 로그와 평가 결과, 산출물을 한곳에 모아 비교하게 해 주는 AI 개발 플랫폼이야. 모델을 직접 학습시키는 엔진이라기보다 실험 기록과 협업 흐름을 붙잡아 두는 쪽에 더 가까워.
Windsurf(윈드서프)
Windsurf는 AI를 편집기 한가운데에 넣어서 코딩 흐름을 이어 주려는 IDE 계열 도구야.
프레임워크
MLX(엠엘엑스)
MLX는 Apple의 칩이 들어간 Mac에서 배열 연산, 모델 학습, 로컬 LLM 추론을 돌리기 위한 오픈소스 배열 프레임워크야. 기사에서 MLX가 보이면 모델 이름보다 Mac 실행 경로와 메모리 조건을 먼저 봐야 해.
Transformer Engine(트랜스포머 엔진)
TE는 NVIDIA GPU에서 Transformer 계층을 FP8·FP4 같은 낮은 정밀도로 돌리기 쉽게 해 주는 라이브러리이자 혼합 정밀도 프레임워크야.
Agent Platform(에이전트 플랫폼)
Agent Platform은 AI 에이전트를 만들고, 실행하고, 권한과 로그까지 관리하는 운영 프레임워크야. 모델 호출 하나가 아니라 에이전트 수명주기를 표준화하는 층으로 읽어야 해.
Agent Runtime(에이전트 런타임)
Agent Runtime은 AI 에이전트를 프로덕션에 배포하고, 상태와 메모리, 코드 실행, 관측, 보안 경계를 함께 관리하는 실행 프레임워크야.
Claude Managed Agents(클로드 매니지드 에이전트)
Anthropic의 관리형 에이전트 API는 Claude를 장기 실행 에이전트로 돌리기 위한 하네스와 클라우드 런타임이야.
GGUF(GGUF 모델 파일 형식)
GGUF는 로컬 LLM을 돌릴 때 쓰는 모델 파일 형식이야. 가중치만 담는 게 아니라 메타데이터와 양자화 정보까지 같이 묶어 준다는 점이 중요해.
MCP (모델 컨텍스트 프로토콜)
MCP는 AI 앱이 파일, 데이터베이스, 검색, 실행 도구 같은 바깥 자원을 같은 규격으로 연결하게 하려는 프로토콜이야. 모델 성능을 높이는 기술이라기보다 연결 방식을 표준화하는 쪽에 가까워.
TensorRT Edge-LLM(텐서RT 엣지 LLM)
이 엣지 추론 프레임워크는 NVIDIA Jetson·DRIVE 같은 장치에서 LLM·VLM을 C++ 런타임으로 실행하게 해.
llm-server(로컬 llama.cpp 서빙 자동화 프레임워크)
llm-server는 llama.cpp와 ik_llama.cpp 위에서 GPU 감지, 플래그 합성, 모델 다운로드, AI self-tuning을 묶어 주는 로컬 서빙 프레임워크야. 추론 엔진을 새로 만드는 쪽보다 raw llama-server 운영을 자동화해서 여러 GPU와 긴 컨텍스트 환경의 실행 규칙을 묶어 주는 쪽이야.
PyTorch(파이토치)
PyTorch는 딥러닝 모델을 정의하고 학습하고 추론하는 데 쓰는 오픈소스 프레임워크야. 이름만 보면 단순한 개발 도구처럼 보이지만, 실제로는 팀의 실험 코드 구조, GPU 학습 방식, 체크포인트 관리, 배포 전환 방식까지 함께 묶는 기반이 되기도 해.
Runtime(런타임)
Runtime(런타임)은 저장된 모델을 실제 하드웨어에서 돌려서 응답을 뽑아내는 실행 계층이야.
x402 (에이전트 micropayment 프로토콜)
x402는 HTTP 402 Payment Required 상태 코드를 활용해 API 호출당 USDC micropayment를 자동 결제하는 오픈 프로토콜이야. AI 에이전트가 사람 개입 없이 유료 API와 MCP 서버에 결제하는 흐름을 표준화하는 게 목적이야.
CrewAI (크루에이아이)
CrewAI (크루에이아이)는 여러 AI 에이전트에게 역할을 나눠 주고 협업 흐름을 묶는 오케스트레이션 프레임워크야.
DeepSpeed(딥스피드)
DeepSpeed(딥스피드)는 큰 모델의 학습과 추론을 더 적은 메모리와 더 많은 병렬화로 굴리게 도와주는 최적화 라이브러리야. 새 모델 이름이 아니라 분산 학습 인프라를 붙이는 도구라고 이해해야 맥락이 맞아.
Gradio (그라디오)
Gradio (그라디오)는 파이썬 함수나 머신러닝 모델을 바로 만져보는 웹 UI로 바꿔 주는 프레임워크야.
JAX (잭스)
JAX (잭스)는 NumPy 같은 파이썬 계산 코드에 자동미분이랑 JIT 컴파일을 붙여 GPU나 TPU에서 빠르게 돌리게 해 주는 라이브러리야.
Kubeflow(쿠브플로우)
Kubeflow는 Kubernetes 위에서 머신러닝 워크플로를 굴리기 쉽게 만들어 주는 오픈소스 프레임워크야. 모델 하나를 더 똑똑하게 만드는 기술이라기보다 학습, 파이프라인, 서빙, 운영 규칙을 쿠버네티스 방식으로 묶는 쪽에 더 가까워.
LangChain (랭체인)
LangChain은 대형 언어 모델 앱과 에이전트를 만들 때 모델, 도구, 검색, 상태 흐름을 묶어주는 오픈소스 프레임워크야. 이름이 커 보여도 혼자서 팀의 배포 체계 전체를 뜻하는 말은 아니고, 관측·평가·배포까지 포함하려면 보통 LangGraph나 LangSmith 같은 주변 제품까지 같이 봐야 맞아.
LangGraph(랭그래프)
LangGraph는 상태를 들고 가는 AI 에이전트 워크플로를 그래프 형태로 짜게 해 주는 오케스트레이션 프레임워크야.
LlamaIndex (라마인덱스)
LlamaIndex는 LLM이 외부 문서와 데이터를 찾아 쓰게 연결하는 프레임워크야. 모델 자체를 만드는 도구라기보다 RAG, 검색, 문서 에이전트 흐름을 조립하는 층에 가까워.
ONNX(오닉스)
ONNX(오닉스)는 한 프레임워크에서 만든 모델을 다른 런타임과 배포 환경으로 옮기기 쉽게 만든 공통 포맷이야.
Streamlit(스트림릿)
Streamlit(스트림릿)은 파이썬 코드만으로 데이터 앱과 모델 데모 화면을 빨리 띄우게 해 주는 프레임워크야.
TensorFlow (텐서플로)
TensorFlow (텐서플로)는 머신러닝 모델을 만들고 학습시키고 서비스까지 이어 붙이는 프레임워크야.
Vercel AI SDK(버셀 AI SDK)
Vercel AI SDK(버셀 AI SDK)는 여러 AI API를 앱 코드에 붙이고 스트리밍 UI까지 연결하기 쉽게 만든 TypeScript 툴킷이야.
최근 업데이트
GPT-5.2 (지피티 5.2)
GPT-5 계열의 후속 API 버전이야. 5.1 다음 단계에서 컨텍스트 중심 작업을 비용·지연 기준으로 배치할지 잡아 주는 모델이야.
agentic-coding(에이전틱 코딩)
agentic-coding(에이전틱 코딩)은 목표-계획-실행-재평가를 반복하는 작업 방식이야. 사람 승인 지점이 있어야 자동화 통제권을 잃지 않아.
벤치마크
벤치마크는 같은 조건에서 점수 차이를 비교하게 해주는 장치야. 조건이 바뀌면 점수 해석도 달라져.
Claude Code (클로드 코드)
Claude Code는 터미널에서 바뀐 부분을 diff로 제안하고 사람이 승인한 뒤에만 실행하는 AI 코딩 도구야.
Claude Opus (클로드 오퍼스)
Claude Opus는 Anthropic 모델군이야. 긴 맥락 판단이 이어지는 과업에서 정확도를 우선할 때 기준점이 되는 축이야.
Agentic AQUA (에이전틱 아쿠아)
Agentic AQUA는 AI 어시스턴트가 자연어로 비트코인·라이트닝·리퀴드 지갑을 다루게 해주는 Python MCP 서버 겸 CLI야. 시드 하나로 비트코인과 리퀴드를 같이 관리하고 키는 로컬에만 둬.
24GB GPU(24GB VRAM 카드)
24GB VRAM GPU는 로컬 LLM을 바로 올릴 수 있는 만능 기준이 아니라, 모델 크기와 양자화와 컨텍스트 길이를 먼저 가르는 판단선이야.
tok/s(초당 토큰)
tok/s는 모델이 1초에 몇 개의 토큰을 생성하는지 보는 속도 지표야. 숫자만 떼어 보지 말고 모델, 하드웨어, 런타임, 컨텍스트 조건을 같이 봐야 해.
Engram(엔그램)
Engram은 Claude Code·Codex·Cursor 같은 MCP 호환 AI 도구가 같은 사용자 컨텍스트를 읽도록, 정체성·결정·기록을 로컬 JSON으로 모아두는 identity layer야.
OpenMemory (오픈메모리)
OpenMemory는 LLM 에이전트와 코딩 어시스턴트가 세션을 넘기는 영구 컨텍스트를 SQLite·Postgres에 자체 호스팅으로 쌓아 두는 오픈소스 메모리 저장소야. RAG 벡터 검색이 아니라 episodic·semantic·procedural·emotional·reflective 다섯 종류 메모리를 분리해 저장하고, MCP 서버로 Claude Desktop·Codex·Copilot에 붙여 써.
x402 (에이전트 micropayment 프로토콜)
x402는 HTTP 402 Payment Required 상태 코드를 활용해 API 호출당 USDC micropayment를 자동 결제하는 오픈 프로토콜이야. AI 에이전트가 사람 개입 없이 유료 API와 MCP 서버에 결제하는 흐름을 표준화하는 게 목적이야.
claude --version (버전 조회)
Claude Code를 시작하기 전에 `claude --version`으로 버전 적합성을 먼저 확인하는 진입점 명령이에요.
GPT-OSS 20B(오픈 웨이트 모델)
OpenAI가 공개한 gpt-oss-20B는 Apache 2.0 오픈 웨이트 모델이라 로컬 추론 실험, 미세조정, 에이전트형 워크플로우를 빠르게 붙일 수 있어.
GPT-4.1 (지피티 4.1)
GPT-4.1은 OpenAI의 텍스트 파인튜닝 모델로, 1M 토큰 컨텍스트와 `gpt-4.1` 계열 미세조정 라인을 함께 다루는 버전 모델이야.
GPT-5.2-Codex (지피티 5.2 코덱스)
GPT-5.2-Codex는 코딩 작업에 맞춰 만든 OpenAI의 API 모델이야.
AI 인프라
좋은 모델보다 먼저 묻는 게 먼저야. AI는 전력·열·회복력이 받쳐줘야 오래 가.
Google Cloud Agent Gateway (에이전트 게이트웨이)
Google Cloud의 Gemini Enterprise Agent Platform 안에서 에이전트가 외부 도구를 호출할 때 신원·정책·관측을 통합 통제하는 운영 게이트야.
Qwen3.5-122B-A10B (122B MoE 대체형)
Qwen3.5-122B-A10B는 122B 모델에서 10B만 계산에 쓰는 MoE 구조야. 그래서 성능 수치가 출처에 따라 크게 갈리는 부분이 생기고, `llm-server`에서 실행 모드 선택이 중요해.
Claude Sonnet (클로드 소넷)
Claude Sonnet은 Anthropic이 Claude 제품군 안에서 코딩, 에이전트, 업무 자동화 같은 실제 배포용 작업에 앞세우는 주력 모델 계열이야. 기사에서 버전명이 빠져 있으면 성능표보다 어떤 사용처와 제품 전략을 밀고 있는지 읽는 단서로 보는 편이 맞아.
RAM (시스템 메모리)
RAM은 운영체제와 앱이 지금 쓰는 데이터를 올려 두는 빠른 임시 메모리야. 로컬 LLM에서는 VRAM 밖으로 밀린 모델 레이어와 CPU 추론 속도를 가르는 숫자야.
MLX(엠엘엑스)
MLX는 Apple의 칩이 들어간 Mac에서 배열 연산, 모델 학습, 로컬 LLM 추론을 돌리기 위한 오픈소스 배열 프레임워크야. 기사에서 MLX가 보이면 모델 이름보다 Mac 실행 경로와 메모리 조건을 먼저 봐야 해.
PDF(문서 형식)
PDF는 문서의 글자, 이미지, 표, 레이아웃을 한 파일에 고정해 교환하는 문서 형식이야. AI 문서 처리에서는 텍스트 추출, OCR, 페이지 이미지 검색 중 무엇을 써야 하는지 먼저 가르는 입력 형태로 봐야 해.
AWS(아마존 웹 서비스)
AWS를 AI 기사에서 볼 때는 모델명이 아니라 Amazon의 클라우드 계정, 권한, 청구, 배포 경로로 읽어야 해. Bedrock과 보안 통제도 함께 따라와.
Instant(인스턴트)
Instant는 ChatGPT에서 빠른 기본 응답을 맡는 OpenAI의 모델 경로 이름이야. 2026년 5월 GPT-5.5 Instant가 GPT-5.3 Instant를 대체했어.
Reasoning Model (추론 모델)
Reasoning Model은 답을 바로 쓰기보다 더 긴 계산과 검토를 거쳐 복잡한 문제를 푸는 모델 계열이야. 빠른 채팅 모델과는 비용, 지연 시간, 검증 방식이 달라.
Linux(리눅스)
Linux는 커널과 배포판 생태계를 함께 가리키는 오픈 소스 운영체제 계열이야. AI 인프라 문맥에서는 배포판, GPU 드라이버, CUDA 빌드 경로까지 묶어 읽어야 실제 성능 차이를 덜 잘못 보게 돼.
p95(95번째 백분위 지연시간)
p95는 측정값의 95%가 그 값 이하에 들어오고 나머지 5%가 더 느린 경계값이야.
Thinking (씽킹)
Thinking은 AI 제품에서 모델이 바로 답하지 않고 더 긴 추론 예산을 써서 답을 만들도록 하는 모드나 경로를 가리켜. 사람의 생각을 그대로 보여 준다는 뜻은 아니야.
Apple (애플)
Apple은 iPhone, Mac, 자체 칩, Apple Intelligence를 한 공급자 안에서 묶는 회사야. AI 문맥에서는 기기 회사가 아니라 온디바이스 모델, 개발자 API, 프라이버시형 클라우드, 보안 협력까지 같이 보는 이름이야.
Blackwell (NVIDIA GPU 아키텍처)
Blackwell은 NVIDIA가 Hopper 다음 세대로 내놓은 GPU 아키텍처야. B200·GB200·RTX PRO 같은 제품군에서 FP4, 2세대 Transformer Engine, 5세대 NVLink 같은 AI 인프라 조건을 묶어 부르는 이름으로 쓰여.
Excel(엑셀)
Excel은 Microsoft의 스프레드시트 도구야. AI 제품을 붙여 쓸 때는 단순 표 계산 앱이 아니라, 수식·셀·워크북을 모델이 읽고 수정 요청을 만드는 작업 화면으로 봐야 해.
Flash(플래시)
Flash는 AI 모델 이름에서 빠른 응답, 낮은 지연 시간, 비용 효율 쪽에 놓인 모델 티어를 가리키는 라벨이야. Gemini Flash나 Qwen-Flash처럼 Pro·Max·Plus보다 가벼운 호출 경로를 읽을 때 먼저 보면 돼.
Gmail(지메일)
지메일은 Google의 이메일 도구야. AI 문맥에서는 단순 메일함보다, Gemini가 메일 요약·초안·검색·일정 생성을 수행하는 Workspace 안의 이메일 작업 화면으로 읽어야 정확해.
V4-Flash (딥시크 V4-Flash)
V4-Flash는 DeepSeek V4 계열의 빠르고 저렴한 모델 버전이야. API에서는 Flash 모델명을 쓰고, 기존 chat/reasoner 호환 이름도 이 모델의 두 모드로 이어져.
Bedrock(베드록)
Bedrock은 AI 문맥에서 대개 Amazon Bedrock을 줄여 부르는 말이고, 모델 이름이나 데이터센터 프로젝트 이름이 아니라 AWS의 모델·에이전트 운영 경로를 가리키는 경우가 많아.
Business(비즈니스)
Business는 AI 제품 문맥에서 개인용 기능과 조직용 도입 조건 사이를 가르는 접근 라벨이야. 모델 이름이 아니라 플랜, 관리자 권한, 데이터 사용 범위, 업무용 기능 공개 대상을 확인하게 만드는 말에 가까워.
DFlash (디플래시)
DFlash는 자동회귀 LLM의 다음 토큰 생성을 빠르게 하려고, 작은 블록 확산 draft 모델이 여러 후보 토큰을 한 번에 만들고 target 모델이 검증하는 추측 디코딩 방식이야.
INT4 (4비트 정수 정밀도)
INT4는 값을 4비트 정수와 스케일로 줄여 모델 가중치를 작게 저장하는 양자화 선택지야. LLM 추론에서는 보통 가중치 전용 압축으로 먼저 등장하고, FP4·BF16·INT8과 같은 말로 읽으면 설정을 잘못 잡기 쉬워.
NVLink(엔비디아 GPU 인터커넥트)
NVLink는 NVIDIA GPU 여러 장을 고대역폭 GPU-to-GPU 통신 경로로 묶는 인터커넥트야. AI 인프라에서는 GPU 개수보다 그 GPU들이 NVLink와 NVSwitch로 얼마나 자주, 얼마나 빠르게 데이터를 주고받는지까지 봐야 해.
OCR (광학 문자 인식)
OCR은 이미지, 스캔 문서, PDF 안의 글자를 기계가 다룰 수 있는 텍스트와 위치 정보로 바꾸는 기술이야. 문서 자동화에서는 첫 입력 정리 단계이고, 멀티모달 검색에서는 직접 이미지 임베딩과 역할을 나눠 봐야 해.
TechCrunch(테크크런치)
TechCrunch는 스타트업, 벤처, 앱, AI 제품 발표를 빠르게 보도하는 기술 매체야. AIKI에서는 모델이나 도구가 아니라 공식 발표를 시장 맥락으로 다시 읽을 때 확인하는 보도 출처로 보는 게 맞아.
Workspace(워크스페이스)
AI 제품에서 Workspace는 파일, 앱 연결, 공유 권한, 메모리, 에이전트 실행을 한 계정이나 팀 안에서 관리하는 작업 경계야. 채팅 답변이 업무 파일과 조직 권한으로 넘어가는 순간부터 이 말이 중요해져.
Edu(교육용 계정 라벨)
Edu는 ChatGPT 문맥에서 학교와 대학 같은 교육기관용 워크스페이스를 가리키는 접근 라벨이야. 새 기능이 Edu에 열린다고 하면 모델 이름보다 관리자 권한, 데이터 조건, 학생·교직원 배포 범위를 먼저 봐야 해.
F32 (32비트 부동소수점)
F32는 32비트 부동소수점 정밀도 표기야. 모델 카드에서는 FP32·float32와 같은 축으로 읽되, BF16 같은 다른 tensor type과 같이 보이면 전체 가중치가 모두 F32라고 단정하면 안 돼.
HumanEval(휴먼이밸)
HumanEval은 모델이 파이썬(Python) 함수 구현을 설명 주석(docstring)만 보고 만들어 내는지 재는 코드 생성 벤치마크야. 점수는 보통 pass@1, pass@10, pass@100처럼 테스트 통과율로 읽어.
MMLU(엠엠엘유)
MMLU는 언어 모델이 57개 과목의 객관식 문제를 풀며 넓은 지식과 문제 해결력을 얼마나 보이는지 재는 벤치마크야.
Mythos (마이토스)
Mythos는 Anthropic의 보안형 프리뷰 모델과 그 주변의 제한 접근 배포를 줄여 부르는 이름이야. 공개 챗봇보다 Glasswing 협력, 취약점 탐지, 접근 통제를 같이 봐야 해.
Nemotron(네모트론)
Nemotron은 NVIDIA가 에이전트용 공개 모델, 합성 데이터셋, RAG·문서·음성·안전 모델을 한 묶음으로 부르는 AI 계열 이름이야.
OAuth(권한 위임)
OAuth는 외부 앱이나 agent에게 비밀번호를 넘기지 않고 제한된 접근 권한을 주는 권한 위임 프로토콜이야. AI 도구에서는 API key 대신 사용자 OAuth, scope, token 보관 방식을 보는 기준이 돼.
Slack(슬랙)
Slack은 채널, 메시지, 앱, 워크플로를 한 업무 대화 공간에 묶는 협업 도구야. AI 에이전트 문맥에서는 요청이 들어오고 결과가 돌아가는 실행 표면으로 봐야 정확해.
StartupFortune(스타트업포춘)
스타트업포춘은 Qwen3.6 27B FP8 단일 GPU 사례를 스타트업의 로컬 추론 경제성으로 해석한 2차 분석 출처로 읽어야 해.
SwiGLU(스위글루)
SwiGLU는 Transformer의 feed-forward layer에서 두 선형 경로를 곱하고, 한쪽에 Swish를 쓰는 GLU 변형이야. attention이 아니라 FFN과 MoE 전문가 내부 계산을 이해할 때 자주 나오는 활성화 구조야.
Tensor Core(텐서 코어)
Tensor Core는 NVIDIA GPU 안에서 행렬곱과 혼합 정밀도 계산을 빠르게 처리하는 전용 연산 블록이야. AI에서는 BF16, FP8, FP4 같은 정밀도 선택과 실제 처리량을 같이 볼 때 자주 나와.
YaRN (야른)
YaRN은 RoPE 기반 모델의 컨텍스트 창을 더 길게 쓰기 위한 위치 임베딩 스케일링 방법이야. 긴 문맥 숫자가 네이티브 한계인지, 런타임에서 켠 확장 설정인지 가를 때 먼저 봐야 해.
Amazon (아마존)
Amazon은 전자상거래 회사 이름이면서 AWS, Bedrock, Trainium, 물류 AI를 함께 운영하는 공급자야. AI 기사에서는 쇼핑몰보다 클라우드·전력·칩·에이전트 인프라 쪽으로 읽을 때가 많아.
Azure(마이크로소프트 애저)
Azure는 Microsoft의 클라우드 플랫폼이야. AI 기사에서는 모델 이름이 아니라 배포, 계정, 보안, OpenAI 모델 접근 경로를 가르는 클라우드 축으로 읽어야 해.
BrowseComp(브라우즈컴프)
BrowseComp는 웹을 오래 탐색해야 풀 수 있는 1,266개 짧은 정답형 문제로 브라우징 에이전트의 집요한 정보 찾기 능력을 재는 OpenAI 벤치마크야.
CloudTrail(클라우드트레일)
CloudTrail은 AWS 계정 안에서 누가 어떤 API와 관리 작업을 했는지 이벤트로 남기는 감사 로그 서비스야.
Fortune(포춘)
Fortune은 기업, 리더십, 기술, AI 정책을 비즈니스 관점으로 읽는 경제 매체야. AIKI에서는 모델이나 도구가 아니라, 공식 발표가 시장과 규제 논쟁에서 어떻게 해석됐는지 보는 출처로 다루면 돼.
GDDR7(그래픽 DRAM 7세대)
그래픽 DRAM 7세대인 GDDR7은 GPU와 AI 가속기에서 VRAM 대역폭을 읽을 때 나오는 메모리 표기야. 로컬 LLM에서는 모델 이름이 아니라 가중치와 KV 캐시가 오가는 하드웨어 조건으로 봐야 해.
Gemini Embedding(제미니 임베딩)
Gemini Embedding은 Google의 임베딩 모델 계열이야. text-only 001과 멀티모달 2를 나눠 보면 RAG, 검색, 벡터 DB 비용 판단이 덜 흔들려.
Jackrong(허깅페이스 계정)
Jackrong은 Hugging Face에서 Qwen 기반 reasoning distillation 모델과 데이터셋을 올리는 커뮤니티 계정이야. Claude라는 이름이 붙은 체크포인트를 볼 때 공식 Anthropic 모델인지, 커뮤니티 파인튜닝 산물인지 가르는 단서가 돼.
LiveCodeBench(라이브코드벤치)
LiveCodeBench는 LeetCode, AtCoder, Codeforces의 새 문제를 계속 모아 코드 LLM을 평가하는 오염 방지형 코딩 벤치마크야. pass@1 숫자는 리리즈(release) 버전과 기간 조건이 붙어야 제대로 읽을 수 있어.
PrivateLink(프라이빗링크)
PrivateLink는 AWS VPC에서 Bedrock 같은 AWS 서비스나 다른 계정의 서비스로 사설 네트워크 경로를 만드는 기술이야. AI 인프라 기사에서는 모델 품질보다 네트워크와 감사 경계를 읽게 해 줘.
Project Glasswing (프로젝트 글래스윙)
Glasswing은 Anthropic이 Claude Mythos Preview를 방어 보안 쪽 파트너에게 먼저 열어 핵심 소프트웨어 취약점을 찾게 한 제한 접근 이니셔티브야.
SaaS(서비스형 소프트웨어)
SaaS는 서버 설치보다 계정, 권한, 데이터 경로, 제공자 운영 책임을 먼저 보게 만드는 클라우드 소프트웨어 모델이야.
Standard (스탠더드)
Standard는 API 가격표나 처리 옵션에서 할인 배치나 우선 처리 옵션을 붙이지 않은 기본 실시간 처리 기준이야. 모델 품질 등급이 아니라 비용과 지연 시간을 비교할 때 쓰는 기준선에 가까워.
Ultra(울트라)
Ultra는 Google AI Ultra를 줄여 부르는 말로, Google이 Gemini 앱과 여러 AI 제품의 상위 사용량과 일부 선공개 기능을 묶어 파는 개인용 구독 등급이야. 모델명이나 API 권한으로 읽으면 금방 헷갈려.
VIBE-Pro(바이브 프로)
VIBE-Pro는 모델이 저장소 수준 제품 요구사항을 끝까지 구현하는지 보는 코드 생성 벤치마크야. M2.7 공개 문맥에서는 웹, 안드로이드, iOS, 시뮬레이션 작업을 묶어 보는 프로젝트 납품형 신호로 쓰였어.
Chat (대화형 AI 인터페이스)
Chat은 사람이 메시지를 보내고 LLM이 응답을 돌려주는 대화형 AI 사용 경로야. 웹 채팅 화면, Chat API, 모델 alias가 같은 말처럼 섞여 나올 때 먼저 분리해서 봐야 해.
ChatGPT Instant (챗지피티 인스턴트)
ChatGPT의 Instant 경로는 빠른 일상 대화와 짧은 업무 질문을 맡는 기본 모델 선택지야. 특정 API 모델명 하나가 아니라, 시점별 GPT Instant 버전과 API 별칭을 나눠 읽어야 해.
DGX B200(디지엑스 B200)
DGX B200은 NVIDIA Blackwell GPU 8개, 1,440GB 총 GPU 메모리, 5세대 NVLink를 묶은 데이터센터용 DGX 시스템이야.
Enterprise AI(엔터프라이즈 AI)
Enterprise AI는 조직이 AI를 개인 실험이 아니라 권한, 데이터, 배포, 비용, 관측까지 포함한 운영 체계로 쓰는 방식을 가리키는 개념이야.
FP4 (4비트 부동소수점 포맷)
FP4는 숫자 하나를 4비트 부동소수점으로 줄이는 정밀도 계열이야. Blackwell의 NVFP4나 DeepGEMM의 FP8 x FP4 경로처럼, 메모리와 GEMM 처리량을 줄일 수 있지만 스케일링과 품질 회귀 검증이 없으면 바로 켤 수 없어.
FP8 양자화 가중치
FP8 양자화 가중치는 모델 가중치를 FP8 정밀도로 저장한 배포 형태야. FP8 모델이라는 말이 가중치, KV 캐시, 활성값까지 모두 8비트라는 뜻은 아니라서 실행 로그를 따로 봐야 해.
Google Cloud(구글 클라우드)
Google Cloud는 Compute Engine, Cloud Storage, BigQuery, Vertex AI, Agent Platform 같은 서비스를 한 프로젝트에서 관리하게 해 주는 구글의 클라우드 플랫폼이야. AI 기사에서 이 이름이 나오면 모델 발표보다 프로젝트, 리전, IAM, 청구, 로그가 필요한 Cloud 프로젝트 기반 배포인지 먼저 확인해야 해.
GPQA Diamond (지피큐에이 다이아몬드)
GPQA Diamond는 GPQA의 198문항짜리 엄격한 과학 추론 벤치마크야. 생물학, 물리학, 화학의 대학원급 객관식 문제로 모델의 전문 지식과 추론을 함께 봐.
HTTP API(HTTP 호출 인터페이스)
HTTP API는 앱이 HTTP 요청과 응답으로 모델 서버를 호출하게 해 주는 인터페이스 개념이야. 로컬 LLM 문맥에서는 llama-server 같은 서버를 띄우고 대화 생성 route로 JSON 요청을 보내는 경로를 말하는 경우가 많아.
K-12(유치원-고등학교 12학년)
K-12는 유치원부터 12학년까지의 초중등 교육 범위를 가리키는 라벨이야. AI 제품 문서에서는 학생용 기능보다 학교·교육청·교직원 워크스페이스의 접근 권한과 데이터 조건을 읽게 해.
Kimi(키미)
Kimi는 Moonshot AI가 Kimi 웹·앱, Kimi API, Kimi Code로 제공하는 모델·제품 계열이야. 기사에서 Kimi K2, Kimi K2.5, Cursor 기반 모델, API 호출 경로가 섞여 나올 때 층위를 먼저 갈라 읽어야 해.
Model Garden(모델 가든)
Model Garden은 Google Cloud에서 Google 모델, 파트너 모델, 오픈 모델을 고르고 시험하고 배포하는 모델 카탈로그야. 새 모델 이름이 아니라 Vertex AI와 Agent Platform 안의 모델 선택·배포 진입점으로 읽어야 해.
Mythos Preview (마이토스 프리뷰)
Anthropic의 마이토스 프리뷰는 일반 공개되지 않은 Claude 계열 프론티어 모델이야. 보안 취약점 탐지와 익스플로잇 추론 능력이 강해서 Anthropic의 제한 접근 프로그램 안에서 다뤄지고 있어.
Video Generation(영상 생성)
Video Generation(영상 생성)은 텍스트, 이미지, 짧은 참고 클립을 입력으로 받아 움직이는 장면을 만드는 생성형 AI 작업이야. 모델 이름보다 입력, 길이, 오디오, 편집 가능 범위를 먼저 봐야 해.
--kv-cache-dtype bfloat16 (BF16 KV 캐시 저장 형식 플래그)
vLLM의 BF16 KV 캐시 저장 형식 플래그는 캐시를 bfloat16으로 고정하는 실행 설정이야. FP8 가중치 모델을 쓰더라도 긴 문맥 캐시는 16비트로 남길 수 있다는 점을 확인하게 해줘.
CUDA 12.9(쿠다 12.9)
CUDA 12.9는 NVIDIA CUDA Toolkit 12.x 계열의 한 버전이야. 로컬 LLM 글에서 이 이름이 보이면 모델 성능보다 드라이버, PyTorch·vLLM 휠, Blackwell 지원, KV 캐시 설정이 같은 조합으로 맞았는지 먼저 봐야 해.
Deep Research (딥 리서치)
Deep Research는 모델이 검색과 파일, MCP 연결을 묶어 긴 조사 보고서를 만드는 리서치 에이전트야. 단순 요약 기능보다 근거 수집, 계획 검토, 인용, 시각화까지 이어지는 API 작업 흐름으로 읽어야 덜 헷갈려.
DGX Spark(디지엑스 스파크)
DGX Spark는 NVIDIA GB10 Grace Blackwell 슈퍼칩, 128GB 통합 메모리, FP4 기준 최대 1PFLOP를 데스크톱 크기에 묶은 개인용 AI 컴퓨터야.
FIM completion(중간 채우기 완성)
중간 채우기 완성은 앞부분(prefix)과 뒷부분(suffix)을 같이 주고 가운데 빠진 내용을 생성하게 하는 방식이야. DeepSeek API에서는 `/completions` 베타 경로에서 쓰며, 일반 Chat Completions와는 입력 모양부터 달라.
FP8 E4M3(8비트 E4M3 포맷)
FP8 E4M3는 FP8의 1-4-3 비트 배치로, E5M2보다 범위는 좁고 값 간격은 촘촘해서 활성값·가중치·NVFP4 스케일에 자주 쓰이는 포맷이야.
FP8 Tensor Core(FP8 텐서 코어)
NVIDIA Hopper 이후 GPU에서 FP8 행렬곱을 Tensor Core 경로로 처리해 BF16·FP16보다 메모리 이동량을 줄이고 Tensor Core 처리량을 높이려는 하드웨어 기능이야.
GDDR7 ECC(오류 수정 GDDR7 메모리)
로컬 LLM에서 GDDR7 ECC는 48GB·72GB급 GPU 메모리의 용량, 대역폭, 오류 대응 조건을 같이 보게 만드는 하드웨어 신호야.
Google Drive(구글 드라이브)
Google Drive는 Google의 클라우드 파일 저장·공유 도구야. AI 문맥에서는 Gemini가 만든 파일을 내보내는 위치이자, 보관된 자료를 요약·검색·정리하는 협업 문맥으로 봐야 해.
K2.5 (키미 K2.5)
K2.5는 Moonshot AI의 Kimi K2.5를 줄여 부르는 모델 버전 표기야. Cursor 채택 보도, OpenRouter 토큰 사용량, Kimi의 멀티모달 에이전트 기능이 같이 나올 때 어느 이야기를 하는지 먼저 갈라 봐야 해.
M5 Max 64GB(M5 맥스 64GB)
M5 Max 64GB는 별도 모델 이름이 아니라 M5 Max 칩에 64GB 통합 메모리가 붙은 로컬 LLM 벤치마크 장비 조건이야. DFlash나 MLX 수치를 볼 때 모델보다 먼저 확인해야 하는 하드웨어 조건표에 가까워.
Microsoft Foundry(마이크로소프트 파운드리)
이 플랫폼은 Azure 위에서 모델, 에이전트, 도구, 관측, 거버넌스를 한 프로젝트 경계로 묶는 기업용 AI 앱·에이전트 작업대야.
Nano Banana(나노 바나나)
Nano Banana는 Gemini 앱에서 이미지 생성과 편집을 맡는 Google의 이미지 모델 이름이야. Mac 앱, Google Photos 개인화, Pro 재생성 기능처럼 Gemini 제품 안에 들어간 창작 기능으로 봐야 해.
NVFP4 (NVIDIA FP4 포맷)
NVFP4는 NVIDIA Blackwell에서 쓰는 4비트 부동소수점 포맷으로, E2M1 값에 FP8 블록 스케일과 FP32 전역 스케일을 붙여 모델 메모리와 대역폭을 줄이는 선택지야.
OpenAI Help Center(오픈AI 도움말 센터)
help.openai.com은 ChatGPT, API, Codex, 계정, 결제, 보안 설정처럼 OpenAI 제품을 실제로 쓸 때 필요한 지원 문서를 모아 둔 공식 공간이야.
reasoning content(추론 내용)
reasoning content는 DeepSeek 사고 모드에서 최종 답변과 따로 돌아오는 추론 내용 필드야. 답변 본문, 사용량 집계, 도구 호출 뒤의 메시지 재구성을 나눠 봐야 할 때 중요해.
RTX PRO (엔비디아 전문가용 GPU 계열)
RTX PRO는 NVIDIA의 전문가용 RTX GPU 제품군이야. 로컬 LLM 문맥에서는 일반 GeForce 카드가 아니라 Blackwell 세대, GDDR7 ECC 메모리, CUDA 경로, 전력과 냉각 조건까지 붙은 워크스테이션·서버 GPU로 읽어야 해.
Transformer Engine(트랜스포머 엔진)
TE는 NVIDIA GPU에서 Transformer 계층을 FP8·FP4 같은 낮은 정밀도로 돌리기 쉽게 해 주는 라이브러리이자 혼합 정밀도 프레임워크야.
Trusted Access (신뢰 기반 접근)
신뢰 기반 접근(Trusted Access)은 신원, 조직, 사용 목적, 모니터링 신호를 보고 더 위험한 AI 기능을 단계적으로 여는 방식이야. 공개 모델 출시와 검증된 방어자용 접근권을 구분해서 읽어야 해.
V4 Pro (딥시크 V4 프로)
V4 Pro는 DeepSeek V4 계열의 Pro 모델을 줄여 부르는 말이야. 전체 1.6T, 활성 49B, 1M context, ChatCompletions API 지원을 Flash와 나눠 읽어야 해.
vLLM 0.20.1(브이엘엘엠 0.20.1)
vLLM 0.20.1은 Qwen3.6 27B FP8 단일 GPU 장문맥 사례에서 실행 조건으로 등장한 vLLM 버전이야. 모델 이름이 아니라, CUDA·KV 캐시·컨텍스트 길이·서빙 옵션을 같이 묶어 재현해야 하는 런타임 좌표로 읽어야 해.
Agent Identity(에이전트 신원)
에이전트 신원은 AI 에이전트마다 검증 가능한 암호학적 주체를 부여해서 도구 호출, 클라우드 접근, 사용자 위임 작업을 감사 가능하게 만드는 거버넌스 개념이야.
Agent Observability(에이전트 관측성)
에이전트 관측성은 배포된 AI 에이전트의 세션, 모델 호출, 도구 호출, 지연, 오류를 실행 흔적·지표·로그로 따라가며 운영 상태를 보는 개념이야.
Agent Platform(에이전트 플랫폼)
Agent Platform은 AI 에이전트를 만들고, 실행하고, 권한과 로그까지 관리하는 운영 프레임워크야. 모델 호출 하나가 아니라 에이전트 수명주기를 표준화하는 층으로 읽어야 해.
Agent Runtime(에이전트 런타임)
Agent Runtime은 AI 에이전트를 프로덕션에 배포하고, 상태와 메모리, 코드 실행, 관측, 보안 경계를 함께 관리하는 실행 프레임워크야.
ChatGPT Plus(챗지피티 플러스)
ChatGPT Plus는 OpenAI가 ChatGPT 웹앱에서 더 높은 사용 한도, 빠른 응답, 고급 모델·도구 접근을 제공하는 월 구독 플랜이야. API 요금제나 특정 GPT 모델 이름과는 다른 층위로 봐야 해.
ChatGPT Pro(챗지피티 프로)
ChatGPT Pro는 ChatGPT 안에서 Pro 모델, Codex, 깊은 리서치 기능 같은 고급 기능과 더 큰 사용량을 묶어 파는 OpenAI의 개인용 유료 구독 플랜이야. API 모델명이나 ChatGPT-5.2 Pro 같은 모델 선택지와는 층위가 달라.
Claude Desktop(클로드 데스크톱)
Anthropic의 Claude 데스크톱 앱은 macOS와 Windows에서 쓰는 설치형 클라이언트야. 모델 이름이 아니라 로컬 파일, 데스크톱 확장, MCP 연결, Cowork까지 만나는 실행 표면으로 봐야 해.
Claude Managed Agents(클로드 매니지드 에이전트)
Anthropic의 관리형 에이전트 API는 Claude를 장기 실행 에이전트로 돌리기 위한 하네스와 클라우드 런타임이야.
Claude Pro(클로드 프로)
Claude Pro는 Anthropic이 Claude.ai에서 제공하는 개인용 유료 구독 플랜이야. Claude 모델 이름이나 API 요금제가 아니라, 더 높은 사용량과 Claude Code 같은 제품 접근권을 묶은 구독으로 봐야 해.
File Search(파일 검색)
File Search는 AI 앱이 업로드된 문서와 이미지를 검색해 모델 답변의 근거로 쓰게 만드는 검색 계층이야. Gemini API에서는 2026년 5월 업데이트 이후 멀티모달 검색, 메타데이터 필터, 페이지 단위 인용이 같이 붙어 있어.
FP4 Indexer(FP4 인덱서)
FP4 Indexer는 DeepGEMM의 2026년 4월 업데이트에 들어간 MQA logits용 저정밀 인덱서 경로야. 긴 문맥에서 후보 토큰을 고르는 lightning indexer를 FP8/FP4 커널 쪽으로 더 밀어 넣는 변화로 보면 돼.
FP8 KV (FP8 키-값 캐시)
FP8 KV는 LLM 추론에서 KV 캐시를 8비트 부동소수점으로 저장하거나 FP8 attention 경로에서 읽게 하는 설정이야. 긴 컨텍스트와 동시 요청을 늘릴 수 있지만, 모델·백엔드·스케일 보정에 따라 품질 회귀가 달라져.
Google Calendar(구글 캘린더)
구글 캘린더는 Google의 일정 관리 도구야. AI 문맥에서는 Gemini와 워크스페이스 에이전트가 회의 시간, 이메일 속 일정, 앱 권한을 다루는 실행 표면으로 읽어야 정확해.
Google Docs(구글 문서)
Google Docs는 Google의 온라인 문서 편집 도구야. AI 문맥에서는 Gemini가 초안을 만들고 고치고, Gemini 앱 결과를 협업 문서로 넘기는 Workspace 표면으로 봐야 해.
GPT-5.5 Instant (지피티 5.5 인스턴트)
GPT-5.5 Instant는 OpenAI가 2026년 5월 5일 ChatGPT의 기본 Instant 모델로 공개한 GPT-5.5 계열 버전이야. GPT-5.3 Instant를 대체하면서 짧은 답변, 낮은 환각률, 더 강한 개인화 쪽으로 조정됐어.
Jetson Thor(젯슨 토르)
Jetson Thor는 NVIDIA Blackwell 기반 로봇·엣지 AI 하드웨어 플랫폼이야. 데이터센터 GPU가 아니라 40W~130W 전력 범위에서 센서 처리와 로컬 추론을 묶는 Jetson 계열로 봐야 해.
Kimi Code(키미 코드)
Kimi Code는 Moonshot AI의 Kimi 멤버십에 포함된 에이전트형 코딩 도구야. 터미널, VS Code, 제3자 코딩 에이전트에서 쓰는 제품이라 Kimi K2.5 모델 자체와는 구분해서 봐야 해.
License: mit (MIT 라이선스 표기)
License: mit는 Hugging Face 같은 모델 카드에서 저장소의 라이선스 값을 MIT로 표시하는 짧은 메타데이터야. 이 표기는 상업 사용 검토를 빠르게 시작하게 해 주지만, 데이터 권리와 상표 사용까지 한 번에 해결해 주진 않아.
Life Sciences(생명과학)
Life Sciences는 살아 있는 시스템을 연구하고 의약품, 임상, 바이오 데이터로 이어지는 생명과학 업무 영역이야. AI 기사에서는 특정 모델명이 아니라 문헌 검토, 실험 계획, 유전체 분석, 규제 문서처럼 사람이 검증해야 하는 연구 흐름을 가리키는 말로 읽어야 해.
Linux Foundation (리눅스 재단)
리눅스 재단은 Linux 커널 하나를 만드는 팀이 아니라, 오픈소스 프로젝트가 중립 거버넌스와 보안 대응 체계를 갖추게 돕는 비영리 재단이야. AI 보안 기사에서는 Mythos 같은 모델 접근을 유지보수자 지원과 연결하는 참여 조직으로 읽어야 해.
Live API(라이브 API)
Live API는 Gemini를 음성·영상 스트림에 낮은 지연시간으로 붙이는 실시간 API야. 일반 Gemini 2.5 Flash나 Chat Completions처럼 요청 하나에 텍스트 답을 받는 경로가 아니라, WebSocket 세션에서 오디오·영상·텍스트를 계속 주고받는 방식으로 봐야 해.
Managed Agents(관리형 에이전트)
관리형 에이전트는 실행 환경, 메모리, 권한, 로그를 클라우드 운영 계층에서 제공하는 배포 방식이야.
MMLU Pro(엠엠엘유 프로)
MMLU Pro는 기존 MMLU를 더 어렵게 만든 텍스트 객관식 벤치마크야. 14개 분야 12,032문항과 보통 10개 선택지를 써서 모델의 지식 암기보다 추론 문제 해결력을 더 빡빡하게 봐.
Nano Omni (나노 옴니)
Nano Omni는 NVIDIA가 공개한 30B-A3B 계열 공개 가중치 멀티모달 추론 모델을 줄여 부를 때 자주 보이는 별칭이야. 작은 옴니모달 모델 일반명인지, 특정 배포 단위인지 먼저 갈라 봐야 해.
OpenAI 발표
OpenAI 발표라는 문구는 새 모델, API, 연구 결과, 배포 정책을 공식 릴리스 글에서 확인해야 한다는 신호야. 제목보다 실제 공개 범위와 제한사항을 먼저 읽어야 해.
Palo Alto Networks (팔로알토 네트웍스)
Palo Alto Networks는 네트워크, 클라우드, 보안 운영 제품군을 묶어 파는 사이버보안 회사야. AIKI에서는 Anthropic의 Project Glasswing에 참여한 방어 보안 파트너로 읽어야지, 모델이나 프레임워크 이름으로 읽으면 안 맞아.
Prompting Guide(프롬프팅 가이드)
모델별 프롬프트 안내서는 문장 표현, API 값, 도구 규칙, 문서 버전을 분리해 실패 원인을 좁히는 운영 문서야. Sora와 Codex처럼 손댈 지점이 다른 제품을 한 기준으로 다루지 않게 해.
Qwen Team (큐원 팀)
Qwen Team은 Alibaba Group의 Qwen 모델 계열을 만들고 문서화하는 팀·출처명이야. 모델 카드에서 이 이름이 보이면 실행 모델이 아니라 Qwen3, Qwen3-14B, Qwen3-30B-A3B 같은 모델 ID를 찾아야 해.
Qwen3.5-9B BF16 (큐원 3.5-9B BF16)
Qwen3.5-9B BF16은 Qwen3.5-9B를 bfloat16 정밀도와 MLX/SafeTensors 경로로 실행하는 풀프리시전 배포 조건이야. 9B 모델이어도 파일 크기, KV 캐시, Apple Silicon 런타임 조건을 따로 봐야 해.
TensorRT Edge-LLM(텐서RT 엣지 LLM)
이 엣지 추론 프레임워크는 NVIDIA Jetson·DRIVE 같은 장치에서 LLM·VLM을 C++ 런타임으로 실행하게 해.
V4 Preview (V4 프리뷰)
V4 Preview는 DeepSeek가 2026년 4월 24일 공개한 DeepSeek-V4의 preview 출시 표기야. API 모델명은 `v4-preview`가 아니라 `deepseek-v4-pro`나 `deepseek-v4-flash`로 갈라 봐야 해.
Agents SDK(에이전트 SDK)
Agents SDK는 OpenAI 모델로 에이전트 루프를 만들 때 도구 호출, 파일 작업, 샌드박스 실행, 추적을 코드로 묶어 주는 개발자용 SDK야.
Alibaba Qwen Team (알리바바 큐원 팀)
Alibaba Qwen Team(알리바바 큐원 팀)은 Qwen 모델 계열을 만들고 배포하는 Alibaba 쪽 모델 팀을 가리키는 이름이야. 모델 카드에서 이 이름이 등장하면 팀 브랜드, 실제 모델 ID, BF16·MLX 같은 변환본, 실행 런타임을 나눠 읽어야 해.
Anthropic Claude(앤트로픽 클로드)
Claude라는 이름은 모델군, Claude.ai 앱, 개발자 API를 함께 덮기 쉬워서 먼저 사용 경로를 나눠 읽어야 해.
BF16 KV (BF16 키-값 캐시)
BF16 KV는 긴 문맥 추론에서 KV 캐시를 bfloat16으로 저장하는 설정이야. FP8 가중치와 같이 쓰면 가중치는 줄이되 캐시 정밀도는 16비트로 남기는 운영 선택이 돼.
ChatGPT-5.2 Pro (챗지피티 5.2 프로)
ChatGPT-5.2 Pro는 2025년 12월 11일 GPT-5.2와 함께 나온 ChatGPT의 상위 추론 경로야. API에서는 `gpt-5.2-pro`와 연결해 읽어야 해.
Claude Code Remote Control(클로드 코드 리모트 컨트롤)
Claude Code Remote Control은 로컬에서 실행 중인 Claude Code 세션을 claude.ai/code나 Claude 모바일 앱에서 이어서 조작하게 해 주는 원격 제어 기능이야.
Claude Code v2.1.110(클로드 코드 2.1.110)
Claude Code v2.1.110은 2026년 4월 15일 공개된 Claude Code 릴리스야. `/tui fullscreen`, 모바일 푸시 알림 도구, 원격 제어 모바일·웹 명령 확대가 같이 들어온 버전으로 봐야 해.
claude remote-control(클로드 리모트 컨트롤 명령)
Remote Control 서버 모드 명령은 Claude Code에서 원격 제어 서버를 띄우는 CLI 진입점이야. claude.ai/code나 Claude 모바일 앱이 로컬 세션을 조작하게 해.
DeepSeek-V3.2 기술 보고서
DeepSeek-V3.2 기술 보고서는 DSA, 128K 문맥, 대규모 RL, 에이전트 합성 데이터, V3.2-Speciale 벤치마크를 한 번에 설명한 공식 기술 문서야.
Gated DeltaNet(게이티드 델타넷)
Gated DeltaNet(게이티드 델타넷)은 Qwen3.5 계열에서 긴 컨텍스트 추론 부담을 낮추려고 attention 일부를 바꾼 선형 attention 계열 블록이야.
Gemini 2.5 Flash (제미나이 2.5 플래시)
Gemini 2.5 Flash는 Google의 2.5 계열에서 속도와 비용을 낮춘 하이브리드 추론 모델이야. 1,048,576토큰 입력과 thinkingBudget 조절이 핵심이라, Pro보다 가벼운 자동화와 대량 API 호출에 먼저 비교돼.
Gemini API File Search(제미니 API 파일 검색)
이 항목은 Gemini API 안에서 파일을 올리고, 인덱싱하고, 검색 결과를 모델 응답에 붙여 주는 관리형 RAG 도구야. 2026년 5월 업데이트 이후 텍스트와 이미지 검색, 커스텀 메타데이터, 페이지 단위 인용을 같이 봐야 해.
Gemini Embedding 2(제미니 임베딩 2)
Google의 이 임베딩 모델은 텍스트, 이미지, 비디오, 오디오, PDF를 하나의 벡터 공간에 놓아. 문서 RAG와 시각 검색에서 OCR만으로 처리하던 흐름을 다시 보게 해.
Gemini Enterprise Agent Platform(제미니 엔터프라이즈 에이전트 플랫폼)
제미니 엔터프라이즈의 Agent Platform은 Google Cloud에서 AI 에이전트를 만들고, 실행하고, 권한과 로그까지 관리하는 엔터프라이즈용 운영 도구야. Gemini 모델 하나가 아니라 Vertex AI, Agent Studio, ADK, Runtime, Identity 같은 기능을 한데 묶는 경로로 읽어야 해.
Gemini-3.0-Pro(제미나이 3.0 프로, 비교 표기)
Gemini-3.0-Pro는 Google 공식 API ID라기보다 Gemini 3 Pro를 가리키는 비교 표기야. 실제 API 이력은 3 Pro preview ID와 현재 3.1 Pro 대체 경로를 같이 봐야 해.
Gemma-4-26B-A4B-NVFP4(젬마 4 26B A4B NVFP4)
NVIDIA의 26B A4B NVFP4 체크포인트는 Google DeepMind 모델을 Model Optimizer로 양자화해 올린 Hugging Face 배포판이야. Blackwell과 vLLM 쪽에서 BF16 대신 더 작은 추론 후보로 볼 모델이야.
GPT-5.2 발표
GPT-5.2 발표는 OpenAI가 2025년 12월 11일 ChatGPT-5.2 이름과 API 모델 ID 매핑을 함께 공개한 출시 문서야.
GPT-5.2 Pro 2025-12-11 스냅샷 (지피티 5.2 프로 고정 버전)
GPT-5.2 Pro 2025-12-11 스냅샷은 같은 Pro 모델을 재현성 있게 API에서 다시 부를 때 쓰는 고정 버전 이름이야.
GPT-5.2 Thinking (지피티 5.2 씽킹)
GPT-5.2 Thinking은 OpenAI가 ChatGPT에서 깊은 작업용으로 내놓은 GPT-5.2 경로야. API에서는 별도 `gpt-5.2-thinking` ID가 아니라 `gpt-5.2`로 봐야 해.
gpt-5.2-2025-12-11 (GPT-5.2 고정 스냅샷)
gpt-5.2-2025-12-11은 OpenAI의 기본 GPT-5.2를 2025년 12월 11일 버전으로 고정해서 부르는 API 스냅샷 ID야.
gpt-5.3-chat-latest (지피티 5.3 챗 레이티스트)
gpt-5.3-chat-latest는 OpenAI가 GPT-5.3 Instant를 API에서 부를 때 쓴 ChatGPT 대화용 모델 별칭이야. 2026년 3월 3일 공개 당시 기본 Instant 흐름과 연결됐지만, 지금의 chat-latest와는 분리해서 읽어야 해.
GPT-5.4 Mini (지피티 5.4 미니)
GPT-5.4 Mini는 Codex에서 빠른 코딩 작업과 하위 에이전트에 쓰는 OpenAI의 경량 모델이야. `gpt-5.5`나 `gpt-5.4`가 필요한 작업과 먼저 나눠 봐야 해.
gpt-5.4-2026-03-05 (GPT-5.4 고정 스냅샷)
gpt-5.4-2026-03-05는 OpenAI API에서 기본 GPT-5.4를 2026년 3월 5일 버전으로 고정해서 부르는 스냅샷 모델 ID야.
gpt-image-2 (지피티 이미지 2)
gpt-image-2는 OpenAI의 최신 GPT Image 계열 이미지 생성 모델이야. 텍스트와 참고 이미지를 받아 새 이미지를 만들거나 기존 이미지를 고치는 API 모델로 보면 돼.
Kimi.com(키미닷컴)
Kimi.com은 Moonshot AI의 Kimi 모델을 웹에서 쓰는 소비자용 진입점이야. Kimi K2.5 같은 모델 이름, Kimi API, Kimi Code와 같은 말처럼 보이지만 실제로는 채팅·문서·슬라이드·시트·웹사이트·Agent Swarm 작업을 화면에서 실행하는 제품 표면에 가까워.
llama-cli (로컬 LLM CLI)
llama-cli는 llama.cpp에 들어 있는 터미널 실행 파일이야. GGUF 모델을 로컬 파일이나 Hugging Face 저장소에서 불러와 바로 추론하고, 서버가 아니라 한 번의 CLI 실행으로 옵션을 확인할 때 써.
model="deepseek-reasoner" (딥시크 리저너 모델값)
model="deepseek-reasoner"는 DeepSeek API에서 reasoning 응답을 요청하던 legacy 모델 값이야. 2025년 1월 R1 호출값으로 시작했지만, 2026년 4월 V4 Preview 뒤에는 V4-Flash thinking mode로 라우팅되는 호환 이름이라 새 연동에서는 그대로 복사하면 위험해.
openai-agents>=0.14.0(오픈AI 에이전트 SDK 0.14.0 이상)
OpenAI Agents SDK 0.14.0 이상 조건은 2026년 4월 15일 공개된 샌드박스 실행 흐름을 쓰기 위한 Python 패키지 기준이야.
Q8 KV (Q8 키-값 캐시)
Q8 KV는 LLM의 KV 캐시를 8비트 계열로 저장해 긴 컨텍스트에서 VRAM을 줄이는 실행 설정이야. 다만 FP8 KV, q8_0 KV, BF16 KV는 런타임마다 뜻과 품질 리스크가 달라서 같은 말로 보면 안 돼.
Qwen3-14B-GGUF (큐원3 14B GGUF)
Qwen3-14B-GGUF는 Alibaba Qwen3-14B를 llama.cpp·Ollama 같은 로컬 실행기에서 바로 쓰기 쉽게 만든 공식 GGUF 양자화 배포야. Q4_K_M 9GB부터 Q8_0 15.7GB까지 골라야 해.
Qwen3.6 27B FP8 (큐원 3.6 27B FP8)
Qwen3.6 27B FP8은 Alibaba Qwen 계열의 27B 공개 가중치를 FP8로 배포한 모델 변형이야. 긴 컨텍스트를 로컬 GPU에서 돌릴 때 가중치 정밀도, KV 캐시, VRAM 예산을 같이 보게 만드는 사례로 읽어야 해.
Qwen3.6-35B-A3B Benchmarks (큐웬3.6 벤치마크)
Qwen3.6-35B-A3B Benchmarks는 Alibaba Qwen 팀의 35B total / 3B active MoE 모델 점수를 해석하는 benchmark 항목이야. SWE-bench Verified 73.4 같은 숫자를 도입 근거로 쓰기 전에 평가 조건과 실제 저장소 재검증을 같이 확인하면 돼.
V3.2-Speciale (딥시크 V3.2-Speciale)
V3.2-Speciale는 DeepSeek-V3.2-Speciale의 짧은 표기이고, 깊은 추론 벤치마크에는 맞지만 도구 호출과 장기 API 운영에는 따로 확인이 필요한 모델이야.
ChatGPT-5.2 Instant (챗지피티 5.2 인스턴트)
ChatGPT-5.2 Instant는 OpenAI가 2025년 12월 11일 ChatGPT에 배포한 GPT-5.2 계열의 빠른 대화 모델이야. API에서는 `gpt-5.2-chat-latest`가 이 경로에 대응해.
codex -m gpt-5.4-mini (코덱스 5.4 미니 선택 명령)
이 표기는 Codex CLI에서 gpt-5.4-mini를 골라 새 코딩 세션을 시작하는 모델 선택 옵션이야. 빠른 보조 작업과 하위 에이전트에 맞는지, GPT-5.5나 GPT-5.4가 필요한지 나눠 봐야 해.
gpt-4o-mini (지피티-4o 미니)
gpt-4o-mini는 OpenAI API에서 빠른 텍스트·이미지 입력 작업을 낮은 토큰 단가로 처리하려고 쓰는 GPT-4o 계열의 작은 모델이야.
gpt-4o-mini-2024-07-18 스냅샷
gpt-4o-mini-2024-07-18은 GPT-4o mini를 2024년 7월 18일 버전으로 고정해 부르는 OpenAI API 스냅샷 ID야.
GPT-5.4 API (지피티 5.4 API)
GPT-5.4 API는 OpenAI API에서 `gpt-5.4` 모델 ID로 GPT-5.4를 호출하는 개발자용 경로야. 긴 문맥, 도구 사용, 코딩 에이전트, 컴퓨터 사용 작업을 API 안에서 다룰 때 기준점이 돼.
GPT-5.4 Thinking (지피티 5.4 씽킹)
GPT-5.4 Thinking은 OpenAI가 ChatGPT에서 GPT-5.4를 더 긴 추론과 계획 공개에 맞춰 노출한 응답 경로야. API에서는 별도 Thinking 모델 ID가 아니라 `gpt-5.4`를 기준으로 봐야 해.
Claude Cowork(클로드 코워크)
Claude Cowork는 Claude Desktop에서 파일, 앱, 브라우저를 실제로 다루며 지식 업무를 끝까지 처리하는 에이전트형 작업 도구야.
Sheets(시트)
Sheets는 AI 발표문에서 Google Sheets 같은 스프레드시트 작업 화면을 줄여 부르는 말이야. 특히 Gemini가 표, 대시보드, 누락 데이터, 파일 생성을 다루는 맥락에서 자주 나와.
Context(컨텍스트)
Context는 모델이 이번 요청에서 참고하라고 받은 프롬프트, 이전 대화, 문서, 도구 결과 같은 작업 재료야.
KTransformers (케이트랜스포머스)
KTransformers는 MoE 모델을 CPU와 [GPU](/ko/wiki/gpu/)에 나눠 올려 [VRAM](/ko/wiki/vram/) 부담을 줄이려는 추론·파인튜닝 프레임워크야. vLLM이나 SGLang처럼 단순한 API 서버라기보다 expert 배치 전략까지 만지는 도구에 가까워.
Apple Silicon (애플 실리콘)
AI 기사에서 Apple Silicon이 나오면 CUDA GPU가 아니라 Apple SoC, 통합 메모리, Metal/MLX 런타임, 전력 제약을 함께 보는 로컬 추론 장비 신호로 읽어야 해.
GPT-4 (지피티-4)
GPT-4는 OpenAI가 2023년 3월 14일 공개한 GPT 계열 모델이야. 지금은 최신 추천 모델이라기보다 GPT-4o 이전 세대의 기준점, 그리고 일부 API 호환성을 이해할 때 보는 이름에 가까워.
INT8 (8비트 정수 정밀도)
INT8은 값을 8비트 정수와 스케일로 줄여 모델 가중치, 활성값, 일부 KV 캐시를 더 작게 다루는 양자화 선택지야. 같은 8비트라도 FP8과 달리 정수 매핑이라 보정 데이터, 커널 지원, 품질 회귀를 같이 봐야 해.
Alibaba Qwen (알리바바 큐원)
Alibaba Qwen은 Alibaba 산하 Qwen 팀의 모델 계열을 벤더 이름까지 붙여 부르는 표현이야. 단일 모델명이 아니라 Qwen3, Qwen3-14B, Qwen3-30B-A3B 같은 공개 가중치와 Alibaba Model Studio API 문맥을 갈라 읽어야 해.
BF16 (브레인 플로팅 포인트 16)
BF16은 FP32와 같은 지수 폭을 남기고 가수 비트를 줄인 16비트 부동소수점 형식이야.
chat-latest (챗 레이티스트)
chat-latest는 ChatGPT나 API 문서에서 지금 채팅 기본값으로 붙는 모델을 가리킬 때 쓰는 alias야. 고정 모델명처럼 보이지만, 실제 대상은 시점과 제품 정책에 따라 바뀔 수 있어.
DeepGEMM(딥시크 CUDA 커널 라이브러리)
DeepGEMM은 DeepSeek가 공개한 NVIDIA CUDA/Tensor Core 커널 라이브러리야. GEMM이라는 행렬 곱셈 일을 FP8·FP4·BF16 경로로 빠르게 돌리고, 2026년 4월에는 Mega MoE와 FP4 Indexer까지 같은 코드베이스에 묶었어.
F1 97.43 (정밀도·재현율 조화평균 지표)
F1 97.43은 Privacy Filter의 corrected PII-Masking-300k 스냅샷에서 공개된 특정 점수야.
GLM (지엘엠)
GLM은 단일 모델명이 아니라 GLM 계열 이름이야. `glm-5`, `glm-5.1`처럼 하위 모델 ID를 따로 골라 써야 실제 운영 판단이 맞아.
Simon Willison(사이먼 윌리슨)
Simon Willison은 Datasette와 Django로 알려진 개발자이고, LLM 실험 글에서는 벤치마크 점수보다 실험 조건과 해석 한계를 먼저 보게 해 주는 출처야.
Z.ai(지에이아이)
Z.ai는 Zhipu AI의 GLM 모델군, API, 채팅 접점을 묶어 읽을 때 나오는 브랜드야. GLM 5.1 성능표를 볼 때 회사명, 모델명, 배포 경로를 갈라 봐야 해.
DeepSeek API(딥시크 API)
DeepSeek API는 DeepSeek 모델 자체를 가리키지 않고, 요청을 받아서 어떤 모델을 부를지 연결해 주는 호출 통로야.
GPT-5.3 Instant (GPT-5.3 인스턴트)
OpenAI의 GPT-5.3 Instant는 2026년 5월 5일 이전, ChatGPT의 기본 호출 경로에서 사용되던 GPT-5.3 계열 모델이에요. 그 뒤 기본 모델은 GPT-5.5 Instant로 전환되면서, 이전 호출 경로 체감은 단계적으로 정리됐어요.
Qwen3.5-9B (큐원 3.5-9B)
Qwen3.5-9B는 Qwen 3.5 계열의 9B 공개 가중치 모델이야. 공식 카드는 Gated DeltaNet, Gated Attention, FFN을 섞은 9B 구조와 262,144 토큰 기본 컨텍스트를 제시해. 긴 컨텍스트를 그대로 쓰면 KV 캐시와 GPU 메모리 비용을 먼저 계산해야 해.
Xiaomi MiMo(샤오미 미모)
Xiaomi MiMo는 Xiaomi의 AI 모델 팀이자 모델 플랫폼 이름이야. LLM, 멀티모달, 음성 모델을 한 브랜드 아래 공개하고, Hugging Face와 자체 블로그를 통해 모델 카드와 데모 경로를 함께 보여 줘.
Codex CLI(코덱스 CLI)
Codex CLI는 OpenAI의 코딩 에이전트를 터미널에서 실행하는 도구야. 선택한 디렉터리의 파일 읽기, 수정, 명령 실행, `codex exec` 자동화, MCP 연결까지 보면서 도입 범위를 정해야 해.
GPT-3.5 (지피티-3.5)
GPT-3.5는 GPT-3의 텍스트 생성 계보를 OpenAI API로 운영하기 쉽게 정리한 모델 계열이야. 텍스트 중심의 기본 작업에서 비용과 반응속도가 중요한 구간에서 많이 쓰였어.
GPT-5-Codex (지피티 5 코덱스)
GPT-5-Codex는 OpenAI가 Codex형 코딩 에이전트 작업에 맞춰 낸 GPT-5 계열 모델이야. 400,000토큰 문맥 창, 128,000토큰 최대 출력, Responses API 전용 운용이라는 점을 일반 GPT-5나 GPT-5.1과 구분해서 봐야 해.
GPT-5.1 Codex (지피티 5.1 코덱스)
GPT-5.1 Codex는 OpenAI가 Codex나 비슷한 코딩 에이전트 하네스에서 오래 도는 코드 작업을 맡기려고 낸 GPT-5.1 계열 API 모델이야. 400,000토큰 문맥 창과 128,000토큰 최대 출력을 쓰고, 일반 GPT-5.1이나 mini와 구분해서 봐야 해.
GPT-5.3 (지피티 5.3)
GPT-5.3은 OpenAI의 GPT-5 중간 버전 표기야. 확인 가능한 공개 경로는 ChatGPT/API alias `gpt-5.3-chat-latest`와 Codex용 `gpt-5.3-codex`로 갈라져서, 그냥 `gpt-5.3` 단일 API 모델로 읽으면 헷갈려.
GPT-5.3 Codex (지피티 5.3 코덱스)
GPT-5.3 Codex는 OpenAI의 장기 코딩 에이전트용 GPT-5.3 계열 API 모델이야. 공개 모델 카드 기준 문맥은 40만토큰, 최대 출력은 12.8만 토큰으로 잡아둬.
GPT-5.5 Instant (지피티 5.5 인스턴트)
GPT-5.5 Instant는 OpenAI가 2026년 5월 5일 ChatGPT의 기본 Instant 모델로 공개한 GPT-5.5 계열 버전이야. 답을 더 짧게 만들고, 환각과 부정확 답변을 줄이며, 개인화 맥락을 더 적극적으로 쓰는 쪽으로 바뀌었어.
GPT-5.5 Thinking (지피티 5.5 씽킹)
GPT-5.5 Thinking은 OpenAI ChatGPT에서 복잡한 요청을 받았을 때 기본 응답 경로보다 더 오래 생각해 답하는 GPT-5.5 계열 경로야.
MiMo-V2.5-ASR (샤오미 음성인식 모델)
MiMo-V2.5-ASR는 Xiaomi MiMo가 공개한 8B 음성인식 모델이야. 중국어·영어, 여러 중국어 방언, 코드스위칭, 노래 가사, 잡음 많은 녹음까지 한 모델 안에서 전사하려는 쪽에 가까워.
gpt-5.2-chat-latest (지피티 5.2 챗 레이티스트)
gpt-5.2-chat-latest는 ChatGPT-5.2 Instant에 대응하던 OpenAI API 별칭이야. 기본 GPT-5.2와 문맥·출력 한도가 달라서 로그와 배포 설정에서 따로 읽어야 해.
RTX 3090 (알티엑스 3090)
RTX 3090은 NVIDIA의 GeForce RTX 30 계열 고급 소비자 GPU야. 로컬 LLM 기사에서는 최신 서버 카드라는 뜻보다, 24GB VRAM을 가진 NVIDIA 카드에서 실행했다는 구체 하드웨어 조건으로 읽어야 해.
Mac(맥)
Mac은 Apple이 만드는 노트북·데스크톱 컴퓨터 플랫폼이야. 코딩 도구나 로컬 모델 문서에서는 앱 하나보다 터미널, 칩 아키텍처, 앱 배포 방식까지 묶인 실행 환경으로 읽는 편이 맞아.
VentureBeat(벤처비트)
VentureBeat는 AI 회사의 공식 문서가 아니라, 모델 발표와 업계 반응을 기사와 AI Weekly 뉴스레터로 엮어 전달하는 미국 기술 매체야.
OpenAI Chat Completion(오픈AI 챗 컴플리션)
이 항목은 Alibaba Cloud Model Studio에서 Qwen 모델을 OpenAI 호환 `/chat/completions` 엔드포인트로 부르는 경로야. 기존 OpenAI SDK 코드에서 API key, base URL, model 이름을 바꿔 붙이기 쉬운 대신, 대화 이력과 도구 실행 흐름은 호출 쪽에서 직접 챙겨야 해.
OpenAI SDK(오픈에이아이 SDK)
OpenAI SDK는 OpenAI API를 Python, JavaScript, .NET, Java, Go에서 코드로 부르기 쉽게 감싼 공식 클라이언트 라이브러리 묶음이야. 같은 SDK가 OpenAI 호환 엔드포인트에도 자주 재사용돼서, API 자체와 SDK 자체를 구분해서 읽는 게 중요해.
KV Cache (KV 캐시)
KV 캐시는 LLM이 이미 읽은 토큰의 key/value 값을 저장해 다음 토큰을 만들 때 다시 쓰는 메모리 구조야. 긴 대화나 에이전트 작업에서는 이 캐시가 커져서 속도, VRAM, 품질 이슈를 같이 만든다는 점이 중요해.
NL2Repo 39.8(엔엘투레포 39.8)
NL2Repo 39.8은 MiniMax M2.7 공개 자료에서 저장소 단위 자연어 요구사항 작업 성능을 짧게 부를 때 쓰는 점수 표기야. 독립 모델명이라기보다 저장소 단위 코딩 평가 결과를 한 줄로 압축해 부르는 말에 가까워.
The Information(디 인포메이션)
기술과 비즈니스를 깊게 파는 유료 스쿱 매체야. AI 기사에서 이 이름이 보이면 대체로 공식 발표보다 먼저 나온 내부 숫자, 인사 이동, 정책 충돌 같은 1차 취재를 가리켜.
App Store(앱 스토어)
App Store는 Apple이 iPhone·iPad·Mac 앱을 배포하고 심사하는 스토어야. AI 기사에서는 모델 이름보다 배포 채널과 정책 병목을 읽는 단어로 보는 편이 맞아.
Gemini Developer API(제미니 디벨로퍼 API)
Google의 API 키 기반 Gemini 직접 경로는 앱에서 Gemini 모델을 바로 호출하고 운영할 때 쓰는 개발자용 API 제품이야. 단일 모델명이 아니라 Gemini 2.5 Pro 같은 모델 선택, 구조화 출력, 도구 호출, 배치 처리를 함께 다루는 경로에 가깝지.
llm-server(로컬 llama.cpp 서빙 자동화 프레임워크)
llm-server는 llama.cpp와 ik_llama.cpp 위에서 GPU 감지, 플래그 합성, 모델 다운로드, AI self-tuning을 묶어 주는 로컬 서빙 프레임워크야. 추론 엔진을 새로 만드는 쪽보다 raw llama-server 운영을 자동화해서 여러 GPU와 긴 컨텍스트 환경의 실행 규칙을 묶어 주는 쪽이야.
Qwen Code(큐원 코드)
Qwen Code는 QwenLM이 공개한 터미널용 오픈소스 코딩 에이전트야. `qwen` CLI, Node.js 20+, headless, 에디터 통합, SDK 경로, 2026-04-15 OAuth 종료, 로컬 모델 연결 주소 같은 운영 조건을 같이 봐야 도입 판단이 빨라져.
DeepSeek V2.5 (딥시크 V2.5)
DeepSeek V2.5는 DeepSeek가 2024년 9월 5일 공개한 버전으로, DeepSeek-V2-0628과 DeepSeek-Coder-V2-0724를 합쳐 일반 대화와 코딩 능력을 한 모델에 묶은 공개 가중치 모델이야.
GPT-5.4 Pro (지피티 5.4 프로)
GPT-5.4 Pro는 OpenAI가 GPT-5.4 위에 더 무거운 추론 계산을 얹은 상위 모델이야. Responses API와 ChatGPT Pro·Enterprise에서 아주 까다로운 코딩·조사·분석 작업에 써.
PocketBase (포켓베이스)
PocketBase는 SQLite, admin UI, auth/files/realtime를 한 바이너리에 묶은 single-node 백엔드야. 내부툴이나 작은 MVP를 오늘 바로 띄워 볼 팀이면 여기서 먼저 걸러 볼 수 있어.
Nemotron-Personas-Korea (네모트론 페르소나스 코리아)
NVIDIA가 공개한 한국어 합성 페르소나 데이터셋이야. 한국 사용자에게 맞는 에이전트 grounding, system prompt persona layer, 학습·도메인 데이터 씨앗으로 읽는 편이 맞아.
whisper.cpp (위스퍼.cpp)
Whisper를 로컬 장비나 자체 서버에 올릴 때 먼저 검토할 C/C++ 런타임이야.
Apache Airflow (아파치 에어플로)
Apache Airflow는 Python 코드로 작업 순서와 의존성을 적고, 예약 실행·재시도·실행 이력 확인까지 묶어 운영하는 도구야. 단순 예약 실행기인지 운영형 배치 플랫폼인지 UI와 DAG 구조를 같이 보며 가르는 편이 정확해.
Microsoft Qlib (마이크로소프트 Qlib)
Microsoft Qlib은 퀀트 연구에서 필요한 데이터 준비, 모델 학습, 백테스트, 결과 분석을 한 흐름으로 이어 주는 오픈소스 플랫폼이야. 먼저 볼 건 모델 점수가 아니라 데이터 규격과 qrun 재현성이 팀에 맞는지야.
Nemotron 3 Nano Omni (네모트론 3 나노 옴니)
NVIDIA Nemotron 3 Nano Omni는 text, image, video, audio를 함께 읽는 30B-A3B 계열 multimodal understanding 모델이야. 긴 문서, 영상+음성, GUI screenshot을 한 질문 안에서 다룰 때 먼저 검토할 만해.
LightRAG (라이트RAG)
LightRAG는 문서에서 엔터티와 관계를 뽑아 지식 그래프와 벡터 검색을 함께 쓰는 RAG 프레임워크야.
yfinance (와이파이낸스)
yfinance는 Yahoo Finance 데이터를 Python에서 빨리 훑고 묶어보는 데 강한 리서치용 라이브러리야.
NautilusTrader (노틸러스 트레이더)
NautilusTrader는 Rust 코어와 Python API를 묶어, 백테스트에서 돌린 전략을 같은 엔진 결로 라이브까지 잇고 싶은 팀이 먼저 볼 만한 트레이딩 프레임워크야.
Activepieces (액티브피시스)
Activepieces는 Zapier처럼 앱 자동화를 화면에서 만들고, 부족한 앱 연결은 TypeScript piece로 통합하는 오픈소스 도구야. 직접 서버에 설치하고 운영하는 제품이라는 점부터 확인하는 게 좋아.
HyperFrames (하이퍼프레임스)
HyperFrames는 프롬프트나 기획안을 HTML 장면으로 바꾼 뒤, 그 장면을 계속 손보며 다시 렌더하는 영상 프레임워크야.
Manifest (매니페스트)
Manifest는 에이전트와 AI 애플리케이션의 요청을 여러 모델 제공사 사이에서 라우팅하고, 실패 시 다른 모델로 넘김과 비용 추적을 한곳에 묶는 오픈소스 모델 라우터야.
NostalgiaForInfinity (노스탤지아 포 인피니티)
NFI는 Freqtrade에서 돌리는 전략 하나가 아니라, 전략 파일·설정 가드·보호 규칙을 같이 봐야 하는 운용 패키지야.
Nemotron OCR v2 (네모트론 OCR v2)
GPU 서버형 구조 보존 OCR이 정말 필요한지 먼저 가르는, 다국어 문서용 모델.
GPU (그래픽 처리 장치)
GPU는 많은 계산을 병렬로 처리하는 프로세서야. AI에서는 학습과 추론의 행렬 연산, 메모리 대역폭, 전력 예산을 같이 결정하는 하드웨어 계층으로 읽어야 해.
VRAM(비디오 메모리)
VRAM은 GPU가 모델 가중치, KV cache, 이미지 데이터를 빠르게 읽고 쓰는 전용 메모리야. 로컬 LLM에서는 모델 크기보다 먼저 확인할 예산표에 가까워.
CUDA(쿠다)
CUDA는 NVIDIA GPU에서 병렬 계산 코드를 실행하게 해 주는 플랫폼이자 프로그래밍 모델이야. AI에서는 GPU가 있느냐보다 CUDA 경로와 라이브러리 호환성이 실제 속도와 배포 가능성을 가르는 경우가 많아.
Alibaba (알리바바)
Alibaba는 AI 기사에서 주로 Qwen 모델 계열과 Alibaba Cloud Model Studio를 함께 가리키는 벤더 이름이야. 앱 점유율보다 오픈 웨이트, API, 에이전트 도구 흐름을 나눠 읽어야 덜 헷갈려.
GitHub (깃허브)
GitHub (깃허브)는 코드를 어디에 두고 누가 왜 바꿨는지까지 함께 관리하게 해주는 협업 중심 개발 플랫폼이야.
MIT (MIT 라이선스)
MIT는 코드와 모델 가중치를 거의 제한 없이 복제·수정·재배포할 수 있게 두는 짧은 오픈소스 라이선스야. 다만 저작권 고지와 허가 문구를 같이 남겨야 하고, 모델 카드에 MIT가 붙었다고 데이터·상표·서비스 약관까지 자동으로 풀리는 건 아니야.
Chat Completions(챗 컴플리션스)
챗 컴플리션스는 대화형 LLM 호출 인터페이스 이름이야. DeepSeek 같은 OpenAI 호환 API에서는 `/chat/completions` 엔드포인트를 뜻하고, `messages` 배열을 보내 답변, 스트리밍, JSON 출력, tool calls 같은 결과를 받는 경로로 읽는 편이 정확해.
GUI(그래픽 사용자 인터페이스)
GUI는 버튼, 패널, 목록처럼 화면 요소로 기능을 조작하는 인터페이스야. AI 코딩 도구 문맥에서는 모델 자체보다 그 모델 위에 덧씌운 작업 화면인지부터 가르는 게 먼저야.
NVIDIA(엔비디아)
NVIDIA는 GPU, 서버 간 연결 기술, CUDA 생태계로 AI 데이터센터를 떠받치는 인프라 회사야. 모델 기사와 하드웨어 공급 기사와 소프트웨어 생태계 기사를 분리해서 읽게 도와줘.
Plus(플러스)
Plus는 AI 제품에서 무료판보다 사용량과 새 기능 접근을 더 주는 개인용 유료 구독 티어 이름이야.
Qwen3.6 (큐원 3.6)
Qwen3.6은 Alibaba Qwen 계열의 2026년 4월 세대 모델 묶음이야. 27B dense 모델, 35B-A3B MoE 공개 가중치, Model Studio API 계열을 섞어 부르기 쉬워서 먼저 배포 경로를 나눠 봐야 해.
Docker(도커)
Docker는 앱과 실행 환경을 컨테이너 이미지로 묶어 같은 방식으로 실행하게 해 주는 컨테이너화 도구야. AI 자동화에서는 로컬 테스트, 셀프호스트 배포, 에이전트 샌드박스 경계를 볼 때 먼저 확인해야 해.
Enterprise(엔터프라이즈)
Enterprise는 AI 제품 문맥에서 개인용보다 조직 단위 도입, 보안, 권한, 계약 조건이 먼저 붙는 접근 범위를 가리키는 말이야. 모델 이름이 아니라 누가 어떤 관리 체계로 쓸 수 있는지를 가르는 표식에 가까워.
MiniMax(미니맥스)
MiniMax는 M2 텍스트 모델, Hailuo 비디오, Speech·Music 모델, MiniMax Agent, 개발자 API를 함께 운영하는 중국 AI 랩 겸 브랜드 이름이야. 그래서 M2.7 같은 개별 모델명보다 한 단계 위 이름으로 읽는 편이 맞아.
Windows(윈도우)
Windows는 Microsoft가 개발하는 개인용 PC 중심 운영체제 계열이야. AI 도구 문맥에서는 앱 하나보다 개발 환경, 드라이버, 터미널, WSL까지 묶인 실행 환경으로 읽는 편이 맞아.
llama.cpp(로컬 LLM 런타임)
llama-cpp는 llama.cpp를 태그와 검색에서 적을 때 쓰는 표기야. 실제로는 GGUF 모델을 C/C++ 기반 엔진으로 로컬 PC, GPU 서버, llama-server API에 올려 추론하게 만드는 런타임을 가리켜.
Max(맥스)
Max는 보통 Anthropic의 Claude 개인용 상위 유료 구독 등급을 뜻해. claude.ai에서 더 넓은 사용량과 기능 우선권을 주는 요금제라서, 기사에서 보이면 새 모델보다 구독 맥락부터 보는 편이 맞아.
TypeScript(타입스크립트)
TypeScript는 JavaScript 위에 타입 문법과 정적 검사를 얹어 주는 언어야. 빌드 결과물은 JavaScript라서 브라우저와 Node.js 같은 기존 실행 환경으로 그대로 들어가.
ModelScope(모델스코프)
ModelScope는 Alibaba 계열의 AI 모델 허브이자 Python SDK야. 단일 모델 이름이 아니라 공개 가중치 배포, 데이터셋, 온라인 체험, 로컬 실험 경로가 함께 붙는 배포 기반으로 보는 편이 맞아.
Responses API(리스폰스 API)
Responses API는 OpenAI가 텍스트 생성, 이미지 입력, 상태 보존, 도구 실행을 한 응답 단위로 묶은 인터페이스야. 단발성 채팅 호출보다 에이전트형 앱과 자동화 흐름 설계에 더 가까운 쪽이야.
모델
모델은 입력을 받아 다음에 나오는 답을 계산해 내는 핵심 장치야. 같은 요청이어도 비용, 속도, 문맥 처리 방식이 달라져.
Apache-2.0(아파치 2.0 표기)
Apache-2.0은 Apache License 2.0을 가리키는 라이선스 식별자야. AI 쪽에서는 Hugging Face 모델 카드의 `license` 값으로 자주 보여서, 오픈 모델 후보를 고를 때 첫 필터처럼 많이 읽어.
FP16 (반정밀도 부동소수점)
FP16은 16비트 부동소수점 형식으로, 모델 가중치와 연산 텐서를 FP32보다 가볍게 다루기 위한 정밀도 선택지야.
GPU VRAM(GPU 전용 비디오 메모리)
GPU VRAM은 로컬 LLM을 돌릴 때 GPU 쪽에 실제로 남는 빠른 메모리 예산을 뜻해. 다만 요즘은 일부를 RAM이나 다른 GPU로 넘겨 실행하는 오프로드와 장치 메모리에 맞게 자동 조정하는 auto-fit이 있어서, 이 숫자를 단순한 fit-or-fail 기준으로만 읽으면 자주 틀려.
H100 (엔비디아 호퍼 GPU)
H100은 NVIDIA Hopper 세대의 데이터센터 GPU야. 80GB 메모리, FP8 Tensor Core, NVLink 같은 조건 때문에 LLM 추론·학습 기사에서 하드웨어 기준선으로 자주 쓰여.
Language Model (언어 모델)
Language Model은 앞뒤 문맥을 보고 다음 토큰이나 빠진 토큰을 예측하도록 학습한 모델이야. GPT처럼 이어 쓰는 모델과 BERT처럼 문장 이해에 강한 모델을 같은 큰 범주에서 볼 때 쓰는 말이야.
OpenAI-compatible(OpenAI 호환)
이 말은 다른 AI 서비스가 OpenAI SDK와 요청 모양을 거의 그대로 받는 호환층이라는 뜻이야. 보통 API key, base URL, model name 정도만 바꾸면 기존 OpenAI 코드와 툴을 큰 재작성 없이 연동할 수 있을 때 써.
Qwen3 (큐원3)
Qwen3는 Alibaba Qwen 팀이 2025년 4월 공개한 모델 세대야. dense 모델 6개와 MoE 모델 2개를 같은 이름 아래 묶고, thinking 모드와 non-thinking 모드를 같이 다뤄.
SWE-Pro(에스더블유이 프로 표기)
SWE-Pro는 모델 카드와 출시 글에서 SWE-Bench Pro 점수를 짧게 적을 때 자주 쓰는 표기야. 별도 벤치마크 이름으로 읽기보다, 긴 소프트웨어 이슈 해결 평가를 헤드라인용으로 줄인 말에 가깝게 보는 편이 맞아.
Alibaba Cloud API(알리바바 클라우드 API)
Alibaba Cloud API는 Alibaba Cloud Model Studio에서 Qwen 계열과 일부 서드파티 모델을 코드로 호출하는 개발 인터페이스야. Qwen Studio 같은 완성형 앱이 아니라, API 키와 베이스 URL, 모델 이름을 붙여 서비스 안에서 직접 운영하는 호출 경계로 읽는 편이 맞아.
Alibaba Cloud Model Studio(알리바바 클라우드 모델 스튜디오)
Alibaba Cloud Model Studio는 Qwen 계열과 일부 서드파티 모델을 API, OpenAI 호환 엔드포인트, 지식 검색, 에이전트·워크플로 앱으로 묶은 Alibaba Cloud의 생성 AI 플랫폼이야.
claude.ai(클로드 웹 앱)
claude.ai는 Anthropic이 Claude를 웹에서 쓰게 여는 소비자용 진입점이야. 모델 이름 하나라기보다 웹, 데스크톱, 모바일로 이어지는 Claude 앱 계정과 요금제, 사용 한도를 같이 읽어야 정확해.
DeepSeek Reasoner (딥시크 리저너)
DeepSeek Reasoner는 DeepSeek API에서 생각 모드로 호출하던 모델 이름이야. 2025년 1월 R1로 시작했지만, 2026년 5월 현재는 V4-Flash 생각 모드로 라우팅되는 legacy 별칭이라 날짜를 같이 봐야 해.
deepseek-chat (딥시크 챗)
DeepSeek의 Chat 별칭은 일반 채팅용 API 호환 모델명이야. 2026년 5월 3일 현재는 V4-Flash 비추론 모드로 라우팅되고, 2026년 7월 24일 15:59 UTC 이후 종료 예정이라 새 연동은 V4 모델명으로 옮기는 게 안전해.
K2.6 (키미 K2.6 줄임말)
K2.6은 보통 Moonshot AI의 Kimi K2.6을 줄여 부르는 이름이야. API 모델 ID, 오픈 웨이트, 커뮤니티 GGUF 배포를 같은 말로 뭉개기 쉬워서 실제로 무엇을 가리키는지 먼저 갈라서 봐야 해.
License (라이선스)
라이선스는 모델 가중치, 코드, 데이터셋을 어디까지 써도 되는지 정하는 사용 조건이야. 같은 [Benchmark](/ko/wiki/benchmark/) 점수를 봐도 상업 사용, 재배포, fine-tune 배포 허용 범위가 다르면 실제로 할 수 있는 일은 크게 달라져.
M2.7(엠투점칠)
M2.7은 MiniMax가 공개한 큰 코딩·에이전트 모델이야. 가중치는 열려 있지만 상업 사용은 바로 안 돼서, 점수보다 라이선스와 배포 조건을 같이 봐야 하는 이름이야.
Model Studio API(모델 스튜디오 API)
Model Studio API는 Alibaba Cloud Model Studio 안에서 Qwen 계열과 일부 서드파티 모델을 코드로 호출하는 API 계층이야. 콘솔 전체나 Qwen Studio 같은 사용자용 앱이 아니라, API 키·리전별 base URL·모델 이름으로 서비스 요청을 보내는 운영 경계로 읽는 편이 맞아.
Model Studio(모델 스튜디오)
Model Studio는 보통 Alibaba Cloud Model Studio를 줄여 부르는 말이야. Qwen API, OpenAI 호환 엔드포인트, 플레이그라운드, 에이전트·워크플로 콘솔까지 묶어 부를 때 많이 써.
Qwen API(큐원 API)
Qwen API는 Alibaba Cloud Model Studio에서 Qwen 계열 모델을 코드로 호출하는 인터페이스야. Qwen Studio 같은 완성형 앱이 아니라 API 키, 리전별 base URL, 호출 방식 3가지를 골라 서비스와 연결하는 개발 경로로 보는 게 맞아.
Qwen Studio(큐원 스튜디오)
Qwen Studio는 Alibaba Cloud가 qwen.ai에서 운영하는 대화형 AI 제품이야. Qwen 모델 계열 자체가 아니라, 웹·모바일·데스크톱에서 검색, 문서 읽기, 멀티모달 입력, 이미지·비디오 생성을 묶어 둔 작업 표면으로 읽는 편이 맞아.
AWS Bedrock(AWS 베드록)
AWS Bedrock은 공식 제품명이 아니고, Amazon Bedrock과 그 위의 OpenAI 모델, Codex, Managed Agents 경로를 짧게 부를 때 많이 쓰는 말이야.
DeepSeek Sparse Attention (딥시크 스파스 어텐션)
DeepSeek Sparse Attention은 DeepSeek가 V3.2부터 도입한 희소 어텐션 기법이야. 긴 문맥에서 먼저 후보 토큰을 추리고 top-k key-value만 실제 어텐션에 넣어 계산량을 줄인다는 점이 중요해.
F1 96(에프원 96 표기)
F1 96은 OpenAI Privacy Filter 소개에서 개인정보 마스킹 공개 benchmark의 F1 96%를 짧게 적을 때 쓰는 표기야. 새 모델 이름이 아니라 공개 평가 결과를 압축한 숫자로 읽는 편이 맞아.
Google Search(구글 검색)
Google Search는 Google의 웹 검색 제품이야. 요즘 AI 문맥에서는 링크 목록만 보여 주는 검색창이 아니라, AI Overviews, AI Mode, Gemini grounding에 실시간 정보를 공급하는 검색 계층으로 같이 읽는 편이 맞아.
Google Sheets(구글 시트)
Google Sheets는 브라우저와 모바일에서 같은 파일을 함께 편집하는 Google의 스프레드시트 도구야. 2026년에는 Gemini in Sheets 기능이 통합되면서 협업 문서와 AI 보조 흐름이 한 제품 안에서 더 강하게 합쳐지고 있어.
GPT-2 (지피티-2)
GPT-2는 OpenAI가 2019년에 공개한 텍스트 생성용 Transformer 언어 모델 계열이야. 40GB 인터넷 텍스트, 논문 표기와 공개 체크포인트 표기가 갈리는 파라미터 수, 단계적 공개 논쟁까지 같이 봐야 제대로 읽혀.
GPT-Rosalind(지피티-로절린드)
GPT-Rosalind는 OpenAI가 2026년 4월 16일 공개한 생명과학 연구용 추론 모델 계열이야. 일반 범용 GPT를 그대로 쓰는 문맥이 아니라, 신약 탐색·유전체 해석·실험 설계 같은 과학 워크플로에 맞춰 도구 사용과 도메인 추론을 강화한 모델로 보는 편이 정확해.
Hugging Face(허깅 페이스)
Hugging Face는 모델 저장소, 배포 경로, 라이브러리, 커뮤니티가 한데 묶인 생태계에 가까워. 그래서 모델 하나의 이름으로 읽기보다, 팀이 모델을 찾고 공유하고 배포하는 기반으로 보는 편이 맞아.
Kimi API(키미 API)
Kimi API는 Moonshot AI의 Kimi 모델을 앱과 서버에서 코드로 호출하는 개발 인터페이스야. Kimi 웹앱 이름이나 Kimi K2.6 같은 개별 모델명이 아니라, OpenAI 호환 요청 형식과 Kimi 전용 확장을 함께 쓰는 운영 경계에 더 가까워.
Kimi K2.6 (키미 K2.6)
Kimi K2.6은 Moonshot AI가 2026년 4월 공개한 멀티모달 오픈 웨이트 모델이야. 256K 컨텍스트, 1T 총 파라미터와 32B 활성 파라미터, 에이전트 작업 중심 설계가 같이 묶여 있어서 기존 Kimi K2 계열과 API 상품을 갈라서 봐야 해.
M5 Max(M5 맥스)
M5 Max는 Apple의 상위 Mac용 칩이고, AI 문맥에서는 로컬 LLM과 긴 컨텍스트 추론을 어느 급까지 장비 안에서 처리할 수 있는지 가늠할 때 자주 붙는 하드웨어 기준점이야.
MiniMax M2.7(미니맥스 M2.7)
MiniMax M2.7은 MiniMax가 내놓은 agentic coding 중심 텍스트 모델이야. 가중치는 공개됐지만 상업 사용은 따로 승인받아야 해서, 성능 숫자보다 라이선스와 장비 조건을 같이 보는 쪽이 맞아.
NVIDIA GPU(엔비디아 GPU)
NVIDIA GPU는 NVIDIA 쪽 GPU 제품군을 묶어 부르는 말이야. AI 문맥에서는 그래픽카드 이름보다 CUDA, Tensor Core, HBM 메모리, NVLink까지 붙은 실행 기반으로 읽는 편이 맞아.
Qwen3-14B (큐원3 14B)
Qwen3-14B는 Alibaba Qwen 팀이 2025년 4월 29일 공개한 dense 14.8B 텍스트 모델이야. 32,768 네이티브 컨텍스트, 131,072 YaRN 확장, thinking/non-thinking 전환, 공식 GGUF 배포를 같이 봐야 해.
Qwen3.6-35B-A3B (큐원 3.6-35B-A3B)
Qwen3.6-35B-A3B는 35B 총량 중 3B만 켜는 Alibaba Qwen Team의 오픈 웨이트 모델이야. 코딩 에이전트와 긴 컨텍스트 작업에서 배포 방식과 비용 구조를 나눠 검토할 때 후보가 돼.
reasoning.effort (리즈닝 이포트)
reasoning.effort는 OpenAI 추론 모델이 답을 만들기 전에 얼마나 길게 생각할지 조절하는 요청 시점 설정이야. 품질, 지연 시간, reasoning 토큰 비용을 같이 바꾸는 스위치로 보는 편이 정확해.
SWE Multilingual(다국어 소프트웨어 엔지니어링 벤치마크 표기)
2026년 M2.7 공개 문맥에서 여러 프로그래밍 언어 저장소 작업 성능을 읽을 때 보인 코딩 평가 label이야. 76.5 점수와 함께 퍼졌고, SWE-Pro나 Terminal Bench 2 같은 저장소 단위 평가와 묶어 읽는 쪽이 안전해.
Token Plan(토큰 플랜)
Token Plan은 MiniMax가 M2.7, 음성, 이미지, 비디오, 음악 모델 접근을 한 구독으로 묶은 빌더용 플랜이야. 토큰 종량제와 다르게 M2.7은 5시간 요청 한도, 다른 모델은 일일 쿼터로 계산된다는 점을 먼저 보고 들어가는 편이 맞아.
A4B MoE(A4B 전문가 혼합 표기)
A4B MoE는 Gemma 4 26B A4B처럼 모델 전체 크기와 실제로 켜지는 계산량을 따로 읽게 해 주는 희소 MoE 표기야.
Amazon Bedrock(아마존 베드록)
Amazon Bedrock은 AWS에서 여러 회사의 기반 모델 호출, RAG, Guardrails, Agent 실행을 한 관리 계층에서 처리하는 생성형 AI 플랫폼이야.
Batch API(배치 API)
Batch API는 대량의 모델 요청을 비동기 작업으로 묶어 제출하고, 나중에 결과를 한꺼번에 받는 추론 인터페이스야. 즉시 응답보다 비용 절감, 높은 처리량, 야간 일괄 작업에 더 맞는 경로라고 보면 돼.
Gemini 2.5 Pro (제미나이 2.5 프로)
Gemini 2.5 Pro는 Google의 상위 추론 모델로, 1,048,576토큰 입력과 고정적으로 켜지는 thinking 때문에 복잡한 코딩·분석 작업에 맞지만 비용과 지연도 같이 커지는 버전이야.
GPT-3 (지피티-3)
GPT-3는 OpenAI가 2020년에 발표한 175B 파라미터급 언어 모델 계열이야. 프롬프트 안에 예시를 넣어 작업을 지정하는 few-shot 사용법과 API 중심 배포 방식을 널리 각인시켰어.
GPT-5.1 (지피티 5.1)
GPT-5.1은 OpenAI가 GPT-5 다음으로 내놓은 후속 버전이야. 코딩과 에이전트 작업에서 속도, 추론 강도, 툴 호출 감각이 어떻게 달라졌는지 볼 때 기준점으로 자주 보여.
Help Center(헬프 센터)
Help Center는 제품의 설치법, 지원 범위, 제한, 관리자 설정을 모아 두는 공식 지원 문서 공간이야. 뉴스보다 덜 화려하지만 실제 도입 판단에는 더 직접적으로 닿아.
Mega MoE(메가 MoE)
Mega MoE는 DeepSeek가 2026년 4월 공개 릴리스에서 소개한 MoE 실행 경로야. dispatch, linear1, SwiGLU, linear2, combine을 하나의 mega-kernel로 묶고 NVLink 통신과 tensor core 계산을 겹치는 방식이라, 새 모델 이름보다 MoE 추론 인프라 최적화로 읽는 게 맞아.
Mistral AI (미스트랄 AI)
Mistral AI는 회사 이름이면서도 Mistral·Mixtral 같은 하위 모델과 Studio/API 배포 경로를 함께 떠올리게 만드는 우산 이름이야.
Moonshot AI(문샷 AI)
Moonshot AI는 Kimi, Kimi API, Kimi Code, Kimi K2 계열을 만드는 AI 회사야. 모델 하나 이름이 아니라 제품군, 개발자 플랫폼, 공개 모델 전략을 묶는 주체라서 Kimi와 Kimi K2를 분리해서 읽는 데 중요해.
Nous Research (누스 리서치)
Nous Research는 로컬 LLM 연구와 Hermes Agent 같은 에이전트 실행 환경을 함께 밀고 있는 연구·제품 팀 이름으로 읽으면 돼.
Personal Intelligence(퍼스널 인텔리전스)
Gemini의 개인화 기능은 사용자의 과거 대화, 맞춤 지시, 연결된 Google 앱 맥락을 참고해 더 개인화된 답을 만들도록 돕는 기능이야.
PII-Masking-300k(피아이아이 마스킹 300K)
AI4Privacy가 Hugging Face에 공개한 개인정보 마스킹 데이터셋이자 벤치마크야. OpenAI Privacy Filter 같은 모델이 긴 텍스트에서 민감한 정보를 얼마나 잘 찾는지 재는 공개 기준으로 자주 인용돼.
Privacy Filter(프라이버시 필터)
OpenAI Privacy Filter는 긴 텍스트에서 이름, 이메일, 전화번호, 계정번호, 비밀키 같은 개인정보 범위를 찾아 라벨로 바꾸는 오픈 웨이트 모델이야.
Qwen3-30B-A3B (큐웬3 30B A3B)
Qwen3-30B-A3B는 Alibaba Qwen3의 텍스트 MoE 모델이야. 총 30.5B 중 3.3B만 활성화하고, 32,768 네이티브 컨텍스트와 131,072 YaRN 확장을 지원해.
GPT-5.1 Codex mini (지피티 5.1 코덱스 미니)
GPT-5.1 Codex mini는 OpenAI가 2025년 11월 13일 공개한 저비용 코딩 전용 API 모델이야. 400,000토큰 문맥 창을 유지하면서 GPT-5.1 Codex보다 입력 5배, 출력 5배 싸서 장기 코딩 에이전트 작업을 오래 돌릴 때 먼저 보는 편이야.
gpt-5.1-chat-latest (지피티 5.1 챗 레이티스트)
gpt-5.1-chat-latest는 ChatGPT에 쓰이던 GPT-5.1 스냅샷을 가리키는 OpenAI API 별칭이야. 일반 `gpt-5.1`과 언제 다르게 봐야 하는지, 왜 지금은 기본 출발점으로 잘 안 권하는지 가를 때 필요해.
GPT-5.2 Pro (지피티 5.2 프로)
GPT-5.2 Pro는 OpenAI가 GPT-5.2 위에 더 무거운 계산을 얹은 상위 추론 모델이야. Responses API에서 어려운 코딩·분석·장기 작업에 써.
GPT-5.4-Cyber (지피티 5.4 사이버)
GPT-5.4-Cyber는 OpenAI가 GPT-5.4를 방어 목적의 사이버 보안 작업에 맞춰 제한 배포한 모델이야. 일반 공개 모델보다 TAC 접근권과 검증 조건을 먼저 봐야 해.
README (리드미)
리드미는 저장소 첫 화면에서 프로젝트 정체성, 시작 방법, 도움 받을 곳을 빠르게 확인하게 해 주는 안내 문서야. 길어질수록 본문보다 입구 역할에 집중해야 해.
FP8 (8비트 부동소수점 포맷)
FP8은 E4M3/E5M2 같은 8비트 부동소수점 포맷으로, 지원 GPU와 스케일링이 맞을 때 FP16·BF16보다 메모리 이동과 처리 비용을 줄이는 선택지야.
Hugging Face 모델 카드
Hugging Face 모델 카드는 모델 도입 전에 스펙, 라이선스, intended use, 한계, 평가 결과를 같은 자리에서 대조하게 해주는 문서야.
DeepSeek V4 (딥시크 V4)
DeepSeek V4 Preview는 2026년 4월 24일 공개된 DeepSeek의 V4 모델 패밀리야. API에서는 `deepseek-v4-pro`와 `deepseek-v4-flash`를 나눠 골라야 해.
Qwen3.6-27B (큐원 3.6-27B)
API 호출, 원본 가중치 로컬 서빙, GGUF 실험을 모두 열어 둔 Qwen3.6-27B는 Alibaba Qwen 계열 모델이야. 긴 코드·문서 작업에 붙일 때 비용과 데이터 경계를 먼저 나눠 보면 좋아.
DeepSeek-V3.2-Speciale (딥시크 V3.2-Speciale)
V3.2-Speciale는 깊은 추론 벤치마크용 고연산 변형이고, API 운영은 출시 당시 V3.2 조건과 현재 V4 별칭 상태를 따로 읽어야 해.
Terminal-Bench 2.0(터미널 벤치 2.0)
터미널에서 에이전트가 명령 실행부터 검증까지 끝내는지를 보는 벤치마크 버전이야.
Microsoft (마이크로소프트)
Microsoft는 회사 이름이고 Azure·Microsoft 365·GitHub·Copilot은 그 회사가 파는 서로 다른 제품군이야. 이미 이 조합을 쓰는 팀이라면 AI를 살 때 계약, 계정, 배포를 한 공급자 축에서 같이 봐야 해.
Python (파이썬)
파이썬은 읽기 쉬운 문법과 큰 패키지 생태계를 바탕으로 자동화, 데이터 분석, 웹 백엔드, AI 스크립트에 널리 쓰이는 범용 프로그래밍 언어야.
Raspberry Pi (라즈베리 파이)
Raspberry Pi는 CPU, 메모리, 포트를 한 장 보드에 올린 초소형 컴퓨터 제품군이야. 센서 제어부터 작은 서버와 엣지 AI 실험까지 적은 전력과 비용으로 시작하게 해 줘.
Terminal-Bench (터미널 벤치)
Terminal-Bench는 AI 에이전트가 실제 터미널 안에서 파일 확인, 명령 실행, 코드 수정, 오류 복구를 끝까지 해내는지 보는 벤치마크야. 2.0은 89개 과제로 터미널 작업 실력을 봐.
DeepSeek V3.2 (딥시크 V3.2)
DeepSeek V3.2는 DeepSeek가 2025년 12월 1일 공개한 685B급 오픈 웨이트 추론 모델 버전이야. 긴 문맥 효율과 에이전트의 도구 사용을 같이 노렸고, V4가 나오기 전 DeepSeek의 추론 기준선으로 자주 불렸어.
llama-server(로컬 LLM 서빙 서버)
llama-server(로컬 LLM 서빙 서버)는 ggml-org의 `llama.cpp`에 들어 있는 HTTP 서버 실행 파일이야. GGUF 모델을 로컬이나 자체 GPU 서버에 올리고 OpenAI·Anthropic 호환 API로 요청을 처리하게 만드는 서빙 서버/API 레이어로 이해해야 해.
Developer Tools(개발자 도구)
Developer Tools는 개발자가 코드를 만들고 실행하고 검증하고 배포하는 일을 줄여 주는 도구 묶음이야. AI 문맥에서는 편집기 추천만이 아니라 문서 서버, 터미널 에이전트, SDK, API 연결까지 같이 들어온다.
Image Generation(이미지 생성)
이미지 생성은 텍스트 설명이나 참고 이미지를 바탕으로 새 이미지를 만들거나 기존 이미지를 고치는 생성형 AI 작업이야. 요즘은 한 번 뽑고 끝나는 기능보다 대화형 편집, 개인화, 워크플로 제어까지 묶여서 쓰이는 경우가 많아.
E4B (이포비)
E4B는 Gemma 문서에서 작은 멀티모달 모델을 부를 때 쓰는 E 표기야. 총 4B 모델이라는 뜻은 아니고, 실제 돌릴 때 부담을 따로 읽어야 해.
GPT-5 (지피티-5)
GPT-5는 OpenAI가 2025년 8월 공개한 추론 중심 모델로, 코딩·에이전트 작업·긴 문맥 처리를 API와 ChatGPT에서 맡기게 만든다.
GPT-5.5 (지피티 5.5)
GPT-5.5는 OpenAI가 2026년 4월 공개한 클라우드형 추론 모델로, 1,050,000토큰 문맥과 도구 사용을 바탕으로 코딩·리서치·문서 작업 같은 긴 업무를 API와 Codex에서 처리하게 해.
Vertex AI (버텍스 AI)
Vertex AI는 Google Cloud에서 모델 실험, 배포, 권한 관리, 모니터링을 함께 맡는 관리형 AI 플랫폼이야. Gemini 같은 개별 모델 이름이 아니라 Vertex AI Studio, Model Garden, Agent Builder, MLOps를 묶는 운영 계층으로 이해하는 편이 맞아.
SWE-bench Verified (스위벤치 베리파이드)
SWE-bench Verified는 실제 GitHub 이슈 500개를 사람이 다시 걸러 만든 코딩 에이전트 평가셋이야. 모델이나 에이전트가 코드 패치로 문제를 해결했는지 `% Resolved` 같은 지표로 본다.
VS Code(비주얼 스튜디오 코드)
VS Code는 Microsoft가 배포하는 확장형 코드 편집기야. Git, 터미널, 디버깅, 확장, 최근의 AI 에이전트까지 한 자리에 묶어서 개발 흐름 전체를 다루게 해.
Qwen3.5-35B-A3B (큐원 3.5-35B-A3B)
Qwen3.5-35B-A3B는 알리바바가 공개한 35B 총량·3B 활성 MoE 멀티모달 모델로, 로컬 서빙과 Qwen3.5-Flash 관리형 API 사이에서 기준점이 되는 오픈 웨이트다.
E2B (이투비)
E2B는 Gemma 문서군에서 쓰는 E 표기야. 쉽게 말해 모델을 실제 기기에 올렸을 때 체감 부담을 어느 정도로 읽어야 하는지 알려 주는 숫자라고 보면 돼.
Qwen3.5-27B (큐웬3.5-27B)
Qwen3.5-27B는 Alibaba의 Qwen 계열에 속한 27B급 오픈 웨이트 멀티모달 모델이야. 서비스형 이름표로 보기보다, 직접 내려받아 추론 서버에 올릴 수 있는 공개 모델 후보로 이해하는 쪽이 더 실전적이야.
DeepSeek (딥시크)
DeepSeek는 중국 AI 회사 DeepSeek가 쓰는 브랜드 이름이야. 회사 이름, API 서비스, 공개 모델 계열이 한 단어로 같이 묶여 나오기 쉬워서 기사에서 이 이름이 보이면 먼저 어떤 층위를 말하는지 가려 읽는 게 중요해.
IDE (통합 개발 환경)
IDE는 코드 입력창 하나가 아니라 편집, 실행, 디버깅, 테스트를 한 작업면으로 묶는 개발 도구야. 작은 스크립트엔 과할 수 있지만, 여러 파일과 설정이 얽힌 프로젝트에선 왜 따로 부르는지 금방 체감돼.
Training(학습)
Training(학습)은 모델이 데이터를 보면서 내부 가중치를 바꾸는 과정이야. 이 개념을 잡아두면 성능 향상, 비용 증가, training-free 같은 말이 각각 어디를 가리키는지 바로 읽을 수 있어.
CLI(명령줄 인터페이스)
CLI는 텍스트 명령으로 프로그램을 움직이는 인터페이스야. 반복 작업, 원격 운영, 자동화가 핵심인 순간엔 GUI보다 훨씬 강해.
GPT (생성형 사전학습 트랜스포머)
GPT는 OpenAI가 붙인 생성형 사전학습 트랜스포머 계열 이름이야. 서비스 이름처럼 들리지만, 원래는 큰 텍스트로 먼저 학습한 디코더형 모델 묶음을 가리키는 말에 더 가까워.
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled (쿠엔3.5-27B 클로드 4.6 오퍼스 리즈닝 디스틸드)
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled는 Alibaba/Qwen 기반 위에 Jackrong이 올린 커뮤니티 체크포인트야. Hugging Face에서 내려받아 로컬 런타임으로 돌리는 실험용 모델이지, Anthropic 공식 API 모델은 아니야.
Gemma 4(젬마 4)
Gemma 4(젬마 4)는 Google DeepMind가 낸 오픈 모델 가족이야. 로컬 PC부터 휴대폰까지 올릴 수 있게 크기를 나눴고 Apache 2.0으로 풀려서 온디바이스와 로컬 추론 얘기에서 자주 튀어나와.
GLM 5.1(지엘엠 5.1)
GLM 5.1(지엘엠 5.1)은 Z.AI가 내놓은 코딩 중심 최신 모델이야. 200K 컨텍스트와 128K 출력, 장기 에이전트 작업 운영 포인트를 같이 밀어서 긴 개발 루프를 API로 돌릴 때 자주 거론돼.
GLM 5(지엘엠 5)
GLM 5(지엘엠 5)는 Z.AI가 코딩에서 엔지니어링으로 넘어가겠다고 내세운 플래그십 기반 모델이야. 긴 컨텍스트, deep thinking, 함수 호출을 한데 묶어서 복잡한 시스템 작업을 맡기려는 쪽에 초점이 있어.
gpt-oss(지피티 오에스에스)
gpt-oss(지피티 오에스에스)는 OpenAI가 공개한 오픈 웨이트 추론 모델 계열이야. API로만 쓰는 GPT가 아니라 Hugging Face에서 내려받아 로컬·온디바이스·자체 GPU에 올릴 수 있는 OpenAI 계열이라는 점이 핵심이야.
Kimi K2 (키미 K2)
Kimi K2 (키미 K2)는 Moonshot AI가 만든 에이전트형 MoE 언어모델 계열이야. 기사에서 이 이름이 보이면 대화형 챗봇보다 코딩, 툴 호출, 긴 작업 흐름 자동화 쪽 모델로 읽으면 쉬워.
Inference (추론)
Inference는 학습이 끝난 모델이 실제 입력을 받아 답을 만드는 실행 단계야. AI 서비스를 읽을 때 비용, 지연 시간, 처리량이 왜 계속 같이 언급되는지 이해하려면 이 개념부터 먼저 잡아두면 돼.
Claude(클로드)
Claude는 Anthropic의 대형 언어 모델 가족이자 그 모델을 앞세운 AI 제품 이름이야. 버전명 하나가 아니라 모델 라인업과 사용자 서비스 간판이 겹친 이름으로 읽어야 해.
Llama (라마)
Llama는 Meta가 내놓는 공개형 LLM 계열 이름이야. 기사에서 이 이름이 보이면 개별 점수보다 어떤 제품을 자체 배포하거나 파인튜닝하려는 흐름인지 같이 읽으면 좋아.
LocalLLaMA (로컬라마)
LocalLLaMA는 LLM을 내 컴퓨터나 자체 서버에서 돌리는 사람들 이야기가 모이는 커뮤니티 이름이야. 특정 모델 하나를 가리키는 말이 아니라, 로컬 AI 운영 경험과 추천 스택이 흘러다니는 큰 정보 허브에 가까워.
OpenAI(오픈에이아이)
OpenAI는 GPT, ChatGPT, Codex, Sora 같은 모델과 서비스를 만드는 회사이자 연구 조직이야. 모델 하나의 이름이 아니라 그 라인업을 만들고 배포하는 주체를 가리켜.
Gemini(제미니)
Gemini는 Google DeepMind가 만드는 멀티모달 모델 가족 이름이야. 챗봇 하나보다 Google이 앱, 검색, API를 같은 축으로 묶을 때 쓰는 큰 간판에 더 가까워.
Memory(메모리)
Memory는 에이전트가 이전 대화, 선호, 작업 결과를 저장했다가 다음 행동에 다시 쓰는 기억 구조야.
Qwen (큐원)
Qwen (큐원)은 Alibaba Cloud가 굴리는 생성형 AI 모델 브랜드야. 오픈웨이트 모델과 클라우드 API가 한 이름 아래 같이 있어서, 기사에서 보이면 성능표보다 배포 경로부터 보면 맥락이 빨리 잡혀.
Gemma (젬마)
Gemma는 Google DeepMind가 내놓는 공개형 모델 계열이야. Gemini와 기술 뿌리를 공유하지만 개발자가 직접 내려받아 기기나 서버에 올려 쓰는 쪽에서 더 자주 거론돼.
Token (토큰)
Token은 모델이 문장을 받아 계산할 때 쓰는 최소 처리 단위야. 기사에서 컨텍스트 길이, 최대 출력, 요금 숫자를 읽을 때는 글자 수가 아니라 토큰 기준인지 먼저 봐야 해.
Modal(모달)
Modal(모달)은 Python 코드와 의존성을 컨테이너처럼 감싸서 클라우드 CPU나 GPU에 서버리스로 올려 주는 AI 인프라 플랫폼이야. 모델을 만드는 도구라기보다 추론, 배치 작업, 학습 잡, 샌드박스 실행을 어디서 어떻게 굴릴지 정하는 운영 레이어에 가까워.
Multimodal AI(멀티모달 AI)
Multimodal AI는 텍스트, 이미지, 음성, 영상처럼 다른 형식의 정보를 한 시스템 안에서 같이 받고 연결해 처리하는 AI를 뜻해. 특정 제품명보다 입력과 출력 범위가 넓어진 변화를 설명하는 말에 더 가까워.
GitHub Copilot (깃허브 코파일럿)
GitHub Copilot은 에디터 안에서 코드 문맥을 보고 다음 코드나 함수 초안을 제안하는 GitHub의 AI 코딩 도구야. 이름은 하나지만, 실제로는 자동완성 하나보다 넓게 개발 습관과 리뷰 흐름까지 건드리는 제품 축으로 보는 편이 맞아.
Vision-Language Model (비전-언어 모델)
Vision-Language Model은 이미지와 텍스트를 함께 이해하도록 만든 모델이야. 사진, 문서 화면, 차트 같은 시각 입력을 읽고 그 내용을 말로 설명하거나 질문에 답하는 데 강해.
Fine-tuning (파인튜닝)
Fine-tuning (파인튜닝)은 이미 학습된 모델을 특정 데이터와 작업에 다시 맞추는 추가 학습 방식이야. 프롬프트만으로 잘 안 고정되는 말투, 형식, 분류 규칙을 모델 습관 차원에서 맞출 때 떠올리면 돼.
Model Weights(웨이트)
Model Weights는 학습이 끝난 모델이 실제로 기억하고 있는 숫자 묶음이자, 보통 파일 형태로 배포되는 핵심 결과물이야. 아키텍처 설명만 있는 것과 다르게, 웨이트가 있어야 같은 모델을 다시 불러와 실행할 수 있어.
Ollama(올라마)
Ollama는 로컬 컴퓨터에서 언어 모델을 실행하고, 그 결과를 API로 꺼내 쓸 수 있게 해 주는 도구야. 채팅 앱이라기보다 로컬 모델 런타임과 호출 인터페이스를 같이 내주는 층에 가까워.
Cursor(커서)
Cursor는 AI를 중심에 둔 코드 에디터 제품이야. 모델 이름이 아니라 편집기 이름이라서, 코드 탐색과 수정 제안과 에이전트 실행이 한 화면 안에서 이어져.
Diffusion Model(확산 모델)
Diffusion Model은 잡음에 가까운 상태에서 시작해 노이즈를 조금씩 걷어내며 새 샘플을 만드는 생성 모델 계열이야. 이미지 생성에서 특히 유명하지만, 핵심은 제품명이 아니라 생성 방식 자체야.
Gemini API(제미니 API)
Gemini API는 Google 모델을 앱에서 호출할 때 쓰는 개발자용 인터페이스야. 채팅창 이름이라기보다 SDK와 HTTP 요청으로 멀티모달 입력, 구조화 출력, 도구 연결을 붙이는 접점에 가까워.
GGUF(GGUF 모델 파일 형식)
GGUF는 로컬 LLM을 돌릴 때 쓰는 모델 파일 형식이야. 가중치만 담는 게 아니라 메타데이터와 양자화 정보까지 같이 묶어 준다는 점이 중요해.
Mistral(미스트랄 모델 계열)
Mistral은 보통 프랑스 회사 Mistral AI가 내놓는 언어 모델 계열을 묶어 부르는 이름이야. 단일 모델 하나보다 브랜드, API, 오픈 웨이트 배포 전략까지 함께 가리키는 말로 보는 게 맞아.
OpenClaw(오픈클로)
OpenClaw는 공식 API 대신 기존 AI 계정이나 구독을 비공식 클라이언트에 붙여 쓰게 만드는 연결 도구 계열이야.
Perplexity (퍼플렉시티)
Perplexity는 웹 검색 결과와 출처를 묶어 답으로 정리해 주는 답변형 검색 제품이야. 모델 이름이라기보다 검색, 요약, 출처 제시를 한데 묶은 서비스로 보는 게 더 정확해.
Sora (소라)
Sora (소라)는 OpenAI의 영상 생성 모델이자 그 모델을 앞세운 영상 제작 서비스 이름이야. 텍스트나 이미지에서 짧은 영상을 만들고 다듬는 흐름으로 이해하면 기사 문맥이 빨리 잡혀.
Speech to Text(음성 인식)
Speech to Text(음성 인식)는 사람 목소리를 글로 바꿔서 검색, 자막, 명령 처리로 넘기는 입력 기술이야.
Cline(클라인)
Cline은 VS Code 계열 IDE 안에서 파일 수정, 명령 실행, 브라우저 작업까지 잇는 코딩 에이전트야.
Long Context (긴 문맥)
Long Context는 모델이 한 번의 요청 안에서 아주 긴 입력을 같이 읽고 다루는 능력을 가리키는 말이야. 기사에서 이 표현이 나오면 최대 길이 숫자만 보지 말고, 그 긴 정보를 실제로 끝까지 써먹는지도 같이 봐야 해.
o1(OpenAI 추론 모델)
o1은 OpenAI가 복잡한 추론 작업에 맞춰 내놓은 o시리즈 모델이야. 빠른 범용 채팅보다 긴 문서 분석, 계획 수립, 코드 검토처럼 여러 단계를 따지는 일에 더 잘 맞아.
o3 (오쓰리)
o3는 OpenAI가 내놓은 추론형 모델이야. 복잡한 코드, 수학, 과학, 이미지 섞인 분석처럼 여러 단계를 거치는 일을 맡길 때 쓰는 이름으로 보면 쉬워.
On-device AI(온디바이스)
On-device AI(온디바이스)는 모델 추론을 서버가 아니라 사용자 기기 안에서 직접 돌리는 배포 방식이야. 속도, 개인정보, 오프라인 동작 같은 조건을 같이 바꾸기 때문에 기술 이름보다 제품 전략에 가까운 말로 읽는 게 좋아.
Vibe Coding(바이브 코딩)
Vibe Coding은 AI에게 방향을 말로 던지고 결과를 보면서 계속 조정하는 코딩 방식이야.
Whisper (위스퍼)
Whisper (위스퍼)는 OpenAI가 공개한 음성 인식 모델이야. 오디오를 텍스트로 옮기고 여러 언어 음성을 영어로 번역하는 데 많이 써.
Continue(컨티뉴)
Continue는 IDE 보조 경험과 저장소용 AI 체크 흐름을 함께 제공하는 오픈소스 코딩 도구 계열이야.
DeepSeek R1(딥시크 R1)
DeepSeek R1은 DeepSeek가 만든 추론 중심 모델이고, API에서는 `deepseek-reasoner`로 쓰며 MIT 라이선스 오픈 웨이트와 증류형 공개까지 같이 보는 게 중요해. 기사에서는 점수표보다 오픈 배포와 API 판매를 함께 미는 전략 카드로 읽는 편이 더 정확해.
Function Calling(함수 호출)
Function Calling(함수 호출)은 모델이 답변만 쓰는 대신, 바깥 함수나 API를 어떤 인자로 부를지 구조화된 요청을 만드는 방식이야. 핵심은 문장 생성보다 외부 시스템과 연결되는 호출 계약에 있어.
Grounding (그라운딩)
Grounding은 모델 답변을 외부 근거와 연결해서 말하게 만드는 방법이야. 모델이 원래 알고 있던 것만 꺼내게 두지 않고, 실행 시점의 검색 결과나 내부 문서를 붙여 정확도를 끌어올리는 쪽에 가깝지.
LM Studio(엘엠 스튜디오)
LM Studio는 PC에서 로컬 LLM을 내려받아 실행하고 API처럼 열어 볼 수 있게 해 주는 데스크톱 앱이야.
Lyria (리리아)
Lyria (리리아)는 Google DeepMind의 음악 생성 모델이야. 텍스트나 이미지를 받아 프로젝트용 트랙을 만드는 데 초점이 있어.
OpenRouter(오픈라우터)
OpenRouter는 여러 AI 모델 회사를 한 API 창구로 묶어 주는 라우팅 서비스야.
Phi (파이)
Phi는 Microsoft가 만든 소형 언어 모델 계열이야. 큰 모델보다 가볍게 돌리면서도 실무에 쓸 만한 성능을 노리는 전략을 보여줄 때 자주 같이 언급돼.
Runtime(런타임)
Runtime(런타임)은 저장된 모델을 실제 하드웨어에서 돌려서 응답을 뽑아내는 실행 계층이야.
Supabase(수파베이스)
Supabase(수파베이스)는 Postgres를 중심에 두고 인증, 스토리지, 실시간 기능까지 묶어 주는 백엔드 플랫폼이야. 앱 뒷단을 빨리 세우고 싶은 팀이 데이터 구조는 SQL답게 가져가고 싶을 때 특히 잘 맞아.
Tool Use(도구 사용)
Tool Use는 모델이 검색, 코드 실행, API 같은 바깥 기능을 호출하고 그 결과를 다시 받아 다음 판단과 답변에 반영하는 실행 방식이야. 핵심은 답변 스타일이 아니라 실행 루프와 시스템 연결에 있어.
vLLM(브이엘엘엠)
vLLM은 이미 있는 대규모 언어 모델을 빠르게 돌리고 서비스하기 위한 추론 엔진이자 서빙 계층이야. 모델 자체보다 운영 구조를 바꾸는 런타임 선택지에 더 가까운 편이야.
ComfyUI(컴피유아이)
ComfyUI(컴피유아이)는 이미지나 비디오 생성 파이프라인을 노드 그래프로 조립해서 실행하는 시각적 워크플로 도구야. 버튼 몇 개로 끝나는 생성 UI보다 과정 자체를 설계하고 다시 재현하고 싶은 사람한테 더 잘 맞아.
CrewAI (크루에이아이)
CrewAI (크루에이아이)는 여러 AI 에이전트에게 역할을 나눠 주고 협업 흐름을 묶는 오케스트레이션 프레임워크야.
DeepSpeed(딥스피드)
DeepSpeed(딥스피드)는 큰 모델의 학습과 추론을 더 적은 메모리와 더 많은 병렬화로 굴리게 도와주는 최적화 라이브러리야. 새 모델 이름이 아니라 분산 학습 인프라를 붙이는 도구라고 이해해야 맥락이 맞아.
FAISS (페이스)
FAISS는 Meta가 만드는 dense vector 유사도 검색 라이브러리야. 완성형 벡터 데이터베이스라기보다, 벡터 인덱스를 만들고 nearest neighbor 검색을 빠르게 돌리는 저수준 엔진 쪽에 더 가깝지.
FLUX.1 (플럭스 원)
FLUX.1은 Black Forest Labs가 만든 이미지 생성 모델 계열이야. 고품질 결과와 함께 API 사용, 오픈 웨이트, 로컬 실행 흐름이 같이 붙는 이름이라서 실무 쪽에서 특히 자주 보여.
Gemini 2.5 (제미나이 2.5)
Gemini 2.5는 Google이 Pro, Flash, Flash-Lite 같은 변형으로 나눠 운영한 멀티모달 추론 모델 계열이야. 이름이 나오면 벤치마크 점수보다 어떤 변형이 어떤 업무와 가격 구간을 맡는지부터 읽는 편이 맞아.
Gemma 3(젬마 3)
Gemma 3(젬마 3)은 Google DeepMind가 공개한 오픈 모델 계열이야. 클라우드 서버뿐 아니라 노트북, 휴대폰, 단일 GPU나 TPU 같은 현실적인 배포 환경까지 겨냥해서 실사용 앱에 붙이기 좋게 나온 점이 중요해.
Google AI Studio(구글 AI 스튜디오)
Google AI Studio(구글 AI 스튜디오)는 Gemini를 브라우저에서 시험해 보고, 괜찮은 프롬프트를 바로 코드 호출로 이어 보는 실험 공간이야.
GPT-4o(지피티-4o)
GPT-4o는 OpenAI가 만든 범용 멀티모달 모델이고, OpenAI API와 ChatGPT 흐름에서 텍스트·이미지·음성을 함께 다루는 데 쓰여. 기사에서 이 이름이 나오면 벤치마크 숫자보다 어떤 사용자 경험과 제품 전략을 밀고 있는지 먼저 보는 편이 맞아.
Gradio (그라디오)
Gradio (그라디오)는 파이썬 함수나 머신러닝 모델을 바로 만져보는 웹 UI로 바꿔 주는 프레임워크야.
Grok (그록)
Grok은 xAI가 만드는 생성형 AI 모델 계열 이름이자 그 모델을 얹은 챗봇 제품 이름으로도 같이 쓰여. 그래서 기사에서 Grok이 보이면 순수 모델 스펙 얘기인지, X와 붙은 사용자 제품 얘기인지 먼저 분리해서 읽어야 해.
Guardrail(가드레일)
Guardrail은 AI 시스템이 위험한 입력이나 출력을 넘지 않게 막는 운영형 안전 장치야. 모델 한 개의 능력보다 입력 필터, 출력 검사, 정책 검증, 모니터링을 묶는 층으로 보는 편이 맞아.
Imagen (이마젠)
Imagen (이마젠)은 Google DeepMind의 텍스트-이미지 생성 모델이야. 문장을 넣으면 사진풍 이미지나 일러스트를 빠르게 만들어 줘.
JAX (잭스)
JAX (잭스)는 NumPy 같은 파이썬 계산 코드에 자동미분이랑 JIT 컴파일을 붙여 GPU나 TPU에서 빠르게 돌리게 해 주는 라이브러리야.
Kubeflow(쿠브플로우)
Kubeflow는 Kubernetes 위에서 머신러닝 워크플로를 굴리기 쉽게 만들어 주는 오픈소스 프레임워크야. 모델 하나를 더 똑똑하게 만드는 기술이라기보다 학습, 파이프라인, 서빙, 운영 규칙을 쿠버네티스 방식으로 묶는 쪽에 더 가까워.
LangGraph(랭그래프)
LangGraph는 상태를 들고 가는 AI 에이전트 워크플로를 그래프 형태로 짜게 해 주는 오케스트레이션 프레임워크야.
LlamaIndex (라마인덱스)
LlamaIndex는 LLM이 외부 문서와 데이터를 찾아 쓰게 연결하는 프레임워크야. 모델 자체를 만드는 도구라기보다 RAG, 검색, 문서 에이전트 흐름을 조립하는 층에 가까워.
Mixtral(믹스트랄)
Mixtral은 Mistral AI가 만든 sparse MoE 계열 오픈 웨이트 언어 모델이야.
MLflow(엠엘플로우)
MLflow는 실험 기록, 모델 버전, 평가 결과, 추적 데이터를 한 흐름으로 묶어 주는 오픈소스 AI 엔지니어링 플랫폼이야. 예전엔 실험 추적 도구 이미지가 강했지만 지금은 LLM과 에이전트 평가, 모니터링 쪽까지 범위를 넓히고 있어.
n8n(엔에잇엔)
n8n은 앱, API, AI 단계를 노드로 엮어 반복 업무를 자동화하는 워크플로 도구야.
ONNX(오닉스)
ONNX(오닉스)는 한 프레임워크에서 만든 모델을 다른 런타임과 배포 환경으로 옮기기 쉽게 만든 공통 포맷이야.
OpenAI API(오픈에이아이 API)
OpenAI API는 OpenAI 플랫폼의 모델과 기능을 코드로 호출해 네 서비스 안에 붙이는 개발 인터페이스야. 모델 이름 하나가 아니라 인증, 호출 방식, 비용 통제, 장애 대응까지 묶인 운영 경계에 더 가까워.
Pinecone (파인콘)
Pinecone은 임베딩을 저장하고 비슷한 항목을 빠르게 찾아주는 관리형 벡터 데이터베이스 서비스야. RAG나 시맨틱 검색을 붙일 때 직접 인프라를 짜지 않고 시작하기 좋다는 뜻으로 자주 언급돼.
Prompt Caching(프롬프트 캐싱)
Prompt Caching은 반복되는 프롬프트 앞부분 계산을 재사용해서 지연과 입력 비용을 줄이는 서빙 기법이야.
Prompt Engineering(프롬프트 엔지니어링)
Prompt Engineering은 모델을 다시 학습시키는 일이 아니라, 같은 모델에 넣는 지시와 맥락과 출력 형식을 설계해서 결과를 더 원하는 방향으로 맞추는 기법이야. 입력 설계 문제인지 모델 선택 문제인지 가르는 데 특히 중요해.
Qdrant (큐드런트)
Qdrant는 임베딩을 넣어 두는 단순 보관함이 아니라, 벡터 검색을 실제 서비스로 돌리기 위한 검색 엔진이자 데이터베이스야. 필터링, 하이브리드 검색, 운영 배포 선택지까지 포함한 retrieval 인프라로 이해하면 맞아.
Red Teaming (레드 팀잉)
Red Teaming은 시스템을 일부러 흔들어 보면서 취약점과 실패 경로를 찾는 공격자 관점 테스트야. 평균 성능을 높이는 평가라기보다, 위험을 드러내고 줄이려는 안전 점검에 더 가까워.
Replicate(레플리케이트)
Replicate는 오픈소스 AI 모델을 클라우드에서 실행하고 API로 불러 쓰게 해 주는 서비스야. 직접 GPU 서버를 꾸리지 않고도 이미지, 음성, 비전, 언어 모델을 빠르게 붙여 볼 때 많이 써.
RLHF(인간 피드백 기반 강화학습)
RLHF는 사람이 더 낫다고 고른 답을 바탕으로 모델 행동을 다듬는 학습 방식이야. 똑똑함 자체를 키운다기보다 사람 선호와 안전 기준 쪽으로 모델을 정렬하는 과정에 가까워.
SGLang(에스지랭)
SGLang은 LLM과 멀티모달 모델을 낮은 지연과 높은 처리량으로 서빙하려고 만든 추론 프레임워크야. 이름만 보면 언어 도구 같지만 실제로는 GPU 자원을 더 효율적으로 쓰게 해 주는 서버 쪽 소프트웨어에 더 가까워.
Small Language Model(소형 언어 모델)
작은 규모로 설계해서 적은 메모리와 계산 자원으로 돌리기 쉽게 만든 언어 모델 계열이야. 성능 절대치보다 속도, 비용, 배포 편의성이 중요할 때 자주 거론돼.
Stable Diffusion(스테이블 디퓨전)
Stable Diffusion은 Stability AI와 함께 자주 언급되는 이미지 생성 모델 계열이야.
Streamlit(스트림릿)
Streamlit(스트림릿)은 파이썬 코드만으로 데이터 앱과 모델 데모 화면을 빨리 띄우게 해 주는 프레임워크야.
Synthetic Data(합성 데이터)
Synthetic Data(합성 데이터)는 실제 데이터를 바로 쓰기 어려울 때, 비슷한 특성을 흉내 낸 데이터를 만들어 학습과 테스트에 쓰는 방식이야.
TensorFlow (텐서플로)
TensorFlow (텐서플로)는 머신러닝 모델을 만들고 학습시키고 서비스까지 이어 붙이는 프레임워크야.
Text to Speech(음성 합성)
Text to Speech(음성 합성)는 글을 사람이 말하듯 들리는 소리로 바꿔서 읽어주기와 음성 인터페이스를 만드는 기술이야.
Tokenizer(토크나이저)
Tokenizer는 텍스트를 토큰으로 쪼개고 숫자 ID로 바꾸는 규칙과 도구를 말해.
Triton Inference Server(트리톤 추론 서버)
Triton Inference Server는 여러 프레임워크로 만든 모델을 공통된 서버 형태로 배포하게 해 주는 추론 서버야. 모델을 하나 더 만드는 도구가 아니라, 이미 만든 모델을 운영 환경에서 안정적으로 서빙하는 계층이야.
Vector Database (벡터 데이터베이스)
Vector Database는 문장, 이미지, 코드 같은 데이터를 임베딩 벡터로 저장하고, 입력과 의미상 가까운 항목을 빠르게 찾아주는 검색 중심 저장소야. RAG에서는 문서 조각을 넣어 두고 질문과 관련 있는 내용을 꺼내 오는 핵심 계층으로 많이 쓰여.
Veo (비오)
Veo (비오)는 Google DeepMind가 만든 영상 생성 모델이야. 텍스트 프롬프트로 장면을 만들고 최신 계열은 오디오까지 같이 합성해.
Vercel AI SDK(버셀 AI SDK)
Vercel AI SDK(버셀 AI SDK)는 여러 AI API를 앱 코드에 붙이고 스트리밍 UI까지 연결하기 쉽게 만든 TypeScript 툴킷이야.
Weaviate(위비에이트)
Weaviate(위비에이트)는 벡터와 원본 데이터를 함께 저장하면서 의미 검색을 해 주는 오픈소스 벡터 데이터베이스야. RAG나 추천, 검색 보강처럼 retrieval 품질이 중요한 앱에서 검색 계층 자체를 설계할 때 많이 거론돼.
Weights & Biases(웨이츠 앤 바이어시스)
Weights & Biases는 모델 실험 로그와 평가 결과, 산출물을 한곳에 모아 비교하게 해 주는 AI 개발 플랫폼이야. 모델을 직접 학습시키는 엔진이라기보다 실험 기록과 협업 흐름을 붙잡아 두는 쪽에 더 가까워.
Windsurf(윈드서프)
Windsurf는 AI를 편집기 한가운데에 넣어서 코딩 흐름을 이어 주려는 IDE 계열 도구야.
LLM (거대 언어 모델)
LLM은 엄청 많은 텍스트를 학습해서 다음 단어를 예측하는 방식으로 작동하는 거대 언어 모델이야. 채팅, 요약, 번역, 코드 생성 같은 작업이 여기서 나와.
Reasoning Model (추론 모델)
추론형 모델은 답을 바로 내기보다 중간 사고 과정을 더 많이 쓰면서 어려운 문제를 풀도록 설계된 계열이야. 보통 속도보다 복잡한 문제 해결에 더 초점을 둬.
Local LLM (로컬 LLM)
Local LLM은 모델을 클라우드 API 대신 내 PC나 서버에서 직접 돌리는 방식을 말해. 보통 오픈 웨이트 모델을 내려받아 Ollama, LM Studio, llama.cpp 같은 도구로 실행하는 흐름이 여기에 들어가.
Embedding (임베딩)
Embedding은 텍스트나 이미지 같은 데이터를 의미가 비슷할수록 가까워지게 만든 숫자 벡터 표현이야. 검색, 추천, 군집화, RAG의 검색 단계가 이 표현 품질에 크게 좌우돼.
RAG (검색 증강 생성)
RAG는 모델이 답을 만들기 전에 외부 문서부터 찾아보고, 그 내용을 바탕으로 답하게 만드는 방식이야. 모델을 다시 학습시키지 않고도 최신 정보나 사내 문서를 붙일 수 있어.
Eval(평가)
Eval(평가)는 모델이나 AI 기능의 출력을 기준에 따라 시험해서 품질을 재는 작업이야. 새 모델 이름이라기보다 프롬프트, 워크플로, 에이전트가 제대로 동작하는지 확인하는 평가 기법으로 이해하면 맞아.
Quantization (양자화)
양자화는 모델 안의 숫자를 더 적은 비트로 바꿔서 메모리 사용량과 계산 비용을 줄이는 방법이야. 쉽게 말해 16비트나 32비트로 들고 있던 값을 8비트나 4비트처럼 더 가볍게 저장하는 쪽이야.
llama.cpp (로컬 LLM 추론 엔진)
llama.cpp는 오픈 가중치 모델을 로컬 장비나 자체 인프라에서 직접 추론하게 해주는 실행 엔진이자 CLI·서버 도구 묶음이야. 모델 이름이라기보다 GGUF 포맷, 양자화, 하드웨어 백엔드, API 노출 방식을 실제 운영에 연결하는 층으로 보는 게 맞아.
Mixture of Experts(전문가 혼합)
Mixture of Experts(MoE)는 하나의 거대한 계산 덩어리로 모든 입력을 처리하지 않고, 여러 전문가 모듈 가운데 일부만 골라 쓰는 모델 구조야. 그래서 새 모델 이름이라기보다 계산을 나누는 내부 설계 방식으로 이해하는 게 맞아.
Distillation (지식 증류)
Distillation은 큰 모델이 내놓는 답변 패턴을 작은 모델이 배우게 해서, 품질을 최대한 유지하면서 비용과 지연 시간을 줄이려는 학습 기법이야.
Codex(코덱스)
Codex는 OpenAI의 코딩 작업 도구야. 코드 수정, 테스트, 리뷰, 자동화까지 이어져서 단순 추천 기능보다 팀의 개발 흐름을 다시 짜게 만드는 쪽에 더 가까워.
MCP (모델 컨텍스트 프로토콜)
MCP는 AI 앱이 파일, 데이터베이스, 검색, 실행 도구 같은 바깥 자원을 같은 규격으로 연결하게 하려는 프로토콜이야. 모델 성능을 높이는 기술이라기보다 연결 방식을 표준화하는 쪽에 가까워.
Transformer (트랜스포머)
Transformer는 토큰 사이의 관계를 attention으로 계산해 문맥을 다루는 신경망 아키텍처다. GPT 계열을 포함한 현대 언어 모델의 공통 바탕으로 널리 쓰였고, 새 모델 이름이라기보다 모델 내부 설계 방식을 가리키는 말로 이해하는 편이 맞아.
Context Window(컨텍스트 윈도우)
모델이 한 번의 요청과 응답 동안 실제로 참고할 수 있는 전체 토큰 범위를 뜻해.
PyTorch(파이토치)
PyTorch는 딥러닝 모델을 정의하고 학습하고 추론하는 데 쓰는 오픈소스 프레임워크야. 이름만 보면 단순한 개발 도구처럼 보이지만, 실제로는 팀의 실험 코드 구조, GPU 학습 방식, 체크포인트 관리, 배포 전환 방식까지 함께 묶는 기반이 되기도 해.
Google DeepMind (구글 딥마인드)
Google DeepMind는 Gemini 같은 모델 하나의 이름이 아니라, 구글 안에서 AI 연구와 모델 개발을 이끄는 조직 이름이야. 기사나 문서에서 이 이름이 나오면 개별 모델 성능보다 연구 방향, 제품 묶음, 회사 전략을 함께 읽어야 할 때가 많아.
Hallucination (환각)
Hallucination은 AI가 근거 없거나 틀린 내용을 사실처럼 만들어 내는 현상을 말해. 핵심은 단순한 오답이 아니라, 틀린데도 그럴듯하게 말한다는 데 있어.
LangChain (랭체인)
LangChain은 대형 언어 모델 앱과 에이전트를 만들 때 모델, 도구, 검색, 상태 흐름을 묶어주는 오픈소스 프레임워크야. 이름이 커 보여도 혼자서 팀의 배포 체계 전체를 뜻하는 말은 아니고, 관측·평가·배포까지 포함하려면 보통 LangGraph나 LangSmith 같은 주변 제품까지 같이 봐야 맞아.