한 줄 정의

openai-agents>=0.14.0OpenAI Agents SDK의 샌드박스 실행 기능을 쓰기 위한 Python 패키지 버전 조건이야. openai agents 0.14.0처럼 검색되는 표현도 결국 같은 설치 기준을 가리켜. >=는 0.14.0 이상을 뜻하니까, 이 줄은 새 모델명보다 “이 기능을 쓰려면 최소 이 버전 계열부터 보라”는 기준으로 읽으면 돼.

OpenAI가 2026년 4월 15일 공개한 업데이트는 에이전트가 파일을 읽고, 셸 명령을 실행하고, 코드를 고치고, 여러 단계 작업을 제어된 샌드박스 안에서 이어 가게 하는 쪽에 초점이 있어. 그래서 이 항목은 OpenAI SDK 전체가 아니라, Agents SDK 안에서도 샌드박스와 작업공간을 다루는 버전 기준선에 가까워.

어떻게 작동하나

OpenAI 예시의 흐름은 먼저 임시 작업공간을 만들고, Manifest로 파일 위치를 설명한 뒤, SandboxAgentRunConfig에 샌드박스 실행 설정을 넘기는 식이야. 모델은 그냥 텍스트만 받는 게 아니라 data/metrics.md 같은 파일을 읽고, 필요한 경우 셸이나 파일 도구를 써서 답을 만든다.

여기서 중요한 부품은 두 개야. 하나는 하네스야. OpenAI 글은 이 하네스에 메모리, 샌드박스 인식 오케스트레이션, Codex식 파일 도구, MCP, skills, AGENTS.md, shell, apply patch 같은 실행 부품이 들어간다고 설명해. 다른 하나는 compute야. 실제 명령 실행은 공급자 쪽 격리 환경에서 돌고, OpenAI 글은 기본 지원 공급자를 7개로 제시해.

E2B와 Vercel 글을 보면 이 차이가 더 구체적이야. E2B는 에이전트가 격리된 작업공간에서 파일을 편집하고 셸 명령을 돌리며, 미리보기 URL과 결과물을 남기는 장면을 보여 줘. Vercel 가이드는 sales.csvManifest에 넣고, Shell() 능력을 준 에이전트가 microVM 안에서 cat sales.csvawk 같은 명령을 실행해 답하는 흐름을 보여 줘.

왜 중요한가

이 설치 줄이 중요한 이유는 Agentic Coding이나 업무 자동화에서 “모델이 답을 쓰는가”보다 “모델이 안전한 작업공간에서 실제 도구를 만지는가”가 더 큰 차이를 만들기 때문이야. 이 버전 조건이 보이면 단순 호출 라이브러리 설치보다, 파일 시스템과 명령 실행을 포함한 에이전트 런타임을 검토해야 한다는 신호로 읽는 편이 맞아.

실무에서는 판단 질문이 바로 달라져.

  • 입력 파일: 어떤 파일을 Manifest에 넣고, 모델이 어느 경로에서 읽게 할지 정해야 해.
  • 출력 위치: 결과물을 어느 디렉터리에 쓰게 하고, 사람이 검토할 artifact를 어떻게 꺼낼지 봐야 해.
  • 실행 권한: shell, apply patch, 파일 편집을 전부 줄지, 일부 명령만 허용할지 정해야 해.
  • 네트워크: 외부 연결을 열어 둘지, 특정 도메인으로만 제한할지 정해야 해.
  • 복구 방식: 샌드박스가 사라졌을 때 새 컨테이너에서 이어 갈 상태를 어디에 둘지 확인해야 해.

OpenAI 글도 작업공간을 Manifest로 설명하고, 상태를 밖에 두면 샌드박스가 사라져도 새 컨테이너에서 이어 갈 수 있다고 설명해.

또 이 항목은 Responses API와도 층위가 달라. Responses API가 OpenAI 쪽 응답 생성과 도구 실행을 묶는 인터페이스라면, 이 설치 조건은 그 위에서 에이전트 하네스와 샌드박스 작업공간을 코드로 엮는 Python SDK 조건에 가까워. 둘을 섞어 읽으면 API 호출 경계와 실제 실행 환경 경계가 흐려져.

주의해서 볼 점

첫째, 이 줄을 TypeScript까지 같은 상태로 열렸다는 뜻으로 읽으면 곤란해. OpenAI 글은 새 하네스와 샌드박스 기능이 Python에서 먼저 나온다고 적고, TypeScript 지원은 이후 계획으로 둬. E2B 글도 샌드박스 지원이 현재 Python Agents SDK에 있다고 적어.

둘째, 샌드박스라는 말만으로 보안이 해결되지는 않아. OpenAI 글은 프롬프트 인젝션과 데이터 유출 시도를 전제로 설계해야 한다고 말하고, 하네스와 compute를 분리해 자격 증명이 모델 생성 코드가 실행되는 환경에 들어가지 않게 하는 쪽을 강조해. Vercel 쪽도 외부 통신을 특정 도메인으로 제한하는 egress control을 별도 장점으로 적어.

셋째, 공급자마다 운영 조건이 달라. Vercel 가이드는 기본 유지 시간을 270초로 두고, python3.12node22 같은 런타임, 2 vCPU가 4GB RAM에 해당하는 리소스 설정, 공개 HTTPS 포트 노출, workspace persistence 방식을 따로 설명해. E2B는 미리보기 URL과 병렬 실행 환경, 결과물 검토 쪽 장면을 더 앞세워. 같은 버전 조건이라도 실제 도입 판단은 어떤 공급자를 붙이느냐에서 다시 갈려.