이 용어는 어디까지 신뢰할 수 있나요?

Agent Observability라는 말은 배포된 AI 에이전트가 어떤 추론 단계를 거치고, 어떤 모델을 부르고, 어떤 도구 사용을 실행하고, 어디서 느려지거나 실패했는지 따라보는 운영 개념이야. 에이전트가 한 번 답하고 끝나는 챗봇이 아니라 여러 턴, 도구 호출, MCP 서버, 다른 에이전트까지 오가는 구조가 되면 로그 한 줄로는 원인을 찾기 어렵거든.

Google Cloud 문맥에서는 이 말이 Agent Platform의 최적화 묶음에 들어가. 공식 문서는 배포된 에이전트와 MCP 서버의 성능, 행동, 상태를 지표, 실행 흔적, 로그로 본다고 설명해. 2026년 5월 5일 문서 기준 Preview 기능이라서, 지금은 정식 안정화 기능처럼 단정하기보다 운영 관측이 어디까지 열렸는지 확인하는 말로 읽는 게 좋아.

어떻게 작동하나

기본 재료는 telemetry, 그러니까 실행 상태를 남기는 데이터야. 에이전트와 MCP 서버가 OpenTelemetry 형식으로 실행 흔적, 지표, 로그를 Google Cloud Observability 쪽 저장소에 보내야 대시보드와 관계 그래프가 채워져. 그래서 이 개념은 “나중에 로그를 보면 되겠지”보다 앞에 있어. 설계할 때부터 어떤 작업 단계 기록(span), 토큰 사용량, 도구 호출, 오류 요약을 남길지 정해야 운영자가 원인을 찾을 수 있어.

관측 화면은 보통 이렇게 나눠 읽으면 돼.

개요 화면은 세션 수, 평균 turn 수, 호출 수, 입력·출력 토큰 사용량, 트래픽, 오류율, p50·p95·p99 지연을 보여 줘.
모델 화면(Models)은 기반 모델별 p95 지연, 호출 수, 오류율, 할당량 실패, 토큰 사용량을 따로 보여 줘.
도구 화면(Tools)은 연결된 외부 도구와 서비스별 p95 지연, 호출 수, 오류율을 보여 줘. 도구를 아예 호출하지 않은 대화 빈도도 여기서 확인할 수 있어.
평가 화면(Evaluation)은 응답 품질, 안전성, 환각 비율, 도구 사용 품질 같은 온라인 모니터를 보여 줘.

실행 흔적 화면(Traces)은 한 세션이나 한 요청을 span 그래프로 펼쳐. 모델 입력, 응답, 도구 호출, 부가 정보가 순서대로 남기 때문에 “답이 틀렸다”에서 멈추지 않고 어느 단계에서 잘못된 도구를 골랐는지, 어느 외부 API가 늦었는지, 어떤 입력이 다음 판단을 흔들었는지 볼 수 있어. 에이전트 디버깅은 여기서 일이 시작돼.

관계 화면(Topology)은 여러 에이전트와 MCP 서버 사이의 관계를 그래프나 표로 보여 줘. 전체 시스템 지도로 의존성을 보고, 단일 에이전트 관계도로 특정 에이전트의 들어오고 나가는 의존성을 따로 볼 수 있어. 다만 관계 그래프도 telemetry와 등록 정보에 기대기 때문에, 처음부터 계측하지 않은 실행 경로는 비어 보일 수 있어.

왜 중요한가

에이전트 운영에서 자주 막히는 문제는 “실패했는데 왜 실패했는지 모르는 상태”야. 모델이 답을 잘못 만든 건지, 도구 호출이 권한 오류로 막힌 건지, MCP 서버가 느린 건지, 여러 턴 대화에서 상태가 꼬인 건지, Runtime이 밀린 건지 한 화면에서 갈라야 해. 관측성은 이 판단을 평균 점수나 최종 답변이 아니라 실행 흔적으로 옮겨.

예를 들어 고객지원 에이전트가 환불 정책을 잘못 안내했다면 최종 답변만 봐서는 원인이 좁혀지지 않아. 실행 흔적을 보면 사용자 세션, 검색 단계, 도구 호출, 모델 응답이 이어져 있고, 평가 화면에서는 응답 품질, 안전성, 환각 비율, 도구 사용 품질 같은 온라인 모니터를 같이 볼 수 있어. 그러면 프롬프트를 고칠지, 도구 권한을 고칠지, 검색 데이터를 고칠지 판단이 빨라져.

또 하나는 비용과 지연이야. agent는 단일 API 호출보다 더 비싸고 느려지기 쉬워. 한 번의 요청 안에서 모델 호출, 도구 호출, MCP 서버 왕복이 여러 번 겹치면 평균 응답 시간보다 p95와 도구별 오류율이 더 중요해질 수 있어. 실행 흔적이 없으면 “모델이 느리다”로 뭉개기 쉽고, 실제로는 특정 도구 하나가 병목일 수도 있어.

주의해서 볼 점

먼저 관측성과 Eval의 차이를 분명히 봐야 해. Eval은 품질을 점수화하고, 관측성은 실행 흔적과 운영 상태를 보여 줘. p95는 느린 요청을 찾는 지연 지표고, 도구 사용 기록은 외부 API나 업무 도구가 어디서 실패했는지 알려 줘. MCP는 도구 서버와 에이전트 사이의 경계를 잡아 주는 쪽이야. 이 넷을 같이 봐야 “무엇이 나빴는지”와 “어디서 나빴는지”가 맞물린다.

두 번째는 데이터 노출이야. 실행 흔적과 프롬프트·응답 로그에는 모델 입력, 응답, 도구 호출, 실행 요약이 들어갈 수 있어. 사내 문서, 고객 정보, 결제 정보가 도구 호출 안에 섞인다면 로그 마스킹, 보관 기간, 접근 권한, 감사 로그를 먼저 정해야 해. 관측을 켰다가 민감한 데이터를 더 넓게 복제하면 그건 관측이 아니라 운영 사고에 가까워져.

세 번째는 표준과 벤더 경계야. OpenTelemetry는 생성 AI 에이전트 span, 모델 span, 지표, event 같은 공통 형식을 제시하지만, 2026년 5월 기준 생성 AI semantic conventions는 development 상태로 표시돼. Google Cloud 안에서 시작하더라도 나중에 다른 관측 저장소로 옮길 계획이 있다면 어떤 속성이 표준이고 어떤 속성이 Google Cloud 전용인지 확인해야 해.

이 항목을 참조하는 위키

포맷 v3 가이드 wiki 3.2.0

팩트 체크

통과 · 2026-05-07 KST

검증 생성: AI + 편집 검토 · 2026-05-07 상태: 통과

통과 원문 대조 검증 출처 4

Google 공식 발표와 Agent Platform 문서를 대조해서 이 항목을 모델 기능이 아니라 에이전트 운영 관측 개념으로 고정했어.

독자 문제 대조: 새 모델명처럼 읽지 않게, 배포된 에이전트와 MCP 서버의 성능·행동·상태를 보는 운영 개념으로 먼저 잡았어.
Google Cloud Blog는 2026년 4월 23일 Agent Platform을 발표하면서 시뮬레이션, 평가, 관측 기능을 최적화 묶음으로 설명해.
세부 overview는 이 기능이 배포된 에이전트와 MCP 서버의 성능, 행동, 상태를 지표·실행 흔적·로그로 본다고 설명해.
같은 문서는 실행 흔적 데이터를 OpenTelemetry 형식으로 Google Cloud Observability 저장소에 보내야 대시보드, 관계 그래프, 실행 흔적 화면이 채워진다고 설명해.
overview 안의 관계 그래프 설명은 Agent Registry의 등록 정보와 실행 흔적을 바탕으로 에이전트와 MCP 서버 의존성을 보여 준다고 말해.
Google models 문서는 Vertex AI가 Gemini Enterprise Agent Platform의 일부로 전환 중이라고 안내해서, 본문에서 Vertex AI 문맥과 Agent Platform 문맥을 분리했어.

통과 교차 검증 검증 출처 4

Google 발표, 세부 문서, OpenTelemetry 문서를 나눠 확인해서 추적, 지표, 로그, topology, 평가를 한 덩어리로 뭉개지 않았어.

비교 기준: 단순 로그 화면인지, 평가 점수인지, OpenTelemetry 기반 실행 흔적 수집인지부터 갈라 봤어.
Cloud Blog는 운영 환경의 성능을 추적하고, 여러 턴 대화를 평가하는 자동 평가기와 대시보드로 에이전트 추론을 살펴본다고 설명해.
overview 문서는 대시보드, 실행 흔적, 관계 그래프를 나눠 제시하고, Agent Registry에서 특정 agent를 고르면 개요, 평가, 모델, 도구, 사용량, 로그 화면을 본다고 적어.
같은 overview는 실행 흔적 화면에서 단계별 실행, span 그래프, 입력과 출력을 본다고 설명해.
관계 그래프 설명은 전체 시스템 지도와 단일 에이전트 관계도를 나눠서, 전체 관계와 특정 에이전트의 들어오고 나가는 의존성을 따로 보게 해.
OpenTelemetry 문서는 생성 AI 작업을 기록할 때 이벤트, 예외, 지표, 모델 span, 에이전트 span 같은 공통 이름을 둔다고 설명해.
한계도 같이 남겼어. Google Cloud 제품 화면과 기능 범위는 공식 Google 문서에 기대고, OpenTelemetry 문서는 특정 벤더에 묶이지 않는 telemetry 맥락만 교차 확인해.

통과 수치 검증 검증 출처 4

출처로 검증한 숫자와 설명용 예시 숫자를 분리했어.

Agent Platform 발표일은 Google Cloud Blog 기준 2026년 4월 23일이야.
overview 문서는 Last updated 2026-05-05 UTC이고 Preview 기능으로 표시돼. 본문에서도 정식 안정화 기능처럼 쓰지 않았어.
overview 문서는 관측 신호를 지표, 실행 흔적, 로그 3가지로 나눠 적어.
대시보드는 지연 백분위로 p50, p95, p99를 보여 준다고 적어. 본문에서는 p95만 단독 성공 지표처럼 쓰지 않았어.
모델 화면은 p95 지연, 전체 호출 수, 오류율, 할당량 실패, 토큰 사용량을 모델별로 본다고 설명해.
Agent Registry에서 선택한 agent의 운영 탭은 개요, 평가, 모델, 도구, 사용량, 로그 6개 화면을 제공한다고 설명해.
본문의 권한 오류, 여러 번 겹치는 모델 호출·도구 호출·MCP 왕복은 가상의 운영 예시야. 출처에서 검증한 제품 숫자로 세지 않았어.

통과 비판 검토 검증 출처 4

관측성이 있으면 에이전트 품질과 보안이 자동으로 해결된다는 오해를 따로 걸렀어.

관측성은 문제를 보게 해 주는 장치야. 모델 답변 품질, 권한 설계, 도구 안전성, 비용 통제를 자동으로 고쳐 주는 기능은 아니야.
Preview 문서라 지원 범위와 동작은 바뀔 수 있어. 운영 도입 전에는 Pre-GA 조건, 리전, IAM, 로그 보관, 비용 정책을 따로 확인해야 해.
실행 흔적에는 모델 입력, 응답, 도구 호출이 들어갈 수 있어. 개인정보나 사내 데이터가 남는다면 로그 마스킹과 보관 기간을 먼저 정해야 해.
관계 그래프는 실행 흔적 데이터와 Agent Registry에 기대기 때문에, telemetry를 내보내지 않으면 관계가 비어 보일 수 있어.
평가 점수와 실행 흔적은 다른 도구야. 점수가 낮다는 사실과 어떤 span에서 도구 호출이 실패했는지는 함께 봐야 해.
OpenTelemetry conventions는 vendor-agnostic format을 목표로 하지만 GenAI semantic conventions 상태가 development로 표시돼. 장기 호환성은 도구별 지원 범위를 확인해야 해.

도입 판단은 대시보드가 예쁜지보다 telemetry 수집, IAM 권한, 실행 흔적 보관, 도구 호출 노출, p95 지연, 평가 연결에서 갈려.

출처: Google Cloud Blog — Introducing Gemini Enterprise Agent Platform , Google Cloud Documentation — Google models , Google Cloud Documentation — Observability overview , OpenTelemetry — Semantic conventions for generative AI systems

Agent Observability(에이전트 관측성)

전체 AI 기술 맵에서의 위치

한 줄 정의

어떻게 작동하나

왜 중요한가

주의해서 볼 점

관련 용어

이 항목을 참조하는 위키