무슨 일이 있었나
DoorDash가 음식 배달 마켓플레이스에서 배차 목적함수의 가중치를 강화학습(RL)으로 조정하는 시스템을 실제 운영에 올렸어. 이 마켓플레이스는 고객, 라이더, 가맹점 3개 주체가 얽혀 있어서, 한 번의 배차 결정이 좋았는지는 그 자리에서 안 나와. 배달 속도, 라이더 가동률, 가맹점 혼잡 같은 지연된 운영 실적으로 나중에 평가돼. 저자들은 이런 환경을 즉시 보상이 아니라 “세상이 주는 피드백”으로 학습하는 자연스러운 무대로 봤어. 논문은 2026년 6월 11일 arXiv에 올라왔어.
어떻게 풀었나
핵심은 기존 배차 최적화기를 갈아엎지 않았다는 거야. 가게 단위 정책이 이산 multiplier를 하나 골라서, 최적화기가 배달 품질과 배치 효율 사이에서 잡는 균형점만 옮겨. 학습 방식은 이렇게 정리돼.
- 오프라인 학습: 쌓인 운영 로그로 공유 가치함수를 중앙에서 학습하고, 실행은 가게 단위로 분산해.
- 과대추정 억제: Double Q-learning 타깃과 보수적 정규화를 써서, 데이터에 없던 상황의 가치를 부풀려 잡는 걸 줄여.
- 운영 안전장치 유지: 프로덕션 제약과 안전 규칙을 깨지 않는 선에서만 정책이 개입해.
어떤 의미인가
실무에서 보면, 즉시 정답이 없는 운영 지표만으로도 에이전트 정책을 학습하고 라이브에 올릴 수 있다는 사례야. 프로덕션 switchback 실험(지역·시간대를 번갈아 대조군으로 돌리는 실험)에서 이 정책은 배치를 늘리고 라이더 측 시간 비용을 줄였는데, 고객이 느끼는 배달 품질은 떨어뜨리지 않았어. 다만 초록에는 그 폭이 수치로 안 나와 있고, DoorDash 한 곳의 자체 실험이야. 그러니 “지연 보상으로도 안전하게 정책을 바꿀 수 있다”는 방향만 가져가고, 실제 효과 크기는 직접 돌려봐야 판단할 수 있어.