Azure OpenAI 배포 전체에서 팀별 토큰 할당량 적용
언제 쓸까: 여러 제품 팀이 AOAI를 공유할 때; 한 팀의 폭발적 증가가 공유 TPM 예산을 소모해서는 안 됩니다.
사전 조건
- AI-Gateway 패턴이 적용된 APIM 인스턴스 — Azure-Samples/AI-Gateway 저장소에서 참조 아키텍처 배포
- 팀별 APIM 구독 키 — 각 팀은 Ocp-Apim-Subscription-Key 헤더에 포함시키는 고유한 APIM 구독(키)을 받습니다
흐름
-
현재 할당량 검토AOAI 제품의 현재 TPM 및 RPM 할당량을 가진 APIM 구독을 나열하세요.✓ 복사됨→ 팀별 할당량 표
-
시끄러운 팀의 할당량 감소'growth' 팀이 일일 90% TPM 소모로 진행 중입니다. 할당량을 200k → 100k TPM으로 감소하세요. 다른 팀은 변경하지 않습니다.✓ 복사됨→ 할당량 업데이트됨; 확인
-
변경 후 모니터링다음 1시간 동안 구독별 429(속도 제한) 카운트를 수집하세요. growth 팀이 제한되고 있지만 프로덕션 핵심 팀은 영향을 받지 않는지 확인합니다.✓ 복사됨→ 메트릭에서 적용 가능 확인
결과: 합법적인 높은 우선순위 트래픽을 방해하지 않으면서 공유 AOAI 지출을 제어합니다.
함정
- 할당량을 너무 낮게 설정하면 합법적인 워크로드가 기아 상태가 됩니다 — 먼저 섀도우 모드(로그만)로 배포한 후, 실제 패턴을 이해하면 적용하세요