Appliquer des quotas de tokens par équipe sur les déploiements Azure OpenAI
Quand l'utiliser : Plusieurs équipes de produit partagent AOAI ; une boucle incontrôlée d'une équipe ne devrait pas consommer le budget TPM partagé.
Prérequis
- Instance APIM avec les modèles AI-Gateway appliqués — Déployez l'architecture de référence à partir du dépôt Azure-Samples/AI-Gateway
- Clé d'abonnement APIM par équipe — Chaque équipe reçoit un abonnement APIM distinct (clé) qu'elle inclut dans l'en-tête Ocp-Apim-Subscription-Key
Déroulement
-
Examinez les quotas actuelsRépertoriez les abonnements APIM avec leurs quotas TPM et RPM actuels pour le produit AOAI.✓ Copié→ Tableau des quotas par équipe
-
Réduisez une équipe bruyanteL'équipe 'growth' consomme 90% de TPM quotidiennement. Réduisez son quota de 200k → 100k TPM. Gardez les autres inchangés.✓ Copié→ Quota mis à jour ; confirmation
-
Surveillez après le changementAu cours de l'heure suivante, récupérez les comptages de 429 (limite de débit) par abonnement. Confirmez que growth est régulée mais que les équipes critiques en prod ne sont pas affectées.✓ Copié→ Application visible dans les métriques
Résultat : Dépenses AOAI partagées contrôlées sans éliminer le trafic légitime hautement prioritaire.
Pièges
- Définir des quotas trop bas prive les charges de travail légitimes — Déployez d'abord en mode shadowing (journalisation uniquement), puis appliquez une fois que vous comprenez les modèles réels