Aplicar cotas de token por equipe em deployments do Azure OpenAI
Quando usar: Múltiplas equipes de produto compartilham AOAI; um loop descontrolado de uma equipe não deve queimar o orçamento TPM compartilhado.
Pré-requisitos
- Instância APIM com padrões AI-Gateway aplicados — Implante a arquitetura de referência do repositório Azure-Samples/AI-Gateway
- Chave de assinatura APIM por equipe — Cada equipe obtém uma assinatura APIM distinta (chave) que inclui no cabeçalho Ocp-Apim-Subscription-Key
Fluxo
-
Revisar cotas atuaisListe assinaturas APIM com suas cotas TPM e RPM atuais para o produto AOAI.✓ Copiado→ Tabela de cota por equipe
-
Ajustar uma equipe ruidosa para baixoA equipe 'growth' está em 90% de queima de TPM diariamente. Reduza sua cota de 200k → 100k TPM. Mantenha outras inalteradas.✓ Copiado→ Cota atualizada; confirmação
-
Monitorar após a mudançaNa próxima hora, puxe contagens 429 (limitadas por taxa) por assinatura. Confirme que growth está sendo controlado, mas as equipes críticas de produção não são afetadas.✓ Copiado→ Aplicação visível em métricas
Resultado: Gasto compartilhado AOAI controlado sem destruir tráfego legítimo de alta prioridade.
Armadilhas
- Definir cotas muito baixas priva cargas de trabalho legítimas — Implante em modo shadow primeiro (somente log), depois aplique quando você entender os padrões reais