Aplicar cuotas de tokens por equipo en despliegues de Azure OpenAI
Cuándo usarlo: Múltiples equipos de producto comparten AOAI; el bucle desbocado de un equipo no debería quemar el presupuesto TPM compartido.
Requisitos previos
- Instancia de APIM con los patrones de IA-Gateway aplicados — Despliega la arquitectura de referencia desde el repositorio Azure-Samples/AI-Gateway
- Clave de suscripción de APIM por equipo — Cada equipo obtiene una suscripción de APIM distinta (clave) que incluye en el encabezado Ocp-Apim-Subscription-Key
Flujo
-
Revisar cuotas actualesEnumera suscripciones de APIM con sus cuotas TPM y RPM actuales para el producto AOAI.✓ Copiado→ Tabla de cuotas por equipo
-
Reducir un equipo ruidosoEl equipo 'growth' está al 90% de quema TPM diaria. Reduce su cuota de 200k → 100k TPM. Mantén los otros sin cambios.✓ Copiado→ Cuota actualizada; confirmación
-
Monitorear después del cambioDurante la próxima hora, extrae conteos 429 (limitado por velocidad) por suscripción. Confirma que growth está siendo moldeado pero los equipos críticos de prod no se ven afectados.✓ Copiado→ Aplicación visible en métricas
Resultado: Gasto compartido de AOAI controlado sin eliminar tráfico legítimo de alta prioridad.
Errores comunes
- Establecer cuotas demasiado bajas priva de recursos a cargas de trabajo legítimas — Implementa primero en modo sombra (solo registro), luego aplica una vez que entiendas los patrones reales