Azure OpenAIデプロイメント全体でチームごとのトークンクォータを適用する
使うタイミング: 複数のプロダクトチームがAOAIを共有しており、あるチームの暴走ループが共有TPM予算を使い切らないようにしたい場合。
前提条件
- AI-Gatewayパターンが適用されたAPIMインスタンス — Azure-Samples/AI-Gatewayリポジトリからリファレンスアーキテクチャをデプロイ
- チームごとのAPIMサブスクリプションキー — 各チームに個別のAPIMサブスクリプション(キー)を発行し、
Ocp-Apim-Subscription-Keyヘッダーに含める
フロー
-
現在のクォータを確認するAOAI製品のAPIMサブスクリプション一覧と、各サブスクリプションの現在のTPMおよびRPMクォータを表示してください。✓ コピーしました→ チームごとのクォータ一覧表
-
使いすぎのチームのクォータを下げるチーム'growth'は毎日TPMの90%を消費しています。クォータを200k → 100k TPMに削減してください。他のチームは変更なしで。✓ コピーしました→ クォータ更新済み、確認完了
-
変更後のモニタリング次の1時間、サブスクリプションごとの429(レート制限)カウントを取得してください。growthが制限されていること、かつ本番クリティカルなチームに影響がないことを確認。✓ コピーしました→ メトリクスで制限適用を確認
結果: 正当な高優先度トラフィックを止めることなく、共有AOAIの支出をコントロールできます。
注意点
- クォータを低く設定しすぎると正当なワークロードが阻害される — まずシャドウモード(ログのみ)でロールアウトし、実際のパターンを把握してから制限を適用する