メインコンテンツへスキップ

Documentation Index

Fetch the complete documentation index at: https://docs.kodus.io/llms.txt

Use this file to discover all available pages before exploring further.

Z.AI の動作方法

Z.AI(Zhipu AI によって開発)は GLM ファミリーのモデルを提供します。API アクセスに定額サブスクリプションを提供している数少ない主要プロバイダーの1つです:GLM Coding Plan は、トークンごとの課金ではなく5時間および週次ウィンドウに適用されるレート制限で、固定月額料金でモデル使用量をバンドルします。 より大量または変動するワークロードには、Z.AI は標準 Developer API で同じモデルへのペイパートークンアクセスも提供しています。 両方のパスは OpenAI 互換エンドポイントを公開しているため、Kodus は OpenAI Compatible プロバイダー(または BYOK のキュレートされた GLM 5.1 カードを介して直接)を通じて通信します。

プランの概要

価格とクォータは定期的に変更されます。ティアを選択する前に、z.ai/subscribedocs.z.ai で最新の数値を必ず確認してください。

GLM Coding Plan(サブスクリプション)

ティア価格(月額換算)API バリュー換算の概算同時実行数
Lite約$18/月(四半期課金)月額料金の約15倍約1 concurrent
Pro約$30/月(四半期課金)月額料金の約20倍約1 concurrent
Max約$80/月(四半期課金)月額料金の約30倍最大30 concurrent
  • クォータはローリング5時間ウィンドウと週次ウィンドウでリセットされます — 月次上限ではなくその上限を念頭に計画してください。
  • カバレッジには GLM-5.1、GLM-5-Turbo、GLM-5、GLM-4.5、GLM-4.5-Air が含まれます。
  • 専用エンドポイント:https://api.z.ai/api/coding/paas/v4 — Coding Plan キーはここでのみ動作します。

ペイパートークン Developer API

モデル価格(入力/出力トークン 100万当たり)コンテキストウィンドウ
GLM-5.1 推奨0.95/0.95 / 3.15約200kトークン
GLM-50.72/0.72 / 2.30約131kトークン
GLM-4.50.60/0.60 / 2.20約128kトークン
GLM-4.5-Airより低い価格帯、ルーティング最適化約128kトークン
標準エンドポイント:https://api.z.ai/api/paas/v4/(OpenAI 互換)。

APIキーの作成

APIキーを作成するには Z.AI アカウントが必要です。
  1. z.ai にサインインします。
  2. z.ai/subscribeGLM Coding Plan ティアを購入します。
  3. サブスクリプションのキー管理ページを開き、Coding Plan キーを作成します。
  4. キーをコピーします — 再度見ることはできません。
Coding Plan キーは /api/coding/paas/v4 エンドポイントに紐づいています。標準の /api/paas/v4/ エンドポイントに対して送信すると401 を返します

Kodus で Z.AI を設定する

主なフローは Kodus Cloud での BYOK です — キュレートされた GLM 5.1 カードがエンドポイントの切り替えを処理します。プロセスレベルでプロバイダーを固定することを好むセルフホストユーザーは、代わりに環境変数を使用できます。

オプション1 — Kodus Cloud での BYOK(推奨)

1

BYOK を開き GLM 5.1 を選択

app.kodus.io/organization/byok にアクセスし、メインモデルセクションの GLM 5.1 カードをクリックします。
2

プランを選択

カードは Plan セレクターとともに展開します。以下を選択します:ベース URL と “Get a key” リンクは自動的にプランに合わせて更新されます。
3

APIキーを貼り付ける

キーのみ — 他に設定するものはありません。Coding Plan ユーザーの場合、Kodus は Advanced settings に maxConcurrentRequests=1 を事前入力し、これは Lite/Pro ティアの制限と一致します。Max ティアの場合は 30 に増やしてください。
4

Test & save

Test & save をクリックします。Kodus は安価なメタデータ呼び出しでエンドポイントをプローブし、成功時に設定を保存します。401 はキーが選択したプランのエンドポイントと一致しないことを意味し、404 はベース URL が間違っていることを意味します。

Reasoning のチューニング(任意)

キュレートされた GLM 5.1 カードは Thinking: Medium を事前入力し、これは OpenAI 互換プロバイダーでは thinking: { type: "enabled" } を生成します。ほとんどのワークロードではこれで問題ありません。オーバーライドする2つのケース:
  • 特定のトークン予算を強制 — Advanced settings で ThinkingCustom に切り替え、以下を貼り付け:
    {
      "thinking": { "type": "enabled", "budget_tokens": 20000 }
    }
    
  • thinking を無効化 — 小さな PR で最速/最安のレビューのために:
    {
      "thinking": { "type": "disabled" }
    }
    
名前空間のラップは不要です — Kodus が送信前に openaiCompatible(アクティブなプロバイダー)で自動ラップします。詳しくは main BYOK doc → Custom JSON override を参照してください。

同時実行数のチューニング

  • Coding Plan Lite / Pro:事前入力された maxConcurrentRequests=1 を維持します。それ以上にすると 429 Too much concurrency を返します。
  • Coding Plan Max:最初に 5 に上げ、429 が発生しなければ最大 30 まで。Max ティアは最大30 concurrent を許可します。
  • Developer API:空のまま開始(制限なし)。レート制限エラーが発生したら 5 に下げ、その後調整します。
GLM 5.1 をメインモデルとして設定し、OpenAI または Anthropic キーをフォールバックとして保持することで、Coding Plan の5時間ウィンドウが枯渇してもレビューが継続されます。Kodus は自動的にフェイルオーバーします。

オプション2 — 手動設定

キュレートされたカタログにない GLM バリアント(例:GLM-5 または GLM-4.5)が必要な場合、カタログ下部の Configure manually をクリックして以下を入力します:
フィールド
プロバイダーOpenAI Compatible
ベース URLhttps://api.z.ai/api/coding/paas/v4(Coding Plan)
https://api.z.ai/api/paas/v4/(Developer API)
モデルglm-5.1glm-5glm-5-turboglm-4.5glm-4.5-air
APIキーZ.AI キー(上記のベース URL と一致)
Max Concurrent RequestsLite/Pro Coding Plan では 1;Max では最大 30;Developer API では空のまま

オプション3 — セルフホスト(環境変数)

固定モード(単一グローバルプロバイダー、組織ごとの BYOK なし)で Kodus を実行している場合は、API とワーカーコンテナの .env で Z.AI を設定します:
# Z.AI configuration (Fixed Mode)
API_LLM_PROVIDER_MODEL="glm-5.1"                                  # any GLM model you have access to
API_OPENAI_FORCE_BASE_URL="https://api.z.ai/api/coding/paas/v4"   # use /api/paas/v4/ for pay-per-token
API_OPEN_AI_API_KEY="your-z-ai-api-key"
このパスは意図的に BYOK を無効にしているセルフホスト Kodus インストールにのみ必要です。セルフホストインスタンスで BYOK が有効な場合は、オプション1を優先してください — キュレートされたカードがエンドポイントのロジックを処理します。
.env を編集後、API とワーカーコンテナを再起動して統合を確認します:
docker-compose logs api worker | grep -iE "z\.ai|glm"
完全なセルフホストセットアップ(ドメイン、セキュリティキー、データベース、Webhook、リバースプロキシ)については、汎用VMデプロイガイド に従い、LLM ブロックのみ上記のものと置き換えてください。

Coding Plan とペイパートークンの選択

  • 予測可能なレビュアーチームがあり、定額月額コストを希望する場合は Coding Plan を選択します。5時間および週次クォータは、サブスクリプション料金に対して約15〜30倍の同等 API 支出に相当します。
  • トラフィックがバースト的な場合、最大コンテキストウィンドウへの不定期アクセスが必要な場合、または PR ボリュームに応じてコストを線形にスケールしたい場合はペイパートークンを選択します。
  • ペアにする:Coding Plan をメインとして使用し、サブスクリプションウィンドウを枯渇させるバーストをカバーするため、Developer API キー(または完全に異なるプロバイダー)をフォールバックとして使用します。

トラブルシューティング

  • Coding Plan キーは /api/coding/paas/v4 でのみ動作します。Developer API キーは /api/paas/v4/ でのみ動作します。
  • キュレートされたカードでは、Plan セレクターがキータイプと一致することを確認してください。
  • 手動モードでは、ベース URL がキーの出所と一致することを確認してください。
  • Lite および Pro Coding Plan ティアは通常、1 concurrent リクエストのみを許可します。Kodus がこれを事前入力します;Max でのみ上げてください。
  • まだ 429 にヒットしている場合は、Advanced settings で Max concurrent requests を下げます。
  • クォータは5時間ローリングウィンドウ週次ウィンドウで適用されます。どちらかに達すると HTTP 429 を返します。
  • Z.AI コンソールで残りのクォータを確認します。
  • オプション:次のウィンドウを待つ、より高いティアにアップグレードする、またはギャップをカバーするために Developer API キーをフォールバックとして設定する。
  • モデル ID が Z.AI のカタログと一致していることを確認します(glm-5.1glm-5-turboglm-5glm-4.5glm-4.5-air)。
  • Coding Plan は現在 GLM ファミリーのみをカバーしています — GLM 以外のモデル名は拒否されます。
  • サーバーが api.z.ai に到達できることを確認します。
  • API とワーカーのログで正確な上流エラーを確認します。
  • アウトバウンドトラフィックが制限されているリージョンにいる場合は、インフラが許可するリバースプロキシを通じてリクエストをルーティングします。

関連リンク