Documentation Index
Fetch the complete documentation index at: https://docs.kodus.io/llms.txt
Use this file to discover all available pages before exploring further.
Como o Z.AI funciona
O Z.AI (desenvolvido pela Zhipu AI) serve a família de modelos GLM. É um dos poucos grandes provedores que oferece uma assinatura de taxa fixa para acesso à API: o GLM Coding Plan agrupa o uso de modelos a um preço mensal fixo, com limites de taxa aplicados em janelas de 5 horas e semanais em vez de cobrança por token. Para cargas de trabalho de maior volume ou variáveis, o Z.AI também oferece acesso pay-per-token aos mesmos modelos em sua Developer API padrão. Ambos os caminhos expõem um endpoint compatível com OpenAI, então o Kodus se comunica com eles via o provedorOpenAI Compatible (ou diretamente pelo card curado GLM 5.1 em BYOK).
Visão geral dos planos
Preços e cotas mudam regularmente. Sempre confirme os números atuais em z.ai/subscribe e docs.z.ai antes de escolher um plano.
GLM Coding Plan (assinatura)
| Plano | Preço (equivalente mensal) | Equivalente aproximado em valor de API | Simultaneidade |
|---|---|---|---|
| Lite | ~$18/mês (cobrado trimestralmente) | ~15× a taxa mensal | ~1 simultânea |
| Pro | ~$30/mês (cobrado trimestralmente) | ~20× a taxa mensal | ~1 simultânea |
| Max | ~$80/mês (cobrado trimestralmente) | ~30× a taxa mensal | até 30 simultâneas |
- As cotas são redefinidas em uma janela deslizante de 5 horas e uma janela semanal — planeje em torno do teto, não de um limite mensal.
- A cobertura inclui GLM-5.1, GLM-5-Turbo, GLM-5, GLM-4.5 e GLM-4.5-Air.
- Endpoint dedicado:
https://api.z.ai/api/coding/paas/v4— chaves do Coding Plan funcionam apenas aqui.
Developer API pay-per-token
| Modelo | Preço (1M tokens de entrada / saída) | Janela de Contexto |
|---|---|---|
GLM-5.1 recomendado | 3,15 | ~200k tokens |
| GLM-5 | 2,30 | ~131k tokens |
| GLM-4.5 | 2,20 | ~128k tokens |
| GLM-4.5-Air | tier inferior, otimizado para roteamento | ~128k tokens |
https://api.z.ai/api/paas/v4/ (compatível com OpenAI).
Criando uma Chave de API
- Assinante do Coding Plan
- Developer API (pay-per-token)
- Faça login em z.ai.
- Adquira um plano GLM Coding Plan em z.ai/subscribe.
- Abra a página de gerenciamento de chaves da sua assinatura e crie uma chave do Coding Plan.
- Copie a chave — você não poderá vê-la novamente.
As chaves do Coding Plan estão vinculadas ao endpoint
/api/coding/paas/v4. Elas retornarão 401 se enviadas contra o endpoint padrão /api/paas/v4/.Configurar o Z.AI no Kodus
O fluxo principal é BYOK no Kodus Cloud — o card curado GLM 5.1 lida com a troca de endpoint por você. Usuários self-hosted que preferem fixar o provedor no nível do processo podem usar variáveis de ambiente.Opção 1 — BYOK no Kodus Cloud (recomendado)
Abrir BYOK e escolher GLM 5.1
Acesse app.kodus.io/organization/byok e clique no card GLM 5.1 na seção do modelo Main.
Selecionar seu plano
O card expande com um seletor de Plan. Escolha:
- Developer API — se sua chave é de z.ai/manage-apikey
- Coding Plan — se sua chave é de uma assinatura GLM Coding Plan
Colar sua chave de API
Apenas a chave — nada mais para configurar. Para usuários do Coding Plan, o Kodus pré-preenche
maxConcurrentRequests=1 em Advanced settings, que corresponde aos limites dos tiers Lite/Pro. Aumente para 30 se você está no Max.Ajustar reasoning (opcional)
O card curado GLM 5.1 pré-preenche Thinking: Medium, que para provedores OpenAI-compatible emitethinking: { type: "enabled" }. Isso é suficiente para a maioria das cargas. Dois casos para sobrescrever:
-
Forçar um budget de tokens específico — mude Thinking para Custom em Advanced settings e cole:
-
Desabilitar thinking — para revisões mais rápidas/baratas em PRs pequenos:
Não é necessário envolver em namespace — o Kodus faz o auto-wrap sob
openaiCompatible (o provider ativo) antes de enviar. Veja main BYOK doc → Custom JSON override para detalhes.Ajustar simultaneidade
- Coding Plan Lite / Pro: mantenha o
maxConcurrentRequests=1pré-preenchido. Ir além retorna429 Too much concurrency. - Coding Plan Max: aumente para
5primeiro, até30se não vir 429s. O tier Max permite até 30 simultâneas. - Developer API: comece vazio (sem limite). Reduza para
5se vir erros de limite de taxa, depois ajuste.
Configure o GLM 5.1 como seu modelo Main e mantenha uma chave OpenAI ou Anthropic como Fallback para que as revisões continuem rodando quando sua janela de 5 horas do Coding Plan se esgotar. O Kodus faz failover automaticamente.
Opção 2 — Configuração manual
Se você precisa de uma variante do GLM que não está no catálogo curado (ex.: GLM-5 ou GLM-4.5), clique em Configure manually no final do catálogo e preencha:| Campo | Valor |
|---|---|
| Provider | OpenAI Compatible |
| Base URL | https://api.z.ai/api/coding/paas/v4 (Coding Plan)https://api.z.ai/api/paas/v4/ (Developer API) |
| Model | glm-5.1, glm-5, glm-5-turbo, glm-4.5, glm-4.5-air |
| API Key | sua chave Z.AI (correspondente à URL base acima) |
| Max Concurrent Requests | 1 no Coding Plan Lite/Pro; até 30 no Max; deixe vazio na Developer API |
Opção 3 — Self-hosted (variáveis de ambiente)
Se você executa o Kodus em Fixed Mode (provedor global único, sem BYOK por organização), configure o Z.AI no.env dos seus containers de API e worker:
Este caminho só é necessário para instalações self-hosted do Kodus que desabilitam deliberadamente o BYOK. Se o BYOK estiver habilitado na sua instância self-hosted, prefira a Opção 1 — o card curado lida com a lógica do endpoint por você.
.env, e verifique a integração:
Escolhendo entre o Coding Plan e pay-per-token
- Escolha o Coding Plan quando você tem um time previsível de revisores e quer um custo mensal fixo. As cotas de 5 horas e semanais equivalem a aproximadamente 15–30× o valor da assinatura em gastos equivalentes de API.
- Escolha pay-per-token quando seu tráfego for variável, quando você precisa de acesso ocasional às janelas de contexto maiores, ou quando quer que o custo escale linearmente com o volume de PRs.
- Combine-os: use o Coding Plan como Main e uma chave da Developer API (ou um provedor inteiramente diferente) como Fallback para cobrir picos que esgotam sua janela de assinatura.
Solução de problemas
401 após Test — chave não corresponde ao endpoint
401 após Test — chave não corresponde ao endpoint
- Chaves do Coding Plan funcionam apenas em
/api/coding/paas/v4. Chaves da Developer API funcionam apenas em/api/paas/v4/. - No card curado, confirme que o seletor Plan corresponde ao tipo da chave.
- No modo manual, confirme que a Base URL corresponde à origem da chave.
'Too much concurrency' no momento da revisão
'Too much concurrency' no momento da revisão
- Os tiers Lite e Pro do Coding Plan geralmente permitem apenas 1 requisição simultânea. O Kodus pré-preenche isso para você; aumente apenas no Max.
- Reduza Max concurrent requests em Advanced settings se ainda estiver atingindo 429s.
Cota esgotada no Coding Plan
Cota esgotada no Coding Plan
- As cotas são aplicadas em uma janela deslizante de 5 horas e uma janela semanal. Atingir uma delas retorna HTTP 429.
- Verifique a cota restante no console do Z.AI.
- Opções: aguarde a próxima janela, faça upgrade para um tier superior, ou tenha uma chave da Developer API configurada como Fallback para cobrir a lacuna.
Modelo não encontrado
Modelo não encontrado
- Verifique se o Model ID corresponde ao catálogo do Z.AI (
glm-5.1,glm-5-turbo,glm-5,glm-4.5,glm-4.5-air). - O Coding Plan atualmente cobre apenas a família GLM — nomes de modelos não-GLM serão rejeitados.
Erros de conexão (timeout, DNS)
Erros de conexão (timeout, DNS)
- Confirme que seu servidor pode alcançar
api.z.ai. - Verifique os logs da API e do worker para o erro upstream exato.
- Se você estiver em uma região com tráfego de saída restrito, roteie as requisições por um proxy reverso que sua infraestrutura permita.