Como o Chutes funciona
O Chutes AI é uma plataforma de computação serverless descentralizada para modelos open-source. Ele expõe um endpoint de inferência compatível com OpenAI e oferece planos de assinatura que agrupam o uso de API até um limite expresso como um múltiplo do valor equivalente pay-per-token — semelhante em estrutura ao GLM Coding Plan do Z.AI, mas cobrindo o catálogo completo open-source (DeepSeek, Llama, Qwen, MiniMax, Kimi e muitos mais). O Kodus se comunica com o Chutes pelo mesmo adaptador compatível com OpenAI que usa para tudo mais, então não há alterações de código — apenas credenciais BYOK.Visão geral dos planos
Preços e regras de cota mudam. Sempre confirme em chutes.ai/pricing antes de escolher um plano.
| Plano | Taxa mensal | Notas |
|---|---|---|
| Base | ~$3/mês | Plano de entrada; seleção limitada de modelos. |
| Standard | ~$10/mês | Necessário para modelos de ponta (DeepSeek V3, MiniMax M2.1, etc.). |
| Pro | ~$20+/mês | Limite 5× maior para maior volume de revisões. |
| Enterprise | personalizado | Contate o Chutes. |
- O limite 5× é redefinido mensalmente e calculado com base nos mesmos preços por token que você pagaria no pay-as-you-go.
- Alguns modelos requerem Standard ou superior — o plano base não inclui modelos de codificação de ponta.
- O Chutes marca alguns modelos com o sufixo
-TEE, indicando variantes de ambiente de execução confiável (computação confidencial).
Modelos recomendados
O Chutes usa identificadores no estilo HuggingFaceorg/model, às vezes com um sufixo -TEE para a variante de computação confidencial:
| ID do modelo | Notas |
|---|---|
deepseek-ai/DeepSeek-V3-0324-TEE | Modelo de codificação de ponta; forte comportamento agêntico. Requer ≥ Standard. |
moonshotai/Kimi-K2-Instruct | Kimi K2 de contexto longo — ótimo em PRs grandes. |
Qwen/Qwen3-Coder-480B-A35B-Instruct | Codificador especializado. |
chutes/MiniMaxAI/MiniMax-M2.1-TEE | Opção de ponta alternativa. |
Criando uma Chave de API
- Vá para chutes.ai e crie uma conta.
- Assine um plano em chutes.ai/pricing, ou habilite o pay-as-you-go se preferir.
- Abra o console de desenvolvedor e crie uma chave de API. Copie-a imediatamente.
Configurar o Chutes no Kodus
Opção 1 — BYOK no Kodus Cloud (recomendado)
- Na interface do Kodus, abra Configurações → BYOK e clique em Editar no modelo Principal (ou Fallback).
- Alterne o formulário para o modo Personalizado para poder inserir uma URL base e um nome de modelo.
-
Preencha os campos:
Campo Valor Provedor OpenAI CompatibleChave de API sua chave de API do Chutes URL Base https://llm.chutes.ai/v1Modelo ex.: deepseek-ai/DeepSeek-V3-0324-TEEMáx. de Requisições Simultâneas 3–5é um bom ponto de partida; aumente se não atingir o limiteMáx. de Tokens de Saída mantenha o padrão a menos que haja truncamento - Salve. O Kodus valida a chave no endpoint e exibe qualquer erro 401 / 404 imediatamente.
- Abra um PR para acionar uma revisão; o badge de status BYOK fica verde na primeira chamada bem-sucedida.
Como o Chutes roda em computação descentralizada, cold-start e latência de cauda variam mais do que em provedores dedicados. Configure uma chave OpenAI ou Anthropic como Fallback para que o Kodus possa fazer failover quando um nó estiver lento ou o limite mensal for atingido.
Opção 2 — Self-hosted (variáveis de ambiente)
Se você executa o Kodus em Modo Fixo (provedor global único, sem BYOK por organização), configure o Chutes no.env dos seus containers de API e worker:
Este caminho só é necessário para instalações self-hosted do Kodus que desabilitam deliberadamente o BYOK. Se o BYOK estiver habilitado na sua instância self-hosted, prefira a Opção 1 — o fluxo pela interface é o mesmo do Cloud.
.env, e verifique:
Quando escolher o Chutes
- Você quer o catálogo open-source mais amplo a um preço de assinatura — DeepSeek / MiniMax / Qwen de ponta a uma taxa fixa com limites previsíveis.
- Você se preocupa com computação confidencial — o Chutes oferece variantes
-TEEque rodam dentro de ambientes de execução confiável, útil se sua postura de conformidade exigir isso. - Você está em volume baixo a médio e cabe dentro do limite 5× PAYG de um plano barato.
Solução de problemas
Modelo requer plano superior
Modelo requer plano superior
- Modelos de ponta (DeepSeek V3, MiniMax M2.1, algumas variantes Qwen) estão restritos ao plano Standard e acima desde fev. 2026.
- Faça upgrade, ou escolha um modelo disponível no seu plano atual (variantes menores de Llama ou Qwen).
Limite mensal 5× atingido
Limite mensal 5× atingido
- Verifique o uso atual no painel do Chutes.
- Mude temporariamente para um modelo mais barato para estender o limite, ou faça upgrade de plano.
- Configure um provedor BYOK de
Fallbackpara que as revisões continuem funcionando enquanto você está com o limite atingido.
Erros 401 / autenticação
Erros 401 / autenticação
- Confirme que a chave está ativa no painel do Chutes e que a assinatura está vigente.
- Certifique-se de que não há espaços em excesso ou aspas no valor do
.env.
Modelo não encontrado
Modelo não encontrado
- O Chutes usa o formato
org/model, com algumas variantes terminando em-TEE(computação confidencial). Verifique a capitalização exata em llm.chutes.ai/v1/models.
Latência lenta ou inconsistente
Latência lenta ou inconsistente
- O Chutes roda em computação descentralizada, então a latência de cauda é maior do que em nuvens dedicadas.
- Para revisões sensíveis à latência, prefira provedores dedicados; reserve o Chutes para trabalhos de revisão noturnos ou em lote, ou configure um provedor rápido como
Principale o Chutes comoFallback.
Erros de conexão
Erros de conexão
- Confirme que seu servidor pode alcançar
llm.chutes.ai. - Revise os logs da API e do worker para o erro upstream exato.