Pular para o conteúdo principal

Como o Chutes funciona

O Chutes AI é uma plataforma de computação serverless descentralizada para modelos open-source. Ele expõe um endpoint de inferência compatível com OpenAI e oferece planos de assinatura que agrupam o uso de API até um limite expresso como um múltiplo do valor equivalente pay-per-token — semelhante em estrutura ao GLM Coding Plan do Z.AI, mas cobrindo o catálogo completo open-source (DeepSeek, Llama, Qwen, MiniMax, Kimi e muitos mais). O Kodus se comunica com o Chutes pelo mesmo adaptador compatível com OpenAI que usa para tudo mais, então não há alterações de código — apenas credenciais BYOK.

Visão geral dos planos

Preços e regras de cota mudam. Sempre confirme em chutes.ai/pricing antes de escolher um plano.
Desde o início de 2026, cada assinatura do Chutes inclui uma cota de uso igual a 5× o valor equivalente pay-as-you-go do plano, calculado a partir do preço por milhão de tokens de cada modelo. Planos representativos (confirme os números atuais na página de preços):
PlanoTaxa mensalNotas
Base~$3/mêsPlano de entrada; seleção limitada de modelos.
Standard~$10/mêsNecessário para modelos de ponta (DeepSeek V3, MiniMax M2.1, etc.).
Pro~$20+/mêsLimite 5× maior para maior volume de revisões.
EnterprisepersonalizadoContate o Chutes.
  • O limite 5× é redefinido mensalmente e calculado com base nos mesmos preços por token que você pagaria no pay-as-you-go.
  • Alguns modelos requerem Standard ou superior — o plano base não inclui modelos de codificação de ponta.
  • O Chutes marca alguns modelos com o sufixo -TEE, indicando variantes de ambiente de execução confiável (computação confidencial).

Modelos recomendados

O Chutes usa identificadores no estilo HuggingFace org/model, às vezes com um sufixo -TEE para a variante de computação confidencial:
ID do modeloNotas
deepseek-ai/DeepSeek-V3-0324-TEEModelo de codificação de ponta; forte comportamento agêntico. Requer ≥ Standard.
moonshotai/Kimi-K2-InstructKimi K2 de contexto longo — ótimo em PRs grandes.
Qwen/Qwen3-Coder-480B-A35B-InstructCodificador especializado.
chutes/MiniMaxAI/MiniMax-M2.1-TEEOpção de ponta alternativa.
Veja a lista completa e preços atuais em llm.chutes.ai/v1/models.

Criando uma Chave de API

Uma conta Chutes com assinatura ativa (ou saldo pay-as-you-go) é necessária.
  1. Vá para chutes.ai e crie uma conta.
  2. Assine um plano em chutes.ai/pricing, ou habilite o pay-as-you-go se preferir.
  3. Abra o console de desenvolvedor e crie uma chave de API. Copie-a imediatamente.

Configurar o Chutes no Kodus

Opção 1 — BYOK no Kodus Cloud (recomendado)

  1. Na interface do Kodus, abra Configurações → BYOK e clique em Editar no modelo Principal (ou Fallback).
  2. Alterne o formulário para o modo Personalizado para poder inserir uma URL base e um nome de modelo.
  3. Preencha os campos:
    CampoValor
    ProvedorOpenAI Compatible
    Chave de APIsua chave de API do Chutes
    URL Basehttps://llm.chutes.ai/v1
    Modeloex.: deepseek-ai/DeepSeek-V3-0324-TEE
    Máx. de Requisições Simultâneas3–5 é um bom ponto de partida; aumente se não atingir o limite
    Máx. de Tokens de Saídamantenha o padrão a menos que haja truncamento
  4. Salve. O Kodus valida a chave no endpoint e exibe qualquer erro 401 / 404 imediatamente.
  5. Abra um PR para acionar uma revisão; o badge de status BYOK fica verde na primeira chamada bem-sucedida.
O limite 5× é calculado a partir dos preços por token. Modelos de ponta caros consomem o limite mais rapidamente do que os menores — se você quer maximizar revisões por real gasto, combine o Chutes com um modelo mais barato (Llama, variantes menores do Qwen) para PRs rotineiros e reserve os modelos de ponta para revisões complexas via uma regra do Kody ou perfil BYOK separado.
Como o Chutes roda em computação descentralizada, cold-start e latência de cauda variam mais do que em provedores dedicados. Configure uma chave OpenAI ou Anthropic como Fallback para que o Kodus possa fazer failover quando um nó estiver lento ou o limite mensal for atingido.

Opção 2 — Self-hosted (variáveis de ambiente)

Se você executa o Kodus em Modo Fixo (provedor global único, sem BYOK por organização), configure o Chutes no .env dos seus containers de API e worker:
# Configuração Chutes (Modo Fixo)
API_LLM_PROVIDER_MODEL="deepseek-ai/DeepSeek-V3-0324-TEE"   # qualquer ID de modelo do catálogo
API_OPENAI_FORCE_BASE_URL="https://llm.chutes.ai/v1"
API_OPEN_AI_API_KEY="sua-chave-de-api-chutes"
Este caminho só é necessário para instalações self-hosted do Kodus que desabilitam deliberadamente o BYOK. Se o BYOK estiver habilitado na sua instância self-hosted, prefira a Opção 1 — o fluxo pela interface é o mesmo do Cloud.
Reinicie os containers de API e worker após editar o .env, e verifique:
docker-compose logs api worker | grep -iE "chutes|llm\.chutes"
Para a configuração completa self-hosted (domínios, chaves de segurança, banco de dados, webhooks, proxy reverso), siga o guia de implantação em VM genérica e substitua apenas o bloco de LLM pelo acima.

Quando escolher o Chutes

  • Você quer o catálogo open-source mais amplo a um preço de assinatura — DeepSeek / MiniMax / Qwen de ponta a uma taxa fixa com limites previsíveis.
  • Você se preocupa com computação confidencial — o Chutes oferece variantes -TEE que rodam dentro de ambientes de execução confiável, útil se sua postura de conformidade exigir isso.
  • Você está em volume baixo a médio e cabe dentro do limite 5× PAYG de um plano barato.
Escolha o Synthetic se quiser uma assinatura fixa mais simples sem matemática de limite por modelo. Escolha o Z.AI se seu modelo preferido é especificamente a família GLM com compromissos por faixas.

Solução de problemas

  • Modelos de ponta (DeepSeek V3, MiniMax M2.1, algumas variantes Qwen) estão restritos ao plano Standard e acima desde fev. 2026.
  • Faça upgrade, ou escolha um modelo disponível no seu plano atual (variantes menores de Llama ou Qwen).
  • Verifique o uso atual no painel do Chutes.
  • Mude temporariamente para um modelo mais barato para estender o limite, ou faça upgrade de plano.
  • Configure um provedor BYOK de Fallback para que as revisões continuem funcionando enquanto você está com o limite atingido.
  • Confirme que a chave está ativa no painel do Chutes e que a assinatura está vigente.
  • Certifique-se de que não há espaços em excesso ou aspas no valor do .env.
  • O Chutes usa o formato org/model, com algumas variantes terminando em -TEE (computação confidencial). Verifique a capitalização exata em llm.chutes.ai/v1/models.
  • O Chutes roda em computação descentralizada, então a latência de cauda é maior do que em nuvens dedicadas.
  • Para revisões sensíveis à latência, prefira provedores dedicados; reserve o Chutes para trabalhos de revisão noturnos ou em lote, ou configure um provedor rápido como Principal e o Chutes como Fallback.
  • Confirme que seu servidor pode alcançar llm.chutes.ai.
  • Revise os logs da API e do worker para o erro upstream exato.

Relacionados