Saltar al contenido principal

Cómo funciona Chutes

Chutes AI es una plataforma de cómputo sin servidor descentralizada para modelos de código abierto. Expone un endpoint de inferencia compatible con OpenAI y ofrece planes de suscripción que agrupan el uso de la API hasta un límite expresado como múltiplo del valor equivalente de pago por token — similar en estructura al GLM Coding Plan de Z.AI, pero cubriendo el catálogo completo de código abierto (DeepSeek, Llama, Qwen, MiniMax, Kimi y muchos más). Kodus se comunica con Chutes a través del mismo adaptador compatible con OpenAI que usa para todo lo demás, por lo que no hay cambios de código — solo credenciales BYOK.

Planes de un vistazo

Los precios y las reglas de cuota cambian. Siempre confirma en chutes.ai/pricing antes de elegir un nivel.
Desde principios de 2026, cada suscripción de Chutes incluye una asignación de uso igual a 5× el valor equivalente de pago por uso del nivel, calculado a partir del precio por millón de tokens de cada modelo. Niveles representativos (confirma los números actuales en la página de precios):
NivelTarifa mensualNotas
Base~$3/mesNivel de entrada; selección de modelos limitada.
Standard~$10/mesRequerido para modelos frontier (DeepSeek V3, MiniMax M2.1, etc.).
Pro~$20+/mesCap 5× más alto para mayor volumen de revisiones.
EnterprisepersonalizadoContactar a Chutes.
  • El cap 5× se reinicia mensualmente y se calcula contra los mismos precios por token que pagarías en pago por uso.
  • Algunos modelos requieren Standard o superior — el nivel base no incluye modelos frontier de codificación.
  • Chutes marca algunos modelos con el sufijo -TEE indicando variantes de entorno de ejecución confiable (cómputo confidencial).

Modelos recomendados

Chutes usa identificadores estilo HuggingFace org/model, a veces con un sufijo -TEE para la variante de cómputo confidencial:
ID del modeloNotas
deepseek-ai/DeepSeek-V3-0324-TEEModelo frontier de codificación; comportamiento agéntico robusto. Requiere ≥ Standard.
moonshotai/Kimi-K2-InstructKimi K2 de contexto largo — excelente en PRs grandes.
Qwen/Qwen3-Coder-480B-A35B-InstructCodificador especializado.
chutes/MiniMaxAI/MiniMax-M2.1-TEEOpción frontier alternativa.
Consulta la lista en vivo y los precios actuales en llm.chutes.ai/v1/models.

Crear una clave API

Se requiere una cuenta de Chutes con una suscripción activa (o saldo de pago por uso).
  1. Ve a chutes.ai y crea una cuenta.
  2. Suscríbete a un nivel en chutes.ai/pricing, o habilita el pago por uso si lo prefieres.
  3. Abre la consola de desarrollador y crea una clave API. Cópiala de inmediato.

Configurar Chutes en Kodus

Opción 1 — BYOK en Kodus Cloud (recomendado)

  1. En la interfaz web de Kodus, abre Configuración → BYOK y haz clic en Editar en el modelo Principal (o Respaldo).
  2. Cambia el formulario al modo Personalizado para poder ingresar una URL base y un nombre de modelo libre.
  3. Completa los campos:
    CampoValor
    ProveedorOpenAI Compatible
    Clave APItu clave API de Chutes
    URL Basehttps://llm.chutes.ai/v1
    Modelopor ejemplo, deepseek-ai/DeepSeek-V3-0324-TEE
    Máx. de Solicitudes Concurrentes3–5 es un inicio seguro; aumenta si no alcanzas el cap
    Máx. de Tokens de Salidadeja el valor predeterminado a menos que tengas truncamiento
  4. Guarda. Kodus valida la clave contra el endpoint y muestra cualquier error 401 / 404 de inmediato.
  5. Abre un PR para activar una revisión; el indicador de estado BYOK se pone verde en la primera llamada exitosa.
El cap 5× se calcula a partir de los precios por token. Los modelos frontier costosos consumen el cap más rápido que los pequeños — si quieres maximizar las revisiones por dólar, combina Chutes con un modelo más barato (variantes pequeñas de Llama o Qwen) para PRs rutinarios y reserva los modelos frontier para revisiones complejas mediante una regla de Kody o un perfil BYOK separado.
Dado que Chutes se ejecuta en cómputo descentralizado, la latencia de arranque en frío y la latencia de cola varían más que en proveedores dedicados. Configura una clave de OpenAI o Anthropic como Respaldo para que Kodus pueda conmutar cuando un nodo sea lento o se alcance el cap mensual.

Opción 2 — Alojamiento autónomo (variables de entorno)

Si ejecutas Kodus en Modo Fijo (proveedor global único, sin BYOK por organización), configura Chutes en el .env de tus contenedores de API + worker:
# Configuración de Chutes (Modo Fijo)
API_LLM_PROVIDER_MODEL="deepseek-ai/DeepSeek-V3-0324-TEE"   # cualquier ID de modelo del catálogo
API_OPENAI_FORCE_BASE_URL="https://llm.chutes.ai/v1"
API_OPEN_AI_API_KEY="your-chutes-api-key"
Esta opción solo es necesaria para instalaciones de Kodus con alojamiento autónomo que deshabilitan deliberadamente el BYOK. Si el BYOK está habilitado en tu instancia con alojamiento autónomo, prefiere la Opción 1 — el flujo basado en la interfaz es el mismo que en Cloud.
Reinicia los contenedores de API y worker después de editar .env, luego verifica:
docker-compose logs api worker | grep -iE "chutes|llm\.chutes"
Para la configuración completa con alojamiento autónomo (dominios, claves de seguridad, base de datos, webhooks, proxy inverso), sigue la guía de despliegue en VM genérica y solo reemplaza el bloque LLM con el anterior.

Cuándo elegir Chutes

  • Quieres el catálogo de código abierto más amplio a un precio de suscripción — DeepSeek / MiniMax / Qwen frontier a una tarifa plana con caps predecibles.
  • Te importa el cómputo confidencial — Chutes ofrece variantes -TEE que se ejecutan dentro de entornos de ejecución confiables, útil si tu postura de cumplimiento lo requiere.
  • Estás operando a volumen bajo o medio y te ajustas dentro del cap de 5× del PAYG de un nivel económico.
Elige Synthetic en su lugar si quieres una suscripción plana más simple sin cálculo de cap por modelo. Elige Z.AI si tu modelo preferido es específicamente la familia GLM.

Solución de problemas

  • Los modelos frontier (DeepSeek V3, MiniMax M2.1, algunas variantes de Qwen) están limitados al nivel Standard y superiores desde febrero de 2026.
  • Actualiza, o elige un modelo disponible en tu nivel actual (variantes más pequeñas de Llama o Qwen).
  • Verifica el uso actual en el panel de Chutes.
  • Cambia temporalmente a un modelo más barato para extender el cap, o actualiza el nivel.
  • Configura un proveedor BYOK de Respaldo para que las revisiones sigan funcionando mientras estás en el cap.
  • Confirma que la clave esté activa en el panel de Chutes y la suscripción esté vigente.
  • Asegúrate de que no haya espacios al final ni comillas en el valor del .env.
  • Chutes usa el formato org/model, con algunas variantes que terminan en -TEE (cómputo confidencial). Verifica la capitalización exacta en llm.chutes.ai/v1/models.
  • Chutes se ejecuta en cómputo descentralizado, por lo que la latencia de cola es mayor que en nubes dedicadas.
  • Para revisiones sensibles a la latencia, prefiere proveedores dedicados; reserva Chutes para revisiones nocturnas o por lotes, o configura un proveedor rápido como Principal y Chutes como Respaldo.
  • Confirma que tu servidor pueda alcanzar llm.chutes.ai.
  • Revisa los registros de la API y del worker para ver el error upstream exacto.

Relacionado