Selección de modelos
Elegir el modelo adecuado puede afectar significativamente el costo y la calidad.Recomendaciones basadas en tareas
| Tarea | Modelos recomendados | Motivo |
|---|---|---|
| Preguntas y respuestas simples | gpt-5-mini, gemini-2.5-flash | Rápido, barato, suficientemente bueno |
| Razonamiento complejo | gpt-5.4, claude-opus-4-6, deepseek-r1 | Mejor lógica y planificación |
| Programación | claude-sonnet-4-6, gpt-4o, deepseek-v3.2 | Optimizado para código |
| Escritura creativa | claude-sonnet-4-6, gpt-4o | Mejor calidad de redacción |
| Visión/Imágenes | gpt-4o, claude-sonnet-4-6, gemini-2.5-flash | Soporte nativo de visión |
| Contexto largo | gemini-2.5-pro, claude-sonnet-4-6 | Ventanas de 1M+ token |
| Sensible al costo | gpt-5-mini, gemini-2.5-flash, deepseek-v3.2 | Mejor relación calidad-precio |
Niveles de costo
Optimización de costos
1. Usa primero modelos más pequeños
2. Configura max_tokens
Establece siempre un límite razonable de max_tokens:
3. Optimiza los prompts
4. Habilita el caché
Aprovecha el caché semántico:5. Agrupa solicitudes similares
Optimización del rendimiento
1. Usa streaming para la UX
El streaming mejora el rendimiento percibido:2. Elige modelos rápidos para uso interactivo
| Caso de uso | Recomendado | Latencia |
|---|---|---|
| UI de chat | gpt-5-mini, gemini-2.5-flash | ~200ms hasta el primer token |
| Autocompletado de pestañas | claude-haiku-4-5 | ~150ms hasta el primer token |
| Procesamiento en segundo plano | gpt-4o, claude-sonnet-4-6 | ~500ms hasta el primer token |
3. Configura timeouts
Fiabilidad
1. Implementa reintentos
2. Maneja los errores con elegancia
3. Usa modelos de respaldo
Seguridad
1. Protege las API keys
2. Valida la entrada del usuario
3. Configura límites para API keys
Crea API keys separadas con límites de gasto para:- Desarrollo/pruebas
- Producción
- Diferentes aplicaciones
Monitoreo
1. Haz seguimiento del uso
Revisa tu dashboard regularmente para ver:- Uso de token por modelo
- Desglose de costos
- Tasas de acierto de caché
- Tasas de error
2. Registra métricas importantes
3. Configura alertas
Configura alertas de saldo bajo en tu dashboard para evitar interrupciones del servicio.Lista de verificación
Optimización de costos
Optimización de costos
- Uso del modelo adecuado para cada tarea
- Configuración de límites de max_tokens
- Los prompts son concisos
- Caché habilitado donde corresponde
- Agrupación de solicitudes similares
Rendimiento
Rendimiento
- Streaming para UX interactiva
- Modelos rápidos para uso en tiempo real
- Timeouts configurados
Fiabilidad
Fiabilidad
- Lógica de reintentos implementada
- Manejo de errores implementado
- Modelos de respaldo configurados
Seguridad
Seguridad
- API keys en variables de entorno
- Validación de entrada
- Keys separadas para dev/prod
- Límites de gasto configurados