Mejores prácticas

Selección de modelos

Elegir el modelo adecuado puede afectar significativamente el costo y la calidad.

Recomendaciones basadas en tareas

Tarea	Modelos recomendados	Motivo
Preguntas y respuestas simples	`gpt-5-mini`, `gemini-2.5-flash`	Rápido, barato, suficientemente bueno
Razonamiento complejo	`gpt-5.4`, `claude-opus-4-6`, `deepseek-r1`	Mejor lógica y planificación
Programación	`claude-sonnet-4-6`, `gpt-4o`, `deepseek-v3.2`	Optimizado para código
Escritura creativa	`claude-sonnet-4-6`, `gpt-4o`	Mejor calidad de redacción
Visión/Imágenes	`gpt-4o`, `claude-sonnet-4-6`, `gemini-2.5-flash`	Soporte nativo de visión
Contexto largo	`gemini-2.5-pro`, `claude-sonnet-4-6`	Ventanas de 1M+ token
Sensible al costo	`gpt-5-mini`, `gemini-2.5-flash`, `deepseek-v3.2`	Mejor relación calidad-precio

Niveles de costo

$$$$ Premium: gpt-5.4, claude-opus-4-6
$$$  Standard: claude-sonnet-4-6, gpt-4o
$$   Budget:   gpt-5-mini, gemini-2.5-flash
$    Economy:  deepseek-v3.2, deepseek-r1

Optimización de costos

1. Usa primero modelos más pequeños

def smart_query(question: str, complexity: str = "auto"):
    """Use cheaper models for simple tasks."""

    if complexity == "simple":
        model = "gpt-5-mini"
    elif complexity == "complex":
        model = "gpt-4o"
    else:
        # Start cheap, escalate if needed
        model = "gpt-5-mini"

    response = client.chat.completions.create(
        model=model,
        messages=[{"role": "user", "content": question}]
    )
    return response

2. Configura `max_tokens`

Establece siempre un límite razonable de max_tokens:

# ❌ Bad: No limit, could generate thousands of tokens
response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "Summarize this article"}]
)

# ✅ Good: Limit response length
response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "Summarize this article"}],
    max_tokens=500  # Reasonable limit for a summary
)

3. Optimiza los prompts

# ❌ Verbose prompt (more input tokens)
prompt = """
I would like you to please help me by analyzing the following text
and providing a comprehensive summary of the main points. Please be
thorough but also concise in your response. The text is as follows:
{text}
"""

# ✅ Concise prompt (fewer tokens)
prompt = "Summarize the key points:\n{text}"

4. Habilita el caché

Aprovecha el caché semántico:

# For repeated similar queries, caching provides major savings
response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "What is machine learning?"}],
    temperature=0  # Deterministic = better cache hits
)

5. Agrupa solicitudes similares

# ❌ Many small requests
for question in questions:
    response = client.chat.completions.create(
        model="gpt-4o",
        messages=[{"role": "user", "content": question}]
    )

# ✅ Fewer larger requests
combined_prompt = "\n".join([f"{i+1}. {q}" for i, q in enumerate(questions)])
response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": f"Answer each question:\n{combined_prompt}"}]
)

Optimización del rendimiento

1. Usa streaming para la UX

El streaming mejora el rendimiento percibido:

stream = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "Write a long essay"}],
    stream=True
)

for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)

2. Elige modelos rápidos para uso interactivo

Caso de uso	Recomendado	Latencia
UI de chat	`gpt-5-mini`, `gemini-2.5-flash`	~200ms hasta el primer token
Autocompletado de pestañas	`claude-haiku-4-5`	~150ms hasta el primer token
Procesamiento en segundo plano	`gpt-4o`, `claude-sonnet-4-6`	~500ms hasta el primer token

3. Configura timeouts

client = OpenAI(
    api_key="sk-your-key",
    base_url="https://api.lemondata.cc/v1",
    timeout=60.0  # 60 second timeout
)

Fiabilidad

1. Implementa reintentos

import time
from openai import RateLimitError, APIError

def chat_with_retry(messages, max_retries=3):
    for attempt in range(max_retries):
        try:
            return client.chat.completions.create(
                model="gpt-4o",
                messages=messages
            )
        except RateLimitError:
            wait = 2 ** attempt
            print(f"Rate limited, waiting {wait}s...")
            time.sleep(wait)
        except APIError as e:
            if attempt == max_retries - 1:
                raise
            time.sleep(1)
    raise Exception("Max retries exceeded")

2. Maneja los errores con elegancia

from openai import APIError, AuthenticationError, RateLimitError

try:
    response = client.chat.completions.create(...)
except AuthenticationError:
    # Check API key
    notify_admin("Invalid API key")
except RateLimitError:
    # Queue for later or use backup
    add_to_queue(request)
except APIError as e:
    if e.status_code == 402:
        notify_admin("Balance low")
    elif e.status_code >= 500:
        # Server error, retry later
        schedule_retry(request)

3. Usa modelos de respaldo

FALLBACK_CHAIN = ["gpt-4o", "claude-sonnet-4-6", "gemini-2.5-flash"]

def chat_with_fallback(messages):
    for model in FALLBACK_CHAIN:
        try:
            return client.chat.completions.create(
                model=model,
                messages=messages
            )
        except APIError:
            continue
    raise Exception("All models failed")

Seguridad

1. Protege las API keys

# ❌ Never hardcode keys
client = OpenAI(api_key="sk-abc123...")

# ✅ Use environment variables
import os
client = OpenAI(api_key=os.environ["LEMONDATA_API_KEY"])

2. Valida la entrada del usuario

def validate_message(content: str) -> bool:
    """Validate user input before sending to API."""
    if len(content) > 100000:
        raise ValueError("Message too long")
    # Add other validation as needed
    return True

3. Configura límites para API keys

Crea API keys separadas con límites de gasto para:

Desarrollo/pruebas
Producción
Diferentes aplicaciones

Monitoreo

1. Haz seguimiento del uso

Revisa tu dashboard regularmente para ver:

Uso de token por modelo
Desglose de costos
Tasas de acierto de caché
Tasas de error

2. Registra métricas importantes

import logging

response = client.chat.completions.create(...)

logging.info({
    "model": response.model,
    "prompt_tokens": response.usage.prompt_tokens,
    "completion_tokens": response.usage.completion_tokens,
    "total_tokens": response.usage.total_tokens,
})

3. Configura alertas

Configura alertas de saldo bajo en tu dashboard para evitar interrupciones del servicio.

Lista de verificación

Optimización de costos

Uso del modelo adecuado para cada tarea
Configuración de límites de max_tokens
Los prompts son concisos
Caché habilitado donde corresponde
Agrupación de solicitudes similares

Rendimiento

Streaming para UX interactiva
Modelos rápidos para uso en tiempo real
Timeouts configurados

Fiabilidad

Lógica de reintentos implementada
Manejo de errores implementado
Modelos de respaldo configurados

Seguridad

API keys en variables de entorno
Validación de entrada
Keys separadas para dev/prod
Límites de gasto configurados

Facturación y Precios Generación de video

Primeros pasos

Guías principales

Agentes de Codificación

Mejores prácticas

Selección de modelos

Recomendaciones basadas en tareas

Niveles de costo

Optimización de costos

1. Usa primero modelos más pequeños

2. Configura `max_tokens`

3. Optimiza los prompts

4. Habilita el caché

5. Agrupa solicitudes similares

Optimización del rendimiento

1. Usa streaming para la UX

2. Elige modelos rápidos para uso interactivo

3. Configura timeouts

Fiabilidad

1. Implementa reintentos

2. Maneja los errores con elegancia

3. Usa modelos de respaldo

Seguridad

1. Protege las API keys

2. Valida la entrada del usuario

3. Configura límites para API keys

Monitoreo

1. Haz seguimiento del uso

2. Registra métricas importantes

3. Configura alertas

Lista de verificación

Primeros pasos

Guías principales

Agentes de Codificación

​Selección de modelos

​Recomendaciones basadas en tareas

​Niveles de costo

​Optimización de costos

​1. Usa primero modelos más pequeños

​2. Configura max_tokens

​3. Optimiza los prompts

​4. Habilita el caché

​5. Agrupa solicitudes similares

​Optimización del rendimiento

​1. Usa streaming para la UX

​2. Elige modelos rápidos para uso interactivo

​3. Configura timeouts

​Fiabilidad

​1. Implementa reintentos

​2. Maneja los errores con elegancia

​3. Usa modelos de respaldo

​Seguridad

​1. Protege las API keys

​2. Valida la entrada del usuario

​3. Configura límites para API keys

​Monitoreo

​1. Haz seguimiento del uso

​2. Registra métricas importantes

​3. Configura alertas

​Lista de verificación

Selección de modelos

Recomendaciones basadas en tareas

Niveles de costo

Optimización de costos

1. Usa primero modelos más pequeños

2. Configura `max_tokens`

3. Optimiza los prompts

4. Habilita el caché

5. Agrupa solicitudes similares

Optimización del rendimiento

1. Usa streaming para la UX

2. Elige modelos rápidos para uso interactivo

3. Configura timeouts

Fiabilidad

1. Implementa reintentos

2. Maneja los errores con elegancia

3. Usa modelos de respaldo

Seguridad

1. Protege las API keys

2. Valida la entrada del usuario

3. Configura límites para API keys

Monitoreo

1. Haz seguimiento del uso

2. Registra métricas importantes

3. Configura alertas

Lista de verificación