Descripción general
El streaming te permite recibir salida parcial a medida que se genera, lo que mejora la latencia percibida y la experiencia del usuario. Para nuevas integraciones de estilo OpenAI, prioriza primero Responses streaming. Si tu framework aún usa streaming de Chat Completions, LemonData también admite esa ruta de compatibilidad.Recomendado: Responses Streaming
Streaming de Chat Completions
Si tu framework aún espera fragmentos SSE de/v1/chat/completions, eso también funciona:
Condiciones de finalización del stream
Condiciones típicas de finalización:response.completedpara streams de Responses APIfinish_reason: "stop"para streams de Chat Completionsfinish_reason: "length"cuando se alcanza un límite de token- eventos de llamada a tool/function cuando el modelo quiere usar herramientas
Patrón para aplicaciones web
Mejores prácticas
Prioriza Responses streaming para desarrollos nuevos
Prioriza Responses streaming para desarrollos nuevos
Usa
/v1/responses si tu SDK o aplicación ya lo admite. Mantén el streaming de /v1/chat/completions para integraciones impulsadas por compatibilidad.Vacía la salida de forma incremental
Vacía la salida de forma incremental
Agrega fragmentos delta a la UI o al terminal a medida que llegan en lugar de esperar la respuesta completa.
Gestiona desconexiones y reintentos
Gestiona desconexiones y reintentos
Trata las caídas de red y las desconexiones del upstream como modos de fallo normales y vuelve a conectar con cuidado en sesiones de larga duración.