Visão geral
A TokenLab oferece geração de vídeo por meio de uma API unificada. A geração é assíncrona: você envia uma solicitação, recebetask_id e poll_url, e então faz polling até obter o resultado final.
Disponibilidade e polling
Você pode consultar o inventário público atual de modelos de vídeo pela Models API ou pela página de modelos. Se uma resposta de criação retornarpoll_url, chame exatamente essa URL. Quando ela apontar para /v1/tasks/{id}, trate-a como o endpoint fixo canônico de status.
Comportamento de modelos e mídia
O comportamento de áudio depende do modelo. Na TokenLab, a família Veo 3 é tratada por padrão como áudio ativado quandooutput_audio é omitido. Outros modelos públicos são silenciosos por padrão ou não expõem um alternador estável de áudio.
Em produção, prefira URLs https públicas para imagens, vídeos e áudio. Modelos compatíveis continuam aceitando URLs data:, mas URLs públicas são mais robustas para retries, observabilidade e depuração.
Fluxo assíncrono
Operações públicas atuais
O contrato público de vídeo da TokenLab hoje se concentra nestas operações:text-to-videoimage-to-videoreference-to-videostart-end-to-videovideo-to-videomotion-control
audio-to-video e video-extension para fluxos específicos de alguns modelos, mas nesta compilação da documentação não há nenhum modelo amplamente habilitado que publique essas capacidades.
Matriz de capacidades
Legenda: ✅ Existe pelo menos um modelo público atualmente habilitado nessa família de provedores com essa capacidade | ❌ Não há modelos públicos atualmente habilitados com essa capacidade| Série | T2V | I2V | Referência | Início-Fim | V2V | Movimento |
|---|---|---|---|---|---|---|
| OpenAI | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ |
| Kuaishou | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| ✅ | ✅ | ✅ | ✅ | ❌ | ❌ | |
| ByteDance | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ |
| MiniMax | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ |
| Alibaba | ✅ | ✅ | ✅ | ❌ | ❌ | ❌ |
| Shengshu | ✅ | ✅ | ✅ | ✅ | ❌ | ❌ |
| xAI | ✅ | ✅ | ❌ | ❌ | ✅ | ❌ |
| Outros | ❌ | ❌ | ❌ | ❌ | ✅ | ❌ |
Definições de capacidades
- T2V (Text-to-Video): gerar vídeo a partir de um prompt de texto
- I2V (Image-to-Video): gerar vídeo a partir de uma imagem inicial; para a compatibilidade mais ampla, prefira
image_url - Referência: condicionar a geração usando uma ou mais imagens de referência via
reference_images - Início-Fim: controlar o primeiro e o último quadro com
start_imageeend_image - V2V (Video-to-Video): usar um vídeo existente como entrada principal
- Movimento: combinar uma imagem do sujeito com um vídeo de referência de movimento
Inventário público atual de modelos
Kuaishou
| Modelo | Operações públicas |
|---|---|
kling-3.0-motion-control | Controle de movimento |
kling-3.0-video | Texto para vídeo, imagem para vídeo, início-fim para vídeo, referências de elementos |
kling-v2.1-master | Texto para vídeo, imagem para vídeo |
kling-v2.1-pro | Imagem para vídeo, início-fim para vídeo |
kling-v2.1-standard | Imagem para vídeo |
kling-v2.5-turbo-pro | Texto para vídeo, imagem para vídeo, início-fim para vídeo |
kling-v2.5-turbo-std | Texto para vídeo, imagem para vídeo |
kling-v2.6-pro | Texto para vídeo, imagem para vídeo, início-fim para vídeo |
kling-v2.6-std | Texto para vídeo, imagem para vídeo |
kling-v3.0-pro | Texto para vídeo, imagem para vídeo, início-fim para vídeo |
kling-v3.0-std | Texto para vídeo, imagem para vídeo, início-fim para vídeo |
kling-video-o1-pro | Texto para vídeo, imagem para vídeo, referência para vídeo, início-fim para vídeo, vídeo para vídeo |
kling-video-o1-std | Texto para vídeo, imagem para vídeo, referência para vídeo, início-fim para vídeo, vídeo para vídeo |
| Modelo | Operações públicas |
|---|---|
veo3 | Texto para vídeo, imagem para vídeo |
veo3-fast | Texto para vídeo, imagem para vídeo |
veo3-pro | Texto para vídeo, imagem para vídeo |
veo3.1 | Texto para vídeo, imagem para vídeo, referência para vídeo, início-fim para vídeo |
veo3.1-fast | Texto para vídeo, imagem para vídeo, referência para vídeo, início-fim para vídeo |
veo3.1-pro | Texto para vídeo, imagem para vídeo, início-fim para vídeo |
ByteDance
| Modelo | Operações públicas |
|---|---|
seedance-1.5-pro | Texto para vídeo, imagem para vídeo |
MiniMax
| Modelo | Operações públicas |
|---|---|
hailuo-2.3-fast | Imagem para vídeo |
hailuo-2.3-pro | Texto para vídeo, imagem para vídeo |
hailuo-2.3-standard | Texto para vídeo, imagem para vídeo |
Alibaba
| Modelo | Operações públicas |
|---|---|
wan-2.2-plus | Texto para vídeo, imagem para vídeo |
wan-2.5 | Texto para vídeo, imagem para vídeo |
wan-2.6 | Texto para vídeo, imagem para vídeo, referência para vídeo |
Shengshu
| Modelo | Operações públicas |
|---|---|
viduq2 | Texto para vídeo, referência para vídeo |
viduq2-pro | Imagem para vídeo, referência para vídeo, início-fim para vídeo |
viduq2-pro-fast | Imagem para vídeo, início-fim para vídeo |
viduq2-turbo | Imagem para vídeo, início-fim para vídeo |
viduq3-pro | Texto para vídeo, imagem para vídeo, início-fim para vídeo |
viduq3-turbo | Texto para vídeo, imagem para vídeo, início-fim para vídeo |
xAI
| Modelo | Operações públicas |
|---|---|
grok-imagine-video | Texto para vídeo, imagem para vídeo, reference-to-video, video-to-video |
grok-imagine-video-1.5-preview | Imagem para vídeo |
grok-imagine-image-to-video | Imagem para vídeo |
grok-imagine-text-to-video | Texto para vídeo |
grok-imagine-upscale | Vídeo para vídeo |
Outros
| Modelo | Operações públicas |
|---|---|
topaz-video-upscale | Vídeo para vídeo |
Exemplos de uso
Texto para vídeo
Imagem para vídeo
Kling 3.0 Elements
Usekling_elements com kling-3.0-video quando precisar de referências de elementos. Forneça uma solicitação condicionada por imagem (image_url, image_urls, start_image ou end_image) e referencie cada elemento no prompt com @name. Não combine kling_elements com output_audio=true; omita output_audio ou defina como false em solicitações com referências de elementos.
Referência para vídeo
Paraseedance-2.0 e seedance-2.0-fast, a TokenLab suporta atualmente até 9 imagens de referência, além de até 3 vídeos de referência e 3 áudios de referência. duration controla apenas a duração do resultado gerado; ele não define um limite separado para a duração do vídeo de referência de entrada. Para grok-imagine-video, reference-to-video aceita até 7 referências de imagem (reference_images ou image_urls) e duration é limitado a 10 segundos. Não combine referências de imagem com entradas de primeiro frame image_url / image. grok-imagine-video-1.5-preview é apenas image-to-video.
Controle de quadro inicial e final
Vídeo para vídeo
Para video-to-video comgrok-imagine-video, envie uma URL HTTPS pública .mp4 em video_url. O TokenLab traduz isso para o corpo REST xAI video.url. Você pode definir resolution como 480p ou 720p; duration e aspect_ratio não são aceitos nesse fluxo de edição.
Controle de movimento
Referência de parâmetros
| Parâmetro | Tipo | Observação |
|---|---|---|
operation | string | Em produção, vale a pena informá-lo explicitamente |
image_url | string | Forma mais robusta de entrada de imagem |
image | string | URL data: útil para testes locais e integrações pequenas |
reference_images | string[] | Campo público canônico para condicionamento por referências |
reference_image_type | string | Seletor opcional asset / style |
video_url | string | Obrigatório para os modelos públicos atuais de video-to-video e motion-control |
audio_url | string | Para fluxos específicos de áudio para vídeo |
output_audio | boolean | A família Veo 3 trata a omissão como true. kling-3.0-video aceita esse seletor para o controle upstream sound e fica silencioso por padrão quando omitido. |
Guia rápido de escolha de modelo
Maior qualidade
Se a qualidade for mais importante que a velocidade, veo3.1-pro, kling-video-o1-pro e viduq3-pro são escolhas fortes.
Iteração rápida
Para ciclos rápidos, veo3.1-fast, hailuo-2.3-fast e viduq3-turbo são bons pontos de partida.
Fluxos com referência
Se você precisa de controle dedicado por imagens de referência, comece com veo3.1, veo3.1-fast, wan-2.6 ou kling-video-o1-pro / std.
Vídeo para vídeo
Hoje, os principais caminhos públicos geralmente habilitados para
video-to-video são topaz-video-upscale, grok-imagine-upscale e kling-video-o1-pro / std.