Cuerpo de la solicitud
Archivo de audio para transcribir. Formatos compatibles: flac, mp3, mp4, mpeg, mpga, m4a, ogg, wav, webm.
Modelo que se utilizará. Actualmente solo se admite
whisper-1.Idioma del audio en formato ISO-639-1 (p. ej.,
en, zh, ja).Texto opcional para guiar el estilo del modelo o continuar un segmento anterior.
Formato de salida:
json, text, srt, verbose_json, vtt.Temperatura de muestreo (0 a 1).
Granularidad de las marcas de tiempo:
word y/o segment. Requiere verbose_json.Respuesta
El texto transcrito.
verbose_json:
Siempre
transcribe.Idioma detectado.
Duración del audio en segundos.
Segmentos de la transcripción con marcas de tiempo.
Marcas de tiempo a nivel de palabra (si se solicitan).