Whisper

Whisper — это универсальная модель распознавания речи. Она обучена на большом наборе данных разнообразного аудио, а также представляет собой многозадачную модель, которая может выполнять многоязычное распознавание речи, а также перевод речи и идентификацию языка. Модель Whisper v2-large в настоящее время доступна через наш API под названием модели whisper-1.

Стоимость рассчитывается как 25 энергии за секунду аудио. Например: аудио длинной 13.24 секунды затратит Ceil(13.24) * 25 = 350 энергии, где Ceil это функция округления до ближайшего целого числа большего данного.

Last updated