Аудио

Узнайте, как превратить аудио в текст.

Создание транскрипции

POST https://api.mashagpt.ru/v1/audio/transcriptions

Конвертирует аудио в текст

Принимает тело запроса в формате multipart/form-data

Request Body

Name
Type
Description

file*

File

Объект аудиофайла (не имя файла), который необходимо расшифровать, в одном из следующих форматов: flac, mp3, mp4, mpeg, mpga, m4a, ogg, wav или webm.

model*

String

Идентификатор модели, которую нужно использовать. В настоящее время доступен только whisper-1.

language

String

Язык входного аудио. Предоставление языка аудио в формате ISO-639-1 arrow-up-rightулучшит точность и время обработки.

prompt

String

Дополнительный текст, определяющий стиль модели или продолжающий предыдущий сегмент аудио. Подсказка должна соответствовать языку аудио.

response_format

String

Формат вывода: один из следующих вариантов: json, text, srt, verbose_json или vtt. По умолчанию используется json.

temperature

Number

Температура выборки от 0 до 1. Более высокие значения, например 0,8, сделают выходные данные более случайными, а более низкие значения, например 0,2, сделают их более детерминированными. Если установлено значение 0, модель будет использовать логарифмическую вероятностьarrow-up-right для автоматического повышения температуры до тех пор, пока не будут достигнуты определенные пороговые значения.

{
  "text": "Imagine the wildest idea that you've ever had, and you're curious about how it might scale to something that's a 100, a 1,000 times bigger. This is a place where you can get to do that."
}
Пример запроса
curl https://api.mashagpt.ru/v1/audio/transcriptions \
  -H "Authorization: Bearer $MASHAGPT_API_KEY" \
  -H "Content-Type: multipart/form-data" \
  -F file="@/path/to/file/audio.mp3" \
  -F model="whisper-1"

Создание перевода

POST https://api.mashagpt.ru/v1/audio/translations

Переводит аудио на английский язык

Принимает тело запроса в формате multipart/form-data

Request Body

Name
Type
Description

file*

File

Объект аудиофайла (не имя файла), который необходимо расшифровать, в одном из следующих форматов: flac, mp3, mp4, mpeg, mpga, m4a, ogg, wav или webm.

model*

String

Идентификатор модели, которую нужно использовать. В настоящее время доступен только whisper-1.

prompt

String

Дополнительный текст, определяющий стиль модели или продолжающий предыдущий сегмент аудио. Подсказка должна соответствовать языку аудио.

response_format

String

Формат вывода: один из следующих вариантов: json, text, srt, verbose_json или vtt. По умолчанию используется json.

temperature

Number

Температура выборки от 0 до 1. Более высокие значения, например 0,8, сделают выходные данные более случайными, а более низкие значения, например 0,2, сделают их более детерминированными. Если установлено значение 0, модель будет использовать логарифмическую вероятностьarrow-up-right для автоматического повышения температуры до тех пор, пока не будут достигнуты определенные пороговые значения.

Last updated