Аудио

Узнайте, как превратить аудио в текст.

Создание транскрипции

POST https://api.mashagpt.ru/v1/audio/transcriptions

Конвертирует аудио в текст

Принимает тело запроса в формате multipart/form-data

Request Body

Name
Type
Description

file*

File

Объект аудиофайла (не имя файла), который необходимо расшифровать, в одном из следующих форматов: flac, mp3, mp4, mpeg, mpga, m4a, ogg, wav или webm.

model*

String

Идентификатор модели, которую нужно использовать. В настоящее время доступен только whisper-1.

language

String

Язык входного аудио. Предоставление языка аудио в формате ISO-639-1 улучшит точность и время обработки.

prompt

String

Дополнительный текст, определяющий стиль модели или продолжающий предыдущий сегмент аудио. Подсказка должна соответствовать языку аудио.

response_format

String

Формат вывода: один из следующих вариантов: json, text, srt, verbose_json или vtt. По умолчанию используется json.

temperature

Number

Температура выборки от 0 до 1. Более высокие значения, например 0,8, сделают выходные данные более случайными, а более низкие значения, например 0,2, сделают их более детерминированными. Если установлено значение 0, модель будет использовать логарифмическую вероятность для автоматического повышения температуры до тех пор, пока не будут достигнуты определенные пороговые значения.

{
  "text": "Imagine the wildest idea that you've ever had, and you're curious about how it might scale to something that's a 100, a 1,000 times bigger. This is a place where you can get to do that."
}
Пример запроса
curl https://api.mashagpt.ru/v1/audio/transcriptions \
  -H "Authorization: Bearer $MASHAGPT_API_KEY" \
  -H "Content-Type: multipart/form-data" \
  -F file="@/path/to/file/audio.mp3" \
  -F model="whisper-1"

Создание перевода

POST https://api.mashagpt.ru/v1/audio/translations

Переводит аудио на английский язык

Принимает тело запроса в формате multipart/form-data

Request Body

Name
Type
Description

file*

File

Объект аудиофайла (не имя файла), который необходимо расшифровать, в одном из следующих форматов: flac, mp3, mp4, mpeg, mpga, m4a, ogg, wav или webm.

model*

String

Идентификатор модели, которую нужно использовать. В настоящее время доступен только whisper-1.

prompt

String

Дополнительный текст, определяющий стиль модели или продолжающий предыдущий сегмент аудио. Подсказка должна соответствовать языку аудио.

response_format

String

Формат вывода: один из следующих вариантов: json, text, srt, verbose_json или vtt. По умолчанию используется json.

temperature

Number

Температура выборки от 0 до 1. Более высокие значения, например 0,8, сделают выходные данные более случайными, а более низкие значения, например 0,2, сделают их более детерминированными. Если установлено значение 0, модель будет использовать логарифмическую вероятность для автоматического повышения температуры до тех пор, пока не будут достигнуты определенные пороговые значения.

Last updated