Введение
Обзор
MashaGPT API можно применять практически к любой задаче, требующей понимания естественного языка и кода. MashaGPT API также можно использовать для создания и редактирования изображений или преобразования речи в текст.
Ключевые концепты
GPT
Модели MashaGPT были обучены понимать естественный язык и код. GPT предоставляют текстовый вывод в ответ на вводимые данные. Входные данные для GPT также называются «команда» (англ. prompt). Разработка команд — это, по сути, способ «программирования» модели GPT, обычно путем предоставления инструкций или примеров успешного выполнения задачи. GPT можно использовать для самых разных задач, включая генерацию контента или кода, обобщение, беседу, исправление ошибок и многое другое. Подробнее читайте в нашем вводном руководстве по GPT.
Эмбеддинги признаков
Эмбеддинг — это векторное представление фрагмента данных (например, некоторого текста), которое предназначено для сохранения аспектов его содержания и/или его значения. Фрагменты данных, которые в некотором роде похожи, обычно имеют эмбеддинги, расположенные ближе друг к другу, чем несвязанные данные. MashaGPT предлагает модели эмбеддинга текста, которые принимают на вход текстовую строку и создают на выходе вектор признаков. Эмбеддинги полезны для поиска, кластеризации, рекомендаций, обнаружения аномалий, классификации и многого другого. Подробнее о веторном представлении данных читайте в нашем руководстве по эмбеддингам.
Токены
GPT и модели эмбеддинга обрабатывают текст порциями, называемыми токенами. Токены представляют собой часто встречающиеся последовательности символов. Например, строка «tokenization» разбивается на «token» и «ization», а короткое и распространенное слово, такое как «Я», представляется как один токен. Воспользуйтесь нашим токенизатором, чтобы протестировать определенные строки и посмотреть, как они преобразуются в токены.
Следует иметь в виду одно ограничение: для модели GPT данные подаваемые на вход и сгенерированный вывод не должны превышать максимальную длину контекста модели. Для моделей эмбеддинга (которые не генерируют токены) входные данные должны быть немного короче максимальной длины контекста модели. Максимальную длину контекста для каждой модели GPT и эмбеддинга можно найти в документации по моделям.
Энергия
Энергия — это виртуальная валюта MashaGPT которая используется при обращении к API. В зависимости от возможностей модели и вычислительной сложности, энергия тратится быстрее или медленнее. Например при использовании GPT-3.5 энергия тратится по формуле 1 токен = 1 энергия, а при использовании более мощной и интеллектуальной модели GPT-4 энергия тратится в 15 раз быстрее (1 токен = 15 энергии). В случае использования моделей генерации изображений, использования энергии считается в зависимости от размера и количество генерируемых картинок, а в случае обработки аудио - за секунду обработанных данных. Более подробную информацию про использование энергии можно найти в документации по моделям.
Last updated