ForgetAPI - Генерация аудио

Информация о провайдерах

ForgetAPI предоставляет услуги генерации аудио с использованием нескольких провайдеров, включая OpenAI. Конкретный провайдер зависит от модели, которую вы выберете в своем API-запросе.

ForgetAPI поддерживает вывод аудио напрямую из API чат-завершений, используя передовые технологии от наших партнеров-провайдеров. Это позволяет генерировать разговорные аудиоответы с использованием различных моделей. Возможности аудио позволяют:

Генерировать озвученные аудиосводки текста (текст на входе, аудио на выходе)
Создавать голосовые ответы для разговорных AI-приложений
Разрабатывать мультимодальные приложения с выводом как текста, так и аудио

Быстрый старт

Для генерации аудио вы можете использовать эндпоинт чат-завершений с нашим Python SDK:

from openai import OpenAI
import base64

client = OpenAI(
    api_key="your_api_key", 
    base_url="https://forgetapi.ru/v1/"
)

completion = client.chat.completions.create(
    model="gpt-4o-audio-preview",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Является ли золотистый ретривер хорошей семейной собакой?"
        }
    ]
)

print(completion.choices[0].message.content)

# Сохраняем аудиоответ
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
with open("response.wav", "wb") as f:
    f.write(wav_bytes)

Поддерживаемые голоса

Генерация аудио поддерживает несколько вариантов голосов:

alloy - Нейтральный голос со сбалансированным тоном
echo - Более глубокий, авторитетный голос
fable - Мягкий, дружелюбный голос с теплотой
nova - Профессиональный, четкий голос
shimmer - Яркий, энергичный голос

Поддерживаемые аудиоформаты

Вы можете запросить вывод аудио в следующих форматах:

wav - Высококачественное несжатое аудио
mp3 - Сжатое аудио с хорошим качеством и меньшим размером файла
opus - Оптимизировано для голосовых приложений с низкой пропускной способностью

Продолжение разговоров

Вы можете создавать цепочки разговоров, включающие аудио, ссылаясь на предыдущие аудиоответы:

from openai import OpenAI
import base64

client = OpenAI(
    api_key="your_api_key", 
    base_url="https://forgetapi.ru/v1/"
)

# Начальный запрос с аудиоответом
first_response = client.chat.completions.create(
    model="gpt-4o",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Расскажи мне о квантовых вычислениях"
        }
    ]
)

# Сохраняем ID первого ответа и его содержимое
audio_id = first_response.choices[0].message.audio.id
first_text = first_response.choices[0].message.content

# Продолжаем разговор
second_response = client.chat.completions.create(
    model="gpt-4o",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Расскажи мне о квантовых вычислениях"
        },
        {
            "role": "assistant",
            "content": first_text,
            "audio": {
                "id": audio_id
            }
        },
        {
            "role": "user",
            "content": "Каковы практические применения?"
        }
    ]
)

print(second_response.choices[0].message.content)

Ограничения и рекомендации

При использовании генерации аудио следует учитывать следующие моменты:

Генерация аудио может увеличить время отклика по сравнению с выводом только текста
Каждая модель имеет разные возможности для генерации аудио
Для высококачественного преобразования текста в речь для заранее определенного текста рекомендуется использовать специализированный API TTS