Генерация аудио
Преобразуйте текстовые запросы в высококачественное аудио с использованием различных голосов и форматов
ForgetAPI предоставляет услуги генерации аудио с использованием нескольких провайдеров, включая OpenAI. Конкретный провайдер зависит от модели, которую вы выберете в своем API-запросе.
ForgetAPI поддерживает вывод аудио напрямую из API чат-завершений, используя передовые технологии от наших партнеров-провайдеров. Это позволяет генерировать разговорные аудиоответы с использованием различных моделей. Возможности аудио позволяют:
- Генерировать озвученные аудиосводки текста (текст на входе, аудио на выходе)
- Создавать голосовые ответы для разговорных AI-приложений
- Разрабатывать мультимодальные приложения с выводом как текста, так и аудио
Быстрый старт
Для генерации аудио вы можете использовать эндпоинт чат-завершений с нашим Python SDK:
from openai import OpenAI
import base64
client = OpenAI(
api_key="your_api_key",
base_url="https://forgetapi.ru/v1/"
)
completion = client.chat.completions.create(
model="gpt-4o-audio-preview",
modalities=["text", "audio"],
audio={"voice": "alloy", "format": "wav"},
messages=[
{
"role": "user",
"content": "Является ли золотистый ретривер хорошей семейной собакой?"
}
]
)
print(completion.choices[0].message.content)
# Сохраняем аудиоответ
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
with open("response.wav", "wb") as f:
f.write(wav_bytes)
Поддерживаемые голоса
Генерация аудио поддерживает несколько вариантов голосов:
- alloy - Нейтральный голос со сбалансированным тоном
- echo - Более глубокий, авторитетный голос
- fable - Мягкий, дружелюбный голос с теплотой
- nova - Профессиональный, четкий голос
- shimmer - Яркий, энергичный голос
Поддерживаемые аудиоформаты
Вы можете запросить вывод аудио в следующих форматах:
- wav - Высококачественное несжатое аудио
- mp3 - Сжатое аудио с хорошим качеством и меньшим размером файла
- opus - Оптимизировано для голосовых приложений с низкой пропускной способностью
Продолжение разговоров
Вы можете создавать цепочки разговоров, включающие аудио, ссылаясь на предыдущие аудиоответы:
from openai import OpenAI
import base64
client = OpenAI(
api_key="your_api_key",
base_url="https://forgetapi.ru/v1/"
)
# Начальный запрос с аудиоответом
first_response = client.chat.completions.create(
model="gpt-4o",
modalities=["text", "audio"],
audio={"voice": "alloy", "format": "wav"},
messages=[
{
"role": "user",
"content": "Расскажи мне о квантовых вычислениях"
}
]
)
# Сохраняем ID первого ответа и его содержимое
audio_id = first_response.choices[0].message.audio.id
first_text = first_response.choices[0].message.content
# Продолжаем разговор
second_response = client.chat.completions.create(
model="gpt-4o",
modalities=["text", "audio"],
audio={"voice": "alloy", "format": "wav"},
messages=[
{
"role": "user",
"content": "Расскажи мне о квантовых вычислениях"
},
{
"role": "assistant",
"content": first_text,
"audio": {
"id": audio_id
}
},
{
"role": "user",
"content": "Каковы практические применения?"
}
]
)
print(second_response.choices[0].message.content)
Ограничения и рекомендации
При использовании генерации аудио следует учитывать следующие моменты:
- Генерация аудио может увеличить время отклика по сравнению с выводом только текста
- Каждая модель имеет разные возможности для генерации аудио
- Для высококачественного преобразования текста в речь для заранее определенного текста рекомендуется использовать специализированный API TTS