OpenClaw может не только отвечать текстом, но и говорить — озвучивать ответы голосовыми сообщениями в Telegram и WhatsApp или вести живой голосовой диалог. В этой статье — все способы настроить голос, сравнение провайдеров и решение известных проблем.
Два режима голоса
OpenClaw предлагает два разных голосовых режима. Они работают независимо и настраиваются отдельно:
| TTS (озвучка ответов) | Talk Mode (живой диалог) | |
|---|---|---|
| Что делает | Агент отправляет голосовое сообщение вместо текста | Вы говорите — агент отвечает голосом в реальном времени |
| Где работает | Telegram, WhatsApp, Discord, веб — включая VPS | macOS, iOS, Android — только на устройстве с микрофоном |
| VPS | ✅ Работает | ❌ Не работает |
| Настройка | messages.tts в конфиге | talk в конфиге |
| Слеш-команды | /tts on|off|status|provider | /voice status|list|set |
Важно: TTS-озвучка — основная функция для большинства пользователей. Talk Mode — отдельная возможность для тех, кто использует OpenClaw на Mac или телефоне.
TTS: озвучка текстовых ответов
Агент генерирует текстовый ответ, отправляет его в TTS-провайдер и получает аудиофайл. В Telegram это приходит как круглое голосовое сообщение (OGG/Opus).
Режимы auto-TTS
Режим auto в конфигурации определяет, когда агент озвучивает ответы:
| Значение | Поведение |
|---|---|
off | Озвучка выключена (по умолчанию) |
always | Озвучивает каждый ответ |
inbound | Озвучивает только ответы на входящие сообщения |
tagged | Озвучивает только помеченные ответы |
Пользователь может переключать режим на лету: /tts on включает озвучку (режим always), /tts off — выключает. Команды переопределяют настройку auto из конфига до перезапуска агента.
Слеш-команды TTS
| Команда | Что делает |
|---|---|
/tts on | Включить озвучку |
/tts off | Выключить озвучку |
/tts status | Текущий статус и провайдер |
/tts provider | Показать/сменить провайдера |
/tts latest | Озвучить последнее сообщение |
/tts audio | Управление аудионастройками |
/tts summary | Режим суммаризации перед озвучкой |
/tts limit | Лимиты озвучки |
/tts chat | Режим озвучки в чате |
Per-agent голоса
Каждый агент может иметь свой голос. Настройка агента deep-merges (глубоко сливается) с глобальной конфигурацией — общие ключи API остаются на уровне messages.tts, а агент переопределяет только voiceId, provider или model:
// ~/.openclaw/openclaw.json
{
messages: {
tts: {
auto: "inbound",
provider: "elevenlabs",
providers: {
elevenlabs: {
apiKey: "ваш_ключ", // один ключ на все агенты
},
},
},
},
agents: {
list: [
{
id: "main",
tts: {
providers: {
elevenlabs: { voiceId: "EXAVITQu4vr4xnSDxMaL" }, // только голос
},
},
},
{
id: "assistant",
tts: {
provider: "openai", // другой провайдер для этого агента
providers: {
openai: { voice: "nova" },
},
},
},
],
},
}
Сравнение провайдеров TTS
| Провайдер | Русский язык | API-ключ | Цена | Качество | Статус |
|---|---|---|---|---|---|
| Edge TTS | ✅ Dmitri, Svetlana | Не нужен | Бесплатно | Среднее | ⚠️ Баг регистрации |
| OpenAI gpt-4o-mini-tts | ✅ Через instructions | Нужен | ~$0.015/мин | Хорошее | ✅ Работает |
| OpenAI tts-1 / tts-1-hd | ❌ Нет русского | Нужен | $15/1M chars | Хорошее | ❌ Нет instructions |
| ElevenLabs multilingual_v2 | ✅ languageCode: "ru" | Нужен | $0.10/1K chars | Отличное | ⚠️ Баг voiceId |
| System (macOS) | Зависит от ОС | Не нужен | Бесплатно | Низкое | ✅ Надёжно |
Данные актуальны на апрель 2026. Цены ElevenLabs: $0.10/1K символов (Multilingual v2), $0.05/1K (Flash). OpenAI gpt-4o-mini-tts: ~$0.015/мин. Edge TTS: бесплатно, но без SLA.
Какой провайдер выбрать
Хочу бесплатно и без ключей → Edge TTS. Работает из коробки, русский язык, но есть баг регистрации (см. раздел Edge TTS). Обходной путь — добавить "microsoft" в plugins.allow.
У меня уже есть OpenAI ключ → gpt-4o-mini-tts. Тот же ключ, что и для чата. Русский язык через параметр instructions. Не нужен отдельный счёт.
Нужно лучшее качество голоса → ElevenLabs. Натуральные голоса на русском, но платно ($5–22/мес за подписку) и есть баг с voiceId (см. раздел ElevenLabs).
Mac без интернета → System. Встроенный синтезатор macOS. Качество низкое, но работает всегда.
Настройка Edge TTS (бесплатно)
Edge TTS использует нейронные голоса Microsoft — те же, что в браузере Edge. Бесплатно, без API-ключа, русский язык поддерживается.
// ~/.openclaw/openclaw.json
{
messages: {
tts: {
auto: "inbound",
provider: "microsoft",
providers: {
microsoft: {
voice: "ru-RU-DmitriNeural",
lang: "ru-RU",
outputFormat: "audio-24khz-48kbitrate-mono-mp3",
},
},
},
},
}
Доступные русские голоса:
| Идентификатор | Пол | Описание |
|---|---|---|
ru-RU-DmitriNeural | Мужской | Основной русский голос |
ru-RU-SvetlanaNeural | Женский | Основной русский голос |
Важно: В версиях 2026.4.5 и 2026.4.11 есть баг — провайдер
microsoftне регистрируется при старте с ошибкойmicrosoft: no provider registered. Обходной путь: добавьте"microsoft"вplugins.allow:{ plugins: { allow: ["microsoft"] } }Если вы используете другие плагины, перечислите все:
["microsoft", "telegram", "browser"]. Подробности: Issue #65529.
Устаревший идентификатор "edge" работает как алиас для "microsoft" — openclaw doctor --fix автоматически заменяет его в конфиге.
Настройка OpenAI TTS (с русским)
OpenAI TTS с моделью gpt-4o-mini-tts — лучший вариант для тех, у кого уже есть API-ключ OpenAI. Русский язык включается через параметр instructions:
// ~/.openclaw/openclaw.json
{
messages: {
tts: {
auto: "inbound",
provider: "openai",
providers: {
openai: {
apiKey: "sk-...", // или OPENAI_API_KEY в .env
model: "gpt-4o-mini-tts", // именно эта модель — поддерживает instructions
voice: "alloy", // alloy | echo | fable | onyx | nova | shimmer
instructions: "Говори по-русски. Используй естественную русскую интонацию. Говори мягко и дружелюбно.",
speed: 1.0,
},
},
},
},
}
Доступные голоса: alloy, echo, fable, onyx, nova, shimmer. Ни один из них не является «русским» — параметр instructions переопределяет язык и акцент, поэтому любой голос произносит текст на русском.
Важно: Модели
tts-1иtts-1-hdне поддерживают параметрinstructions. С ними русский язык не работает. Используйте толькоgpt-4o-mini-tts.Важно: Встроенные директивы
[[tts:instructions=...]]имеют баг — парсер режет значение по пробелам, из-за чего многословные инструкции ломаются. Задавайтеinstructionsв конфиге, не в директивах.
Если вы используете OpenRouter или другой OpenAI-совместимый эндпоинт, укажите baseUrl:
openai: {
apiKey: "sk-or-...",
baseUrl: "https://openrouter.ai/api/v1", // или другой провайдер
model: "openai/gpt-4o-mini-tts",
voice: "alloy",
instructions: "Говори по-русски.",
}
Настройка ElevenLabs (лучшее качество)
ElevenLabs — самый качественный TTS-провайдер с естественными голосами на русском. Требует подписку ($5/мес Starter или выше для коммерческого использования).
// ~/.openclaw/openclaw.json
{
messages: {
tts: {
auto: "inbound",
provider: "elevenlabs",
providers: {
elevenlabs: {
apiKey: "ваш_ключ", // или ELEVENLABS_API_KEY в .env
voiceId: "ваш_voice_id", // получите через /voice list
modelId: "eleven_multilingual_v2", // поддерживает русский
languageCode: "ru",
voiceSettings: {
stability: 0.5,
similarityBoost: 0.75,
style: 0.0,
useSpeakerBoost: true,
speed: 1.0,
},
},
},
},
},
}
Узнать доступные голоса: команда /voice list в чате или ElevenLabs Voice Library.
Важно: Известный баг — настроенный
voiceIdиногда игнорируется, агент говорит дефолтным голосом. Обходной путь: при создании API-ключа в ElevenLaws (Developers → API Keys → Create Key) дайте разрешение Voices → Read, а не только Text to Speech. Это решает проблему в большинстве случаев. Подробности: Issue #14764.
Для экономии можно использовать модель eleven_flash_v2_5 — она в два раза дешевле ($0.05/1K символов) и быстрее, но качество чуть ниже.
Настройка System TTS (macOS)
Системный провайдер использует встроенный синтезатор macOS (AVSpeechSynthesizer). Бесплатно, без API-ключа, работает офлайн. Качество — роботизированное, но надёжное.
// ~/.openclaw/openclaw.json
{
messages: {
tts: {
auto: "always",
provider: "system",
providers: {
system: {},
},
},
},
}
System TTS подходит как запасной вариант, когда ElevenLabs или OpenAI недоступны.
TTS в Telegram
TTS-озвучка работает на VPS — это основная функция для серверных установок. Агент отправляет голосовое сообщение (OGG/Opus) как круглый пузырь в Telegram.
Рекомендуемый режим для Telegram — auto: "inbound": агент озвучивает только ответы на ваши голосовые сообщения, а текстовые ответы оставляет текстовыми. Это естественный паттерн общения.
{
messages: {
tts: {
auto: "inbound",
provider: "microsoft", // или openai, elevenlabs
},
},
}
Для суммаризации длинных ответов перед озвучкой укажите summaryModel:
{
messages: {
tts: {
auto: "inbound",
provider: "openai",
summaryModel: "openai/gpt-4.1-mini", // сначала суммаризирует, потом озвучивает
},
},
}
Известная проблема: в некоторых версиях OpenClaw голосовые сообщения отправляются как аудиофайлы (прямоугольные), а не как голосовые пузыри (круглые). Это происходит, когда формат аудио не OGG/Opus. Обновите OpenClaw до последней версии — проблема решена.
Talk Mode: живой голосовой диалог
Talk Mode — это режим непрерывного голосового разговора: вы говорите, агент слушает, отвечает голосом, и цикл повторяется. На macOS есть overlay-индикатор (пульсирующее облако = слушаю, анимация = думаю, кольца = говорю).
Где работает
| Платформа | Статус |
|---|---|
| macOS | Полная поддержка (overlay UI, Voice Wake) |
| iOS | Поддерживается |
| Android | Поддерживается (foreground-сервис микрофона) |
| Linux | ❌ Только TTS-озвучка |
| Windows | ❌ Только TTS-озвучка |
| VPS (headless) | ❌ Только TTS-озвучка |
Важно: Talk Mode не работает на VPS — для него нужен микрофон и динамик. Если OpenClaw работает на сервере, используйте TTS-озвучку через Telegram.
Настройка Talk Mode
// ~/.openclaw/openclaw.json
{
talk: {
provider: "elevenlabs", // elevenlabs | mlx | system
providers: {
elevenlabs: {
voiceId: "ваш_voice_id",
modelId: "eleven_v3", // eleven_v3 для Talk Mode (быстрый потоковый синтез)
outputFormat: "mp3_44100_128",
apiKey: "ваш_ключ", // тот же ключ, что и для TTS
},
mlx: {
modelId: "mlx-community/Soprano-80M-bf16", // локальный TTS на Apple Silicon
},
system: {}, // macOS AVSpeechSynthesizer
},
speechLocale: "ru-RU", // распознавание речи на русском
silenceTimeoutMs: 1500, // пауза перед отправкой (мс)
interruptOnSpeech: true, // перебивать агента голосом
},
}
Почему разные модели? Для TTS-озвучки используется
eleven_multilingual_v2— он поддерживает русский черезlanguageCode: "ru". Для Talk Mode нуженeleven_v3— он оптимизирован для потокового синтеза в реальном времени с минимальной задержкой. API-ключ один и тот же.
MLX — локальный TTS на macOS
MLX-провайдер запускает синтез речи локально на Apple Silicon — без интернета и без API-ключа:
{
talk: {
provider: "mlx",
providers: {
mlx: {
modelId: "mlx-community/Soprano-80M-bf16", // модель по умолчанию
},
},
},
}
Качество ниже ElevenLabs, но бесплатно и приватно. Работает только на macOS с Apple Silicon.
Voice Wake на macOS
Voice Wake позволяет активировать агента голосом — «Привет, OpenClaw» — без нажатия кнопки. Настраивается через файл:
// ~/.openclaw/settings/voicewake.json
{
"triggers": ["openclaw", "клэв"],
"updatedAtMs": 1714000000000
}
Также можно указать, какой агент или сессию активировать через настройки маршрутизации Voice Wake.
Слеш-команды Talk Mode
| Команда | Что делает |
|---|---|
/voice status | Текущие настройки голоса |
/voice list | Список доступных голосов |
/voice set <voiceId> | Сменить голос |
/voice set Дмитрий | Сменить голос по имени (если настроены алиасы) |
На Discord команда /voice заменяется на /talkvoice.
Важно: В Talk Mode на macOS ElevenLabs иногда молча падает обратно на системный голос — агент говорит голосом macOS вместо настроенного. Это известный баг (Issue #48203). Если столкнулись — используйте
provider: "system"как надёжный запасной вариант.
Решение проблем
microsoft: no provider registered
Провайдер Edge TTS не регистрируется при старте.
Обходной путь: добавьте "microsoft" в plugins.allow:
{
plugins: {
allow: ["microsoft"]
}
}
Если используете другие плагины: ["microsoft", "telegram", "browser"]. Подробности: Issue #65529.
ElevenLabs игнорирует voiceId
Агент говорит дефолтным голосом вместо настроенного.
Решение: при создании API-ключа в ElevenLabs (Developers → API Keys) дайте разрешение Voices → Read, а не только Text to Speech. Подробности: Issue #14764.
Голосовые сообщения — аудиофайлы, а не пузыри
В Telegram голосовые приходят как прямоугольные аудиофайлы, а не как круглые пузыри.
Решение: обновите OpenClaw до последней версии. В новых версиях TTS автоматически отправляет OGG/Opus формат, который Telegram отображает как голосовой пузырь.
Talk Mode падает на системный голос
На macOS настроен ElevenLabs, но агент говорит системным голосом.
Временное решение: переключите Talk Mode на "provider": "system" — системный голос надёжнее, хоть и менее натуральный. Подробности: Issue #48203.
Диагностика
# Проверить статус TTS
openclaw infer tts status
# Список доступных TTS-провайдеров
openclaw infer tts providers
# Список голосов
openclaw infer tts voices
В чате: /tts status и /voice status.
Рекомендации
- Начните с Edge TTS — бесплатно, без ключей, русский язык. Если не работает — добавьте
plugins.allow(см. выше) - Для Telegram на VPS — используйте
auto: "inbound": агент озвучивает только ответы на ваши голосовые, текст остаётся текстом - Если есть OpenAI ключ —
gpt-4o-mini-ttsсinstructions: "Говори по-русски"даёт хороший русский голос без дополнительного счёта - Установите
summaryModelдля длинных ответов — агент сначала суммаризирует, потом озвучивает, экономя токены - Talk Mode на macOS — пока ElevenLabs нестабилен, используйте
systemилиmlxпровайдер - Не используйте
tts-1иtts-1-hdдля русского языка — они не поддерживают параметрinstructions
Что дальше
- Какую модель выбрать — какую языковую модель подключить к OpenClaw
- Конфигурация openclaw.json — полный справочник настроек
- OpenClaw в России — доступ без VPN
- OpenClaw бесплатно — как использовать без затрат
- CLI-справочник — все команды OpenClaw
- Безопасность — про изоляцию иsandbox
- Документация: TTS — официальная документация по
messages.tts - Документация: Talk Mode — официальная документация по Talk Mode