Канал

Голос и TTS в OpenClaw — озвучка ответов, Talk Mode, настройка провайдеров

OpenClaw может не только отвечать текстом, но и говорить — озвучивать ответы голосовыми сообщениями в Telegram и WhatsApp или вести живой голосовой диалог. В этой статье — все способы настроить голос, сравнение провайдеров и решение известных проблем.

Два режима голоса

OpenClaw предлагает два разных голосовых режима. Они работают независимо и настраиваются отдельно:

TTS (озвучка ответов)Talk Mode (живой диалог)
Что делаетАгент отправляет голосовое сообщение вместо текстаВы говорите — агент отвечает голосом в реальном времени
Где работаетTelegram, WhatsApp, Discord, веб — включая VPSmacOS, iOS, Android — только на устройстве с микрофоном
VPS✅ Работает❌ Не работает
Настройкаmessages.tts в конфигеtalk в конфиге
Слеш-команды/tts on|off|status|provider/voice status|list|set

Важно: TTS-озвучка — основная функция для большинства пользователей. Talk Mode — отдельная возможность для тех, кто использует OpenClaw на Mac или телефоне.

TTS: озвучка текстовых ответов

Агент генерирует текстовый ответ, отправляет его в TTS-провайдер и получает аудиофайл. В Telegram это приходит как круглое голосовое сообщение (OGG/Opus).

Режимы auto-TTS

Режим auto в конфигурации определяет, когда агент озвучивает ответы:

ЗначениеПоведение
offОзвучка выключена (по умолчанию)
alwaysОзвучивает каждый ответ
inboundОзвучивает только ответы на входящие сообщения
taggedОзвучивает только помеченные ответы

Пользователь может переключать режим на лету: /tts on включает озвучку (режим always), /tts off — выключает. Команды переопределяют настройку auto из конфига до перезапуска агента.

Слеш-команды TTS

КомандаЧто делает
/tts onВключить озвучку
/tts offВыключить озвучку
/tts statusТекущий статус и провайдер
/tts providerПоказать/сменить провайдера
/tts latestОзвучить последнее сообщение
/tts audioУправление аудионастройками
/tts summaryРежим суммаризации перед озвучкой
/tts limitЛимиты озвучки
/tts chatРежим озвучки в чате

Per-agent голоса

Каждый агент может иметь свой голос. Настройка агента deep-merges (глубоко сливается) с глобальной конфигурацией — общие ключи API остаются на уровне messages.tts, а агент переопределяет только voiceId, provider или model:

// ~/.openclaw/openclaw.json
{
  messages: {
    tts: {
      auto: "inbound",
      provider: "elevenlabs",
      providers: {
        elevenlabs: {
          apiKey: "ваш_ключ",  // один ключ на все агенты
        },
      },
    },
  },
  agents: {
    list: [
      {
        id: "main",
        tts: {
          providers: {
            elevenlabs: { voiceId: "EXAVITQu4vr4xnSDxMaL" },  // только голос
          },
        },
      },
      {
        id: "assistant",
        tts: {
          provider: "openai",  // другой провайдер для этого агента
          providers: {
            openai: { voice: "nova" },
          },
        },
      },
    ],
  },
}

Сравнение провайдеров TTS

ПровайдерРусский языкAPI-ключЦенаКачествоСтатус
Edge TTS✅ Dmitri, SvetlanaНе нуженБесплатноСреднее⚠️ Баг регистрации
OpenAI gpt-4o-mini-tts✅ Через instructionsНужен~$0.015/минХорошее✅ Работает
OpenAI tts-1 / tts-1-hd❌ Нет русскогоНужен$15/1M charsХорошее❌ Нет instructions
ElevenLabs multilingual_v2languageCode: "ru"Нужен$0.10/1K charsОтличное⚠️ Баг voiceId
System (macOS)Зависит от ОСНе нуженБесплатноНизкое✅ Надёжно

Данные актуальны на апрель 2026. Цены ElevenLabs: $0.10/1K символов (Multilingual v2), $0.05/1K (Flash). OpenAI gpt-4o-mini-tts: ~$0.015/мин. Edge TTS: бесплатно, но без SLA.

Какой провайдер выбрать

Хочу бесплатно и без ключейEdge TTS. Работает из коробки, русский язык, но есть баг регистрации (см. раздел Edge TTS). Обходной путь — добавить "microsoft" в plugins.allow.

У меня уже есть OpenAI ключgpt-4o-mini-tts. Тот же ключ, что и для чата. Русский язык через параметр instructions. Не нужен отдельный счёт.

Нужно лучшее качество голосаElevenLabs. Натуральные голоса на русском, но платно ($5–22/мес за подписку) и есть баг с voiceId (см. раздел ElevenLabs).

Mac без интернетаSystem. Встроенный синтезатор macOS. Качество низкое, но работает всегда.

Настройка Edge TTS (бесплатно)

Edge TTS использует нейронные голоса Microsoft — те же, что в браузере Edge. Бесплатно, без API-ключа, русский язык поддерживается.

// ~/.openclaw/openclaw.json
{
  messages: {
    tts: {
      auto: "inbound",
      provider: "microsoft",
      providers: {
        microsoft: {
          voice: "ru-RU-DmitriNeural",
          lang: "ru-RU",
          outputFormat: "audio-24khz-48kbitrate-mono-mp3",
        },
      },
    },
  },
}

Доступные русские голоса:

ИдентификаторПолОписание
ru-RU-DmitriNeuralМужскойОсновной русский голос
ru-RU-SvetlanaNeuralЖенскийОсновной русский голос

Важно: В версиях 2026.4.5 и 2026.4.11 есть баг — провайдер microsoft не регистрируется при старте с ошибкой microsoft: no provider registered. Обходной путь: добавьте "microsoft" в plugins.allow:

{
  plugins: {
    allow: ["microsoft"]
  }
}

Если вы используете другие плагины, перечислите все: ["microsoft", "telegram", "browser"]. Подробности: Issue #65529.

Устаревший идентификатор "edge" работает как алиас для "microsoft"openclaw doctor --fix автоматически заменяет его в конфиге.

Настройка OpenAI TTS (с русским)

OpenAI TTS с моделью gpt-4o-mini-tts — лучший вариант для тех, у кого уже есть API-ключ OpenAI. Русский язык включается через параметр instructions:

// ~/.openclaw/openclaw.json
{
  messages: {
    tts: {
      auto: "inbound",
      provider: "openai",
      providers: {
        openai: {
          apiKey: "sk-...",              // или OPENAI_API_KEY в .env
          model: "gpt-4o-mini-tts",      // именно эта модель — поддерживает instructions
          voice: "alloy",                 // alloy | echo | fable | onyx | nova | shimmer
          instructions: "Говори по-русски. Используй естественную русскую интонацию. Говори мягко и дружелюбно.",
          speed: 1.0,
        },
      },
    },
  },
}

Доступные голоса: alloy, echo, fable, onyx, nova, shimmer. Ни один из них не является «русским» — параметр instructions переопределяет язык и акцент, поэтому любой голос произносит текст на русском.

Важно: Модели tts-1 и tts-1-hd не поддерживают параметр instructions. С ними русский язык не работает. Используйте только gpt-4o-mini-tts.

Важно: Встроенные директивы [[tts:instructions=...]] имеют баг — парсер режет значение по пробелам, из-за чего многословные инструкции ломаются. Задавайте instructions в конфиге, не в директивах.

Если вы используете OpenRouter или другой OpenAI-совместимый эндпоинт, укажите baseUrl:

openai: {
  apiKey: "sk-or-...",
  baseUrl: "https://openrouter.ai/api/v1",  // или другой провайдер
  model: "openai/gpt-4o-mini-tts",
  voice: "alloy",
  instructions: "Говори по-русски.",
}

Настройка ElevenLabs (лучшее качество)

ElevenLabs — самый качественный TTS-провайдер с естественными голосами на русском. Требует подписку ($5/мес Starter или выше для коммерческого использования).

// ~/.openclaw/openclaw.json
{
  messages: {
    tts: {
      auto: "inbound",
      provider: "elevenlabs",
      providers: {
        elevenlabs: {
          apiKey: "ваш_ключ",                     // или ELEVENLABS_API_KEY в .env
          voiceId: "ваш_voice_id",                // получите через /voice list
          modelId: "eleven_multilingual_v2",      // поддерживает русский
          languageCode: "ru",
          voiceSettings: {
            stability: 0.5,
            similarityBoost: 0.75,
            style: 0.0,
            useSpeakerBoost: true,
            speed: 1.0,
          },
        },
      },
    },
  },
}

Узнать доступные голоса: команда /voice list в чате или ElevenLabs Voice Library.

Важно: Известный баг — настроенный voiceId иногда игнорируется, агент говорит дефолтным голосом. Обходной путь: при создании API-ключа в ElevenLaws (Developers → API Keys → Create Key) дайте разрешение Voices → Read, а не только Text to Speech. Это решает проблему в большинстве случаев. Подробности: Issue #14764.

Для экономии можно использовать модель eleven_flash_v2_5 — она в два раза дешевле ($0.05/1K символов) и быстрее, но качество чуть ниже.

Настройка System TTS (macOS)

Системный провайдер использует встроенный синтезатор macOS (AVSpeechSynthesizer). Бесплатно, без API-ключа, работает офлайн. Качество — роботизированное, но надёжное.

// ~/.openclaw/openclaw.json
{
  messages: {
    tts: {
      auto: "always",
      provider: "system",
      providers: {
        system: {},
      },
    },
  },
}

System TTS подходит как запасной вариант, когда ElevenLabs или OpenAI недоступны.

TTS в Telegram

TTS-озвучка работает на VPS — это основная функция для серверных установок. Агент отправляет голосовое сообщение (OGG/Opus) как круглый пузырь в Telegram.

Рекомендуемый режим для Telegram — auto: "inbound": агент озвучивает только ответы на ваши голосовые сообщения, а текстовые ответы оставляет текстовыми. Это естественный паттерн общения.

{
  messages: {
    tts: {
      auto: "inbound",
      provider: "microsoft",  // или openai, elevenlabs
    },
  },
}

Для суммаризации длинных ответов перед озвучкой укажите summaryModel:

{
  messages: {
    tts: {
      auto: "inbound",
      provider: "openai",
      summaryModel: "openai/gpt-4.1-mini",  // сначала суммаризирует, потом озвучивает
    },
  },
}

Известная проблема: в некоторых версиях OpenClaw голосовые сообщения отправляются как аудиофайлы (прямоугольные), а не как голосовые пузыри (круглые). Это происходит, когда формат аудио не OGG/Opus. Обновите OpenClaw до последней версии — проблема решена.

Talk Mode: живой голосовой диалог

Talk Mode — это режим непрерывного голосового разговора: вы говорите, агент слушает, отвечает голосом, и цикл повторяется. На macOS есть overlay-индикатор (пульсирующее облако = слушаю, анимация = думаю, кольца = говорю).

Где работает

ПлатформаСтатус
macOSПолная поддержка (overlay UI, Voice Wake)
iOSПоддерживается
AndroidПоддерживается (foreground-сервис микрофона)
Linux❌ Только TTS-озвучка
Windows❌ Только TTS-озвучка
VPS (headless)❌ Только TTS-озвучка

Важно: Talk Mode не работает на VPS — для него нужен микрофон и динамик. Если OpenClaw работает на сервере, используйте TTS-озвучку через Telegram.

Настройка Talk Mode

// ~/.openclaw/openclaw.json
{
  talk: {
    provider: "elevenlabs",         // elevenlabs | mlx | system
    providers: {
      elevenlabs: {
        voiceId: "ваш_voice_id",
        modelId: "eleven_v3",           // eleven_v3 для Talk Mode (быстрый потоковый синтез)
        outputFormat: "mp3_44100_128",
        apiKey: "ваш_ключ",             // тот же ключ, что и для TTS
      },
      mlx: {
        modelId: "mlx-community/Soprano-80M-bf16",  // локальный TTS на Apple Silicon
      },
      system: {},                  // macOS AVSpeechSynthesizer
    },
    speechLocale: "ru-RU",          // распознавание речи на русском
    silenceTimeoutMs: 1500,         // пауза перед отправкой (мс)
    interruptOnSpeech: true,         // перебивать агента голосом
  },
}

Почему разные модели? Для TTS-озвучки используется eleven_multilingual_v2 — он поддерживает русский через languageCode: "ru". Для Talk Mode нужен eleven_v3 — он оптимизирован для потокового синтеза в реальном времени с минимальной задержкой. API-ключ один и тот же.

MLX — локальный TTS на macOS

MLX-провайдер запускает синтез речи локально на Apple Silicon — без интернета и без API-ключа:

{
  talk: {
    provider: "mlx",
    providers: {
      mlx: {
        modelId: "mlx-community/Soprano-80M-bf16",  // модель по умолчанию
      },
    },
  },
}

Качество ниже ElevenLabs, но бесплатно и приватно. Работает только на macOS с Apple Silicon.

Voice Wake на macOS

Voice Wake позволяет активировать агента голосом — «Привет, OpenClaw» — без нажатия кнопки. Настраивается через файл:

// ~/.openclaw/settings/voicewake.json
{
  "triggers": ["openclaw", "клэв"],
  "updatedAtMs": 1714000000000
}

Также можно указать, какой агент или сессию активировать через настройки маршрутизации Voice Wake.

Слеш-команды Talk Mode

КомандаЧто делает
/voice statusТекущие настройки голоса
/voice listСписок доступных голосов
/voice set <voiceId>Сменить голос
/voice set ДмитрийСменить голос по имени (если настроены алиасы)

На Discord команда /voice заменяется на /talkvoice.

Важно: В Talk Mode на macOS ElevenLabs иногда молча падает обратно на системный голос — агент говорит голосом macOS вместо настроенного. Это известный баг (Issue #48203). Если столкнулись — используйте provider: "system" как надёжный запасной вариант.

Решение проблем

microsoft: no provider registered

Провайдер Edge TTS не регистрируется при старте.

Обходной путь: добавьте "microsoft" в plugins.allow:

{
  plugins: {
    allow: ["microsoft"]
  }
}

Если используете другие плагины: ["microsoft", "telegram", "browser"]. Подробности: Issue #65529.

ElevenLabs игнорирует voiceId

Агент говорит дефолтным голосом вместо настроенного.

Решение: при создании API-ключа в ElevenLabs (Developers → API Keys) дайте разрешение Voices → Read, а не только Text to Speech. Подробности: Issue #14764.

Голосовые сообщения — аудиофайлы, а не пузыри

В Telegram голосовые приходят как прямоугольные аудиофайлы, а не как круглые пузыри.

Решение: обновите OpenClaw до последней версии. В новых версиях TTS автоматически отправляет OGG/Opus формат, который Telegram отображает как голосовой пузырь.

Talk Mode падает на системный голос

На macOS настроен ElevenLabs, но агент говорит системным голосом.

Временное решение: переключите Talk Mode на "provider": "system" — системный голос надёжнее, хоть и менее натуральный. Подробности: Issue #48203.

Диагностика

# Проверить статус TTS
openclaw infer tts status

# Список доступных TTS-провайдеров
openclaw infer tts providers

# Список голосов
openclaw infer tts voices

В чате: /tts status и /voice status.

Рекомендации

  • Начните с Edge TTS — бесплатно, без ключей, русский язык. Если не работает — добавьте plugins.allow (см. выше)
  • Для Telegram на VPS — используйте auto: "inbound": агент озвучивает только ответы на ваши голосовые, текст остаётся текстом
  • Если есть OpenAI ключgpt-4o-mini-tts с instructions: "Говори по-русски" даёт хороший русский голос без дополнительного счёта
  • Установите summaryModel для длинных ответов — агент сначала суммаризирует, потом озвучивает, экономя токены
  • Talk Mode на macOS — пока ElevenLabs нестабилен, используйте system или mlx провайдер
  • Не используйте tts-1 и tts-1-hd для русского языка — они не поддерживают параметр instructions

Что дальше

Следите за OpenClaw на русском

Разбираем обновления, пишем гайды, делимся кейсами

Подписаться на канал Задать вопрос в чате
Присоединяйтесь к сообществу