Голос и TTS в OpenClaw — озвучка ответов, Talk Mode, настройка провайдеров | open-claw.su

OpenClaw может не только отвечать текстом, но и говорить — озвучивать ответы голосовыми сообщениями в Telegram и WhatsApp или вести живой голосовой диалог. В этой статье — все способы настроить голос, сравнение провайдеров и решение известных проблем.

Два режима голоса

OpenClaw предлагает два разных голосовых режима. Они работают независимо и настраиваются отдельно:

	TTS (озвучка ответов)	Talk Mode (живой диалог)
Что делает	Агент отправляет голосовое сообщение вместо текста	Вы говорите — агент отвечает голосом в реальном времени
Где работает	Telegram, WhatsApp, Discord, веб — включая VPS	macOS, iOS, Android — только на устройстве с микрофоном
VPS	✅ Работает	❌ Не работает
Настройка	`messages.tts` в конфиге	`talk` в конфиге
Слеш-команды	`/tts on\|off\|status\|provider`	`/voice status\|list\|set`

Важно: TTS-озвучка — основная функция для большинства пользователей. Talk Mode — отдельная возможность для тех, кто использует OpenClaw на Mac или телефоне.

TTS: озвучка текстовых ответов

Агент генерирует текстовый ответ, отправляет его в TTS-провайдер и получает аудиофайл. В Telegram это приходит как круглое голосовое сообщение (OGG/Opus).

Режимы auto-TTS

Режим auto в конфигурации определяет, когда агент озвучивает ответы:

Значение	Поведение
`off`	Озвучка выключена (по умолчанию)
`always`	Озвучивает каждый ответ
`inbound`	Озвучивает только ответы на входящие сообщения
`tagged`	Озвучивает только помеченные ответы

Пользователь может переключать режим на лету: /tts on включает озвучку (режим always), /tts off — выключает. Команды переопределяют настройку auto из конфига до перезапуска агента.

Слеш-команды TTS

Команда	Что делает
`/tts on`	Включить озвучку
`/tts off`	Выключить озвучку
`/tts status`	Текущий статус и провайдер
`/tts provider`	Показать/сменить провайдера
`/tts latest`	Озвучить последнее сообщение
`/tts audio`	Управление аудионастройками
`/tts summary`	Режим суммаризации перед озвучкой
`/tts limit`	Лимиты озвучки
`/tts chat`	Режим озвучки в чате

Per-agent голоса

Каждый агент может иметь свой голос. Настройка агента deep-merges (глубоко сливается) с глобальной конфигурацией — общие ключи API остаются на уровне messages.tts, а агент переопределяет только voiceId, provider или model:

// ~/.openclaw/openclaw.json
{
  messages: {
    tts: {
      auto: "inbound",
      provider: "elevenlabs",
      providers: {
        elevenlabs: {
          apiKey: "ваш_ключ",  // один ключ на все агенты
        },
      },
    },
  },
  agents: {
    list: [
      {
        id: "main",
        tts: {
          providers: {
            elevenlabs: { voiceId: "EXAVITQu4vr4xnSDxMaL" },  // только голос
          },
        },
      },
      {
        id: "assistant",
        tts: {
          provider: "openai",  // другой провайдер для этого агента
          providers: {
            openai: { voice: "nova" },
          },
        },
      },
    ],
  },
}

Сравнение провайдеров TTS

Провайдер	Русский язык	API-ключ	Цена	Качество	Статус
Edge TTS	✅ Dmitri, Svetlana	Не нужен	Бесплатно	Среднее	⚠️ Баг регистрации
OpenAI gpt-4o-mini-tts	✅ Через `instructions`	Нужен	~$0.015/мин	Хорошее	✅ Работает
OpenAI tts-1 / tts-1-hd	❌ Нет русского	Нужен	$15/1M chars	Хорошее	❌ Нет `instructions`
ElevenLabs multilingual_v2	✅ `languageCode: "ru"`	Нужен	$0.10/1K chars	Отличное	⚠️ Баг `voiceId`
System (macOS)	Зависит от ОС	Не нужен	Бесплатно	Низкое	✅ Надёжно

Данные актуальны на апрель 2026. Цены ElevenLabs: $0.10/1K символов (Multilingual v2), $0.05/1K (Flash). OpenAI gpt-4o-mini-tts: ~$0.015/мин. Edge TTS: бесплатно, но без SLA.

Какой провайдер выбрать

Хочу бесплатно и без ключей → Edge TTS. Работает из коробки, русский язык, но есть баг регистрации (см. раздел Edge TTS). Обходной путь — добавить "microsoft" в plugins.allow.

У меня уже есть OpenAI ключ → gpt-4o-mini-tts. Тот же ключ, что и для чата. Русский язык через параметр instructions. Не нужен отдельный счёт.

Нужно лучшее качество голоса → ElevenLabs. Натуральные голоса на русском, но платно ($5–22/мес за подписку) и есть баг с voiceId (см. раздел ElevenLabs).

Mac без интернета → System. Встроенный синтезатор macOS. Качество низкое, но работает всегда.

Настройка Edge TTS (бесплатно)

Edge TTS использует нейронные голоса Microsoft — те же, что в браузере Edge. Бесплатно, без API-ключа, русский язык поддерживается.

// ~/.openclaw/openclaw.json
{
  messages: {
    tts: {
      auto: "inbound",
      provider: "microsoft",
      providers: {
        microsoft: {
          voice: "ru-RU-DmitriNeural",
          lang: "ru-RU",
          outputFormat: "audio-24khz-48kbitrate-mono-mp3",
        },
      },
    },
  },
}

Доступные русские голоса:

Идентификатор	Пол	Описание
`ru-RU-DmitriNeural`	Мужской	Основной русский голос
`ru-RU-SvetlanaNeural`	Женский	Основной русский голос

Важно: В версиях 2026.4.5 и 2026.4.11 есть баг — провайдер microsoft не регистрируется при старте с ошибкой microsoft: no provider registered. Обходной путь: добавьте "microsoft" в plugins.allow:
{
  plugins: {
    allow: ["microsoft"]
  }
}
Если вы используете другие плагины, перечислите все: ["microsoft", "telegram", "browser"]. Подробности: Issue #65529.

Устаревший идентификатор "edge" работает как алиас для "microsoft" — openclaw doctor --fix автоматически заменяет его в конфиге.

Настройка OpenAI TTS (с русским)

OpenAI TTS с моделью gpt-4o-mini-tts — лучший вариант для тех, у кого уже есть API-ключ OpenAI. Русский язык включается через параметр instructions:

// ~/.openclaw/openclaw.json
{
  messages: {
    tts: {
      auto: "inbound",
      provider: "openai",
      providers: {
        openai: {
          apiKey: "sk-...",              // или OPENAI_API_KEY в .env
          model: "gpt-4o-mini-tts",      // именно эта модель — поддерживает instructions
          voice: "alloy",                 // alloy | echo | fable | onyx | nova | shimmer
          instructions: "Говори по-русски. Используй естественную русскую интонацию. Говори мягко и дружелюбно.",
          speed: 1.0,
        },
      },
    },
  },
}

Доступные голоса: alloy, echo, fable, onyx, nova, shimmer. Ни один из них не является «русским» — параметр instructions переопределяет язык и акцент, поэтому любой голос произносит текст на русском.

Важно: Модели tts-1 и tts-1-hd не поддерживают параметр instructions. С ними русский язык не работает. Используйте только gpt-4o-mini-tts.

Важно: Встроенные директивы [[tts:instructions=...]] имеют баг — парсер режет значение по пробелам, из-за чего многословные инструкции ломаются. Задавайте instructions в конфиге, не в директивах.

Если вы используете OpenRouter или другой OpenAI-совместимый эндпоинт, укажите baseUrl:

openai: {
  apiKey: "sk-or-...",
  baseUrl: "https://openrouter.ai/api/v1",  // или другой провайдер
  model: "openai/gpt-4o-mini-tts",
  voice: "alloy",
  instructions: "Говори по-русски.",
}

Настройка ElevenLabs (лучшее качество)

ElevenLabs — самый качественный TTS-провайдер с естественными голосами на русском. Требует подписку ($5/мес Starter или выше для коммерческого использования).

// ~/.openclaw/openclaw.json
{
  messages: {
    tts: {
      auto: "inbound",
      provider: "elevenlabs",
      providers: {
        elevenlabs: {
          apiKey: "ваш_ключ",                     // или ELEVENLABS_API_KEY в .env
          voiceId: "ваш_voice_id",                // получите через /voice list
          modelId: "eleven_multilingual_v2",      // поддерживает русский
          languageCode: "ru",
          voiceSettings: {
            stability: 0.5,
            similarityBoost: 0.75,
            style: 0.0,
            useSpeakerBoost: true,
            speed: 1.0,
          },
        },
      },
    },
  },
}

Узнать доступные голоса: команда /voice list в чате или ElevenLabs Voice Library.

Важно: Известный баг — настроенный voiceId иногда игнорируется, агент говорит дефолтным голосом. Обходной путь: при создании API-ключа в ElevenLaws (Developers → API Keys → Create Key) дайте разрешение Voices → Read, а не только Text to Speech. Это решает проблему в большинстве случаев. Подробности: Issue #14764.

Для экономии можно использовать модель eleven_flash_v2_5 — она в два раза дешевле ($0.05/1K символов) и быстрее, но качество чуть ниже.

Настройка System TTS (macOS)

Системный провайдер использует встроенный синтезатор macOS (AVSpeechSynthesizer). Бесплатно, без API-ключа, работает офлайн. Качество — роботизированное, но надёжное.

// ~/.openclaw/openclaw.json
{
  messages: {
    tts: {
      auto: "always",
      provider: "system",
      providers: {
        system: {},
      },
    },
  },
}

System TTS подходит как запасной вариант, когда ElevenLabs или OpenAI недоступны.

TTS в Telegram

TTS-озвучка работает на VPS — это основная функция для серверных установок. Агент отправляет голосовое сообщение (OGG/Opus) как круглый пузырь в Telegram.

Рекомендуемый режим для Telegram — auto: "inbound": агент озвучивает только ответы на ваши голосовые сообщения, а текстовые ответы оставляет текстовыми. Это естественный паттерн общения.

{
  messages: {
    tts: {
      auto: "inbound",
      provider: "microsoft",  // или openai, elevenlabs
    },
  },
}

Для суммаризации длинных ответов перед озвучкой укажите summaryModel:

{
  messages: {
    tts: {
      auto: "inbound",
      provider: "openai",
      summaryModel: "openai/gpt-4.1-mini",  // сначала суммаризирует, потом озвучивает
    },
  },
}

Известная проблема: в некоторых версиях OpenClaw голосовые сообщения отправляются как аудиофайлы (прямоугольные), а не как голосовые пузыри (круглые). Это происходит, когда формат аудио не OGG/Opus. Обновите OpenClaw до последней версии — проблема решена.

Talk Mode: живой голосовой диалог

Talk Mode — это режим непрерывного голосового разговора: вы говорите, агент слушает, отвечает голосом, и цикл повторяется. На macOS есть overlay-индикатор (пульсирующее облако = слушаю, анимация = думаю, кольца = говорю).

Где работает

Платформа	Статус
macOS	Полная поддержка (overlay UI, Voice Wake)
iOS	Поддерживается
Android	Поддерживается (foreground-сервис микрофона)
Linux	❌ Только TTS-озвучка
Windows	❌ Только TTS-озвучка
VPS (headless)	❌ Только TTS-озвучка

Важно: Talk Mode не работает на VPS — для него нужен микрофон и динамик. Если OpenClaw работает на сервере, используйте TTS-озвучку через Telegram.

Настройка Talk Mode

// ~/.openclaw/openclaw.json
{
  talk: {
    provider: "elevenlabs",         // elevenlabs | mlx | system
    providers: {
      elevenlabs: {
        voiceId: "ваш_voice_id",
        modelId: "eleven_v3",           // eleven_v3 для Talk Mode (быстрый потоковый синтез)
        outputFormat: "mp3_44100_128",
        apiKey: "ваш_ключ",             // тот же ключ, что и для TTS
      },
      mlx: {
        modelId: "mlx-community/Soprano-80M-bf16",  // локальный TTS на Apple Silicon
      },
      system: {},                  // macOS AVSpeechSynthesizer
    },
    speechLocale: "ru-RU",          // распознавание речи на русском
    silenceTimeoutMs: 1500,         // пауза перед отправкой (мс)
    interruptOnSpeech: true,         // перебивать агента голосом
  },
}

Почему разные модели? Для TTS-озвучки используется eleven_multilingual_v2 — он поддерживает русский через languageCode: "ru". Для Talk Mode нужен eleven_v3 — он оптимизирован для потокового синтеза в реальном времени с минимальной задержкой. API-ключ один и тот же.

MLX — локальный TTS на macOS

MLX-провайдер запускает синтез речи локально на Apple Silicon — без интернета и без API-ключа:

{
  talk: {
    provider: "mlx",
    providers: {
      mlx: {
        modelId: "mlx-community/Soprano-80M-bf16",  // модель по умолчанию
      },
    },
  },
}

Качество ниже ElevenLabs, но бесплатно и приватно. Работает только на macOS с Apple Silicon.

Voice Wake на macOS

Voice Wake позволяет активировать агента голосом — «Привет, OpenClaw» — без нажатия кнопки. Настраивается через файл:

// ~/.openclaw/settings/voicewake.json
{
  "triggers": ["openclaw", "клэв"],
  "updatedAtMs": 1714000000000
}

Также можно указать, какой агент или сессию активировать через настройки маршрутизации Voice Wake.

Слеш-команды Talk Mode

Команда	Что делает
`/voice status`	Текущие настройки голоса
`/voice list`	Список доступных голосов
`/voice set <voiceId>`	Сменить голос
`/voice set Дмитрий`	Сменить голос по имени (если настроены алиасы)

На Discord команда /voice заменяется на /talkvoice.

Важно: В Talk Mode на macOS ElevenLabs иногда молча падает обратно на системный голос — агент говорит голосом macOS вместо настроенного. Это известный баг (Issue #48203). Если столкнулись — используйте provider: "system" как надёжный запасной вариант.

Решение проблем

`microsoft: no provider registered`

Провайдер Edge TTS не регистрируется при старте.

Обходной путь: добавьте "microsoft" в plugins.allow:

{
  plugins: {
    allow: ["microsoft"]
  }
}

Если используете другие плагины: ["microsoft", "telegram", "browser"]. Подробности: Issue #65529.

ElevenLabs игнорирует voiceId

Агент говорит дефолтным голосом вместо настроенного.

Решение: при создании API-ключа в ElevenLabs (Developers → API Keys) дайте разрешение Voices → Read, а не только Text to Speech. Подробности: Issue #14764.

Голосовые сообщения — аудиофайлы, а не пузыри

В Telegram голосовые приходят как прямоугольные аудиофайлы, а не как круглые пузыри.

Решение: обновите OpenClaw до последней версии. В новых версиях TTS автоматически отправляет OGG/Opus формат, который Telegram отображает как голосовой пузырь.

Talk Mode падает на системный голос

На macOS настроен ElevenLabs, но агент говорит системным голосом.

Временное решение: переключите Talk Mode на "provider": "system" — системный голос надёжнее, хоть и менее натуральный. Подробности: Issue #48203.

Диагностика

# Проверить статус TTS
openclaw infer tts status

# Список доступных TTS-провайдеров
openclaw infer tts providers

# Список голосов
openclaw infer tts voices

В чате: /tts status и /voice status.

Что дальше

Какую модель выбрать — какую языковую модель подключить к OpenClaw
Конфигурация openclaw.json — полный справочник настроек
OpenClaw в России — доступ без VPN
OpenClaw бесплатно — как использовать без затрат
CLI-справочник — все команды OpenClaw
Безопасность — про изоляцию иsandbox
Документация: TTS — официальная документация по messages.tts
Документация: Talk Mode — официальная документация по Talk Mode