Ollama и локальные модели для OpenClaw | open-claw.su

Ollama — самый простой способ запустить языковую модель локально на вашем компьютере. Никаких API-ключей, никакой оплаты, никакого VPN — данные не покидают ваше устройство.

В этом руководстве разберём установку Ollama, выбор модели под ваше железо и настройку OpenClaw для работы с локальными LLM.

Зачем локальные модели

Преимущество	Описание
Бесплатно	Нет ежемесячных платежей и лимитов
Приватность	Данные не уходят в облако
Без VPN	Не нужен доступ к зарубежным API
Без интернета	Работает полностью офлайн
Без цензуры	Локальные модели не имеют ограничений провайдера

Минусы: требуют мощного железа и уступают в качестве топовым облачным моделям (Claude, GPT-4o).

Системные требования

Требования зависят от размера модели:

Размер модели	RAM	VRAM (GPU)	Качество	Пример
7B	8+ ГБ	6+ ГБ	Среднее	Mistral 7B, Gemma2 9B
13–14B	16+ ГБ	10+ ГБ	Хорошее	DeepSeek-R1 14B
32–34B	24+ ГБ	20+ ГБ	Очень хорошее	Qwen2.5 32B
70B	48+ ГБ	40+ ГБ	Отличное	Llama 3.3 70B

GPU ускоряет генерацию в 5–10 раз, но не обязателен — Ollama работает и на CPU.

Поддерживаемые GPU:

NVIDIA — CUDA (GTX 1060 и выше)
Apple Silicon — Metal (M1/M2/M3/M4)
AMD — ROCm (RX 6000 и выше, только Linux)

Установка Ollama

macOS

# Через Homebrew (рекомендуется)
brew install ollama

# Или через установщик
curl -fsSL https://ollama.com/install.sh | sh

Linux

curl -fsSL https://ollama.com/install.sh | sh

Windows

Скачайте установщик с ollama.com/download и запустите.

Проверка

ollama --version
# ollama version 0.x.x

Скачивание модели

# Запустить Ollama-сервер (если не запущен)
ollama serve

# Скачать модель (в отдельном терминале)
ollama pull llama3.3:70b

Проверка модели

# Быстрый тест
ollama run qwen2.5:32b "Привет! Расскажи о себе в двух предложениях."

Настройка OpenClaw

Базовая конфигурация

// ~/.openclaw/openclaw.json
{
  agent: {
    model: "ollama/qwen2.5:32b",
  },
}

Расширенная конфигурация

// ~/.openclaw/openclaw.json
{
  agent: {
    model: "ollama/qwen2.5:32b",
    temperature: 0.7,          // Креативность (0.0–1.0)
    num_ctx: 8192,             // Размер контекстного окна
    top_p: 0.9,                // Nucleus sampling
    repeat_penalty: 1.1,       // Штраф за повторы
  },
}

Несколько моделей

Можно использовать разные модели для разных задач:

// ~/.openclaw/openclaw.json
{
  agents: {
    defaults: {
      model: {
        primary: "ollama/qwen2.5:14b",          // Быстрая модель
        fallbacks: ["ollama/qwen2.5:32b"],       // Резервная мощная модель
      },
    },
  },
}

GPU-ускорение

Apple Silicon (M1/M2/M3/M4)

Работает автоматически — Ollama использует Metal. На MacBook с 16 ГБ unified memory можно запускать модели до 14B с хорошей скоростью.

NVIDIA (CUDA)

# Проверить, видит ли Ollama GPU
ollama ps

# Должно показать GPU в колонке PROCESSOR

Если GPU не определяется:

Установите NVIDIA драйверы
Установите CUDA Toolkit
Перезапустите Ollama

AMD (ROCm, только Linux)

# Установить ROCm
sudo apt install rocm-libs

# Перезапустить Ollama
sudo systemctl restart ollama

LM Studio как альтернатива

LM Studio — графическое приложение для запуска локальных моделей. Проще в настройке, чем Ollama, но менее гибкое.

Установка

Скачайте LM Studio с lmstudio.ai
Найдите модель в каталоге (поиск → «qwen2.5»)
Скачайте модель
Перейдите на вкладку «Local Server» и запустите сервер

Настройка OpenClaw для LM Studio

// ~/.openclaw/openclaw.json
{
  agent: {
    model: "lmstudio/loaded-model",    // Имя загруженной модели
  },
}

Ollama на удалённом сервере

Если ваш компьютер слабый, можно запустить Ollama на VPS или домашнем сервере.

На сервере

# Установка
curl -fsSL https://ollama.com/install.sh | sh

# Разрешить внешние подключения
OLLAMA_HOST=0.0.0.0:11434 ollama serve

# Скачать модель
ollama pull qwen2.5:32b

На клиенте (ваш компьютер)

// ~/.openclaw/openclaw.json
{
  agent: {
    model: "ollama/qwen2.5:32b",
    base_url: "http://your-server-ip:11434",  // Адрес удалённого сервера
  },
}

Безопасный доступ через SSH-туннель

# Создать SSH-туннель
ssh -L 11434:localhost:11434 user@your-server

# Теперь Ollama доступна на localhost:11434

Это безопаснее, чем открывать порт 11434 наружу.

Оптимизация производительности

Увеличение контекстного окна

# По умолчанию контекст 2048 токенов — мало для агента
# Увеличить при запуске:
OLLAMA_NUM_CTX=8192 ollama serve

Или в openclaw.json:

// ~/.openclaw/openclaw.json
{
  agent: {
    model: "ollama/qwen2.5:32b",
    num_ctx: 8192,    // 4096, 8192, 16384, 32768
  },
}

Чем больше контекст, тем больше RAM нужно.

Запуск как системный сервис

# Linux: Ollama автоматически устанавливается как systemd-сервис
sudo systemctl enable ollama
sudo systemctl start ollama

# Проверить статус
sudo systemctl status ollama

macOS: автозапуск

# Ollama запускается автоматически после установки через brew
brew services start ollama

Типичные проблемы

«Connection refused» при запуске OpenClaw

Убедитесь, что Ollama запущена: ollama ps
Запустите сервер: ollama serve
Проверьте порт: curl http://localhost:11434/api/tags

Модель работает очень медленно

Проверьте, используется ли GPU: ollama ps (колонка PROCESSOR)
Попробуйте модель меньшего размера
Закройте другие тяжёлые приложения

«Out of memory» при загрузке модели

Модель слишком большая для вашего RAM
Используйте квантизованную версию: ollama pull qwen2.5:14b-q4_K_M
Или выберите модель поменьше

Плохое качество ответов на русском

Используйте qwen2.5 — лучший русский среди открытых моделей
Увеличьте размер модели (14B → 32B)
Добавьте в SOUL.md инструкцию: «Всегда отвечай на русском языке»

Ollama не видит GPU (NVIDIA)

Проверьте драйверы: nvidia-smi
Установите CUDA Toolkit
Перезапустите Ollama после установки драйверов

Что дальше

Обзор всех моделей — сравнение облачных и локальных вариантов
Установка на Mac или Linux — если ещё не установили OpenClaw
Безопасность — настройка песочницы и защита данных
DeepSeek — дешёвая облачная альтернатива локальным моделям

Модель	Размер	RAM	Русский язык	Лучшее применение
`llama3.3:70b`	40 ГБ	48+ ГБ	Средний	Универсальная, лучшее качество
`qwen2.5:32b`	18 ГБ	24+ ГБ	Хороший	Отличный баланс качества и размера
`qwen2.5:14b`	8 ГБ	16+ ГБ	Хороший	Хороший выбор для 16 ГБ RAM
`deepseek-r1:14b`	8 ГБ	16+ ГБ	Хороший	Рассуждения, логические задачи
`deepseek-r1:7b`	4 ГБ	8+ ГБ	Средний	Минимальный вариант для reasoning
`mistral:7b`	4 ГБ	8+ ГБ	Средний	Быстрая, лёгкая
`gemma2:9b`	5 ГБ	12+ ГБ	Средний	Хорошее качество для своего размера