← Все кейсы

// КЕЙС — AI-сервис · Генерация видео · B2C/B2B

Автоматизированная система генерации видео на VEO 3 через Telegram

Комплексный pipeline на n8n с AI-промпт-инженером на Gemini 2.5 Pro. Управление голосом и текстом, асинхронная обработка пакетов запросов, трёхкратное снижение стоимости ролика.

Клиент

Собственный продукт

Индустрия

AI-сервис · Генерация видео · B2C/B2B

Срок

Роль

Архитектор системы · Prompt Engineer · Разработчик на n8n

// ПРОБЛЕМА

С чем пришёл клиент

Генерация видео на VEO 3 напрямую через официальные интерфейсы — дорого и неудобно. Чтобы получить хороший результат, нужно вручную писать длинный технический промпт с указаниями по камере, свету, звуку, композиции. Для рядового пользователя это барьер: у него есть идея, но нет навыка prompt engineering. К тому же интерфейс VEO 3 не рассчитан на пакетную обработку и управление «на ходу», а стоимость одной генерации делает массовое использование нерентабельным.

// ЗАДАЧА

Что нужно было сделать

Построить систему, где пользователь говорит «хочу эпичный ролик про космос» — а на выходе получает качественное видео VEO 3 уровня. Критичные требования: управление голосом и текстом прямо из Telegram, автоматическая доводка промпта до технического уровня AI-агентом, асинхронная обработка пакетов, существенное снижение себестоимости через интеграцию внешнего API, полный контроль над процессом (проверка баланса, отмена задач, статусы) из одного интерфейса.

// РЕШЕНИЕ

Как это работает

  1. Архитектурное разделение: два независимых workflow

    Система разделена на два workflow с разной ответственностью. Workflow 1 — «мозговой центр»: принимает запросы, общается с пользователем, управляет состояниями. Workflow 2 — «конвейер»: выполняет ресурсоёмкую генерацию и доставку. Это даёт отказоустойчивость: падение генерации не ломает управление, а под высокую нагрузку можно масштабировать только конвейер.

  2. Workflow 1: приём и маршрутизация запросов

    Telegram Trigger принимает все входящие сообщения. Switch-узел маршрутизирует их по веткам: команды, текст, голос, инлайн-запросы. Голосовые сообщения автоматически транскрибируются через OpenAI Whisper. Для опытных пользователей есть режим /direct — прямой ввод готового промпта без AI-улучшайзера.

  3. AI-агент на Gemini 2.5 Pro — главная ценность системы

    Это не просто прокси к LLM. В агента заложена база знаний по prompt engineering для VEO 3: правила композиции кадра, работа со светом, описание эмоций, ракурсы камеры. Он принимает простую человеческую фразу («сделай эпично про космос») и выдаёт структурированный технический промпт. Учитывает историю диалога — можно уточнять «сделай ещё динамичнее» или «поменяй свет на тёплый».

  4. State management в Supabase

    PostgreSQL хранит историю запросов, сгенерированные промпты, статусы задач, баланс пользователей. Это даёт две вещи: контекст диалога (агент помнит, что генерировали раньше) и отказоустойчивость (при сбое n8n состояние не теряется).

  5. Workflow 2: асинхронная генерация и доставка

    После утверждения промпта пользователем задача уходит во второй workflow. Он отправляет запрос в KY AI API, периодически опрашивает статус (Wait + Loop), при готовности скачивает файл и отправляет пользователю в Telegram. Асинхронность позволяет пользователю закинуть 10 роликов на генерацию и получать их по мере готовности, не блокируя интерфейс.

  6. Трёхкратное снижение себестоимости

    Интеграция с внешним API KY AI вместо прямого обращения к официальному VEO 3 снизила стоимость одного ролика в три раза. Это сделало массовую генерацию рентабельной — и для частных креаторов, и для бизнеса, где нужен регулярный поток роликов.

  7. Полный контроль из Telegram

    Все рабочие функции — в одном интерфейсе: проверка баланса, отмена задачи в процессе, отслеживание статусов, получение истории, прямой ввод промпта для продвинутых. Не надо переключаться между дашбордами.

  8. Обработка ошибок и честная обратная связь

    Система корректно обрабатывает все типовые сбои: недостаток средств на балансе, отклонение промпта политикой безопасности, падение API. В каждом случае пользователь немедленно получает в Telegram понятное объяснение причины и рекомендацию что делать.

// СХЕМА ПАЙПЛАЙНА

Как устроено под капотом

┌─────────────────────────────────────────────────────────────┐
│  WORKFLOW 1 — МОЗГОВОЙ ЦЕНТР (n8n)                          │
├─────────────────────────────────────────────────────────────┤
│                                                              │
│  Telegram Trigger                                            │
│      │                                                       │
│      ▼                                                       │
│  [ Switch ] ───► текст ──────────────┐                       │
│      │                                │                      │
│      ├──► голос ──► Whisper ─────────┤                       │
│      │                                │                      │
│      └──► команда /direct ───────────┤                       │
│                                       ▼                      │
│                          ┌─────────────────────────┐         │
│                          │  Gemini 2.5 Pro AI Agent │         │
│                          │  (prompt engineering)    │         │
│                          └────────────┬─────────────┘         │
│                                       │                      │
│                                       ▼                      │
│                          ┌──────────────────────┐            │
│                          │  Supabase (history,  │            │
│                          │  state, balance)     │            │
│                          └──────────┬───────────┘            │
│                                     │                        │
│                                     ▼                        │
│                          [ Execute Workflow ]                │
│                                     │                        │
└─────────────────────────────────────┼────────────────────────┘
                                      │
                                      ▼
┌─────────────────────────────────────────────────────────────┐
│  WORKFLOW 2 — КОНВЕЙЕР ГЕНЕРАЦИИ (n8n)                      │
├─────────────────────────────────────────────────────────────┤
│                                                              │
│  HTTP Request ──► KY AI API (VEO 3)                          │
│      │                                                       │
│      ▼                                                       │
│  [ Wait + Loop ] ──► опрос статуса                           │
│      │                                                       │
│      ▼                                                       │
│  Download file ──► Telegram (user)                           │
│      │                                                       │
│      ▼                                                       │
│  Error handler ──► notify user (balance / policy / API)      │
│                                                              │
└─────────────────────────────────────────────────────────────┘

// ИНТЕРФЕЙСЫ И ВОРКФЛОУ

Как выглядит изнутри

Мозговой центр: маршрутизация сообщений, транскрипция голоса, AI-промпт-инжиниринг, работа с Supabase
Асинхронная работа с API генерации, опрос статуса, доставка видео пользователю

// СТЕК

Технологии

n8nGoogle VEO 3Gemini 2.5 ProOpenAI WhisperSupabase (PostgreSQL)Telegram Bot APIOpenRouterKY AI API

// РЕЗУЛЬТАТЫ

Что получил клиент

×3

Снижение себестоимости одного ролика

Async

Пакетная обработка десятков запросов

2 режима

AI-улучшайзер и /direct для профи

Voice + Text

Управление голосом и текстом

// ЧЕСТНО

Плюсы и минусы решения

AI-автоматизация — мощный инструмент, но не серебряная пуля. Рассказываю, где она реально работает, а где требует компромиссов.

Что получает бизнес

  • AI-агент делает prompt engineering за пользователя — барьер входа минимальный
  • Трёхкратное снижение стоимости vs прямое использование VEO 3
  • Асинхронная архитектура — можно ставить десятки задач и не ждать
  • Голосовое управление через Whisper — идея на ходу превращается в ролик
  • Режим /direct для опытных — полный контроль над промптом
  • Весь UX в Telegram — не нужны отдельные дашборды
  • Разделение на два workflow даёт отказоустойчивость

Где нужен компромисс

  • Зависимость от стабильности внешнего API (KY AI) — падение ломает генерацию
  • Качество ролика ограничено возможностями VEO 3 текущей версии
  • Промпт-инженер Gemini требует периодической доработки под обновления VEO
  • Политика безопасности VEO может отклонять часть запросов — нужно объяснять пользователю
  • Себестоимость транскрипции и LLM-вызовов растёт с масштабом

Нужно похожее решение?

Обсудим вашу задачу на 30-минутной диагностике. Бесплатно.

Обсудить задачу