← Все кейсы

// КЕЙС — B2C · AI-приложение · Персонализированный контент

Архитектура «Reversed Flow» для персонализированного AI-контента

Инвертированный конвейер генерации «Картинка → Текст» на n8n + Gemini 2.5 Pro + Nano-Banana + ChatGPT 4.1. Разработан для международного AI-стартапа.

Клиент

Международный AI-стартап (под NDA)

Индустрия

B2C · AI-приложение · Персонализированный контент

Срок

Роль

AI-архитектор · Prompt Engineer · Разработка pipeline

// ВИДЕО

Разбор на видео

// ПРОБЛЕМА

С чем пришёл клиент

Стартап разрабатывает B2C-приложение, где лица пользователей интегрируются в кинематографичные сцены. Проблема: стандартный подход «Текст → Картинка» не давал нужного качества. Он не позволял точно контролировать композицию, освещение и позы персонажей — а это критично для чистой интеграции лиц. Результаты были нестабильны, требовали ручной доработки, не соответствовали премиальному уровню продукта. Команда теряла ресурсы на ревизиях и не могла масштабировать производство контента.

// ЗАДАЧА

Что нужно было сделать

Построить масштабируемый и надёжный pipeline для генерации высокоперсонализированного визуального контента с интеграцией лиц пользователей в режиссёрски выверенные сцены. Требования: стабильное качество, полный креативный контроль над композицией и светом, минимизация ручной доработки, возможность легко добавлять новые визуальные форматы без переписывания логики.

// РЕШЕНИЕ

Как это работает

  1. Инверсия логики: Картинка → Текст вместо Текст → Картинка

    Ключевая идея архитектуры. Вместо того чтобы генерировать картинку под готовый текст, мы сначала создаём идеально срежиссированную визуальную сцену — а уже к ней пишем персонализированный текст. Это даёт полный контроль над визуалом и гарантирует стабильное качество. Подход стал ключевым конкурентным преимуществом продукта.

  2. Шаг 1: Запрос и маршрутизация через n8n

    Pipeline стартует webhook-запросом с ID пользователей и параметром flow_logic: 'reversed'. Система обращается в PostgreSQL и вытаскивает нужный «стиль формата» (например, Cosmic Diner) — он содержит два промпта: для картинки и для текста. Узел Switch маршрутизирует запрос по специально выделенной ветке Reversed.

  3. Шаг 2: Создание визуальной сцены (верхняя ветка)

    Ядро процесса — работаем как киностудия. Параллельными HTTP-запросами получаем фотографии пользователей, конвертируем в Base64 (универсальный формат для API интеграции лиц). Формируем финальный JSON-запрос: детальный промпт сцены с указаниями по композиции, освещению и действиям персонажей + Base64-лица. Запрос уходит в Nano-Banana — итогом становится кинематографичное изображение с идеально интегрированными лицами.

  4. Шаг 3: Создание нарратива (нижняя ветка, параллельно)

    Пока генерится картинка, пишем для неё «сценарий». Узел AI Agent получает текстовый промпт из базы и характерные черты обоих пользователей. На основе этих данных генерируется уникальный персонализированный текст — диалог, миссия, монолог — который точно соответствует визуальной сцене.

  5. Шаг 4: Финальный монтаж и отправка

    Узел Analyze объединяет результаты двух веток: сгенерированное изображение сверху + персонализированный текст снизу. Финальный JSON с image_url и text возвращается в приложение, где пользователь видит бесшовный единый пост.

  6. Архитектура под масштабирование

    Добавление нового визуального формата не требует переписывания pipeline. Достаточно создать новый «стиль» в базе с парой промптов (для картинки и для текста) — всё остальное pipeline подхватит автоматически. Это даёт продуктовой команде полную автономию: креативщики могут запускать новые форматы без разработчика.

// ИНТЕРФЕЙСЫ И ВОРКФЛОУ

Как выглядит изнутри

Pipeline в n8n: маршрутизация, параллельная обработка картинки и текста, финальный монтаж

// СТЕК

Технологии

n8nNano-Banana (face swap)Gemini 2.5 ProChatGPT 4.1PostgreSQLREST APIBase64

// РЕЗУЛЬТАТЫ

Что получил клиент

95%+

Успешных генераций без ручной доработки

4 API

Интегрированы в один pipeline

2 ветки

Параллельная генерация картинки и текста

Plug-and-play

Новые форматы без изменения кода

// ЧЕСТНО

Плюсы и минусы решения

AI-автоматизация — мощный инструмент, но не серебряная пуля. Рассказываю, где она реально работает, а где требует компромиссов.

Что получает бизнес

  • Полный режиссёрский контроль над визуалом: свет, композиция, позы
  • Стабильное качество — практически нет ручной доработки после генерации
  • Масштабируемость: новый формат = новая строка в базе, без кода
  • Параллельная обработка картинки и текста ускоряет pipeline
  • Архитектурный паттерн переносится на другие задачи генерации
  • Face swap через Nano-Banana даёт чистую интеграцию лиц без артефактов

Где нужен компромисс

  • Требует предварительной настройки «стилей» — нужен опытный prompt engineer в команде
  • Цепочка из 4 API — точки отказа нужно мониторить и обрабатывать
  • Стоимость генерации выше, чем у простого Текст→Картинка (два AI-вызова параллельно)
  • Качество зависит от точности фотографий пользователей на входе

Нужно похожее решение?

Обсудим вашу задачу на 30-минутной диагностике. Бесплатно.

Обсудить задачу