Skip to content
КОНЦЕПТЫ
4 мин. чтенияЧитать на английском

I2V Storyboard Multi-Cut: многокадровая последовательность из одного I2V-входа

Happy Horse 1.0 — и большинство других image-to-video-моделей — принимают ровно одну входную картинку, используемую как первый кадр клипа. Нужна 4-шотная видеоклип-последовательность: close-up, wide, перебивка-деталь, top-down. Есть два варианта. Сгенерировать четыре отдельных клипа и сшить — стиль урасходится между катами, identity не залочится. Либо принять один непрерывный шот — и потерять ритм, который просил бриф. Ни то ни другое не попадает в задание.

Трюк — упаковать четыре шота в одну разрешённую входную картинку как 2×2-панель сториборда, а потом в промпте попросить модель коротко её показать и снэп-катить в каждую панель по очереди.

Это I2V storyboard multi-cut: промпт-инженерный трюк для image-to-video-моделей, принимающих только одну входную картинку. Подаёте многопанельный сториборд как этот вход, инструктируете модель показать его ~1 секунду как opening reference grid, затем снэп-катить в каждую панель по очереди. На выходе — мульти-кат-монтаж из одного I2V-вызова.

Почему наивные попытки падают

Два наивных подхода теряют что-то важное:

  • 4-шотная последовательность из одной картинки → получается только один непрерывный шот.
  • Стилевая залоченность между катами → нельзя передать четыре референса по отдельности.
  • Перебивки close-up / wide / top-down → невозможно без четырёх отдельных генераций и сшивки, которая теряет стилевую и identity-консистентность.

Сам трюк

  1. Соберите одну входную картинку как 2×2 (или N×M) панель сториборда — каждая панель это один из нужных шотов, нарисованный в финальном визуальном стиле.
  2. В промпте скажите модели, что сториборд занимает кадр примерно 1 с как opening reference.
  3. Затем явные snap cuts в каждую панель по порядку, причём содержимое каждого ката переописано в кинематографических терминах (субъект, крупность, действие) — не «panel 1», а реальный шот.
  4. Зафиксируйте стилевые формулировки на всех катах, чтобы четыре шота читались как один кусок.

Почему это работает:

  • Модель уважает первый кадр как данное — сториборд появляется в t=0, это бесплатно.
  • Без явного «сойти с первого кадра в 1с» модель залипает на входе на весь клип. Команда даёт разрешение двигаться дальше.
  • Переописание каждого шота кинематографически заставляет модель ре-рендерить в движении, а не статически панорамировать по сетке.
  • Общие стилевые дескрипторы на катах заставляют модель воспринимать четыре шота как одну стилевую вселенную, даже если каждый — отдельный beat.

Шаблон (вставочный)

8s duration. First 1s: <hand-drawn / cel-shaded / photoreal> N-panel storyboard
fills the frame as an opening reference grid, <style descriptors>. At 1s, snap
cut to Scene 1 (Xs): <scene 1 rewritten as a real shot — subject, action,
framing>. Snap cut to Scene 2 (Xs): <scene 2 ...>. Snap cut to Scene 3 (Xs):
<...>. Snap cut to Scene 4 (Xs): <...>. Locked-off framing on every cut, no
in-shot camera movement — only the cuts move. <Lighting>. <Visual-style line
shared across all cuts>. <Mood>. <Audio>. <Aspect>, <pacing>.

Ограничения

  • Всего ≤ 8 с. При 1 с holdна сториборде и N катах на каждый кат остаётся (8 − 1)/N секунд. Для 4 катов — около 1.75 с: коротко, но рабочая длина под клиповый темп.
  • Locked-off framing на каждом кате — чистый способ остаться внутри правила Happy Horse «один camera move на клип». Сами каты — единственное движение. Добавление dollies/orbits внутри ката ломает правило и вызывает дрейф.
  • Стилевой язык должен быть общим на всех катах. Если стилевые дескрипторы появляются только в конце промпта, ранние каты могут рендериться в другом look. Повторяйте стилевой anchor внутри описания каждого ката или закрепите финальной cross-cutting-стилевой строкой.
  • Порядок должен совпадать с порядком чтения панелей во входе (TL → TR → BL → BR для 2×2). Кат не по порядку путает модель и даёт гибриды.

Режимы отказа (сэмплируйте N ≥ 3, выбирайте лучшее)

  1. Сториборд залипает. Модель анимирует panel 1 все 8 с, игнорируя команду катать. Решение: усилить «At 1s, snap cut» и держать hold сториборда на 1 с.
  2. Статичная панорама по сетке. Модель трактует layout как реальную сцену и панорамирует по ней. Решение: переписать каждую сцену кинематографически, чтобы модель ре-рендерила, а не панорамировала.
  3. Дрейф стиля между катами. Один кат уходит в photoreal, остальные остаются в иллюстрации. Решение: повторите стилевой anchor внутри каждого ката + финальная cross-cutting-стилевая строка.
  4. Каты размазываются в морф. Модель интерполирует вместо ката. Решение: используйте буквальную фразу «snap cut» — мягкие формулировки («transition to», «then we see») HH читает как морфы.

Разобранный пример — ink-bloom

Вход: одна 2×2 photoreal-macro-сториборд-картинка изучения чернил в воде —

  • TL: extreme macro единственной тёмной капли чернил в момент касания неподвижной поверхности воды
  • TR: side-профиль тёмного плюма чернил, расцветающего вниз через прозрачную воду
  • BL: top-down чернил, расходящихся медленными концентрическими волнами
  • BR: wide-static стеклянного бака на фоне мягкого backlit-градиента

Промпт:

8s duration. First 1s: 4-panel photoreal macro storyboard fills the frame as
an opening reference grid, high-key minimalist style, soft diffused light.
At 1s, snap cut to Scene 1 (1.75s): extreme macro of a single dark ink drop
the moment it kisses a still water surface, surface tension dimpling, shallow
DOF. Snap cut to Scene 2 (1.75s): side profile of a dark ink plume blooming
downward through clear water, slow billowing tendrils. Snap cut to Scene 3
(1.75s): overhead top-down of ink spreading in slow concentric ripples on a
white backdrop. Snap cut to Scene 4 (1.75s): wide static of a glass tank
filled with the swirling ink against a soft backlit gradient. Locked-off
framing on every cut, no in-shot camera movement — only the cuts move.
Soft diffused side light, high-key minimalist palette of off-white, ink black
and pale blue, photoreal macro look with shallow DOF, consistent across all
cuts. Meditative, hypnotic, contemplative. Subtle water ambience, faint
low-volume synth pad underneath, no dialogue. 16:9, contemplative pacing.

Паттерн style-agnostic — поменяйте сториборд и перепишите четыре scene descriptions; всё остальное остаётся.

Когда не использовать этот трюк

  • Шотам нужны принципиально разный свет / время суток. Модель держит одно световое состояние на клип; мульти-time-of-day каты упадут.
  • Шотам нужны разные персонажи, которые должны выглядеть одинаково. Identity-дрейф между катами высокий; если важна точная character-lock — генерируйте на шот и сшивайте снаружи.
  • Нужно больше 4 катов. 4 × 1.75 с уже tight; 5+ катов схлопываются в < 1.4 с каждый, и модель деградирует до вспышек.
  • Выход для контекста, где каты запрещены (например, continuous-shot бренд-фильмы).

Идёт в паре с

  • happy-horse-prompt-rules — базовый ruleset; этот трюк ложится поверх.
  • happy-horse-prompt-engineer — системный промпт, операционализирующий ruleset; этот паттерн совместим с 8-слотовой выдачей.
  • seedance-2-cinematic-video-prompt-engineer — у Seedance 2 массив s[] делает трюк ненужным (multi-scene нативный), но идея storyboard-as-style-lock применима и там.
  • chaos-frame-feed-architecture — соседняя техника: панельная сетка как намеренная композиция, а не только input-hack.
  • typed-reference-composition — родственная дисциплина: multi-input-промпты с явной декларацией роли на референс.