I2V Storyboard Multi-Cut: многокадровая последовательность из одного I2V-входа
Happy Horse 1.0 — и большинство других image-to-video-моделей — принимают ровно одну входную картинку, используемую как первый кадр клипа. Нужна 4-шотная видеоклип-последовательность: close-up, wide, перебивка-деталь, top-down. Есть два варианта. Сгенерировать четыре отдельных клипа и сшить — стиль урасходится между катами, identity не залочится. Либо принять один непрерывный шот — и потерять ритм, который просил бриф. Ни то ни другое не попадает в задание.
Трюк — упаковать четыре шота в одну разрешённую входную картинку как 2×2-панель сториборда, а потом в промпте попросить модель коротко её показать и снэп-катить в каждую панель по очереди.
Это I2V storyboard multi-cut: промпт-инженерный трюк для image-to-video-моделей, принимающих только одну входную картинку. Подаёте многопанельный сториборд как этот вход, инструктируете модель показать его ~1 секунду как opening reference grid, затем снэп-катить в каждую панель по очереди. На выходе — мульти-кат-монтаж из одного I2V-вызова.
Почему наивные попытки падают
Два наивных подхода теряют что-то важное:
- 4-шотная последовательность из одной картинки → получается только один непрерывный шот.
- Стилевая залоченность между катами → нельзя передать четыре референса по отдельности.
- Перебивки close-up / wide / top-down → невозможно без четырёх отдельных генераций и сшивки, которая теряет стилевую и identity-консистентность.
Сам трюк
- Соберите одну входную картинку как 2×2 (или N×M) панель сториборда — каждая панель это один из нужных шотов, нарисованный в финальном визуальном стиле.
- В промпте скажите модели, что сториборд занимает кадр примерно 1 с как opening reference.
- Затем явные snap cuts в каждую панель по порядку, причём содержимое каждого ката переописано в кинематографических терминах (субъект, крупность, действие) — не «panel 1», а реальный шот.
- Зафиксируйте стилевые формулировки на всех катах, чтобы четыре шота читались как один кусок.
Почему это работает:
- Модель уважает первый кадр как данное — сториборд появляется в t=0, это бесплатно.
- Без явного «сойти с первого кадра в 1с» модель залипает на входе на весь клип. Команда даёт разрешение двигаться дальше.
- Переописание каждого шота кинематографически заставляет модель ре-рендерить в движении, а не статически панорамировать по сетке.
- Общие стилевые дескрипторы на катах заставляют модель воспринимать четыре шота как одну стилевую вселенную, даже если каждый — отдельный beat.
Шаблон (вставочный)
8s duration. First 1s: <hand-drawn / cel-shaded / photoreal> N-panel storyboard
fills the frame as an opening reference grid, <style descriptors>. At 1s, snap
cut to Scene 1 (Xs): <scene 1 rewritten as a real shot — subject, action,
framing>. Snap cut to Scene 2 (Xs): <scene 2 ...>. Snap cut to Scene 3 (Xs):
<...>. Snap cut to Scene 4 (Xs): <...>. Locked-off framing on every cut, no
in-shot camera movement — only the cuts move. <Lighting>. <Visual-style line
shared across all cuts>. <Mood>. <Audio>. <Aspect>, <pacing>.
Ограничения
- Всего ≤ 8 с. При 1 с holdна сториборде и N катах на каждый кат остаётся
(8 − 1)/Nсекунд. Для 4 катов — около 1.75 с: коротко, но рабочая длина под клиповый темп. - Locked-off framing на каждом кате — чистый способ остаться внутри правила Happy Horse «один camera move на клип». Сами каты — единственное движение. Добавление dollies/orbits внутри ката ломает правило и вызывает дрейф.
- Стилевой язык должен быть общим на всех катах. Если стилевые дескрипторы появляются только в конце промпта, ранние каты могут рендериться в другом look. Повторяйте стилевой anchor внутри описания каждого ката или закрепите финальной cross-cutting-стилевой строкой.
- Порядок должен совпадать с порядком чтения панелей во входе (TL → TR → BL → BR для 2×2). Кат не по порядку путает модель и даёт гибриды.
Режимы отказа (сэмплируйте N ≥ 3, выбирайте лучшее)
- Сториборд залипает. Модель анимирует panel 1 все 8 с, игнорируя команду катать. Решение: усилить «At 1s, snap cut» и держать hold сториборда на 1 с.
- Статичная панорама по сетке. Модель трактует layout как реальную сцену и панорамирует по ней. Решение: переписать каждую сцену кинематографически, чтобы модель ре-рендерила, а не панорамировала.
- Дрейф стиля между катами. Один кат уходит в photoreal, остальные остаются в иллюстрации. Решение: повторите стилевой anchor внутри каждого ката + финальная cross-cutting-стилевая строка.
- Каты размазываются в морф. Модель интерполирует вместо ката. Решение: используйте буквальную фразу «snap cut» — мягкие формулировки («transition to», «then we see») HH читает как морфы.
Разобранный пример — ink-bloom
Вход: одна 2×2 photoreal-macro-сториборд-картинка изучения чернил в воде —
- TL: extreme macro единственной тёмной капли чернил в момент касания неподвижной поверхности воды
- TR: side-профиль тёмного плюма чернил, расцветающего вниз через прозрачную воду
- BL: top-down чернил, расходящихся медленными концентрическими волнами
- BR: wide-static стеклянного бака на фоне мягкого backlit-градиента
Промпт:
8s duration. First 1s: 4-panel photoreal macro storyboard fills the frame as
an opening reference grid, high-key minimalist style, soft diffused light.
At 1s, snap cut to Scene 1 (1.75s): extreme macro of a single dark ink drop
the moment it kisses a still water surface, surface tension dimpling, shallow
DOF. Snap cut to Scene 2 (1.75s): side profile of a dark ink plume blooming
downward through clear water, slow billowing tendrils. Snap cut to Scene 3
(1.75s): overhead top-down of ink spreading in slow concentric ripples on a
white backdrop. Snap cut to Scene 4 (1.75s): wide static of a glass tank
filled with the swirling ink against a soft backlit gradient. Locked-off
framing on every cut, no in-shot camera movement — only the cuts move.
Soft diffused side light, high-key minimalist palette of off-white, ink black
and pale blue, photoreal macro look with shallow DOF, consistent across all
cuts. Meditative, hypnotic, contemplative. Subtle water ambience, faint
low-volume synth pad underneath, no dialogue. 16:9, contemplative pacing.
Паттерн style-agnostic — поменяйте сториборд и перепишите четыре scene descriptions; всё остальное остаётся.
Когда не использовать этот трюк
- Шотам нужны принципиально разный свет / время суток. Модель держит одно световое состояние на клип; мульти-time-of-day каты упадут.
- Шотам нужны разные персонажи, которые должны выглядеть одинаково. Identity-дрейф между катами высокий; если важна точная character-lock — генерируйте на шот и сшивайте снаружи.
- Нужно больше 4 катов. 4 × 1.75 с уже tight; 5+ катов схлопываются в < 1.4 с каждый, и модель деградирует до вспышек.
- Выход для контекста, где каты запрещены (например, continuous-shot бренд-фильмы).
Идёт в паре с
- happy-horse-prompt-rules — базовый ruleset; этот трюк ложится поверх.
- happy-horse-prompt-engineer — системный промпт, операционализирующий ruleset; этот паттерн совместим с 8-слотовой выдачей.
- seedance-2-cinematic-video-prompt-engineer — у Seedance 2 массив
s[]делает трюк ненужным (multi-scene нативный), но идея storyboard-as-style-lock применима и там. - chaos-frame-feed-architecture — соседняя техника: панельная сетка как намеренная композиция, а не только input-hack.
- typed-reference-composition — родственная дисциплина: multi-input-промпты с явной декларацией роли на референс.