Замена лица в VEO 3: рабочий пайплайн от фото до вертикального клипа
Прямой замены лица VEO 3 не делает. Сервис блокирует загрузку фото с человеческим лицом и отказывается генерировать по нему. Поэтому лицо готовят заранее в стороннем faceswap-сервисе, а VEO 3 берёт на себя только оживление готового кадра. Дальше пайплайн короткий: загружаете подготовленный кадр первым кадром в режиме frames to video, получаете движущийся клип около 8 секунд, переносите в него звук из отдельной генерации и приводите ролик к вертикали для соцсетей. Ниже каждый шаг с конкретными настройками и фиксами артефактов.
Почему в VEO 3 нельзя «просто» заменить лицо и как это обходят
VEO 3 не faceswap-инструмент, а генератор видео. Он умеет два режима: text to video, где ролик собирается по текстовому описанию сцены, и frames to video (он же image to video), где первым кадром выступает ваше изображение. Замена лица живёт именно во втором режиме: вы подаёте готовый кадр с нужным лицом, а нейросеть оживляет его. Само лицо она не подставляет.
Отсюда и весь обходной путь. Лицо меняется в отдельном сервисе, кадр сохраняется, и только потом попадает в VEO 3 как стартовая точка анимации. По данным BotHub, Veo 3 создаёт 8-секундные ролики с озвучкой на основе текстовых указаний, и эта нативная озвучка работает в text-to-video. В режиме кадров её придётся добывать отдельно, об этом ниже.
Что подготовить заранее: доступ, оплата, исходники
Половина провалов случается ещё до первой генерации. Соберите всё заранее, иначе застрянете на середине пайплайна.
- Фото лица крупным планом с мягким равномерным светом и нейтральным фоном. От его качества напрямую зависит, насколько похожим выйдет лицо после оживления.
- Второе фото: то лицо, которое нужно подставить.
- Рабочий Google-аккаунт для входа в VEO 3.
- Способ оплаты подписки из РФ или СНГ.
- Доступ к faceswap-сервису и к Runway для финальной конвертации формата.
С оплатой и доступом из России проще всего через агрегаторы нейросетей, например Study AI или BotHub. VPN при таком маршруте обычно не требуется: подписка и генерации идут через сам агрегатор. По данным Study AI, одна подписка от 890 руб. открывает доступ сразу к множеству нейросетей, а при регистрации начисляется 100 000 капсов на генерацию. Для сравнения, официальная подписка только на Midjourney стоит от 1000 руб.
Шаг 1. Сделать фото с заменённым лицом в стороннем сервисе
Сначала собираете исходное изображение. Сгенерировать его можно в ChatGPT, Nano Banana, Sora Images или Midjourney, а при необходимости подогнать цвет под референс. Затем открываете faceswap-сервис, загружаете два фото: оригинальный кадр и фото нужного лица, и получаете готовый кадр с подменённым лицом.
Здесь решается судьба всего ролика. Чем точнее лицо на готовом кадре, тем меньше оно «плывёт» после оживления. Опытные пользователи отмечают нюанс: образцовое фото лучше брать из сервиса, который держит реалистичную внешность, а не рисует «искусственное» лицо, и уже его прогонять через faceswap. Не экономьте на исходнике, исправить размытое лицо на этапе VEO 3 почти невозможно.
Шаг 2. Загрузить кадр в VEO 3 в режиме frames to video
В интерфейсе VEO 3 переключаете режим с text to video на frames to video и подгружаете подготовленный кадр первым кадром. За один промпт сервис выдаёт клип на 4, 6 или 8 секунд (данные Study AI), 8-секундный результат при необходимости можно потом продлить. Разрешение: честные 720p и 1080p, в свежих обновлениях добавили 4K, частота жёстко зафиксирована на 24 FPS.
Типичная ловушка на этом шаге: чёрные полосы в готовом видео. Они появляются, если у загруженного фото остались чёрные края. Lilys фиксирует простое правило: обрежьте эти края перед загрузкой и подайте обрезанную версию. Сравните сами: кадр с тонкими чёрными рамками даёт ролик с полосами по бокам, а тот же кадр после обрезки заполняет всё поле без артефактов.
Сам промпт пишите с прицелом на то, как нейросеть его читает. Она идёт по строке слева направо, и то, что стоит в начале, весит больше. Поэтому ключевую деталь сцены ставьте первой. Рабочая заготовка для оживления выглядит так: сначала главное действие персонажа, затем ракурс камеры, потом обстановка и в конце пометка, что план не сменяется.
Шаг 3. Добавить звук: трюк с отдельной text-to-video генерацией
В режиме frames to video звука нет. Вообще. Это главный технический пробел, на котором спотыкаются почти все. Lilys описывает рабочий обход: тем же самым промптом, по которому вы оживляли кадр, запустите отдельную генерацию в режиме text to video. Этот ролик придёт со звуком. Извлеките из него аудиодорожку и вставьте в беззвучный клип из второго шага.
Совет по очерёдности: звуковую text-to-video версию удобнее генерировать первой. Тогда к моменту, когда у вас на руках беззвучный frames-to-video клип, источник звука уже готов и не нужно ждать вторую очередь генерации. Чтобы дорожка легла ровно, держите реплику короткой, тогда губы и аудио совпадут по длине.
Шаг 4. Сделать видео вертикальным (9:16) для Reels и TikTok
VEO 3 поддерживает и широкий 16:9, и вертикальный 9:16, но клип из режима кадров чаще приходит горизонтальным. Под Reels, Shorts и TikTok его нужно довернуть в вертикаль. Здесь выручает Runway: по данным Lilys, горизонтальное видео конвертируют в вертикальное именно через него, без обрезки важной части кадра по краям. На выходе вы получаете готовый вертикальный ролик со звуком, который можно публиковать.
Частые сбои и как их исправить
Эти артефакты вы почти гарантированно встретите. Причина у каждого механическая, поэтому и фикс конкретный.
Лицо превращается в месиво или вырастает третий глаз при повороте головы. Так происходит, когда ИИ не хватает мощности тянуть сложный фон и сложное лицо разом. По наблюдениям Study AI, помогает добавить в промпт Shallow depth of field (малая глубина резкости размывает фон) либо снять сцену из-за плеча, ракурсом Over-the-shoulder shot.
Нейросеть проигнорировала важную деталь, скажем красную шляпу. Причина в чтении промпта слева направо: вес у первых слов выше. Перенесите эту деталь в начало строки и при необходимости повторите её ещё раз.
Губы продолжают шевелиться, когда аудио уже кончилось. Фраза вышла длиннее оптимальной зоны липсинка. Study AI советует держать реплику в пределах 2-3 секунд, а длинную разбивать на несколько генераций с разных ракурсов и потом склеивать.
Результат искажается, когда в промпт напихано слишком много действий. За 8 секунд столько событий просто не помещается. Сократите сценарий и добавьте, что кадр не сменяется, тогда движение остаётся читаемым.
Этика и метка SynthID
Любой ролик из VEO 3 помечен. В каждый пиксель сгенерированного видео вшит SynthID, невидимый цифровой водяной знак (по данным Study AI). Глазом его не видно, но он позволяет распознать, что материал создан ИИ.
И отдельно про чужое лицо. Подставлять лицо реального человека без его согласия рискованно с юридической и этической стороны. Это территория, где безобидный эксперимент быстро превращается в претензию или иск. Меняйте лицо вымышленного персонажа или своё собственное, либо получайте явное разрешение.
сделал вчера первый ролик по этой схеме, лицо держится на всех 8 секундах, реально работает
а фейсвап какой брал? и во сколько встало по итогу, имхо это главный вопрос
короче решает исходник. взял лицо из сервиса который рисует реалистично а не пластик, прогнал через faceswap и оживление почти чистое
ну такое. у меня третий глаз вырос на втором повороте, shallow depth of field вообще не помог
@Fear значит фон тяжёлый был. попробуй over-the-shoulder, у меня так месиво ушло
890 за агрегатор ладно, но 100к капсов это на сколько генераций? кто реально считал
типа frames to video и image to video это одно и то же или нет, запутался
да одно и то же, два названия одного режима
плюсую про исходник
напомню в каждый пиксель вшит synthid, так что про анонимность сразу забудьте
блин чёрные полосы лезли пока не догадался обрезать края. прочитал бы раньше, два часа в трубу
а у меня сразу без полос пошло, фото ровное было вот
kling кстати лицо тянет лучше veo по моему опыту, без этих плясок с отдельным звуком
+