Замена лица в VEO 3: рабочий пайплайн от фото до вертикального клипа

Прямой замены лица VEO 3 не делает. Сервис блокирует загрузку фото с человеческим лицом и отказывается генерировать по нему. Поэтому лицо готовят заранее в стороннем faceswap-сервисе, а VEO 3 берёт на себя только оживление готового кадра. Дальше пайплайн короткий: загружаете подготовленный кадр первым кадром в режиме frames to video, получаете движущийся клип около 8 секунд, переносите в него звук из отдельной генерации и приводите ролик к вертикали для соцсетей. Ниже каждый шаг с конкретными настройками и фиксами артефактов.

Почему в VEO 3 нельзя «просто» заменить лицо и как это обходят

VEO 3 не faceswap-инструмент, а генератор видео. Он умеет два режима: text to video, где ролик собирается по текстовому описанию сцены, и frames to video (он же image to video), где первым кадром выступает ваше изображение. Замена лица живёт именно во втором режиме: вы подаёте готовый кадр с нужным лицом, а нейросеть оживляет его. Само лицо она не подставляет.

Отсюда и весь обходной путь. Лицо меняется в отдельном сервисе, кадр сохраняется, и только потом попадает в VEO 3 как стартовая точка анимации. По данным BotHub, Veo 3 создаёт 8-секундные ролики с озвучкой на основе текстовых указаний, и эта нативная озвучка работает в text-to-video. В режиме кадров её придётся добывать отдельно, об этом ниже.

Что подготовить заранее: доступ, оплата, исходники

Половина провалов случается ещё до первой генерации. Соберите всё заранее, иначе застрянете на середине пайплайна.

  • Фото лица крупным планом с мягким равномерным светом и нейтральным фоном. От его качества напрямую зависит, насколько похожим выйдет лицо после оживления.
  • Второе фото: то лицо, которое нужно подставить.
  • Рабочий Google-аккаунт для входа в VEO 3.
  • Способ оплаты подписки из РФ или СНГ.
  • Доступ к faceswap-сервису и к Runway для финальной конвертации формата.

С оплатой и доступом из России проще всего через агрегаторы нейросетей, например Study AI или BotHub. VPN при таком маршруте обычно не требуется: подписка и генерации идут через сам агрегатор. По данным Study AI, одна подписка от 890 руб. открывает доступ сразу к множеству нейросетей, а при регистрации начисляется 100 000 капсов на генерацию. Для сравнения, официальная подписка только на Midjourney стоит от 1000 руб.

Шаг 1. Сделать фото с заменённым лицом в стороннем сервисе

Сначала собираете исходное изображение. Сгенерировать его можно в ChatGPT, Nano Banana, Sora Images или Midjourney, а при необходимости подогнать цвет под референс. Затем открываете faceswap-сервис, загружаете два фото: оригинальный кадр и фото нужного лица, и получаете готовый кадр с подменённым лицом.

Здесь решается судьба всего ролика. Чем точнее лицо на готовом кадре, тем меньше оно «плывёт» после оживления. Опытные пользователи отмечают нюанс: образцовое фото лучше брать из сервиса, который держит реалистичную внешность, а не рисует «искусственное» лицо, и уже его прогонять через faceswap. Не экономьте на исходнике, исправить размытое лицо на этапе VEO 3 почти невозможно.

A content creator's screen showing a faceswap web interface with two uploaded photos side by side, the left a neutral original portrait and the right a target face, merging into a single result frame in the center. The setting is a tidy desk with a laptop and a coffee mug. Crisp UI panels, upload buttons, and a progress bar are visible. Cool even monitor glow lights the face from the front, soft and diffused, with a calm focused mood.

Шаг 2. Загрузить кадр в VEO 3 в режиме frames to video

В интерфейсе VEO 3 переключаете режим с text to video на frames to video и подгружаете подготовленный кадр первым кадром. За один промпт сервис выдаёт клип на 4, 6 или 8 секунд (данные Study AI), 8-секундный результат при необходимости можно потом продлить. Разрешение: честные 720p и 1080p, в свежих обновлениях добавили 4K, частота жёстко зафиксирована на 24 FPS.

Типичная ловушка на этом шаге: чёрные полосы в готовом видео. Они появляются, если у загруженного фото остались чёрные края. Lilys фиксирует простое правило: обрежьте эти края перед загрузкой и подайте обрезанную версию. Сравните сами: кадр с тонкими чёрными рамками даёт ролик с полосами по бокам, а тот же кадр после обрезки заполняет всё поле без артефактов.

Сам промпт пишите с прицелом на то, как нейросеть его читает. Она идёт по строке слева направо, и то, что стоит в начале, весит больше. Поэтому ключевую деталь сцены ставьте первой. Рабочая заготовка для оживления выглядит так: сначала главное действие персонажа, затем ракурс камеры, потом обстановка и в конце пометка, что план не сменяется.

A before-and-after comparison of one video frame split down the middle, the left half framed by thin black bars along the edges and the right half cropped clean so the portrait fills the entire frame. Thin white divider line and small corner labels read "BEFORE" and "AFTER" in uppercase. Flat editorial studio lighting, even and shadowless, neutral white temperature falling evenly across both halves, with a clear instructional mood.

Шаг 3. Добавить звук: трюк с отдельной text-to-video генерацией

В режиме frames to video звука нет. Вообще. Это главный технический пробел, на котором спотыкаются почти все. Lilys описывает рабочий обход: тем же самым промптом, по которому вы оживляли кадр, запустите отдельную генерацию в режиме text to video. Этот ролик придёт со звуком. Извлеките из него аудиодорожку и вставьте в беззвучный клип из второго шага.

Совет по очерёдности: звуковую text-to-video версию удобнее генерировать первой. Тогда к моменту, когда у вас на руках беззвучный frames-to-video клип, источник звука уже готов и не нужно ждать вторую очередь генерации. Чтобы дорожка легла ровно, держите реплику короткой, тогда губы и аудио совпадут по длине.

Шаг 4. Сделать видео вертикальным (9:16) для Reels и TikTok

VEO 3 поддерживает и широкий 16:9, и вертикальный 9:16, но клип из режима кадров чаще приходит горизонтальным. Под Reels, Shorts и TikTok его нужно довернуть в вертикаль. Здесь выручает Runway: по данным Lilys, горизонтальное видео конвертируют в вертикальное именно через него, без обрезки важной части кадра по краям. На выходе вы получаете готовый вертикальный ролик со звуком, который можно публиковать.

Частые сбои и как их исправить

Эти артефакты вы почти гарантированно встретите. Причина у каждого механическая, поэтому и фикс конкретный.

Лицо превращается в месиво или вырастает третий глаз при повороте головы. Так происходит, когда ИИ не хватает мощности тянуть сложный фон и сложное лицо разом. По наблюдениям Study AI, помогает добавить в промпт Shallow depth of field (малая глубина резкости размывает фон) либо снять сцену из-за плеча, ракурсом Over-the-shoulder shot.

Нейросеть проигнорировала важную деталь, скажем красную шляпу. Причина в чтении промпта слева направо: вес у первых слов выше. Перенесите эту деталь в начало строки и при необходимости повторите её ещё раз.

Губы продолжают шевелиться, когда аудио уже кончилось. Фраза вышла длиннее оптимальной зоны липсинка. Study AI советует держать реплику в пределах 2-3 секунд, а длинную разбивать на несколько генераций с разных ракурсов и потом склеивать.

Результат искажается, когда в промпт напихано слишком много действий. За 8 секунд столько событий просто не помещается. Сократите сценарий и добавьте, что кадр не сменяется, тогда движение остаётся читаемым.

A split comparison of a person turning their head in a generated video, the left side showing a distorted face with a warped extra eye and smeared features against a busy background, the right side showing the same turn rendered cleanly with the background softly blurred by shallow depth of field. The subject is a young content creator. Warm key light from the upper left grazes the cheek, soft and directional, with a tense-then-resolved mood.

Этика и метка SynthID

Любой ролик из VEO 3 помечен. В каждый пиксель сгенерированного видео вшит SynthID, невидимый цифровой водяной знак (по данным Study AI). Глазом его не видно, но он позволяет распознать, что материал создан ИИ.

И отдельно про чужое лицо. Подставлять лицо реального человека без его согласия рискованно с юридической и этической стороны. Это территория, где безобидный эксперимент быстро превращается в претензию или иск. Меняйте лицо вымышленного персонажа или своё собственное, либо получайте явное разрешение.