AI 视频参考图检查清单：怎样得到可复用的生成结果

GemiOmni TeamMay 18, 2026

参考图可以显著提升 AI 视频的可控性，但前提是它们要像生产素材一样被准备。混乱的参考图会让模型猜测；清晰的参考图会告诉模型什么要保持、什么要动、什么可以忽略。

这份清单适合产品营销、创作者和正在搭建可复用图生视频工作流的团队。

五类参考图

上传前，先给每张参考图标一个角色：

身份：必须保持可识别的人物、角色、IP 或产品。
几何：形状、轮廓、包装、布局或空间结构。
材质：布料、玻璃、金属、皮肤、食物表面或光照质感。
环境：地点、背景、天气、时间。
运动：一个姿势、一帧画面或一段旧视频，用来暗示动作。

如果一张图没有明确职责，就删掉。参考图更多，不代表控制更强。

干净输入比聪明 prompt 更重要

参考图应该满足这些条件：

分辨率足够展示你关心的细节。
不要重滤镜，除非滤镜本身就是目标风格。
没有水印、界面截图和随机文字。
裁切围绕关键主体。
当身份或产品准确性重要时，光线尽量一致。

如果产品标签在上传图里很小，不要期待模型完整保持。应该上传干净产品图，并明确告诉模型哪些细节必须保留。

显式说明每张参考图的用途

差的写法：

参考这些图，做一个很酷的时尚视频。

更好的写法：

参考图 1 用于模特脸型和服装。参考图 2 用于棚拍光线和灰色背景。参考图 3 只用于手袋形状和皮革质感。生成 8 秒慢速推近镜头，布料有轻微运动。不要改变脸、衣服颜色和手袋比例。

成功输入必须保存

好的参考图工作流不只取决于上传质量，还取决于持久化。一次生成成功后，要保存完整配置：

字段	为什么重要
Prompt	保存创意指令。
模型和模式	文生视频与图生视频行为不同。
比例	竖屏和横屏构图不同。
时长	运动节奏会随长度变化。
分辨率	影响成片质量和 credits 成本。
声音设置	决定是否需要写声音指令。
参考素材 URL	允许团队之后继续生成或迭代。
输出 URL	避免临时链接过期后资产丢失。

这些数据都保存下来，历史记录才是生产工具，而不是展示橱窗。团队成员可以点击旧任务，恢复原来的 prompt 和参考图，只改一个变量，再生成一个可控变体。

可重复的操作流程

建议按这个节奏做：

只上传职责明确的参考图。
在 prompt 里给每张参考图分配任务。
先用最低可接受成本生成第一条。
先修构图，再修细节。
分辨率拉高前保存可用配置。
用同一组参考图做变体，不要频繁换不同裁切。

常见失败原因

问题	可能原因	修法
脸在镜头间变化	身份参考不清晰，或和风格参考混在一起	用一张干净头像，并写“保持身份”。
产品形状变化	prompt 要求的动作让产品变形	加“保持比例不变”，并降低动作幅度。
场景很通用	环境参考弱	增加地点参考，并写清时间。
声音随机	没有描述声音	分开写环境声、拟音、音乐和对白。
旧结果无法复现	输入没有保存	保存 prompt、参数、参考素材和输出 URL。

资料来源

Google Cloud: Veo video generation API parameters
Google: Veo 3.1 Ingredients to Video update
ByteDance Seed: Seedance 2.0 Official Launch