- 博客
- AI 视频参考图检查清单:怎样得到可复用的生成结果
AI 视频参考图检查清单:怎样得到可复用的生成结果
Omniveo TeamMay 14, 2026
参考图可以显著提升 AI 视频的可控性,但前提是它们要像生产素材一样被准备。混乱的参考图会让模型猜测;清晰的参考图会告诉模型什么要保持、什么要动、什么可以忽略。
这份清单适合产品营销、创作者和正在搭建可复用图生视频工作流的团队。
五类参考图
上传前,先给每张参考图标一个角色:
- 身份:必须保持可识别的人物、角色、IP 或产品。
- 几何:形状、轮廓、包装、布局或空间结构。
- 材质:布料、玻璃、金属、皮肤、食物表面或光照质感。
- 环境:地点、背景、天气、时间。
- 运动:一个姿势、一帧画面或一段旧视频,用来暗示动作。
如果一张图没有明确职责,就删掉。参考图更多,不代表控制更强。
干净输入比聪明 prompt 更重要
参考图应该满足这些条件:
- 分辨率足够展示你关心的细节。
- 不要重滤镜,除非滤镜本身就是目标风格。
- 没有水印、界面截图和随机文字。
- 裁切围绕关键主体。
- 当身份或产品准确性重要时,光线尽量一致。
如果产品标签在上传图里很小,不要期待模型完整保持。应该上传干净产品图,并明确告诉模型哪些细节必须保留。
显式说明每张参考图的用途
差的写法:
参考这些图,做一个很酷的时尚视频。
更好的写法:
参考图 1 用于模特脸型和服装。参考图 2 用于棚拍光线和灰色背景。参考图 3 只用于手袋形状和皮革质感。生成 8 秒慢速推近镜头,布料有轻微运动。不要改变脸、衣服颜色和手袋比例。
成功输入必须保存
好的参考图工作流不只取决于上传质量,还取决于持久化。一次生成成功后,要保存完整配置:
| 字段 | 为什么重要 |
|---|---|
| Prompt | 保存创意指令。 |
| 模型和模式 | 文生视频与图生视频行为不同。 |
| 比例 | 竖屏和横屏构图不同。 |
| 时长 | 运动节奏会随长度变化。 |
| 分辨率 | 影响成片质量和 credits 成本。 |
| 声音设置 | 决定是否需要写声音指令。 |
| 参考素材 URL | 允许团队之后继续生成或迭代。 |
| 输出 URL | 避免临时链接过期后资产丢失。 |
这些数据都保存下来,历史记录才是生产工具,而不是展示橱窗。团队成员可以点击旧任务,恢复原来的 prompt 和参考图,只改一个变量,再生成一个可控变体。
可重复的操作流程
建议按这个节奏做:
- 只上传职责明确的参考图。
- 在 prompt 里给每张参考图分配任务。
- 先用最低可接受成本生成第一条。
- 先修构图,再修细节。
- 分辨率拉高前保存可用配置。
- 用同一组参考图做变体,不要频繁换不同裁切。
常见失败原因
| 问题 | 可能原因 | 修法 |
|---|---|---|
| 脸在镜头间变化 | 身份参考不清晰,或和风格参考混在一起 | 用一张干净头像,并写“保持身份”。 |
| 产品形状变化 | prompt 要求的动作让产品变形 | 加“保持比例不变”,并降低动作幅度。 |
| 场景很通用 | 环境参考弱 | 增加地点参考,并写清时间。 |
| 声音随机 | 没有描述声音 | 分开写环境声、拟音、音乐和对白。 |
| 旧结果无法复现 | 输入没有保存 | 保存 prompt、参数、参考素材和输出 URL。 |
资料来源
- Google Cloud: Veo video generation API parameters
- Google: Veo 3.1 Ingredients to Video update
- ByteDance Seed: Seedance 2.0 Official Launch