AI 视频参考图检查清单:怎样得到可复用的生成结果

Omniveo TeamMay 14, 2026

参考图可以显著提升 AI 视频的可控性,但前提是它们要像生产素材一样被准备。混乱的参考图会让模型猜测;清晰的参考图会告诉模型什么要保持、什么要动、什么可以忽略。

这份清单适合产品营销、创作者和正在搭建可复用图生视频工作流的团队。

五类参考图

上传前,先给每张参考图标一个角色:

  1. 身份:必须保持可识别的人物、角色、IP 或产品。
  2. 几何:形状、轮廓、包装、布局或空间结构。
  3. 材质:布料、玻璃、金属、皮肤、食物表面或光照质感。
  4. 环境:地点、背景、天气、时间。
  5. 运动:一个姿势、一帧画面或一段旧视频,用来暗示动作。

如果一张图没有明确职责,就删掉。参考图更多,不代表控制更强。

干净输入比聪明 prompt 更重要

参考图应该满足这些条件:

  • 分辨率足够展示你关心的细节。
  • 不要重滤镜,除非滤镜本身就是目标风格。
  • 没有水印、界面截图和随机文字。
  • 裁切围绕关键主体。
  • 当身份或产品准确性重要时,光线尽量一致。

如果产品标签在上传图里很小,不要期待模型完整保持。应该上传干净产品图,并明确告诉模型哪些细节必须保留。

显式说明每张参考图的用途

差的写法:

参考这些图,做一个很酷的时尚视频。

更好的写法:

参考图 1 用于模特脸型和服装。参考图 2 用于棚拍光线和灰色背景。参考图 3 只用于手袋形状和皮革质感。生成 8 秒慢速推近镜头,布料有轻微运动。不要改变脸、衣服颜色和手袋比例。

成功输入必须保存

好的参考图工作流不只取决于上传质量,还取决于持久化。一次生成成功后,要保存完整配置:

字段为什么重要
Prompt保存创意指令。
模型和模式文生视频与图生视频行为不同。
比例竖屏和横屏构图不同。
时长运动节奏会随长度变化。
分辨率影响成片质量和 credits 成本。
声音设置决定是否需要写声音指令。
参考素材 URL允许团队之后继续生成或迭代。
输出 URL避免临时链接过期后资产丢失。

这些数据都保存下来,历史记录才是生产工具,而不是展示橱窗。团队成员可以点击旧任务,恢复原来的 prompt 和参考图,只改一个变量,再生成一个可控变体。

可重复的操作流程

建议按这个节奏做:

  1. 只上传职责明确的参考图。
  2. 在 prompt 里给每张参考图分配任务。
  3. 先用最低可接受成本生成第一条。
  4. 先修构图,再修细节。
  5. 分辨率拉高前保存可用配置。
  6. 用同一组参考图做变体,不要频繁换不同裁切。

常见失败原因

问题可能原因修法
脸在镜头间变化身份参考不清晰,或和风格参考混在一起用一张干净头像,并写“保持身份”。
产品形状变化prompt 要求的动作让产品变形加“保持比例不变”,并降低动作幅度。
场景很通用环境参考弱增加地点参考,并写清时间。
声音随机没有描述声音分开写环境声、拟音、音乐和对白。
旧结果无法复现输入没有保存保存 prompt、参数、参考素材和输出 URL。

资料来源

AI 视频参考图检查清单:怎样得到可复用的生成结果 | Omniveo