Gemini Omni 视频工作流指南:2026 年应该怎样写 AI 视频 brief

Omniveo TeamMay 12, 2026

Gemini 视频生成已经不再只是一个提示词输入框。Google 当前的 Veo 3.1 体验强调 8 秒带声音视频、更强的图生视频质量、竖屏格式,以及 Flow、Gemini API、Vertex AI 中更细的控制能力。真正的变化不只是画质变好,而是生产团队需要把提示词、参考素材、声音意图和重试策略放在同一个工作流里。

核心要点

  • 把 AI 视频 prompt 当成镜头 brief,而不是一句描述。
  • 分开写主体、动作、机位、光线、时间和声音。
  • 参考图要有明确职责:身份、产品、环境、风格或运动桥接。
  • 第一次生成先收窄目标,后续通过历史参数和单变量调整来迭代。

Veo 3.1 的关键变化

Google 对 Veo 3.1 的定位是更丰富的音频、更强的叙事控制、更好的提示词遵循,以及图生视频时更好的视听质量。Flow 也加入了更多围绕参考图、首尾帧、场景延展和物体编辑的能力。

对创作者来说,一个可用的 brief 至少要回答四个问题:

  1. 什么必须保持一致?
  2. 什么应该发生运动?
  3. 摄像机怎么动?
  4. 观众应该听到什么?

如果 prompt 只写“生成一个电影感产品视频”,模型需要自己猜所有答案。如果写成“8 秒微距产品镜头,镜头从标签慢慢推到瓶盖,冷凝水珠沿玻璃滑落,柔和棚拍反光,低频合成器和轻微瓶身触碰声”,目标就明确很多。

推荐 prompt 结构

大多数文生视频和图生视频都可以用这个结构:

主体:一个清晰的产品、角色或场景。
动作:镜头里发生什么变化。
机位:景别、运动、角度、镜头感。
光线与画面:时间、色彩、真实感、材质。
声音:环境声、对白、音乐、拟音或静音。
约束:避免文字、避免多余人物、保持 logo 可读、不要切镜。

示例:

主体:一辆哑光黑色电动滑板车停在玻璃办公楼门口。
动作:雨滴沿车把滑落,前灯缓慢亮起。
机位:低角度 35mm,从前轮推到车灯,不切镜。
光线与画面:蓝调时刻,湿地反光,真实商业广告光。
声音:轻柔城市雨声、远处车流声、细微电启动声。
约束:不要人物,不要可读门店文字,保持滑板车比例不变。

参考图怎么用才不混乱

参考图最好一张图只承担一个职责。不要上传五张互不相关的图,然后期待模型自动理解你的审美。

参考目的合适输入prompt 说明
角色身份正面干净头像“保持相同脸型、发型和服装。”
产品准确性白底产品图“保持形状、颜色、标签位置和材质。”
环境室内或街景照片“使用这个空间布局和光线氛围。”
风格剧照或视觉板“只参考色彩、对比度和质感,不参考主体。”
运动桥接首帧和尾帧“在两帧之间生成连续转场。”

Google 的 Vertex AI 文档列出了 Veo 支持的 prompt、图片引导、尾帧引导、参考图、比例、时长、音频生成、负面提示词、seed 和分辨率等参数。产品层面的重点是:如果 UI 暴露了这些设置,就应该和 prompt 一起保存。否则团队无法复现一次成功生成。

更省 credits 的重试方式

不要每次失败都重写一个全新 prompt。建议三步走:

  1. 构图轮:先看主体、构图和运动方向是否正确,先忽略小瑕疵。
  2. 控制轮:一次只改一两个变量,比如镜头速度或背景。
  3. 完成轮:最后再调声音、光线、裁切和分辨率。

短视频里最浪费 credits 的做法,是一次改五个变量。这样你无法判断到底是哪一项让结果变好或变坏。可用的历史系统应该保存 prompt、模型、模式、比例、时长、分辨率、声音设置和参考素材,让下一次生成从一个确定状态开始。

资料来源

Gemini Omni 视频工作流指南:2026 年应该怎样写 AI 视频 brief | Omniveo