- 博客
- Gemini Omni 视频工作流指南:2026 年应该怎样写 AI 视频 brief
Gemini Omni 视频工作流指南:2026 年应该怎样写 AI 视频 brief
Omniveo TeamMay 12, 2026
Gemini 视频生成已经不再只是一个提示词输入框。Google 当前的 Veo 3.1 体验强调 8 秒带声音视频、更强的图生视频质量、竖屏格式,以及 Flow、Gemini API、Vertex AI 中更细的控制能力。真正的变化不只是画质变好,而是生产团队需要把提示词、参考素材、声音意图和重试策略放在同一个工作流里。
核心要点
- 把 AI 视频 prompt 当成镜头 brief,而不是一句描述。
- 分开写主体、动作、机位、光线、时间和声音。
- 参考图要有明确职责:身份、产品、环境、风格或运动桥接。
- 第一次生成先收窄目标,后续通过历史参数和单变量调整来迭代。
Veo 3.1 的关键变化
Google 对 Veo 3.1 的定位是更丰富的音频、更强的叙事控制、更好的提示词遵循,以及图生视频时更好的视听质量。Flow 也加入了更多围绕参考图、首尾帧、场景延展和物体编辑的能力。
对创作者来说,一个可用的 brief 至少要回答四个问题:
- 什么必须保持一致?
- 什么应该发生运动?
- 摄像机怎么动?
- 观众应该听到什么?
如果 prompt 只写“生成一个电影感产品视频”,模型需要自己猜所有答案。如果写成“8 秒微距产品镜头,镜头从标签慢慢推到瓶盖,冷凝水珠沿玻璃滑落,柔和棚拍反光,低频合成器和轻微瓶身触碰声”,目标就明确很多。
推荐 prompt 结构
大多数文生视频和图生视频都可以用这个结构:
主体:一个清晰的产品、角色或场景。
动作:镜头里发生什么变化。
机位:景别、运动、角度、镜头感。
光线与画面:时间、色彩、真实感、材质。
声音:环境声、对白、音乐、拟音或静音。
约束:避免文字、避免多余人物、保持 logo 可读、不要切镜。
示例:
主体:一辆哑光黑色电动滑板车停在玻璃办公楼门口。
动作:雨滴沿车把滑落,前灯缓慢亮起。
机位:低角度 35mm,从前轮推到车灯,不切镜。
光线与画面:蓝调时刻,湿地反光,真实商业广告光。
声音:轻柔城市雨声、远处车流声、细微电启动声。
约束:不要人物,不要可读门店文字,保持滑板车比例不变。
参考图怎么用才不混乱
参考图最好一张图只承担一个职责。不要上传五张互不相关的图,然后期待模型自动理解你的审美。
| 参考目的 | 合适输入 | prompt 说明 |
|---|---|---|
| 角色身份 | 正面干净头像 | “保持相同脸型、发型和服装。” |
| 产品准确性 | 白底产品图 | “保持形状、颜色、标签位置和材质。” |
| 环境 | 室内或街景照片 | “使用这个空间布局和光线氛围。” |
| 风格 | 剧照或视觉板 | “只参考色彩、对比度和质感,不参考主体。” |
| 运动桥接 | 首帧和尾帧 | “在两帧之间生成连续转场。” |
Google 的 Vertex AI 文档列出了 Veo 支持的 prompt、图片引导、尾帧引导、参考图、比例、时长、音频生成、负面提示词、seed 和分辨率等参数。产品层面的重点是:如果 UI 暴露了这些设置,就应该和 prompt 一起保存。否则团队无法复现一次成功生成。
更省 credits 的重试方式
不要每次失败都重写一个全新 prompt。建议三步走:
- 构图轮:先看主体、构图和运动方向是否正确,先忽略小瑕疵。
- 控制轮:一次只改一两个变量,比如镜头速度或背景。
- 完成轮:最后再调声音、光线、裁切和分辨率。
短视频里最浪费 credits 的做法,是一次改五个变量。这样你无法判断到底是哪一项让结果变好或变坏。可用的历史系统应该保存 prompt、模型、模式、比例、时长、分辨率、声音设置和参考素材,让下一次生成从一个确定状态开始。
资料来源
- Google: Veo 3.1 updates in Flow
- Google: Generate videos with Gemini Apps
- Google Cloud: Veo on Vertex AI video generation API