Gemini Omni 视频工作流指南：2026 年应该怎样写 AI 视频 brief

GemiOmni TeamMay 16, 2026

Gemini 视频生成已经不再只是一个提示词输入框。Google 当前的 Veo 3.1 体验强调 8 秒带声音视频、更强的图生视频质量、竖屏格式，以及 Flow、Gemini API、Vertex AI 中更细的控制能力。真正的变化不只是画质变好，而是生产团队需要把提示词、参考素材、声音意图和重试策略放在同一个工作流里。

核心要点

把 AI 视频 prompt 当成镜头 brief，而不是一句描述。

分开写主体、动作、机位、光线、时间和声音。

参考图要有明确职责：身份、产品、环境、风格或运动桥接。

第一次生成先收窄目标，后续通过历史参数和单变量调整来迭代。

Veo 3.1 的关键变化

Google 对 Veo 3.1 的定位是更丰富的音频、更强的叙事控制、更好的提示词遵循，以及图生视频时更好的视听质量。Flow 也加入了更多围绕参考图、首尾帧、场景延展和物体编辑的能力。

对创作者来说，一个可用的 brief 至少要回答四个问题：

什么必须保持一致？
什么应该发生运动？
摄像机怎么动？
观众应该听到什么？

如果 prompt 只写“生成一个电影感产品视频”，模型需要自己猜所有答案。如果写成“8 秒微距产品镜头，镜头从标签慢慢推到瓶盖，冷凝水珠沿玻璃滑落，柔和棚拍反光，低频合成器和轻微瓶身触碰声”，目标就明确很多。

推荐 prompt 结构

大多数文生视频和图生视频都可以用这个结构：

主体：一个清晰的产品、角色或场景。
动作：镜头里发生什么变化。
机位：景别、运动、角度、镜头感。
光线与画面：时间、色彩、真实感、材质。
声音：环境声、对白、音乐、拟音或静音。
约束：避免文字、避免多余人物、保持 logo 可读、不要切镜。

示例：

主体：一辆哑光黑色电动滑板车停在玻璃办公楼门口。
动作：雨滴沿车把滑落，前灯缓慢亮起。
机位：低角度 35mm，从前轮推到车灯，不切镜。
光线与画面：蓝调时刻，湿地反光，真实商业广告光。
声音：轻柔城市雨声、远处车流声、细微电启动声。
约束：不要人物，不要可读门店文字，保持滑板车比例不变。

参考图怎么用才不混乱

参考图最好一张图只承担一个职责。不要上传五张互不相关的图，然后期待模型自动理解你的审美。

参考目的	合适输入	prompt 说明
角色身份	正面干净头像	“保持相同脸型、发型和服装。”
产品准确性	白底产品图	“保持形状、颜色、标签位置和材质。”
环境	室内或街景照片	“使用这个空间布局和光线氛围。”
风格	剧照或视觉板	“只参考色彩、对比度和质感，不参考主体。”
运动桥接	首帧和尾帧	“在两帧之间生成连续转场。”

Google 的 Vertex AI 文档列出了 Veo 支持的 prompt、图片引导、尾帧引导、参考图、比例、时长、音频生成、负面提示词、seed 和分辨率等参数。产品层面的重点是：如果 UI 暴露了这些设置，就应该和 prompt 一起保存。否则团队无法复现一次成功生成。

更省 credits 的重试方式

不要每次失败都重写一个全新 prompt。建议三步走：

构图轮：先看主体、构图和运动方向是否正确，先忽略小瑕疵。
控制轮：一次只改一两个变量，比如镜头速度或背景。
完成轮：最后再调声音、光线、裁切和分辨率。

短视频里最浪费 credits 的做法，是一次改五个变量。这样你无法判断到底是哪一项让结果变好或变坏。可用的历史系统应该保存 prompt、模型、模式、比例、时长、分辨率、声音设置和参考素材，让下一次生成从一个确定状态开始。

资料来源

Google: Veo 3.1 updates in Flow
Google: Generate videos with Gemini Apps
Google Cloud: Veo on Vertex AI video generation API