Gemini Omni 動画制作ワークフローガイド：2026年、AI動画モデルに指示を出す方法

Omniveo TeamMay 12, 2026

Geminiによる動画生成は、単なるプロンプト入力ボックスから実用的なクリエイティブワークフローへと進化しました。Googleの最新Veo 3.1では、Gemini Appsでの8秒動画＋サウンド生成、強化された画像-to-動画品質、縦型フォーマット対応、Flow・Gemini API・Vertex AIでのより高度な制御が実現しています。重要なのは、単に画質が向上したことではありません。制作チームは今、プロンプト、参照メディア、オーディオ意図、リトライ戦略を統合して機能させる必要があります。

重要なポイント

AI動画プロンプトは「キャプション」ではなく「ショットの指示書」として扱う。

カメラ、被写体、動き、照明、タイミング、サウンドをそれぞれ独立した節で記述する。

参照画像は、被写体の同一性、商品、環境、スタイルのために使用するが、各参照が何を担当するかを明確にする。

最初の生成は範囲を絞り、その後は編集やパラメータ復元で反復し、ゼロから書き直さない。

Veo 3.1で何が変わったのか？

GoogleはVeo 3.1を、よりリッチなオーディオ、より高度なナラティブ制御、プロンプトへの忠実性向上、そして画像から動画への変換時の映像・音声品質改善に焦点を当てたリリースと説明しています。Flowでは、参照画像、最初/最後のフレームワークフロー、シーン拡張、オブジェクトレベルの編集に関する制御も強化されました。

クリエイターにとって、これは優れた指示書が以下の4つの質問に答える必要があることを意味します：

何を一貫させるべきか？
何を動かすべきか？
カメラは何をすべきか？
視聴者は何を聞くべきか？

プロンプトが単に「シネマティックな商品動画を作って」とだけ言う場合、モデルは上記4つの答えをすべて自ら発明しなければなりません。しかし、「8秒のマクロ商品ショット、カメラがラベルからキャップへゆっくりと押し出し、結露の水滴がガラスを伝い、柔らかなスタジオ反射、低いシンセパルスと微妙なボトル操作のフォーリー」と指定すれば、生成のターゲットははるかに絞られます。

実用的なプロンプト構造

テキスト-to-動画および画像-to-動画のジョブには、以下のフォーマットを使用してください：

被写体：1つの明確な被写体、商品、キャラクター、またはシーン。
アクション：ショット中に変化するもの。
カメラ：ショットサイズ、動き、アングル、レンズの質感。
照明とルック：時間帯、カラーパレット、リアリズム、テクスチャ。
オーディオ：環境音、会話、音楽、フォーリー、または無音。
制約：テキスト禁止、余分な人物禁止、ロゴは読みやすく、シーンカット禁止。

例：

被写体：ガラスのオフィスロビー前に駐車されたマットブラックの電動スクーター。
アクション：雨粒がハンドルバーを転がり、ヘッドライトが点灯する。
カメラ：前輪からヘッドライトへのローアングル35mm押し出し、カットなし。
照明とルック：ブルーアワー、濡れた路面の反射、リアルな商業照明。
オーディオ：柔らかな街の雨音、遠くの車の音、微妙な電動スタートアップ音。
制約：人物なし、読み取れる店舗のテキストなし、スクーターのプロポーションは変更しない。

モデルを混乱させずに参照画像を使う方法

参照画像は、それぞれに明確な役割があるときに最も効果を発揮します。無関係な画像を5枚アップロードしても、モデルがあなたの意図を推測してくれるとは期待できません。

参照の目的	適切な入力例	プロンプト指示
キャラクターの一貫性	正面を向いたクリーンなポートレート	「顔、髪型、服装をそのまま維持してください」
商品の正確性	無地背景の商品パッケージショット	「形状、色、ラベルの位置、素材を保持してください」
環境設定	部屋や街の写真	「この場所のレイアウトと照明の雰囲気を使用してください」
スタイル指定	静止画またはアートディレクションボード	「被写体ではなく、このパレット、コントラスト、質感を使用してください」
モーションブリッジ	開始フレームと終了フレーム	「これらのフレーム間の連続的な遷移を作成してください」

GoogleのVertex AIドキュメントによると、Veoは対応モデルにおいて、プロンプト、画像ガイダンス、最終フレームガイダンス、参照画像、アスペクト比、再生時間、音声生成、ネガティブプロンプト、シード値、解像度コントロールをサポートしています。運用上の教訓はシンプルです。UIでこれらの設定が公開されている場合は、プロンプトと一緒に保存しましょう。そうしなければ、チームは成功したクリップを再現できません。

クレジットを節約するリトライループ

毎回のリトライをまったく新しいプロンプトで行ってはいけません。3パスのループを使用しましょう。

構図パス：被写体、フレーミング、動きの方向を正しく設定します。軽微なアーティファクトは無視します。
コントロールパス：カメラスピードや背景など、1～2つの変数を変更します。
仕上げパス：音声、照明、クロップ、出力解像度を調整します。

短いクリップの場合、最大の無駄は一度に5つの変数を変更することです。どの変更が結果を改善したのか、あるいは壊したのかがわからなくなります。実用的な履歴システムは、プロンプト、モデル、モード、アスペクト比、再生時間、解像度、サウンド設定、参照メディアを保存し、次のパスが既知の状態から開始できるようにする必要があります。

出典

Google：Bringing new Veo 3.1 updates into Flow
Google：Generate videos with Gemini Apps
Google Cloud：Veo on Vertex AI video generation API