คู่มือการสร้างวิดีโอด้วย Gemini Omni: วิธีเขียนบรีฟให้โมเดล AI ในปี 2026

Omniveo TeamMay 12, 2026

การสร้างวิดีโอด้วย Gemini ได้ก้าวจากกล่องข้อความธรรมดาสู่เวิร์กโฟลว์สร้างสรรค์ที่ใช้งานได้จริง ประสบการณ์ Veo 3.1 ล่าสุดของ Google เน้นวิดีโอ 8 วินาทีพร้อมเสียงใน Gemini Apps, คุณภาพการแปลงภาพเป็นวิดีโอที่ดีขึ้น, รูปแบบแนวตั้ง, และการควบคุมที่หลากหลายยิ่งขึ้นใน Flow, Gemini API และ Vertex AI การเปลี่ยนแปลงสำคัญไม่ได้อยู่ที่พิกเซลที่ดีขึ้นเท่านั้น: ทีมผลิตต้องใช้พรอมต์, สื่ออ้างอิง, เจตนาด้านเสียง, และกลยุทธ์การลองใหม่ร่วมกัน

ประเด็นสำคัญ

  • มองพรอมต์วิดีโอ AI เป็นบรีฟช็อต ไม่ใช่แคปชั่น
  • เขียนกล้อง, ตัวแบบ, การเคลื่อนไหว, แสง, จังหวะเวลา, และเสียงแยกเป็นประโยค
  • ใช้ภาพอ้างอิงสำหรับเอกลักษณ์, สินค้า, สภาพแวดล้อม, หรือสไตล์ แต่กำหนดว่าภาพอ้างอิงแต่ละภาพรับผิดชอบอะไร
  • ทำให้การสร้างครั้งแรกแคบ จากนั้นค่อยปรับด้วยการแก้ไขหรือกู้คืนพารามิเตอร์แทนการเขียนใหม่ทั้งหมด

อะไรที่เปลี่ยนไปกับ Veo 3.1?

Google อธิบายว่า Veo 3.1 เป็นเวอร์ชันที่เน้นเสียงที่สมบูรณ์ยิ่งขึ้น, การควบคุมเนื้อเรื่องมากขึ้น, การทำตามพรอมต์ที่แม่นยำขึ้น, และคุณภาพภาพและเสียงที่ดีขึ้นเมื่อเปลี่ยนภาพเป็นวิดีโอ Flow ยังเพิ่มการควบคุมรอบๆ ภาพอ้างอิง, เวิร์กโฟลว์เฟรมแรก/เฟรมสุดท้าย, การขยายฉาก, และการแก้ไขระดับวัตถุ

สำหรับครีเอเตอร์ นั่นหมายถึงบรีฟที่ดีต้องตอบสี่คำถามนี้:

  1. อะไรควรคงที่?
  2. อะไรควรเคลื่อนไหว?
  3. กล้องควรทำอะไร?
  4. ผู้ชมควรได้ยินอะไร?

ถ้าพรอมต์บอกแค่ "ทำวิดีโอสินค้าแบบ cinematic" โมเดลจะต้องสร้างคำตอบทั้งสี่ข้อขึ้นมาเอง แต่ถ้าพรอมต์บอกว่า "ช็อต macro สินค้า 8 วินาที, กล้องค่อยๆ ดันจากป้ายไปที่ฝา, หยดน้ำกลิ้งลงบนกระจก, แสงสะท้อนในสตูดิโอแบบนุ่มนวล, เสียงซินธ์ต่ำและเสียง foley การจัดการขวดเบาๆ" การสร้างจะมีเป้าหมายที่แคบกว่ามาก

โครงสร้างพรอมต์ที่ใช้งานได้จริง

ใช้รูปแบบนี้สำหรับงาน text-to-video และ image-to-video ส่วนใหญ่:

ตัวแบบ: ตัวแบบ, สินค้า, ตัวละคร, หรือฉากที่ชัดเจนหนึ่งอย่าง
การกระทำ: สิ่งที่เปลี่ยนแปลงระหว่างช็อต
กล้อง: ขนาดช็อต, การเคลื่อนไหว, มุม, ความรู้สึกของเลนส์
แสงและลุค: ช่วงเวลาของวัน, จานสี, ความสมจริง, พื้นผิว
เสียง: เสียงรอบข้าง, บทสนทนา, ดนตรี, foley, หรือเงียบ
ข้อจำกัด: หลีกเลี่ยงข้อความ, หลีกเลี่ยงคนพิเศษ, ให้โลโก้อ่านได้, ไม่มีการตัดฉาก

ตัวอย่าง:

ตัวแบบ: สกู๊ตเตอร์ไฟฟ้าสีดำด้านจอดอยู่นอกล็อบบี้สำนักงานกระจก
การกระทำ: หยดฝนกลิ้งบนแฮนด์บาร์ขณะที่ไฟหน้าเปิด
กล้อง: มุมต่ำ 35mm ดันเข้าจากล้อหน้าไปยังไฟหน้า ไม่มีการตัด
แสงและลุค: ช่วงพลบค่ำ, พื้นเปียกสะท้อนแสง, แสงเชิงพาณิชย์ที่สมจริง
เสียง: ฝนในเมืองเบาๆ, เสียงรถไกลๆ, เสียงสตาร์ทไฟฟ้าเบาๆ
ข้อจำกัด: ไม่มีคน, ไม่มีข้อความหน้าร้านที่อ่านได้, คงสัดส่วนสกู๊ตเตอร์ไม่เปลี่ยนแปลง

วิธีใช้ภาพอ้างอิงโดยไม่ทำให้โมเดลสับสน

ภาพอ้างอิงจะมีประสิทธิภาพสูงสุดเมื่อแต่ละภาพมีหน้าที่ชัดเจน อย่าอัปโหลดภาพที่ไม่เกี่ยวข้องกันห้าภาพแล้วคาดหวังให้โมเดลเดาความชอบของคุณ

จุดประสงค์ของภาพอ้างอิงตัวอย่างข้อมูลนำเข้าคำแนะนำใน Prompt
เอกลักษณ์ตัวละครภาพพอร์ตเทรตชัดๆ ด้านหน้า"คงใบหน้า, ผม, และชุดเดิมไว้"
ความถูกต้องของสินค้าภาพสินค้าบนพื้นหลังเรียบ"คงรูปทรง, สี, ตำแหน่งฉลาก, และวัสดุไว้"
สภาพแวดล้อมภาพห้องหรือถนน"ใช้เค้าโครงสถานที่และบรรยากาศแสงนี้"
สไตล์ภาพนิ่งหรือบอร์ดอาร์ตไดเรกชัน"ใช้พาเล็ตสี, คอนทราสต์, และพื้นผิวนี้ โดยไม่ต้องสนใจวัตถุ"
การเชื่อมต่อการเคลื่อนไหวเฟรมเริ่มต้นและสิ้นสุด"สร้างการเปลี่ยนผ่านที่ต่อเนื่องระหว่างเฟรมเหล่านี้"

เอกสารของ Google Vertex AI ระบุว่า Veo รองรับการควบคุม prompt, image guidance, last-frame guidance, reference images, aspect ratio, duration, audio generation, negative prompts, seed, และ resolution ในโมเดลที่รองรับ บทเรียนเชิงปฏิบัติคือ: เมื่อ UI แสดงการตั้งค่าเหล่านี้ ให้บันทึกไว้พร้อมกับ prompt มิฉะนั้นทีมงานจะไม่สามารถสร้างคลิปที่ประสบความสำเร็จซ้ำได้

วงจรลองใหม่ที่ประหยัดเครดิต

อย่าทำให้การลองใหม่ทุกครั้งเป็น prompt ใหม่ทั้งหมด ให้ใช้วงจรสามรอบ:

  1. รอบจัดองค์ประกอบ: จับวัตถุ, การจัดเฟรม, และทิศทางการเคลื่อนไหวให้ถูกต้อง ไม่ต้องสนใจจุดบกพร่องเล็กน้อย
  2. รอบควบคุม: เปลี่ยนตัวแปรหนึ่งหรือสองตัว เช่น ความเร็วกล้องหรือพื้นหลัง
  3. รอบตกแต่ง: ปรับแต่งเสียง, แสง, การครอป, และความละเอียดเอาต์พุต

สำหรับคลิปสั้น การเสียทรัพยากรที่มากที่สุดคือการเปลี่ยนตัวแปรห้าตัวพร้อมกัน คุณจะไม่รู้ว่าการเปลี่ยนแปลงไหนที่แก้ไขหรือทำลายผลลัพธ์ ระบบประวัติการทำงานที่ใช้งานได้ควรเก็บ prompt, โมเดล, โหมด, aspect ratio, ระยะเวลา, ความละเอียด, การตั้งค่าเสียง, และสื่ออ้างอิงไว้ เพื่อให้รอบถัดไปเริ่มต้นจากสถานะที่รู้แล้ว

แหล่งอ้างอิง

คู่มือการสร้างวิดีโอด้วย Gemini Omni: วิธีเขียนบรีฟให้โมเดล AI ในปี 2026 | Omniveo