- บล็อก
- คู่มือการสร้างวิดีโอด้วย Gemini Omni: วิธีเขียนบรีฟให้โมเดล AI ในปี 2026
คู่มือการสร้างวิดีโอด้วย Gemini Omni: วิธีเขียนบรีฟให้โมเดล AI ในปี 2026
การสร้างวิดีโอด้วย Gemini ได้ก้าวจากกล่องข้อความธรรมดาสู่เวิร์กโฟลว์สร้างสรรค์ที่ใช้งานได้จริง ประสบการณ์ Veo 3.1 ล่าสุดของ Google เน้นวิดีโอ 8 วินาทีพร้อมเสียงใน Gemini Apps, คุณภาพการแปลงภาพเป็นวิดีโอที่ดีขึ้น, รูปแบบแนวตั้ง, และการควบคุมที่หลากหลายยิ่งขึ้นใน Flow, Gemini API และ Vertex AI การเปลี่ยนแปลงสำคัญไม่ได้อยู่ที่พิกเซลที่ดีขึ้นเท่านั้น: ทีมผลิตต้องใช้พรอมต์, สื่ออ้างอิง, เจตนาด้านเสียง, และกลยุทธ์การลองใหม่ร่วมกัน
ประเด็นสำคัญ
- มองพรอมต์วิดีโอ AI เป็นบรีฟช็อต ไม่ใช่แคปชั่น
- เขียนกล้อง, ตัวแบบ, การเคลื่อนไหว, แสง, จังหวะเวลา, และเสียงแยกเป็นประโยค
- ใช้ภาพอ้างอิงสำหรับเอกลักษณ์, สินค้า, สภาพแวดล้อม, หรือสไตล์ แต่กำหนดว่าภาพอ้างอิงแต่ละภาพรับผิดชอบอะไร
- ทำให้การสร้างครั้งแรกแคบ จากนั้นค่อยปรับด้วยการแก้ไขหรือกู้คืนพารามิเตอร์แทนการเขียนใหม่ทั้งหมด
อะไรที่เปลี่ยนไปกับ Veo 3.1?
Google อธิบายว่า Veo 3.1 เป็นเวอร์ชันที่เน้นเสียงที่สมบูรณ์ยิ่งขึ้น, การควบคุมเนื้อเรื่องมากขึ้น, การทำตามพรอมต์ที่แม่นยำขึ้น, และคุณภาพภาพและเสียงที่ดีขึ้นเมื่อเปลี่ยนภาพเป็นวิดีโอ Flow ยังเพิ่มการควบคุมรอบๆ ภาพอ้างอิง, เวิร์กโฟลว์เฟรมแรก/เฟรมสุดท้าย, การขยายฉาก, และการแก้ไขระดับวัตถุ
สำหรับครีเอเตอร์ นั่นหมายถึงบรีฟที่ดีต้องตอบสี่คำถามนี้:
- อะไรควรคงที่?
- อะไรควรเคลื่อนไหว?
- กล้องควรทำอะไร?
- ผู้ชมควรได้ยินอะไร?
ถ้าพรอมต์บอกแค่ "ทำวิดีโอสินค้าแบบ cinematic" โมเดลจะต้องสร้างคำตอบทั้งสี่ข้อขึ้นมาเอง แต่ถ้าพรอมต์บอกว่า "ช็อต macro สินค้า 8 วินาที, กล้องค่อยๆ ดันจากป้ายไปที่ฝา, หยดน้ำกลิ้งลงบนกระจก, แสงสะท้อนในสตูดิโอแบบนุ่มนวล, เสียงซินธ์ต่ำและเสียง foley การจัดการขวดเบาๆ" การสร้างจะมีเป้าหมายที่แคบกว่ามาก
โครงสร้างพรอมต์ที่ใช้งานได้จริง
ใช้รูปแบบนี้สำหรับงาน text-to-video และ image-to-video ส่วนใหญ่:
ตัวแบบ: ตัวแบบ, สินค้า, ตัวละคร, หรือฉากที่ชัดเจนหนึ่งอย่าง
การกระทำ: สิ่งที่เปลี่ยนแปลงระหว่างช็อต
กล้อง: ขนาดช็อต, การเคลื่อนไหว, มุม, ความรู้สึกของเลนส์
แสงและลุค: ช่วงเวลาของวัน, จานสี, ความสมจริง, พื้นผิว
เสียง: เสียงรอบข้าง, บทสนทนา, ดนตรี, foley, หรือเงียบ
ข้อจำกัด: หลีกเลี่ยงข้อความ, หลีกเลี่ยงคนพิเศษ, ให้โลโก้อ่านได้, ไม่มีการตัดฉาก
ตัวอย่าง:
ตัวแบบ: สกู๊ตเตอร์ไฟฟ้าสีดำด้านจอดอยู่นอกล็อบบี้สำนักงานกระจก
การกระทำ: หยดฝนกลิ้งบนแฮนด์บาร์ขณะที่ไฟหน้าเปิด
กล้อง: มุมต่ำ 35mm ดันเข้าจากล้อหน้าไปยังไฟหน้า ไม่มีการตัด
แสงและลุค: ช่วงพลบค่ำ, พื้นเปียกสะท้อนแสง, แสงเชิงพาณิชย์ที่สมจริง
เสียง: ฝนในเมืองเบาๆ, เสียงรถไกลๆ, เสียงสตาร์ทไฟฟ้าเบาๆ
ข้อจำกัด: ไม่มีคน, ไม่มีข้อความหน้าร้านที่อ่านได้, คงสัดส่วนสกู๊ตเตอร์ไม่เปลี่ยนแปลง
วิธีใช้ภาพอ้างอิงโดยไม่ทำให้โมเดลสับสน
ภาพอ้างอิงจะมีประสิทธิภาพสูงสุดเมื่อแต่ละภาพมีหน้าที่ชัดเจน อย่าอัปโหลดภาพที่ไม่เกี่ยวข้องกันห้าภาพแล้วคาดหวังให้โมเดลเดาความชอบของคุณ
| จุดประสงค์ของภาพอ้างอิง | ตัวอย่างข้อมูลนำเข้า | คำแนะนำใน Prompt |
|---|---|---|
| เอกลักษณ์ตัวละคร | ภาพพอร์ตเทรตชัดๆ ด้านหน้า | "คงใบหน้า, ผม, และชุดเดิมไว้" |
| ความถูกต้องของสินค้า | ภาพสินค้าบนพื้นหลังเรียบ | "คงรูปทรง, สี, ตำแหน่งฉลาก, และวัสดุไว้" |
| สภาพแวดล้อม | ภาพห้องหรือถนน | "ใช้เค้าโครงสถานที่และบรรยากาศแสงนี้" |
| สไตล์ | ภาพนิ่งหรือบอร์ดอาร์ตไดเรกชัน | "ใช้พาเล็ตสี, คอนทราสต์, และพื้นผิวนี้ โดยไม่ต้องสนใจวัตถุ" |
| การเชื่อมต่อการเคลื่อนไหว | เฟรมเริ่มต้นและสิ้นสุด | "สร้างการเปลี่ยนผ่านที่ต่อเนื่องระหว่างเฟรมเหล่านี้" |
เอกสารของ Google Vertex AI ระบุว่า Veo รองรับการควบคุม prompt, image guidance, last-frame guidance, reference images, aspect ratio, duration, audio generation, negative prompts, seed, และ resolution ในโมเดลที่รองรับ บทเรียนเชิงปฏิบัติคือ: เมื่อ UI แสดงการตั้งค่าเหล่านี้ ให้บันทึกไว้พร้อมกับ prompt มิฉะนั้นทีมงานจะไม่สามารถสร้างคลิปที่ประสบความสำเร็จซ้ำได้
วงจรลองใหม่ที่ประหยัดเครดิต
อย่าทำให้การลองใหม่ทุกครั้งเป็น prompt ใหม่ทั้งหมด ให้ใช้วงจรสามรอบ:
- รอบจัดองค์ประกอบ: จับวัตถุ, การจัดเฟรม, และทิศทางการเคลื่อนไหวให้ถูกต้อง ไม่ต้องสนใจจุดบกพร่องเล็กน้อย
- รอบควบคุม: เปลี่ยนตัวแปรหนึ่งหรือสองตัว เช่น ความเร็วกล้องหรือพื้นหลัง
- รอบตกแต่ง: ปรับแต่งเสียง, แสง, การครอป, และความละเอียดเอาต์พุต
สำหรับคลิปสั้น การเสียทรัพยากรที่มากที่สุดคือการเปลี่ยนตัวแปรห้าตัวพร้อมกัน คุณจะไม่รู้ว่าการเปลี่ยนแปลงไหนที่แก้ไขหรือทำลายผลลัพธ์ ระบบประวัติการทำงานที่ใช้งานได้ควรเก็บ prompt, โมเดล, โหมด, aspect ratio, ระยะเวลา, ความละเอียด, การตั้งค่าเสียง, และสื่ออ้างอิงไว้ เพื่อให้รอบถัดไปเริ่มต้นจากสถานะที่รู้แล้ว
แหล่งอ้างอิง
- Google: Bringing new Veo 3.1 updates into Flow
- Google: Generate videos with Gemini Apps
- Google Cloud: Veo on Vertex AI video generation API