- المدونة
- دليل سير عمل فيديو Gemini Omni: كيفية إعداد ملخص لنموذج فيديو بالذكاء الاصطناعي في 2026
دليل سير عمل فيديو Gemini Omni: كيفية إعداد ملخص لنموذج فيديو بالذكاء الاصطناعي في 2026
انتقلت تقنية توليد الفيديو من جيميني من مجرد صندوق أوامر تجريبي إلى سير عمل إبداعي عملي. تركز تجربة Veo 3.1 الحالية من جوجل على فيديوهات مدتها 8 ثوانٍ مع الصوت في تطبيقات Gemini، وجودة أفضل في تحويل الصور إلى فيديو، وصيغ عمودية، وتحكمات أكثر ثراءً في Flow وGemini API وVertex AI. التحول المهم لا يقتصر فقط على تحسين البكسلات: ففرق الإنتاج تحتاج الآن إلى أن تعمل الأوامر النصية والوسائط المرجعية والقصد الصوتي واستراتيجية إعادة المحاولة معًا.
الخلاصات الرئيسية
- تعامل مع أمر فيديو الذكاء الاصطناعي كملخص تصويري للقطة، وليس كتعليق.
- اكتب الكاميرا والموضوع والحركة والإضاءة والتوقيت والصوت في جمل منفصلة.
- استخدم الصور المرجعية للهوية أو المنتج أو البيئة أو الأسلوب، لكن حدد مسؤولية كل مرجع.
- اجعل التوليد الأول ضيقًا، ثم كرر مع التعديلات أو استعادة المعلمات بدلاً من إعادة الكتابة من الصفر.
ما الذي تغير مع Veo 3.1؟
تصف جوجل Veo 3.1 بأنه إصدار يركز على صوت أكثر ثراءً، وتحكم سردي أكبر، والالتزام القوي بالأوامر، وجودة سمعية بصرية محسنة عند تحويل الصور إلى فيديوهات. أضاف Flow أيضًا تحكمًا أكبر حول الصور المرجعية، وسير عمل الإطار الأول/الأخير، وتمديد المشهد، والتعديلات على مستوى الكائن.
للمبدعين، هذا يعني أن الملخص الجيد يحتاج الآن إلى الإجابة عن أربعة أسئلة:
- ما الذي يجب أن يبقى ثابتًا؟
- ما الذي يجب أن يتحرك؟
- ما الذي يجب أن تفعله الكاميرا؟
- ما الذي يجب أن يسمعه المشاهد؟
إذا كان الأمر النصي يقول فقط "اصنع فيديو منتج سينمائي"، فسيتعين على النموذج اختراع الإجابات الأربع جميعها. إذا كان الأمر يقول "لقطة ماكرو للمنتج لمدة 8 ثوانٍ، الكاميرا تتحرك ببطء من الملصق إلى الغطاء، حبات التكاثف تنزلق على الزجاج، انعكاس استوديو ناعم، نبضة تركيبية منخفضة وصوت خفيف لمسك الزجاجة"، فسيكون للتوليد هدف أضيق بكثير.
هيكل أمر عملي
استخدم هذا التنسيق لمعظم مهام تحويل النص إلى فيديو والصورة إلى فيديو:
الموضوع: موضوع واحد واضح، منتج، شخصية، أو مشهد.
الحركة: ما يتغير خلال اللقطة.
الكاميرا: حجم اللقطة، الحركة، الزاوية، إحساس العدسة.
الإضاءة والمظهر: وقت اليوم، لوحة الألوان، الواقعية، الملمس.
الصوت: الأجواء، الحوار، الموسيقى، المؤثرات الصوتية، أو الصمت.
القيود: تجنب النصوص، تجنب الأشخاص الإضافيين، اجعل الشعار مقروءًا، لا قطع للمشهد.
مثال:
الموضوع: سكوتر كهربائي أسود غير لامع متوقف خارج بهو مكتب زجاجي.
الحركة: قطرات المطر تتدحرج عبر المقود بينما يضيء المصباح الأمامي.
الكاميرا: زاوية منخفضة 35 ملم مع اقتراب من العجلة الأمامية إلى المصباح، بدون قطع.
الإضاءة والمظهر: الساعة الزرقاء، انعكاسات الرصيف المبلل، إضاءة تجارية واقعية.
الصوت: مطر ناعم في المدينة، مرور بعيد، صوت بدء تشغيل إلكتروني خفيف.
القيود: لا أشخاص، لا نصوص واجهات متاجر مقروءة، حافظ على نسب السكوتر دون تغيير.
كيفية استخدام المراجع دون إرباك النموذج
تكون الصور المرجعية أكثر فاعلية عندما يكون لكل منها وظيفة محددة. لا ترفع خمس صور غير مرتبطة وتتوقع من النموذج أن يستنتج ذوقك.
| الغرض من المرجع | المدخلات الجيدة | تعليمات المطالبة |
|---|---|---|
| هوية الشخصية | صورة شخصية نظيفة من الأمام | "حافظ على نفس الوجه والشعر والملابس." |
| دقة المنتج | صورة المنتج على خلفية بسيطة | "حافظ على الشكل واللون وموضع الملصق والمادة." |
| البيئة | صورة غرفة أو شارع | "استخدم تخطيط الموقع هذا وإضاءة الأجواء هذه." |
| الأسلوب | لقطة ثابتة أو لوحة توجيه فنية | "استخدم هذه اللوحة اللونية والتباين والملمس، وليس الموضوع." |
| جسر الحركة | لقطة البداية والنهاية | "أنشئ انتقالاً مستمراً بين هاتين اللقطتين."" |
تشير وثائق Vertex AI من Google إلى أن Veo يدعم المطالبة، وتوجيه الصور، وتوجيه الإطار الأخير، والصور المرجعية، ونسبة العرض إلى الارتفاع، والمدة، وتوليد الصوت، والمطالبات السلبية، والبذرة، وعناصر التحكم في الدقة عبر النماذج المدعومة. الدرس العملي بسيط: عندما تعرض واجهة المستخدم هذه الإعدادات، احفظها مع المطالبة. وإلا، لن يتمكن الفريق من إعادة إنتاج مقطع ناجح.
حلقة إعادة محاولة توفر الاعتمادات
لا تجعل كل إعادة محاولة مطالبة جديدة كلياً. استخدم حلقة من ثلاث خطوات:
- خطوة التكوين: احصل على الموضوع والتأطير واتجاه الحركة بشكل صحيح. تجاهل العيوب البسيطة.
- خطوة التحكم: غيّر متغيراً أو اثنين، مثل سرعة الكاميرا أو الخلفية.
- خطوة الإنهاء: حسّن الصوت والإضاءة والقص ودقة الإخراج.
بالنسبة للمقاطع القصيرة، أكبر هدر هو تغيير خمسة متغيرات في وقت واحد. لن تستطيع تحديد أي تغيير أصلح النتيجة أو أفسدها. يجب أن يحافظ نظام السجل القابل للاستخدام على المطالبة والنموذج والوضع ونسبة العرض إلى الارتفاع والمدة والدقة وإعداد الصوت والوسائط المرجعية بحيث تبدأ الخطوة التالية من حالة معروفة.
المصادر
- Google: Bringing new Veo 3.1 updates into Flow
- Google: Generate videos with Gemini Apps
- Google Cloud: Veo on Vertex AI video generation API