أطلقت علي بابا Wan2.2، أول نماذج مفتوحة المصدر في المجال لإنشاء مقاطع الفيديو الكبيرة عبر بنية “مزيج الخبراء”، والتي ستعزز بشكل كبير قدرة المبدعين والمطورين على إنتاج مقاطع فيديو سينمائية بنقرة واحدة.
وتضم سلسلة Wan2.2 نموذج تحويل النص إلى فيديو Wan2.2-T2V-A14B، ونموذج تحويل الصورة إلى فيديو Wan2.2-I2V-A14B، والنموذج الهجين Wan2.2-TI2V-5B الذي يدعم مهام تحويل النص إلى فيديو والصورة إلى فيديو ضمن إطار عمل موحد.
ويعتمد النموذجان Wan2.2-T2V-A14B وWan2.2-I2V-A14B على بنية “مزيج الخبراء”، حيث تم تدريبهما على بيانات جمالية منتقاة بعناية لإنتاج مقاطع فيديو بجماليات وجودة سينمائية، مما يتيح للمبدعين تحكمًا دقيقًا في الأبعاد الرئيسية مثل الإضاءة، والوقت، ودرجة اللون، وزاوية الكاميرا، وحجم الإطار، والتركيب، والبعد البؤري، وغيرها.
كما يمتاز نموذجا “مزيج الخبراء” بتحسينات كبيرة في إنتاج حركات معقدة، مثل تعابير وجه حيوية وإيماءات يد ديناميكية وحركات رياضية معقدة. بالإضافة إلى ذلك، يقدم النموذجان تمثيلات واقعية مدعومة بتحسين اتباع التعليمات والالتزام بالقوانين الفيزيائية.
ولمعالجة مشكلة الاستهلاك الحسابي العالي في إنشاء الفيديو بسبب الرموز الطويلة، يطبق Wan2.2-T2V-A14B وWan2.2-I2V-A14B تصميمًا ثنائي الخبير في عملية إزالة الضوضاء في نماذج الانتشار، بما في ذلك خبير عالي الضوضاء يركز على التصميم العام للمشهد، وخبير منخفض الضوضاء لتحسين التفاصيل. ومع أن كلا النموذجين يتضمنان ما مجموعه 27 مليار عامل متغير، إلا أنه يتم تفعيل 14 مليار عامل متغير فقط في كل خطوة، مما يقلل من استهلاك الطاقة الحسابية بنسبة تصل إلى 50%.
وتتضمن Wan2.2 ضبطًا جماليًا دقيقًا من خلال نظام أوامر مستوحى من السينما، يصنف الأبعاد الرئيسية مثل الإضاءة، والتركيب، ودرجة اللون. ويمكّن هذا النهج Wan2.2 من تفسير نوايا المستخدمين الجمالية وإيصالها بدقة أثناء عملية الإنشاء.
ولأجل تحسين قدرات التعميم والتنوع الإبداعي، تم تدريب Wan2.2 على مجموعة بيانات أكبر بكثير، مع زيادة بنسبة 65.6% في بيانات الصور و83.2% في بيانات الفيديو مقارنةً بـ Wan2.1. وتظهر Wan2.2 أداءً محسنًا في إنتاج مشاهد وحركات معقدة، بالإضافة إلى قدرة محسنة على التعبير الفني.
نموذج مدمج لتعزيز الكفاءة وقابلية التوسع
تقدم Wan2.2 أيضًا نموذجها الهجين Wan2.2-TI2V-5B، وهو نموذج كثيف يستخدم بنية VAE ثلاثية الأبعاد عالية الضغط لتحقيق نسبة ضغط زمنية ومكانية تبلغ 4×16×16، مما يرفع معدل ضغط المعلومات الإجمالي إلى 64. ويستطيع TI2V-5B إنشاء فيديو بدقة 720 بكسل مدته 5 ثوانٍ في دقائق معدودة باستخدام وحدة معالجة رسومات واحدة مخصصة للمستهلكين، مما يتيح الكفاءة وقابلية التوسع للمطورين ومنشئي المحتوى.
نماذج Wan2.2 متاحة للتنزيل على Hugging Face وGitHub، بالإضافة إلى مجتمع علي بابا كلاود مفتوح المصدر ModelScope. وبصفتها مساهمًا رئيسيًا في المجتمع العالمي مفتوح المصدر، أطلقت علي بابا أربعة نماذج Wan2.1 مفتوحة المصدر في فبراير عام 2025، ونموذج Wan 2.1-VACE (إنشاء وتحرير الفيديو الشامل) في مايو عام 2025. وحتى الآن، اجتذبت هذه النماذج أكثر من 5.4 مليون عملية تنزيل على Hugging Face وModelScope.