الرئيس التنفيذي
أشرف الحادي

رئيس التحرير
فاطمة مهران

علي بابا كلاود تطلق نموذج لغة الرؤية الكبيرة مفتوح المصدر مع القدرة على فهم الصور

علي بابا كلاود

 أطلقت علي بابا كلاود، الشركة الرئيسية المسؤولة عن التكنولوجيا الرقمية والذكاء في مجموعة علي بابا، نموذجين مفتوحي المصدر للغة الرؤية الكبيرة Qwen-VL وQwen-VL-Chat المعدّل لغايات التحادث. ويمكن للنموذجين فهم الصور والنصوص والمربعات المحددة في الأوامر وتسهيل الإجابة على الأسئلة المتعددة باللغتين الإنجليزية والصينية.

ويعتبر Qwen-VL نسخة متعددة الأوضاع من Qwen-7B، وهو نموذج علي بابا كلاود المؤلف من 7 مليارات عامل متغير لنموذجها اللغوي الكبير Tongyi Qianwen (المتوفر أيضًا على ModelScope كمصدر مفتوح). ويستطيع Qwen-VL، القادر على فهم كل من مدخلات الصور والأوامر النصية باللغتين الإنجليزية والصينية، أداء مهام مختلفة مثل الرد على الاستعلامات المفتوحة بشأن الصور المختلفة وإنشاء تعليقات للصور.

ويقدّم Qwen-VL-Chat تفاعلاً أكثر تعقيدًا، مثل مقارنة مدخلات الصور المتعددة والإجابة على جولات متعددة من الأسئلة. وبالاستفادة من تقنيات المواءمة، يعرض مساعد الذكاء الاصطناعي مجموعة من القدرات الإبداعية، والتي تشمل كتابة الشعر والقصص بناءً على الصور المدخلة، وتلخيص محتوى الصور المتعددة، وحل الأسئلة الحسابية المعروضة في الصور.

المساهمة في المصادر المفتوحة والشمولية

في محاولة لدعم انتشار تقنيات الذكاء الاصطناعي، شاركت علي بابا كلاود كود نظام ترميز النموذج وأوزانه وبياناته الموثقة مع الأكاديميين والباحثين والمؤسسات التجارية في جميع أنحاء العالم. ويمكن الوصول إلى هذه المساهمة في مجتمع المصادر المفتوحة عبر مجتمع نماذج الذكاء الاصطناعي التابع لمجموعة علي بابا ModelScope ومنصة الذكاء الاصطناعي التعاونية Hugging Face. أما بالنسبة للاستخدامات التجارية، يمكن للشركات التي لديها أكثر من 100 مليون مستخدم نشط شهريًا طلب ترخيص من علي بابا كلاود.

ومن الممكن أن يؤدي تقديم هذه النماذج، القادرة على استخلاص المعاني والمعلومات من الصور، إلى إحداث ثورة في التفاعل مع المحتوى المرئي. فمن خلال الاستفادة من مزايا فهم الصور والقدرة على الإجابة على الأسئلة، يمكن للنماذج مثلاً تقديم المساعدة المعلوماتية للمعاقين بصريًا أثناء التسوق عبر الإنترنت في المستقبل.

وقد تم تدريب نموذج Qwen-VL مسبقًا على مجموعات بيانات الصور والنصوص. وبالمقارنة مع غيره من نماذج لغة الرؤية الكبيرة مفتوحة المصدر التي يمكنها معالجة وفهم الصور بدقة 224*224، يمكن لـ Qwen-VL التعامل مع مدخلات الصور بدقة 448*448، مما يؤدي إلى التعرف على الصور وفهمها بشكل أفضل.

واستنادًا إلى مقارنات مرجعية مختلفة، سجّل Qwen-VL أداءً متميزًا في العديد من مهام اللغة المرئية، بما في ذلك إنشاء الشروح التوضيحية، والإجابة على الأسئلة المرئية العامة، والإجابة على الأسئلة المرئية الموجهة نحو النص، واكتشاف الأشياء.

كما حقق Qwen-VL-Chat أيضًا نتائج رائدة باللغتين الصينية والإنجليزية في حوار الصور والنصوص ومستويات التوافق مع البشر، وفقًا لاختبار المقارنة المرجعية من علي بابا كلاود. وشمل هذا الاختبار أكثر من 300 صورة و800 سؤال و27 فئة.

وفي وقت سابق من هذا الشهر، قامت علي بابا كلاود بفتح مصادر نماذجها اللغوية الكبيرة المكونة من 7 مليار عامل متغير Qwen-7B وQwen-7B-Chat في إطار مساهمتها المستمرة في مجتمع المصادر المفتوحة. وقد شهد النموذجان أكثر من 400 ألف عملية تنزيل خلال شهر من إطلاقهما.

أخبار ذات صلة

إنتلسيا تدشّن مقرها الإقليمي الجديد في مصر، وتعزّز رؤيتها الاستراتيجية لجعل البلاد مركزًا رائدًا لخدمات التعهيد متعددة اللغات

مئات المستثمرين يجتمعون في حدث ضخم بدبي لمناقشة العقارات الساحلية

كاسبرسكي تحذر من مخاطر إنشاء صور كرتونية باستخدام الذكاء الاصطناعي

كاسبرسكي تحذر من هجمات تصيد احتيالي تستخدم ملفات (SVG)

انطلاق أعمال المؤتمر الدولي (ICEQ) ضمن “أسبوع دبي للذكاء الاصطناعي”

مايكروسوفت تعزز التزامها بتمكين مليون متعلم في مجال الذكاء الاصطناعي بحلول 2027

وزير الاتصالات يغادر إلى دبى للمشاركة فى فعاليات قمة “الآلات يمكنها أن ترى” Machines Can See 2025

أبرز مواصفات هاتف Redmi Turbo 4 Pro الجديد وسعره في الأسواق

آخر الأخبار
Intelcia Inaugurates New Regional Headquarters in Egypt, Advancing Its Vision to Leverage the Countr... إنتلسيا تدشّن مقرها الإقليمي الجديد في مصر، وتعزّز رؤيتها الاستراتيجية لجعل البلاد مركزًا رائدًا لخد... "مصر الخير" تحتفل بتكريم الفائزين في مسابقة "وسام الخير للمبادرات" في موسمها الثاني اسواق المال السعودية ترتفع في ساعتها الأولى بدعم من "الأهلي" السيارات الصينية تستحوذ على 30% من السوق العالمية مئات المستثمرين يجتمعون في حدث ضخم بدبي لمناقشة العقارات الساحلية Tesla’s Crucial Earnings Day: Can Elon Musk Reverse the 2025 Slump? يوم الأرباح الحاسم لتسلا: هل يستطيع إيلون ماسك قلب مسار التراجع في 2025؟ الاربعاء القادم ...مياه الجيزة : انقطاع مياه الشرب عن منطقة مساكن الضباط بالرماية لمدة 6 ساعات Be a doll: mind cyber security and privacy when creating a fun image of yourself, warns Kaspersky كاسبرسكي تحذر من مخاطر إنشاء صور كرتونية باستخدام الذكاء الاصطناعي Explicit graphic content: Kaspersky warns of phishing attacks through SVG image files كاسبرسكي تحذر من هجمات تصيد احتيالي تستخدم ملفات (SVG) وزير الخارجية والهجرة يلتقى مع رئيس مجلس الشيوخ وزير الزراعة يفتتح ويترأس الدورة الواحدة والثلاثين لمجلس إدارة مرصد الصحراء والساحل في العاصمة التون... رئيس الوزراء يتابع مع وزير قطاع الأعمال العام آخر مستجدات مشروعات تطوير صناعة الغزل والنسيج المستشار محمود فوزي: قانون العمال الجديد جاء نتيجة جهود كبيرة امتدت لأشهر وسنوات وزيرة التنمية المحلية تلتقي رئيس لجنة المشروعات الصغيرة والمتوسطة بمجلس النواب بنك مصر يستثمر في صندوق "سي ثري كابيتال 1" Pearson and The British Council Honour Top-Performing Learners at This Year’s Outstanding Pearson Le...