يفتح معهد النماذج التأسيسية في جامعة محمد بن زايد للذكاء الاصطناعي آفاقاً جديدة في مجال أدوات الذكاء الاصطناعي التوليدي، إذ يحرص الباحثون فيه على تطوير نماذج لغوية متخصصة ومتعددة الوسائط تُعتبر الأولى من نوعها في العالم.
هذا وقد تم إطلاق المعهد العام الماضي ليكون مركزاً يتيح لكبار العلماء والمهندسين والمتخصصين في مجال الذكاء الاصطناعي تطوير نماذج واسعة النطاق يمكن استخدامها في مجالات متعددة وتتميز بفعاليتها، فيما تتمتع بالقدرة على التكيّف مع مجموعة واسعة من التطبيقات المستدامة. وقد حصدت جامعة محمد بن زايد للذكاء الاصطناعي شهرة عالمية نظراً إلى خبرتها في هذا المجال، لاسيما بعد نجاحها في إطلاق نموذج “جيس”، وهو النموذج اللغوي الكبير للغة العربية الأعلى جودة في العالم، بالشراكة مع مجموعة “جي 42” وشركة “سيريبراس سيستمز”، ونموذج “فيكونا”، وهو نموذج مستدام عمل على إطلاقه المركز بالتعاون مع مجموعة من الجامعات.
الجدير بالذكر أن إطلاق النماذج الخمسة الجديدة يُعد محطة مفصلية في مسيرة المعهد والباحثين في الجامعة. وتنقسم نماذج “بايميدكس” و”بالو” و”جلام إم” و”جيوتشات” و”موبايل لاما” إلى نماذج لغوية صغيرة، وكبيرة، ونماذج كبيرة متعددة الوسائط تستخدم التعلّم متعدد الوسائط لمعالجة البيانات وتحليلها من وسائط أو مصادر متعددة تتخطى حدود النصوص لتشمل المقاطع الصوتية والصور، مع التركيز بشكل خاص على قدرات هذه النماذج في اللغة العربية.
يُذكر أن الباحثون قد صمموا النماذج الخمسة لإحداث تأثير إيجابي على أرض الواقع في مجال الرعاية الصحية، والاستدلال البصري التفصيلي، والقدرات متعددة الوسائط متعددة اللغات، والاستدلال متعدد الوسائط للمجال الجغرافي المكاني، والنماذج اللغوية الكبيرة الفعّالة على الأجهزة المحمولة. وقد طوّر المركز هذه النماذج بناءً على أبحاث مكثفة أجراها أعضاء الهيئة التدريسية والباحثون والطلاب في الجامعة.
تعليقاً على هذه الإنجازات، قال البروفيسور تيموثي بالدوين، عميد الجامعة بالإنابة، وأستاذ معالجة اللغة الطبيعية: “تُبرِز هذه النماذج قدرة معهد النماذج التأسيسية على تحويل الأبحاث المتطورة إلى تطبيقات تتيح استخدام هذه التقنيات في المجتمع بطرق جديدة. من خلال تخطي القيود التي تفرضها نماذج البيانات المنفردة، وتقديم تطبيقات عديدة يمكن استخدامها في مختلف القطاعات، من شأن تصميم النماذج متعددة الوسائط أن يلبي احتياجات محددة في قطاعات معيّنة. ويأتي هذا النهج في إطار رؤية الجامعة التي تقوم على التميّز في توليد المعرفة ونقلها ونشر الذكاء الاصطناعي لتعزيز النمو الاقتصادي، وترسيخ مكانة أبوظبي كمركز عالمي للذكاء الاصطناعي.”
في ظل تزايد الطلب على تطبيقات الذكاء الاصطناعي في مجال الرعاية الصحية، يُعد نموذج”BiMediX“ (بايميدكس) أول نموذج لغوي كبير ثنائي اللغة في العالم مخصص للقطاع الطبي يتفوق على العديد من الأنظمة المُستخدمة باللغتين الإنجليزية والعربية، بما في ذلك اختبارات المجالس الطبية. ومن الممكن استخدام هذا النموذج بطرق مبتكرة، مثل مساعدي الرعاية الصحية الافتراضيين، وتقديم الخدمات الطبية عن بعد، وتلخيص التقارير الطبية، وتشخيص الأعراض السريرية، والبحث الطبي، وتقديم الاستشارات والدعم في مجال الصحة النفسية، ووضع الأنظمة الغذائية، وتحسين نمط الحياة.
أما نموذج”GLaMM“ (جلام إم)، فهو أول نموذج كبير متعدد الوسائط قادر على توليد استجابات لغوية طبيعية ترتبط بالأجسام التي تَرِد في الصور على مستوى البيكسل. إذ يُعتبر أفضل وأكثر تفصيلاً من الشرح الآلي للصور والاستدلال والقدرة على تبديل الأجسام في الصور. كما من الممكن الاستفادة من هذا النموذج في العديد من القطاعات، مثل التجارة الإلكترونية والأزياء والمدن الآمنة والذكية وتجارة التجزئة المنزلية. ولا بد من الإشارة إلى أنه تمت الموافقة على نشر البحث الخاص بهذا النموذج في مؤتمر الرؤية الحاسوبية والتعرف إلى الأنماط للعام 2024.
ويُعَد نموذج “PALO” (بالو) أول نموذج كبير متعدد الوسائط في العالم يشمل قدرات الاستدلال البصري بعشر لغات رئيسية، تشمل الإنجليزية والصينية والهندية والإسبانية والفرنسية والعربية والبنغالية والروسية والأوردو واليابانية. ويضمن هذا النموذج مستوىً عالياً من الدقة على الصعيد اللغوي، حتى عند استخدام اللغات محدودة الموارد، مثل الأوردو أو البنغالية، ليتيح بذلك لثلثي سكان العالم الاستفادة منه ويساهم في توفير إمكانيات الذكاء الاصطناعية لعدد أكبر من الأشخاص. يُذكر أنه يمكن استخدام هذا النموذج في العديد من التطبيقات، بدءاً من مراقبة المحاصيل الزراعية، مروراً برصد الحياة البرية، ووصولاً إلى المساعدة في مهام البحث والإنقاذ.
أما نموذج”GeoChat” (جيوتشات)، فهو أول نموذج لغوي أرضي كبير على مستوى العالم مصمم خصيصاً لحالات الاستشعار عن بعد. فعلى عكس النماذج العامة، يتميّز هذا النموذج بالتعامل مع الصور عالية الدقة التي يتم التقاطها عبر الاستشعار عن بعد باستخدام الاستدلال على مستوى المنطقة لتفسير المشهد من منظور شامل. وقد أثبت النموذج أداءً متميزاً من خلال الاستفادة من مجموعة بيانات جديدة متعددة الوسائط أُنشئت للاستشعار عن بعد، وذلك من دون تدريب مسبق على مختلف مهام الاستشعار عن بعد، بما في ذلك تسمية الصور والمناطق، والإجابة عن الأسئلة المرئية، وتصنيف المشاهد، والمحادثات المبنية على الرؤية، والتعبير بناءً على الأجسام المكتشفة. هذا ووافق مؤتمر الرؤية الحاسوبية والتعرف على الأنماط الذي ينظمه معهد مهندسي الكهرباء والإلكترونيات للعام 2024 على نشر البحث الخاص بهذا النموذج الذي يتمتع بتطبيقات واسعة النطاق في المراقبة الذكية لسطح الأرض، ومراقبة المناخ، وغيرها من التطبيقات في مجال التخطيط العمراني المستدام.
وأخيراً، تجدر الإشارة إلى نموذج”MobiLLaMA“ (موبايل لاما)، وهو نموذج لغوي صغير مفتوح المصدر خفيف الوزن يتمتع بفعالية كبيرة ويمكن استخدامه على الأجهزة محدودة الموارد، مثل الهواتف الذكية والأجهزة اللوحية. ويستخدم هذا النموذج نموذج مشاركة مَعلَمات مبتكر للحد من تكاليف الحوسبة التي تسبق عملية التدريب، والبصمة التي تتركها ذاكرة التطبيق، وتكاليف نشره، إلى جانب امتلاكه لقدرات متعددة الوسائط. هذا ويُتاح للمستخدمين الوصول إلى النموذج إلى جانب بيانات التدريب الكاملة كجزء من مبادرة LLM360 ، فضلاً عن نقاط التحقق الوسيطة، ورموز التدريب والتقييم، وطرق استخدامه على الأجهزة المحمولة.