“علي بابا” تطلق نموذجاً ذكياً يولد استجابات نصية وصوتية بشكل لحظي

كشفت مجموعة “علي بابا” (Alibaba) الصينية عن نموذجها الأحدث للذكاء الاصطناعي Qwen2.5-Omni-7B، والذي يتمتع بقدرات متعددة الوسائط، إذ يستطيع معالجة النصوص والصور والمقاطع الصوتية والفيديوهات، إلى جانب توليد استجابات نصية وصوتية طبيعية بشكل لحظي.

وقالت الشركة، عبر صفحة النموذج الرسمية على موقع Hugging Face، إن النموذج الجديد مصمم للعمل بكفاءة عالية حتى على الأجهزة الطرفية مثل الهواتف المحمولة، دون أن يؤثر ذلك في أدائه، ما يجعله خياراً مثالياً لتطوير وكلاء ذكاء اصطناعي مرنين ومنخفضي التكلفة، خاصة في التطبيقات الصوتية الذكية.

وضربت الشركة مثالاً على ذلك باستخدام هذا النموذج لمساعدة الأشخاص المكفوفين، من خلال تقديم أوصاف صوتية لما تراه كاميرا هواتفهم الذكية، مما يُمكّنهم من التنقل في محيطهم بسهولة.

معمارية فريدة

يقوم النموذج الجديد على معمارية مبتكرة تُعرف باسم Thinker-Talker، وهي مصممة للعمل كنظام شامل يتعامل مع وسائط متعددة، تشمل النصوص والصور والصوت والفيديوهات، ويُنتج استجابات نصية وصوتية في الوقت نفسه بشكل لحظي.

وقدمت الشركة تقنية جديدة ضمن هذا النموذج تُسمى TMRoPE اختصاراً لـ(Time-aligned Multimodal RoPE)، وهي طريقة لتضمين المواضع الزمنية داخل النموذج تساعد على مزامنة توقيتات عرض المحتوى المصور مع الإشارات الصوتية، مما يجعل التجربة أكثر واقعية.

ويتيح هذا التصميم للنموذج دعم محادثات صوتية ومرئية لحظية، مع استجابة آنية فور تلقّي البيانات والمدخلات المعلوماتية من المستخدم، ما يجعله مناسباً للتطبيقات التفاعلية عالية السرعة، الترجمة الصوتية أو النصية الفورية، وكذلك طرح أسئلة بشأن العالم المحيط بالمستخدم، وذلك من الممكن أن يكون عبر كاميرا الهاتف لجمع بيانات عن محيط المستخدم ليقدم إجابات ومعلومات دقيقة.

يتميّز النموذج بقدرته الكبيرة على توليد إجابات بنبرة صوتية أقرب للطبيعية؛ ما يجعل التجربة أكثر موثوقية وراحة في التعامل اليومي للمستخدمين.

كما أظهر نموذج Qwen2.5-Omni-7B الجديد أداء قوياً عند اختباره على وسائط مختلفة، إذ فاق في قدراته الصوتية أداء نموذج Qwen2-Audio المماثل له بالحجم، وحقق نتائج مقاربة لنموذج Qwen2.5-VL-7B المتخصص في الوسائط المتعددة.

وأثبت النموذج قدرة متميزة في تنفيذ التعليمات المنطوقة بالكفاءة نفسها في التعامل مع التعليمات النصية، وفق ما أظهرته نتائج اختباراته على مؤشرات تقييم عالمية مثل MMLU وGSM8K.

استراتيجية متعددة المستويات

يُعد إطلاق هذا النموذج جزءاً من استراتيجية أوسع لـ”علي بابا” في مجال الذكاء الاصطناعي، إذ أعلنت الشركة في فبراير الماضي عن خطة استثمارية ضخمة بقيمة 53 مليار دولار، سيتم ضخها خلال السنوات الثلاث المقبلة في البنية التحتية للحوسبة السحابية وتقنيات الذكاء الاصطناعي، وهو ما يتجاوز إجمالي استثماراتها في هذا القطاع خلال العقد الماضي.

وفي خطوة تعكس ثقلها في السوق، أعلنت “علي بابا” مؤخراً عن شراكة مع أبل لدمج تقنيات الذكاء الاصطناعي في هواتف iPhone المخصصة للمستهلكين في السوق الصينية.

كما أعلنت عن توسيع تعاونها مع شركة BMW بهدف تسريع إدماج تقنيات الذكاء الاصطناعي الخاصة بها في الجيل الجديد من السيارات الذكية.

ويأتي هذا الإعلان في ظل زخم متزايد في مجال الذكاء الاصطناعي بالصين، بعد ما أصبح يُعرف بـ”لحظة DeepSeek”، إذ تسارع الشركات الكبرى في البلاد، مثل “علي بابا”، إلى طرح نماذج ومنتجات جديدة بمعدلات غير مسبوقة، تجمع بين الكفاءة العالية والتكلفة المنخفضة.

وتم إطلاق نموذج Qwen2.5-Omni-7B رسمياً عبر منصة “علي بابا كلاود”، مع التأكيد على أنه متاح كمصدر مفتوح عبر منصتي GitHub وHugging Face، تماشياً مع توجّه الشركات الصينية لمشاركة نماذجها البرمجية بعد نجاح النموذج المفتوح المصدر R1 الذي قدمته DeepSeek.

“نماذج ترى”

يُذكر أن دخول “علي بابا” إلى سوق النماذج الذكية القادرة على تقديم تفاعلات لحظية مع أشكال مختلفة من المحتوى، يجعلها تدخل منافسة قوية أمام OpenAI، والتي قدمت لمنصتها ChatGPT رؤية حقيقية في ديسمبر الماضي، حيث تسمح للمستخدمين بإمكانية مشاركة الشاشة Screen Sharing، وكذلك Live Video، بحيث يمكن للمستخدم طرح أسئلة صوتياً بشأن ما تراه كاميرا هاتفه أو كذلك المحتوى المعروض على الشاشة.

فيما تستعد شركة “جوجل” أيضاً لدخول هذا المجال من خلال ميزتها المنتظرة Pixel Sense، والتي كانت تُعرف سابقاً داخلياً باسم Pixie، والمتوقع وصولها مع هاتف الشركة القادم بيكسل.

المصدر: الشرق