«شاومي» تكشف أول نموذج روبوتات كبيرة بقدرات بصرية ولغوية متقدمة وتضم 4.7 مليار معلمة

فنتيك جيت :وكالات 

أعلنت شركة شاومي دخولها رسمياً سباق الروبوتات المتقدمة، عبر إطلاق نموذجها الأول للروبوتات الكبيرة تحت اسم Xiaomi-Robotics-0، في خطوة تعكس توسع الشركة الصينية في تقنيات الذكاء الاصطناعي المدمجة بالأنظمة الفيزيائية.

وكشفت الشركة أن النموذج الجديد يضم 4.7 مليار معلمة، ويجمع بين الفهم البصري واللغوي والقدرة على تنفيذ الحركات بدقة في العالم الواقعي، مستهدفاً ما يُعرف بـ”الذكاء الفيزيائي”، أي دمج الإدراك الحسي مع الأداء الحركي في بيئات حقيقية.

ويعتمد Robotics-0 على معمارية Mixture-of-Transformers (MoT)، وينقسم إلى مكونين رئيسيين يعملان بشكل تكاملي. يتمثل المكون الأول في نموذج بصري لغوي (VLM) يُعد بمثابة “دماغ” الروبوت، إذ يفسر التعليمات البشرية – حتى غير الواضحة منها – ويعالج مهام مثل التعرف على الأشياء، والإجابة عن الأسئلة البصرية، وتنفيذ عمليات التفكير المنطقي. فعلى سبيل المثال، يستطيع الروبوت فهم أوامر مثل “قم بطيّ المنشفة” دون الحاجة إلى تعليمات تفصيلية دقيقة.

أما المكون الثاني فهو ما يُعرف بـ”خبير الحركة”، ويعتمد على نموذج Diffusion Transformer (DiT) متعدد الطبقات، ويعمل على توليد تسلسلات حركية متناسقة تُعرف باسم “Action Chunks” ، ما يسمح بتنفيذ حركات سلسة ومتتابعة باستخدام تقنيات مطابقة التدفق (flow-matching). وتم تصميم هذا النظام للحفاظ على دقة الأداء الحركي دون التأثير على القدرات الإدراكية للنموذج.

وفي إطار التدريب، تم تطوير النموذج باستخدام بيانات متعددة الوسائط تشمل الصور والحركة في آنٍ واحد، لتفادي فقدان القدرة على الفهم أثناء تعلم المهارات الحركية. كما تم دمج آلية تُعرف بـ”Action Proposal”، تتيح للنموذج البصري اللغوي التنبؤ بتوزيعات الحركات الممكنة أثناء تحليل المدخلات البصرية، قبل أن يتولى نموذج DiT توليد تسلسل الحركة بدقة انطلاقاً من بيانات ضوضائية أولية.

ولخفض زمن الاستجابة، استخدمت الشركة تقنيات Inference Asynchronous إلى جانب ما يُسمى بـ”Clean Action Prefix”، بهدف الحفاظ على استقرار الحركة وسلاستها أثناء التنفيذ. كما اعتمد النموذج على قناع انتباه خاص يُعرف بـ”Λ-shaped attention mask”، يركز على المدخلات البصرية الحالية بدلاً من الاعتماد المفرط على الحالات السابقة، ما يعزز التفاعل اللحظي مع البيئة.

وعلى مستوى الأداء، سجل Robotics-0 نتائج متقدمة في عدد من بيئات المحاكاة الشهيرة مثل LIBERO وCALVIN وSimplerEnv، متفوقاً على نحو 30 نموذجاً منافساً. وفي الاختبارات الواقعية، تم تشغيل النموذج على روبوت ثنائي الذراعين، حيث أظهر تنسيقاً دقيقاً بين الرؤية والحركة في مهام طويلة ومعقدة، مثل طيّ المناشف، وترتيب المكعبات، والتعامل مع أجسام صلبة ومرنة دون أخطاء ملحوظة.

وأبرزت النتائج قدرة النموذج على الحفاظ على كفاءته البصرية واللغوية حتى بعد تدريبه على المهارات الحركية، وهي نقطة ضعف عانت منها أنظمة سابقة فقدت جزءاً من قدراتها الإدراكية بعد التركيز على التعلم الحركي.

ويمثل إطلاق Xiaomi-Robotics-0 تحولاً استراتيجياً في مسار شاومي، التي كانت معروفة أساساً بالإلكترونيات الاستهلاكية والهواتف الذكية، إذ يضعها هذا التطور ضمن الشركات المنخرطة في أبحاث الروبوتات الكبيرة ودمج الذكاء الاصطناعي في التطبيقات الفيزيائية الواقعية.

وتأتي هذه الخطوة في ظل تصاعد المنافسة العالمية في مجال روبوتات الذكاء الاصطناعي، مع توجه متزايد نحو تطوير أنظمة قادرة على الفهم والتنفيذ في آنٍ واحد، بما يمهد الطريق لاستخدامات صناعية وخدمية أكثر تطوراً خلال السنوات المقبلة.

 

روابط ذات صلة:

«شاومي» تطرح سلسلة «REDMI Note 15 Series» رسميًا في السوق المصرية بأداء قوي وتقنيات متقدمة وسعر منافس