صنعت شركة شاومي نموذج ذكاء اصطناعي يضم 4.7 مليار معلمة، يجمع بين الإدراك البصري والكلام والتحكم للروبوتات.

صنعت شركة شاومي نموذج ذكاء اصطناعي يضم 4.7 مليار معلمة، يجمع بين الإدراك البصري والكلام والتحكم للروبوتات.

9 hardware

تدخل شاومي إلى سوق الروبوتات

أعلنت الشركة الصينية العملاقة في مجال الأجهزة المحمولة والمنزل الذكي، المعروفة باسم شاومي، خطوة جديدة: تطوير نموذج ذكاء اصطناعي خاص بالروبوتات. قدمت الشركة نظام Xiaomi‑Robotics‑0، وهو نظام مفتوح المصدر يجمع بين التعرف البصري وفهم اللغة والتحكم الفوري في الأفعال. يحتوي النموذج على 4.7 مليار معلمة وقد حطم عدة أرقام قياسية سواء في المحاكاة أو الواقع العملي.

كيف يعمل النموذج
عادةً ما يمر الروبوت بدورة «الإدراك → القرار → الفعل». يوازن Xiaomi‑Robotics‑0 بين فهم واسع للموقف وتحكم دقيق في الحركة بفضل بنية Mixture‑of‑Transformers (MoT).

1. نموذج بصري-لغوي (VLM) – “دماغ” النظام.
* مُدرّب على تفسير الأوامر حتى المبعثرة (“من فضلك، اطوِ المنشفة”).
* يفهم العلاقات المكانيّة استناداً إلى صور عالية الجودة.
* المهام: اكتشاف الكائنات، الإجابة على الأسئلة البصرية والتفكير المنطقي.

2. خبير الفعل (Action Expert) – مولد الحركات.
* مبني على محول انتشار (DiT).
* لا يولّد فعلًا واحدًا في كل مرة؛ يُنشئ تسلسلًا من الأفعال عبر مطابقة التدفقات، مما يضمن السلاسة والدقة.

التعلم دون فقدان الفهم
يفقد النماذج البصرية-اللغوية التقليدية جزءًا من مهارات الإدراك عند تدريبها على المهام الفيزيائية. حلت شاومي هذه المشكلة بتدريب النموذج على بيانات متعددة الوسائط (صور + نص) وبيانات الأفعال في آن واحد. يتكون عملية التدريب من عدة مراحل:

1. اقتراح الأفعال – يتنبأ VLM بالتوزيعات المحتملة للأفعال عبر الصور، موائمًا التمثيل الداخلي مع العمليات الحقيقية.
2. بعد ذلك يُعطَّى VLM «إيقاف التشغيل»، ويُدرّب DiT على توليد تسلسلات دقيقة من الضوضاء، مستندًا إلى السمات الرئيسية وليس رموز اللغة.

تقليل التأخير
للتخلص من التوقف بين توقعات النموذج والحركات الحقيقية للروبوت، تم استخدام إخراج غير متزامن: تُفصل حسابات الذكاء الاصطناعي عن أفعال الروبوت. يتيح ذلك للروبوت التحرك بشكل مستمر حتى عند الحاجة لحساب إضافي.

* Clean Action Prefix – طريقة لإعادة الفعل المتوقع مسبقًا، مما يضمن السلاسة دون انزلاقات.
* قناع الانتباه يركز على السلسلة البصرية الحالية، متجاهلًا الحالات السابقة، ما يجعل الروبوت أكثر استجابة للتغييرات المفاجئة في البيئة.

النتائج
في بيئات المحاكاة LIBERO وCALVIN وSimplerEnv تفوق Xiaomi‑Robotics‑0 نحو 30 منافسًا. على روبوت حقيقي مزود بمدعوينين، نجح النموذج في مهام معقدة: طي المناشف، تفكيك البنائية. أظهر الروبوت تنسيقًا ثابتًا بين اليد والعين، ويتعامل بكفاءة متساوية مع الكائنات في سيناريوهات مختلفة.

بهذا، لم توسّع شاومي محفظتها فقط، بل أسست أيضًا قاعدة للبحوث المستقبلية في مجال «الذكاء الفيزيائي» للروبوتات.

التعليقات (0)

شارك أفكارك — يرجى الالتزام بالأدب والبقاء ضمن الموضوع.

لا توجد تعليقات بعد. اترك تعليقًا وشارك رأيك!

لترك تعليق، يرجى تسجيل الدخول.

سجّل الدخول للتعليق