تطوّر شركة Apple مساعدًا ذكائيًا خاصًا بها للـ iPhone، قادر على تشغيل التطبيقات بدلاً من المستخدم
تطوّر شركة أبل وكيل ذكاء اصطناعي محلي مدمج للتعامل مع واجهات المستخدم
أعملت أبل على خوارزمية جديدة – Ferret‑UI Lite، قادرة على «فهم» واجهات التطبيقات والتفاعل معها نيابةً عن المستخدم، وكل ذلك يحدث على الجهاز نفسه. النموذج يحتوي على 3 مليارات معلمة ويظهر في الاختبارات نتائج قابلة للمقارنة أو حتى تتجاوز النماذج الكبيرة التي يزيد حجمها بـ24 مرة.
أصول المشروع
في ديسمبر 2023، نشر فريق من تسعة باحثين عملًا بعنوان FERRET: Refer and Ground Anything Anywhere at Any Granularity. قدمت فيه نموذج لغة متعدد الوسائط يتعلم على أنواع مختلفة من البيانات ويستطيع ربط الأوصاف النصية بأجزاء محددة من الصورة.
منذ ذلك الحين وسّعت أبل عائلة نماذج Ferret:
| النموذج | الغرض |
|---|---|
| Ferretv2 | نموذج أساسي محسن |
| Ferret‑UI | MLLM متخصص لواجهات الهواتف المحمولة |
| Ferret‑UI 2 | دعم منصات متعددة ودقة أعلى |
يحل Ferret‑UI بشكل خاص إحدى مشكلات نماذج اللغة الكبيرة المتعددة الوسائط الحديثة (MLLM): ضعفها في التعرف على عناصر UI. يضيف النموذج «دقة عشوائية» فوق Ferret، مما يزيد تفصيل الصور ويستفيد من مؤشرات بصرية محسّنة.
إنجازات جديدة
أعلنت أبل مؤخرًا عن نسختين إضافيتين:
1. Ferret‑UI Lite – نموذج خفيف الوزن بـ3 مليارات معلمة، مُحسّن للتشغيل المحلي على الأجهزة المحمولة.
2. Ferret‑UI 2 – نسخة موسعة تدعم منصات متعددة ودقة أعلى لللقطات الشاشة.
الاختلاف الأساسي بين Ferret‑UI Lite والنماذج الخادمة الكبيرة هو أنه يحافظ على التنافسية مع تقليل متطلبات الحوسبة بشكل كبير.
لماذا هذا مهم
معظم وكلاء واجهة المستخدم الحاليين يعتمدون على نماذج أساسية ضخمة، لأن قدراتهم القوية في الاستدلال والتخطيط تمكنهم من تحقيق نتائج متميزة في التنقل عبر الواجهات الرسومية. ومع ذلك، هذه النماذج ثقيلة جدًا لتشغيلها مباشرةً على الجهاز.
يحل Ferret‑UI Lite المشكلة بدمج:
- مكونات رئيسية وأفكار متعددة من تدريب نماذج LLM الصغيرة؛
- بيانات حقيقية وتوليد اصطناعية من مجالات GUI مختلفة؛
- تقنيات اقتصاص ديناميكي وتحسين جودة تجزئة الواجهة؛
- ضبط دقيق مُراقب والتعلم المعزز.
نتيجةً لذلك، تم الحصول على نموذج يساوي تقريبًا أو يتفوق على وكلاء واجهة المستخدم الأكبر في مهام الربط منخفض المستوى مع عناصر UI، وفهم ما يحدث على الشاشة، والتخطيط متعدد الخطوات، والتحليل الذاتي.
التعليقات (0)
شارك أفكارك — يرجى الالتزام بالأدب والبقاء ضمن الموضوع.
سجّل الدخول للتعليق