مجموعة أندوثريبك كلود من 16 وكيل ذكاء اصطناعي أنشأت بمفردها مترجم لغة سي.
في إطار تجربة، جمعت شركة Anthropic مجموعة من 16 وكيل ذكاء اصطناعي مستقلين، الذين قاموا معًا من الصفر بإنشاء مترجم للغة C باستخدام Rust. النتيجة هي تنفيذ "نقي" يستطيع تجميع نواة Linux 6.19 وتكوين مشاريع مثل PostgreSQL و SQLite و Redis و FFmpeg و QEMU، لكنه يظل في كثير من الجوانب متخلفًا عن GCC من حيث الجودة والكفاءة.
كيف تم ذلك
المرحلة | ما حدث
الإعداد | تم تشغيل 16 نسخة من نموذج Claude Opus 4.6 داخل حاويات Docker منفصلة بدون وصول إلى الإنترنت. كل واحدة منها تقوم بعمل clone لمستودع Git المشترك وتستلم المهام عبر ملفات lock.
التخطيط الذاتي | لا يوجد منسق مركزي: يحدد كل وكيل بنفسه أي جزء "واضح" للعمل عليه بعد ذلك. عند وجود تعارض في الدمج، يتم دمج الكود تلقائيًا.
التطوير | تم تكليف الوكلاء بكتابة مترجم C بالكامل من الصفر. استغرقت العملية أسبوعين وتطلبت ما يقرب من 2000 جلسة Claude Code.
الاختبار | لتجنب "إغراق" سياق النموذج بطلبات طويلة، تُشغل الاختبارات في وضع ملخص (بضع أسطر فقط من الإخراج). وللتسريع، تم إضافة وضع معالجة سريع يغطي 1–10٪ من الاختبارات.
المنتج النهائي
* الحجم – حوالي 100 000 سطر كود Rust.
* الوظائف – يمكنه تجميع نواة Linux 6.19 على x86 و ARM و RISC‑V؛ يترجم PostgreSQL، SQLite، Redis، FFmpeg، QEMU؛ يمر بنحو 99٪ من اختبارات GCC.
* القيود – لا يولد كودًا مشغولًا بـ16 بت (لتشغيل Linux يلزم GCC)، يعمل المسمّع والربط مع أخطاء، وأداء الكود أقل من GCC. جودة كود Rust المصدر تترك الكثير للباحث مقارنة بعمل مبرمج محترف.
تكلفة التجربة
المؤشر | التكلفة
الرموز | Claude API ~\$20,000
التكاليف الإضافية (تدريب النموذج، تنظيم المشروع، مجموعات الاختبار) | غير مشمولة في المبلغ المذكور
الدروس والاستنتاجات
1. حد الاستقلالية – مع نمو الكود إلى حوالي 100,000 سطر، يتوقف الوكلاء عن فهم المشروع بالكامل؛ يبدو أن هذا هو الحد الأعلى للذكاء الاصطناعي المستقل.
2. الحاجة للدعم – محاولات توسيع الوظائف غالبًا ما كانت تُحطم الأجزاء التي تعمل بالفعل من الكود.
3. أهمية بيئة التطوير – العزل عن الإنترنت والإعداد الصحيح للاختبارات كان حاسمًا لعمل الوكلاء بثبات.
الاستنتاج
تُظهر التجربة أن نماذج الذكاء الاصطناعي الحديثة قادرة على توليد أنظمة برمجية معقدة بمراقبة قليلة. ومع ذلك، لا تزال غير قادرة على استبدال المطورين ذوي الخبرة بالكامل: جودة الكود، الأداء والموثوقية تبقى أقل من المترجمات التقليدية، ويقتصر نطاق المشروع إلى مئات الآلاف من الأسطر. هذه خطوة مهمة للأمام لكنها بعيدة عن التطوير الكامل للبرمجيات بشكل مستقل.
التعليقات (0)
شارك أفكارك — يرجى الالتزام بالأدب والبقاء ضمن الموضوع.
سجّل الدخول للتعليق