خفضت جوجل استهلاك الذاكرة لنماذج الذكاء الاصطناعي ستة أضعاف مع الحفاظ على الدقة، بفضل خوارزمية TurboQuant

09.04.2026 8 hardware

ملخص مختصر

قدمت Google Research طريقة جديدة لضغط ذاكرة KV للمدل الكبير اللغوي – TurboQuant. يقلل الخوارزمية دقة الذاكرة إلى 3 بت (4 بت إذا أضيف تصحيح الأخطاء)، دون تقليل الدقة ولا يتطلب تدريبًا إضافيًا. على معالجات Nvidia H100 زادت TurboQuant أداء حساب لوجيت الانتباه بمقدار 8 مرات وخفضت حجم ذاكرة KV ستة مرات.

ما هو ذاكرة KV ولماذا هي مهمة
* تخزن ذاكرة KV المفاتيح (K) والقيم (V) التي تم الحصول عليها أثناء حساب آلية الانتباه.
هذا يسمح للنموذج بعدم إعادة حسابها في كل خطوة لتوليد الرموز.
* مع زيادة نافذة السياق، تنمو الذاكرة أُسّيًا، ما يؤدي إلى استهلاك كبير للذاكرة.
* تقنيات الكوانتة التقليدية تقلل حجم الذاكرة لكنها تتطلب تخزين ثوابت الكوانتة (قاموسات) مشابهة لZIP/RAR.
هذه القواميس تخلق تكاليف إضافية كبيرة.

كيف يعمل TurboQuant
يتكون TurboQuant من مرحلتين ويقضي تمامًا على القواميس.
1. PolarQuant: تحويل المتجهات من الإحداثيات الديكارتية إلى القطبية (نصف قطر + زاوية). التوزيعات الزاويّة متوقعة ومركّزة، لذا لا حاجة لمرحلة تطبيع مكلفة لكل كتلة. ينتج ضغط عالي الجودة بدون قواميس.
2. طبقة تصحيح الأخطاء ذات البت الواحد: يُطبق خوارزمية Johnson‑Lindenstrauss المُكمَّنة؛ تُقلل الخطأ المتبقي إلى بت واحد فقط. يزيل الانحراف المنهجي في حسابات الانتباه مع تكاليف إضافية ضئيلة.

النتائج العملية
اختبار | الخوارزميات | النتائج
LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, L‑Eval (Gemma & Mistral) | TurboQuant vs KIVI | TurboQuant: ضغط ذاكرة KV على الأقل 6 مرات؛ في مهام البحث عن «العنقود في كومة القش» – بدون فقدان الدقة. في LongBench – لا أسوأ وأحيانًا أفضل من KIVI.
البحث المتجه (GloVe) | TurboQuant vs Product Quantization, RabbiQ | حتى دون تدريب، تجاوز TurboQuant المنافسين المدربين في جودة النتائج واستهلاك الذاكرة.

الاستنتاجات
* يحقق TurboQuant ضغطًا قويًا لذاكرة KV إلى 3–4 بت بدون فقدان الدقة ودون تدريب إضافي.
* زادت الأداء على Nvidia H100 بمقدار 8 مرات، وانخفض حجم الذاكرة ستة مرات.
* يعمل الخوارزمية مع النماذج اللغوية الكبيرة ومهام البحث المتجه دون الحاجة لضبط دقيق.

وبالتالي، فإن TurboQuant جاهز للاستخدام العملي حتى تحت أحمال عالية ويفتح آفاقًا جديدة للعمل الفعال مع النماذج الكبيرة.

خفضت جوجل استهلاك الذاكرة لنماذج الذكاء الاصطناعي ستة أضعاف مع الحفاظ على الدقة، بفضل خوارزمية TurboQuant

Related news

قد يبدو Apple‑Car هكذا: تُظهر فيراري داخلية السيارة الكهربائية لوس، التي طورتها جوني إم آيف.

تجاوز مبيعات Mortal Kombat 1 ثمانية ملايين نسخة، لكن الرقم القياسي للعبة السابقة لا يزال بعيدًا عن الوصول إليها

قامت تسلا بإطلاق حملة ضد طرق “خادعة” لتفعيل نظام القيادة الذاتية في المناطق التي يُحظر فيها استخدامها.

بفضل نمو الذكاء الاصطناعي، سيزداد الطلب على الذاكرة وفقًا لتقدير رئيس شركة ديل أكثر من ست مائة مرة خلال خمس سنوات

التعليقات (0)

سجّل الدخول للتعليق