خفضت جوجل استهلاك الذاكرة لنماذج الذكاء الاصطناعي ستة أضعاف مع الحفاظ على الدقة، بفضل خوارزمية TurboQuant

خفضت جوجل استهلاك الذاكرة لنماذج الذكاء الاصطناعي ستة أضعاف مع الحفاظ على الدقة، بفضل خوارزمية TurboQuant

8 hardware

ملخص مختصر

قدمت Google Research طريقة جديدة لضغط ذاكرة KV للمدل الكبير اللغوي – TurboQuant. يقلل الخوارزمية دقة الذاكرة إلى 3 بت (4 بت إذا أضيف تصحيح الأخطاء)، دون تقليل الدقة ولا يتطلب تدريبًا إضافيًا. على معالجات Nvidia H100 زادت TurboQuant أداء حساب لوجيت الانتباه بمقدار 8 مرات وخفضت حجم ذاكرة KV ستة مرات.

ما هو ذاكرة KV ولماذا هي مهمة
* تخزن ذاكرة KV المفاتيح (K) والقيم (V) التي تم الحصول عليها أثناء حساب آلية الانتباه.
هذا يسمح للنموذج بعدم إعادة حسابها في كل خطوة لتوليد الرموز.
* مع زيادة نافذة السياق، تنمو الذاكرة أُسّيًا، ما يؤدي إلى استهلاك كبير للذاكرة.
* تقنيات الكوانتة التقليدية تقلل حجم الذاكرة لكنها تتطلب تخزين ثوابت الكوانتة (قاموسات) مشابهة لZIP/RAR.
هذه القواميس تخلق تكاليف إضافية كبيرة.

كيف يعمل TurboQuant
يتكون TurboQuant من مرحلتين ويقضي تمامًا على القواميس.
1. PolarQuant: تحويل المتجهات من الإحداثيات الديكارتية إلى القطبية (نصف قطر + زاوية). التوزيعات الزاويّة متوقعة ومركّزة، لذا لا حاجة لمرحلة تطبيع مكلفة لكل كتلة. ينتج ضغط عالي الجودة بدون قواميس.
2. طبقة تصحيح الأخطاء ذات البت الواحد: يُطبق خوارزمية Johnson‑Lindenstrauss المُكمَّنة؛ تُقلل الخطأ المتبقي إلى بت واحد فقط. يزيل الانحراف المنهجي في حسابات الانتباه مع تكاليف إضافية ضئيلة.

النتائج العملية
اختبار | الخوارزميات | النتائج
LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, L‑Eval (Gemma & Mistral) | TurboQuant vs KIVI | TurboQuant: ضغط ذاكرة KV على الأقل 6 مرات؛ في مهام البحث عن «العنقود في كومة القش» – بدون فقدان الدقة. في LongBench – لا أسوأ وأحيانًا أفضل من KIVI.
البحث المتجه (GloVe) | TurboQuant vs Product Quantization, RabbiQ | حتى دون تدريب، تجاوز TurboQuant المنافسين المدربين في جودة النتائج واستهلاك الذاكرة.

الاستنتاجات
* يحقق TurboQuant ضغطًا قويًا لذاكرة KV إلى 3–4 بت بدون فقدان الدقة ودون تدريب إضافي.
* زادت الأداء على Nvidia H100 بمقدار 8 مرات، وانخفض حجم الذاكرة ستة مرات.
* يعمل الخوارزمية مع النماذج اللغوية الكبيرة ومهام البحث المتجه دون الحاجة لضبط دقيق.

وبالتالي، فإن TurboQuant جاهز للاستخدام العملي حتى تحت أحمال عالية ويفتح آفاقًا جديدة للعمل الفعال مع النماذج الكبيرة.

التعليقات (0)

شارك أفكارك — يرجى الالتزام بالأدب والبقاء ضمن الموضوع.

لا توجد تعليقات بعد. اترك تعليقًا وشارك رأيك!

لترك تعليق، يرجى تسجيل الدخول.

سجّل الدخول للتعليق