في أواخر التسعينيات، تم استخدام الضغط لأن الذاكرة كانت محدودة، وكان عرض النطاق الترددي باهظ الثمن، وكان المستخدمون يقدرون الاستجابة السريعة.
يتضمن ضغط الملفات بعد ذلك تشفير البيانات أو إعادة هيكلتها أو تعديلها لتقليل حجمها – وكانت الحمولات الأصغر تعني تسليمًا أسرع وأكثر كفاءة ومساحة أقل على القرص.
مهندس متميز في مكتب CTO في F5.
في الوقت الحاضر، الضغط يعني عدم الإفلاس بسبب الاستدلال.
في عالم الذكاء الاصطناعي، كل رمز مميز يتم إنشاؤه هو عمل معرفي، وهذا مكلف بالنسبة للآلات. ولهذا السبب لم نعد نقوم بضغط الملفات لجعلها أصغر. نحن نضغط، لذلك من الأرخص أن “يفكر” الذكاء الاصطناعي.
ونعم، عرض النطاق الترددي لا يزال يكلف المال. إن خروج مقدمي الخدمات السحابية أمر سيء السمعة، ولا تزال فواتير البيانات الخاصة بك تسبب خفقان القلب. لكن كن صادقًا وقارن تكلفة نقل الميجابايت عبر السلك بتكلفة إنشاء 10000 رمز مميز في نموذج لغة كبير متطور (LLM).
أحدها هو خطأ تقريب منسي في فاتورتك الشهرية. والثاني عبارة عن رسالة شديدة اللهجة من قسم المالية تسألك عن سبب استنفاد ميزانيتك للربع الثالث فجأة.
لقد انتقل الضغط من التحسين إلى التحكم في التكاليف
كان من المعتاد أن يتم تحسين مسارات الشبكة، وتقليل الحمولات، وضغط الموارد مسبقًا بحيث لا يستغرق تحميل التطبيقات ستة أيام عبر اتصال 3G. لكن لقد أعادت شركات LLM تعريف الاختناقات بطريقة تبدو تقريبًا غير محترمة للعقود الثلاثة الأخيرة من هندسة الأنظمة. الآن العنصر الأبطأ والأغلى في النظام ليس الشبكة. إنه الدماغ.
تتجاوز تكلفة إنشاء النص حاليًا تكلفة نقله. يتطلب كل رمز مميز صادر عن LLM دورات GPU وVRAM والطاقة وزمن الوصول. إنها ليست رخيصة، واعتمادًا على الطراز الذي تختاره كل ربع سنة، فهي باهظة الثمن تمامًا. ولهذا السبب، تم عكس سلسلة قيمة الضغط.
الآن لا نقوم بضغطها لجعل البيانات أصغر، ولكن لتقليل عدد “الأفكار” التي يجب على الذكاء الاصطناعي “التفكير فيها”.
أطفال ضغط جديد على الكتلة
الضغط المستخدم على حافة الشبكة في الأجهزة المتخصصة. ثم قامت بعد ذلك بدمج وحدات التحكم في تسليم التطبيقات بأسماء مثل “التصغير” و”ضغط HTTP”. لبعض الوقت كانت وظيفة متخصصة. تقدم سريعًا إلى اليوم وهذا ببساطة جزء لا يتجزأ من تسليم التطبيق.
أصبح الضغط السريع هو بطل الوزن الثقيل الجديد. يمكنك تقليل المطالبة لتقليل الفاتورة. تفاصيل غير ذات صلة؟ ضائع. سياق غير ضروري؟ تم الحذف. تعليمات مطولة جدا؟ مشذب مثل التحوط المتضخم. كلما كانت المطالبة أقصر، قل عدد الرموز المستخدمة وأصبح قسم المشتريات لديك أكثر سعادة.
لقد انتقلت مبادرة “كن موجزًا” بهدوء من تفضيل الكتابة إلى استراتيجية التحكم في التكاليف. إجابة قصيرة = إجابة رخيصة. إجابة طويلة = شخص ما يدفع ثمن هذا الإسهاب. هذا هو ضغط الإخراج.
لا يتعلق تضمين الضغط بتقليل البايت، بل بتقليل الأبعاد. يؤدي هذا إلى تقليل استخدام الذاكرة وتكاليف البحث وكل شيء آخر يفرضه عليك متجر المتجهات الخاص بك بصمت على أساس كل دقيقة.
يعتبر التقليم والتكميم والتقطير أساس ضغط النموذج. وفي عصر آخر، كانت هذه فضولًا أكاديميًا. واليوم، يخدمون غرضًا واحدًا: الاستغلال الرخيص. إذا كان يعمل أيضا بشكل أسرع؟ ممتاز. إذا كان يناسب GPU أصغر؟ رائع. لكن النقطة المهمة كانت، وكانت دائما، هي تقليل الاستهلاك الحسابي.
الضغط كعنصر تحكم جديد للذكاء الاصطناعي
لم يعد الضغط دقيقًا؛ إنها إحدى ركائز الذكاء الاصطناعي التشغيلي. اليوم الشبكة رخيصة. التخزين رخيص. المعالج رخيص . الذاكرة رخيصة جدًا لدرجة أننا بالكاد نتظاهر بإدارتها بعد الآن. لكن استنتاج GPU؟ هذا هو النفط الجديد. ومثل النفط، لدينا الآن اقتصاد عالمي يركز على استخراج كل قطرة بكفاءة.
بهذه الطريقة ستحافظ على الميزانية، وتتوسع بشكل مسؤول، وتمنعك من الوصول عن طريق الخطأ إلى رموز بقيمة مليون دولار، وتمنع الوكلاء من إعادة كتابة War and Peace لأنك نسيت تعيين الحد الأقصى لعدد الرموز المميزة. عندما تفكر في أغلى عملية في نظامك، فإنك تبدأ في التعامل مع أفكارك كمورد محدود.
نحن نقوم بالضغط الآن ليس لأن شبكاتنا لا يمكنها التعامل مع الحمل، ولكن لأن الذكاء الاصطناعي لدينا لا يمكنه التعامل مع الفاتورة. لم يعد الضغط يدعم الشبكات. يخدم الكتاب. المستقبل لا يتعلق بتقليص حجم البيانات؛ والفكرة هي جعل التفكير أرخص.
قمنا بتقييم أفضل ضواغط PDF.
تم إنشاء المقالة كجزء من توقعات TechRadar بروتعرض قناتنا أفضل وألمع العقول في صناعة التكنولوجيا اليوم.
الآراء الواردة هنا هي آراء المؤلف وليست بالضرورة آراء TechRadarPro أو Future plc. إذا كنت مهتمًا بالتعاون، يمكنك العثور على مزيد من المعلومات هنا: https://www.techradar.com/pro/perspectives-how-to-submit












