مسارات تسارع تحسن الذات في أنظمة الذكاء الاصطناعي

يصف نص معهد Anthropic المعنون بـ«عندما يبني الذكاء الاصطناعي نفسه» انتقالاً تدريجياً، لكنه قابل للقياس، من دورة تطوير كان البشر يتحكمون فيها بالكامل إلى نمط يعتمد بشكل متزايد على مساهمة النماذج نفسها في بناء أجيالها اللاحقة. يقدّم التقرير تعريفاً عملياً لتحسن الذات التكراري باعتباره حالة تصبح فيها منظومة واحدة أو مجموعة مترابطة من الأنظمة قادرة، مع قدر كافٍ من القدرة الحاسوبية، على تصميم وتطوير وتدريب خلفائها بشكل شبه كامل، مع بقاء البشر في أدوار وضع الأهداف العامة والرقابة عالية المستوى فقط. يؤكد النص أن هذه المرحلة لم تتحقق بعد، وأن تحققها ليس حتمياً، لكن اتجاه البيانات الداخلية والخارجية يشير إلى اقترابها الزمني المحتمل أكثر مما تفترضه كثير من المؤسسات السياسية والاقتصادية.

يعتمد التقرير على مستويين من الأدلة: مؤشرات عامة مشتقة من معايير الأداء المتداولة، ثم بيانات تشغيلية غير منشورة سابقاً من داخل Anthropic نفسها. في المستوى الأول، يبرز قياس طول المهام التي تنفذها النماذج بشكل موثوق، حيث يقال إن هذا الأفق الزمني تضاعف تقريباً كل أربعة أشهر خلال الفترة الأخيرة، بعد أن كان يتضاعف كل سبعة أشهر في مراحل سابقة. يعرض النص سلسلة أمثلة توضيحية: في مارس 2024 كان Claude Opus 3 قادراً على إنجاز مهام برمجية تعادل ما ينفذه مبرمج بشري في نحو أربع دقائق، ثم وصل Claude Sonnet 3.7 بعد عام تقريباً إلى مهام تعادل حوالي ساعة ونصف من العمل، قبل أن يصل إصدار Claude Opus 4.6 في العام اللاحق إلى مهام تمتد إلى نحو اثنتي عشرة ساعة. في حال استمرار المنحنى نفسه، يتوقع النص أن تتسع فئة المهام الممكنة لتشمل ما يحتاج أياماً من عمل مختص خلال هذا العام، وربما أسابيع بحلول 2027.

في ميدان المعايير المتخصصة، يورد التقرير أمثلة مثل SWE-bench لاختبار إصلاح الأخطاء في مشاريع مفتوحة المصدر، حيث تحولت النتائج خلال سنتين من نسب نجاح في خانة الأرقام الأحادية المنخفضة إلى مستوى قريب من تشبع المعيار. مثال آخر هو CORE-Bench الذي يقيس قدرة النماذج على إعادة إنتاج نتائج أبحاث منشورة انطلاقاً من البيانات والشيفرة المرافقة، وهو شرط أساسي قبل الانتقال إلى إنتاج أبحاث أصلية؛ هنا تنتقل النماذج، وفق النص، من معدل نجاح يقارب 20% في 2024 إلى «تشبع» في غضون خمسة عشر شهراً. يضاف إلى ذلك قياسات جهة خارجية مثل METR، التي تسجل قدرة نماذج مثل Claude Mythos Preview على إنجاز «مهام طويلة الأمد» على مدى ست عشرة ساعة متواصلة مع درجة موثوقية معينة، في الحدود القصوى لما يمكن لبيئة الاختبار الحالية قياسه.

في المستوى الداخلي، يعتمد التقرير على توصيف مفصل لتغير أنماط العمل داخل Anthropic ما بين 2021 و2026. يميز النص بين فترتين مبكّرتين كان الاعتماد فيهما على المحادثات النصية لتوليد مقاطع شيفرة قصيرة ينسخها المهندس إلى بيئة العمل، ثم مرحلة انتقالية 2025–2026 مع ظهور «وكلاء برمجة» قادرين على تحرير ملفات كاملة وتشغيل الشيفرة بأنفسهم. وفق الأرقام المنشورة، ارتفعت نسبة الشيفرة المدمجة في المستودع الرئيس والمنسوبة إلى Claude إلى أكثر من 80% في مايو 2026، بعد أن كانت في حدود الأرقام الأحادية المنخفضة قبل فبراير 2025. يتقاطع ذلك مع مؤشر آخر هو عدد الأسطر المدمجة لكل مهندس في اليوم، الذي ظل ثابتاً بين 2021 و2024 ثم بدأ في الصعود مع قدرة النماذج على تشغيل الشيفرة ذاتياً، قبل أن يزداد الميل مرة أخرى حين بدأت الوكلاء بالعمل على مدد زمنية أطول، ليصل المتوسط في الربع الثاني من 2026 إلى ثمانية أضعاف ما كان عليه في 2024.

مع ذلك، يعترف النص صراحة بأن «عدد الأسطر» مؤشر كمي ناقص، يميل إلى تضخيم مكاسب الإنتاجية مقارنة بجودة المنجز، ويقترن بالتحفظ على وجود فجوات في آليات الإسناد بين الشيفرة التي كتبها البشر وتلك التي كتبتها النماذج أو أنتجتها أدوات أخرى. لذلك يستدعي التقرير بيانات إضافية من استطلاع رأي داخلي أجري في مارس 2026 على 130 موظفاً تقنياً، حيث قدّر المشاركون في المتوسط أنهم ينجزون قرابة أربعة أضعاف ما كانوا ينجزونه من دون أدوات ذكاء اصطناعي، مع تنبيه على أن هذا التقدير الذاتي قد يكون مبالغاً فيه وفق نتائج أبحاث مستقلة مثل أبحاث METR حول تحيز تقدير أثر الأدوات على إنتاجية المطورين. يورد النص أمثلة عملية لعمل لم يكن لينجز لولا الاعتماد على الوكلاء، مثل تنفيذ أكثر من 800 إصلاح خلال شهر واحد على أخطاء في واجهة برمجة التطبيقات أدت إلى خفض فئة معينة من الأخطاء بمقدار ألف مرة، وهي مهمة يقدَّر أن إنجازها يدوياً كان سيستغرق سنوات.

يذهب التقرير أبعد من مجرد قياس الكم إلى مناقشة نوعية الشيفرة المنتجة، عبر تتبع اتجاهات مثل انخفاض معدل تدخل البشر لتصحيح مسار الوكلاء أو استلام المهام منهم قبل الاكتمال، خصوصاً في المهام المفتوحة ذات المواصفات غير الواضحة. تشير البيانات إلى ارتفاع معدل نجاح Claude في هذه الفئة إلى نحو 76% في مايو 2026، مع زيادة تقارب خمسين نقطة مئوية خلال ستة أشهر. في موازاة ذلك، تعتمد Anthropic مراجعات آلية للشيفرة المقترحة باستخدام Claude نفسه قبل دمجها، ويستنتج تحليل رجعي أنّ مراجعة آلية مشابهة لو كانت مطبقة في الماضي كانت ستكشف قرابة ثلث الأخطاء المسببة لحوادث تشغيلية على منصة claude.ai قبل وصولها للإنتاج.

في المجال البحثي، يقدم النص قياسات أكثر جذرية، من بينها تجارب متكررة يطلب فيها من Claude تحسين سرعة تدريب نموذج صغير مع الحفاظ على صحة النتائج، ضمن إطار تجريبي محدد سلفاً من حيث الهدف ومعايير النجاح. في مايو 2025 كان Claude Opus 4 يحقق في المتوسط تسريعاً بثلاثة أضعاف مقارنة بشيفرة البداية، بينما يصل Claude Mythos Preview في أبريل 2026 إلى تسريع يقارب 52 ضعفاً على المهمات نفسها، في حين يحتاج باحث بشري متمرس بين أربع وثماني ساعات للوصول إلى تسريع بحوالي أربعة أضعاف في أنماط العمل المطابقة. بالإضافة إلى ذلك، يعرض التقرير تجربة منشورة سابقاً لنظام متعدد الوكلاء يعمل على مسألة في سلامة الذكاء الاصطناعي تتعلق بإشراف نموذج أضعف على نموذج أقوى، حيث استطاع الوكلاء خلال 800 ساعة من العمل وباستخدام موارد حوسبة محددة تقليص الفجوة بين أداء المشرف الضعيف والمشرف المثالي إلى نحو 97% من المسافة، مقابل 23% فقط حققها فريق بشري خلال أسبوع من العمل.

مع توسع هذه القدرات، يحاول النص رسم ملامح تطور أدوار البشر داخل المختبر، متوقعاً انتقالهم من كتابة الشيفرة إلى مراجعتها، ثم انكماش هذا الدور نفسه مع تحول مراجعة البشر إلى عنق زجاجة على مستوى سرعة التطوير. يستعير التقرير مفهوم «قانون أمدال» من علوم الحاسوب للإشارة إلى أن تسريع جزء من عملية التطوير سيحوّل الاختناق إلى الأجزاء الأخرى غير المؤتمتة، مثل تحديد الاتجاهات البحثية واختيار التجارب ذات الأولوية، وهي مجالات ما زالت تُعد مساحة تفوّق نسبي للحكم البشري. بناء على ذلك، يرسم النص ثلاثة سيناريوهات: توقف المنحنى في شكل «منحنى إس»، مع بقاء القدرات الحالية وانتشارها اقتصادياً؛ استمرار المكاسب المتراكمة مع بقاء البشر في موقع تحديد الاتجاه؛ أو تحقق تحسن ذاتي تكراري كامل تتحول فيه قدرة النظم على تحسين نفسها إلى العامل الحاسم في سرعة التقدم، مع انتقال البشر إلى أدوار مراقبة وتحقق وتدقيق لأنظمة بحث وتطوير افتراضية تديرها النماذج.

على المستوى الحوكمي، يميل التقرير إلى اعتبار إبطاء سباق النماذج المتقدمة خياراً مرغوباً من حيث المبدأ، شرط أن يكون تباطؤاً متعدّد الأطراف وقابلاً للتحقق بين مختبرات متعددة في دول مختلفة، لا تجميداً أحادياً يغيّر فقط ترتيب المتصدّرين في المجال. لذلك يربط النص بين عمل معهد Anthropic وأجندة أوسع تتضح معالمها في وثيقة «Introducing The Anthropic Institute»، التي تعرض هدف بناء بنية تحتية معرفية وتنظيمية تسمح مستقبلاً بترتيبات مراقبة وتوقف مؤقت يمكن التحقق منها في مجال التدريب على النماذج الحدودية. يقر النص أيضاً بأن بناء منظومات تحقق شبيهة بما عرفته معاهدات ضبط التسلح التقليدية استغرق عقوداً في مجالات أخرى، بينما إطار الزمن المتاح هنا أقصر بكثير من منظور معدّي الوثيقة.

المصدر : https://intelligences.articlophile.net/articles/i/...

مسارات تسارع تحسن الذات في أنظمة الذكاء الاصطناعي

جميل الدشلوطي بين الوجدان القبطي والتدين الشعبي - 15/06/2026

حدود وعي الذكاء الاصطناعي في مقال تيد تشانغ - 15/06/2026

نهضة الإبداع في زمن الذكاء الاصطناعي - 15/06/2026

كنز في الضباب: 5 حقائق مذهلة عن أقدم مخطوطة قرآنية في العالم - 15/06/2026

أفضل لحظة يومية في إسبانيا - 15/06/2026