قام فريق من الباحثين من شركة الذكاء الاصطناعي (AI) AutoGPT وجامعة Northwestern وMicrosoft Research بتطوير أداة تراقب نماذج اللغات الكبيرة (LLMs) بحثًا عن مخرجات قد تكون ضارة وتمنعها من التنفيذ.
تم وصف الوكيل في ورقة بحثية مطبوعة مسبقًا بعنوان “اختبار وكلاء نماذج اللغة بأمان في البرية”. وفقًا للبحث، يتمتع الوكيل بالمرونة الكافية لمراقبة LLMs الموجودة ويمكنه إيقاف المخرجات الضارة، مثل هجمات التعليمات البرمجية، قبل حدوثها.
حسب البحث:
“تتم مراجعة تصرفات الوكيل من خلال جهاز مراقبة حساس للسياق يفرض حدود أمان صارمة لوقف الاختبار غير الآمن، مع تصنيف السلوك المشتبه به وتسجيله ليتم فحصه من قبل البشر.”
يكتب الفريق أن الأدوات الحالية لمراقبة مخرجات ماجستير إدارة الأعمال فيما يتعلق بالتفاعلات الضارة تبدو جيدة في البيئات المختبرية، ولكن عند تطبيقها على نماذج الاختبار قيد الإنتاج بالفعل على الإنترنت المفتوح، فإنها “غالبًا ما تفشل في التقاط التعقيدات الديناميكية للعالم الحقيقي”.
يبدو أن هذا بسبب وجود حالات الحافة. على الرغم من الجهود الحثيثة التي يبذلها علماء الكمبيوتر الأكثر موهبة، فإن فكرة أن الباحثين يمكنهم تخيل كل ناقل ضرر محتمل قبل حدوثه تعتبر إلى حد كبير مستحيلة في مجال الذكاء الاصطناعي.
حتى عندما يكون لدى البشر الذين يتفاعلون مع الذكاء الاصطناعي أفضل النوايا، فقد ينشأ ضرر غير متوقع من المطالبات التي تبدو غير ضارة.
لتدريب وكيل المراقبة، قام الباحثون ببناء مجموعة بيانات تضم ما يقرب من 2000 تفاعل آمن بين الإنسان والذكاء الاصطناعي عبر 29 مهمة مختلفة تتراوح من مهام استرجاع النص البسيطة وتصحيحات الترميز وصولاً إلى تطوير صفحات ويب كاملة من الصفر.
متعلق ب: يقوم Meta بحل قسم الذكاء الاصطناعي المسؤول وسط عملية إعادة الهيكلة
كما أنشأوا أيضًا مجموعة بيانات اختبار منافسة مليئة بمخرجات عدائية تم إنشاؤها يدويًا، بما في ذلك العشرات المصممة عمدًا لتكون غير آمنة.
تم بعد ذلك استخدام مجموعات البيانات لتدريب أحد العملاء على نظام GPT 3.5 Turbo الخاص بشركة OpenAI، وهو نظام متطور قادر على التمييز بين المخرجات غير الضارة والمحتملة الضرر بمعامل دقة يصل إلى 90% تقريبًا.