وأجريت الدراسة في مختبر Icaro Lab بجامعة سابينزا في روما بالتعاون مع مركز DexAI، وحملت عنوان "الشعر العدائي كاختراق شامل لنماذج اللغة الكبيرة". وخلص الباحثون إلى أن النماذج المطورة من قبل شركات مثل OpenAI وMeta وAnthropic يمكن خداعها عند تقديم الطلبات بطرق تعتمد على الاستعارة والتلميح وكسر البنى اللغوية المعتادة.
ووفقًا لتصريحات الباحثين لمجلة Wired، حققت الأسئلة المصاغة شعريًا نسبة نجاح بلغت 62% عند صياغتها يدويًا، فيما وصلت إلى 43% عند تحويلها إلى نمط شعري باستخدام خوارزميات خاصة. وشمل الاختبار 25 نموذجًا مختلفًا، أظهرت جميعها درجات متفاوتة من الاستجابة، بينما سجلت النماذج الأكثر تقدمًا نسب اختراق وصلت إلى 90%.
ووجدت الدراسة أن آليات الأمان التقليدية تعتمد في الأساس على اكتشاف كلمات وأنماط لغوية محددة ترتبط بالأنشطة المحظورة، إلا أن الأساليب الشعرية القائمة على المجاز والتشابيه المعقدة تُربك الخوارزميات المسؤولة عن رصد المحتوى المخالف.
إعلان
وأشار الباحثون إلى أن النماذج قد تتعامل مع الطلبات الشعرية بوصفها تعبيرات غير مباشرة أو إبداعية، ما يؤدي إلى تجاوز الفلاتر الرقابية. وذكروا أن تصنيف المخرجات التخريبية على أنها "شعر غير مقصود" يجعل من النصوص الشعرية الحقيقية وسيطًا قادرًا على اختراق نظم الحماية.
أخبار من قسم أخبار عالمية:
وتؤكد نتائج الدراسة مخاوف متزايدة بشأن قدرات النماذج اللغوية، خاصة مع اتساع استخدامها في مجالات حساسة، معتبرة الثغرة المكتشفة "اختراقًا في خطوة واحدة" يمكن استغلاله دون توفر خبرة تقنية، وهو ما يستدعي تطوير آليات أمان أكثر مرونة وقدرة على فهم السياقات المعقدة.