
- تظل المطالبات الضارة غير مرئية حتى تكشف الصورة عن تعليمات خفية
- يعمل الهجوم من خلال استغلال كيفية إعادة تحميل AI الصور التي تم تحميلها
- يمكن أن يفضح الاستيفاء الثنائي النشط نصًا أسود من صور مصنوعة خصيصًا
نظرًا لأن أدوات الذكاء الاصطناعى تصبح أكثر دمجًا في العمل اليومي ، فإن المخاطر الأمنية المرتبطة بها تتطور أيضًا في اتجاهات جديدة.
لقد أظهر الباحثون في Trail of Bits طريقة يتم فيها إخفاء مطالبات ضارة داخل الصور ثم يتم الكشف عنها أثناء المعالجة بواسطة نماذج لغة كبيرة.
تستفيد هذه التقنية من كيفية تصوير منصات الذكاء الاصطناعى من أجل الكفاءة ، وفضح الأنماط غير المرئية في شكلها الأصلي ولكنها مقروءة للخوارزمية بمجرد تغيير حجمها.
تعليمات مخفية في الصور السفلية
تعتمد الفكرة على ورقة 2020 من Tu Braunschweig في ألمانيا ، والتي تشير إلى أنه يمكن استخدام تحجيم الصورة كسطح هجوم للتعلم الآلي.
أظهرت Trail of Bits كيف يمكن للصور المصنفة معالجة الأنظمة ، بما في ذلك Gemini CLI ، و Vertex AI Studio ، ومساعد Google على Android ، وواجهة الويب Gemini.
في إحدى الحالات ، تم تخفيف بيانات تقويم Google إلى عنوان بريد إلكتروني خارجي دون موافقة المستخدم ، مما يبرز الإمكانات الواقعة للتهديد.
يستفيد الهجوم من أساليب الاستيفاء مثل أقرب جيران أو عيلول أو عيلول ثنائي.
عندما يتم تحضير صورة عن قصد ، يقدم تقليص القطع الأثرية المستعارة التي تكشف عن النص المخفي.
في مظاهرة ، تحولت المناطق المظلمة أثناء إعادة تشكيل Bicubic لعرض النص الأسود المخفي ، والتي تم تفسيرها LLM على أنها إدخال المستخدم.
من وجهة نظر المستخدم ، لا يبدو أن أي شيء غير عادي يحدث. ولكن وراء الكواليس ، يتبع النموذج التعليمات المدمجة جنبا إلى جنب مع المطالبات المشروعة.
لتوضيح المخاطر ، تم إنشاء Trail of Bits “Anamorpher” ، وهي أداة مفتوحة المصدر تنشئ مثل هذه الصور لطرق التحجيم المختلفة.
هذا يدل على أنه على الرغم من أن النهج متخصص ، إلا أنه يمكن تكراره من قبل الآخرين إذا كانت الدفاعات غير موجودة.
يثير الهجوم أسئلة حول الثقة في أنظمة AI متعددة الوسائط لأن العديد من المنصات تعتمد عليها الآن للعمل الروتيني ، وقد يؤدي تحميل الصور البسيط إلى الوصول إلى البيانات غير المقصودة.
ينشأ خطر سرقة الهوية إذا تم تفريغ المعلومات الخاصة أو الحساسة بهذه الطريقة.
نظرًا لأن هذه النماذج غالبًا ما ترتبط بالتقويمات أو منصات الاتصالات أو أدوات سير العمل ، فإن المخاطر تمتد إلى سياقات أوسع.
للتخفيف من ذلك ، يحتاج المستخدمون إلى تقييد أبعاد الإدخال ، ومعاينة النتائج المتساقطة ، ويتطلبون تأكيدًا واضحًا لمكالمات الأدوات الحساسة.
لا يتم تصميم الدفاعات التقليدية مثل جدران الحماية لتحديد هذا الشكل من التلاعب ، تاركًا فجوة قد يستغلها المهاجمون في النهاية.
يشدد الباحثون على أن الأجنحة الأمنية التي طبقها فقط وأنماط التصميم الأقوى يمكن أن تحد من هذه المخاطر بشكل موثوق.
وقال الباحثون: “أقوى دفاع هو تنفيذ أنماط التصميم الآمنة والدفاعات المنهجية التي تخفف من الحقن السريع المؤثر بما يتجاوز الحقن الفوري متعدد الوسائط”.








