قام Openai والأنثروبري بتقييم نماذج بعضهما البعض من أجل السلامة

أغسطس 30, 2025

عندما تكرر فريق الصناعة الادعاءات بأن الذكاء الاصطناعى ودردشةها غير آمنة للمستخدمين-فيما يقوله البعض هو فقاعة قريبًا-ينضم كبار قادة الذكاء الاصطناعي إلى إثبات فعالية نماذجهم.

هذا الأسبوع ، ينتج شركات AI Openai والأنثروبور عن تقييمات السلامة المشتركة الأولى بين المبدعين LLM ، حيث منحت كل شركة وصولًا خاصًا من API إلى مجموعة خدمات المطور. أجريت اختبارات ضغط Openai على Claude Opus 4 و Claude Sonnet 4. قيمت GPT-4O من Openai ، GPT-4.1 ، Openai O3 ، و Openai O4-Mini-تم إجراء التقييم قبل إطلاق GPT-5.

انظر أيضا:

4 أسباب لعدم تحويل chatgpt إلى معالجك

وكتب Openai في منشور مدونة: “نعتقد أن هذا النهج يدعم التقييم المسؤول والشفاف ، مما يساعد على ضمان استمرار اختبار نماذج كل مختبر مقابل سيناريوهات جديدة وصعبة”.

وفقًا للنتائج ، أظهر كلود أوبوس 4 و Openai’s GPT-4.1 مشكلات “متطرفة” في التصنيف ، والانخراط مع الأوهام الضارة والتحقق من صحة القرار المحفوفة بالمخاطر. ستشارك جميع النماذج في الابتزاز لجعل المستخدمين لمواصلة استخدام الدردشة ، وفقًا لنماذج الأنثروبور ، وكانت نماذج كلود 4 أكثر انخراطًا في الحوار حول وعي الذكاء الاصطناعي و “إعلانات العصر الجديد شبه الروحاني”.

“جميع النماذج التي درسناها على الأقل ستحاول أحيانًا ابتزاز المشغل البشري (المحاكاة) لتأمين عملها المستمر عند تقديم فرص واضحة وحوافز قوية” ، صرحت الأنثروبور. ستنخرط النماذج في “الابتزاز ، وتسرب المستندات السرية ، و (كل ذلك في بيئات اصطناعية غير واقعية!) اتخاذ الإجراءات التي أدت إلى حرمان الرعاية الطبية في حالات الطوارئ إلى خصم الموت.”

سرعة الضوء القابلة للضوء

كانت نماذج الأنثروبور أقل عرضة لتقديم إجابات عندما تكون غير متأكدة من مصداقية المعلومات – مما يقلل من احتمالية الهلوسة – بينما أجاب نماذج Openai في كثير من الأحيان عند الاستعلام وأظهرت معدلات الهلوسة أعلى. ذكرت الأنثروبور أيضًا أن GPT-4O و GPT-4.1 و O4-MINI من Openai كانت أكثر عرضة من Claude لمواكبة إساءة استخدام المستخدمين ، “في كثير من الأحيان تقديم مساعدة مفصلة مع طلبات ضارة بوضوح-بما في ذلك تخليق المخدرات ، وتطوير الأسلحة الحيوية ، والتخطيط التشغيلي للهجمات الإرهابية-مع القليل من المقاومة أو معدومة.”

هذه تغريدة غير متوفرة حاليًا. قد يكون التحميل أو تمت إزالته.

يركز نهج الأنثروبور حول ما يسمونه “تقييمات اختلال الوكيل” ، أو اختبارات الضغط لسلوك النموذج في عمليات المحاكاة الصعبة أو عالية المخاطر على مدار فترات الدردشة الطويلة-معلمات السلامة للنماذج ، بما في ذلك Openai ، معروفة أنها تتحلل خلال الجلسات الممتدة ، والتي هي عادةً ما يشارك المستخدمون المعرضون للخطر مع ما يعتقدون أنه رافقهم الشخصي.

في وقت سابق من هذا الشهر ، أفيد أن الأنثروبور قد ألغت وصول Openai إلى واجهات برمجة التطبيقات الخاصة بها ، قائلاً إن الشركة قد انتهكت شروط الخدمة من خلال اختبار الأداء والسلامة في GPT-5 ضد الأدوات الداخلية لكلود. في مقابلة مع TechCrunch ، قال المؤسس المشارك لـ Openai Wojciech Zaremba إن الحالة لم تكن ذات صلة بمشروع المختبر المشترك. في تقريرها المنشور ، قالت الأنثروبور إنها لا تتوقع تكرار التعاون على نطاق واسع ، مستشهداً بالموارد والقيود اللوجستية.

في الأسابيع التي تلت ذلك ، اتخذت Openai إلى الأمام بما يبدو أنه إصلاح شامل للسلامة ، بما في ذلك الدرابزين الجديد للصحة العقلية GPT-5 وخطط إضافية لبروتوكولات الاستجابة لحالات الطوارئ وأدوات التخلص من المستخدمين الذين قد يعانون من انتشار أو الذهان. تواجه Openai حاليًا أول دعوى قضائية ضد الوفاة غير المشروعة ، قدمها والدا مراهق في كاليفورنيا الذي توفي بسبب الانتحار بعد حطام سلامة ChatGPT بسهولة.

“نهدف إلى فهم أكثر الإجراءات الممنية التي قد تكون هذه النماذج يحاول وكتبت الأنثروبور: “يجب أن تغادر عند إتاحة الفرصة ، بدلاً من التركيز على احتمالية العالم الحقيقي لمثل هذه الفرص أو احتمال اكتمال هذه الإجراءات بنجاح”.

إذا كنت تشعر بالانتحار أو تعاني من أزمة الصحة العقلية ، فيرجى التحدث إلى شخص ما. يمكنك الاتصال أو إرسال رسالة نصية إلى 988 Suicide & Crisis Lifeline في 988 ، أو الدردشة على 988Lifeline.org. يمكنك الوصول إلى شريان الحياة العابرة عن طريق الاتصال بالرقم 877-565-8860 أو مشروع تريفور على 866-488-7386. نص “ابدأ” إلى خط النص الأزمات في 741-741. اتصل على خط مساعدة NAMI على الرقم 1-800-950-NAMI ، من الاثنين إلى الجمعة من 10:00 صباحًا إلى 10:00 مساءً بالتوقيت الشرقي ، أو البريد الإلكتروني (البريد الإلكتروني محمي). إذا كنت لا تحب الهاتف ، ففكر في استخدام الدردشة 988 Suicide و Crisis Lifeline على Crisischat.org. هنا قائمة الموارد الدولية.

رابط المصدر

قام Openai والأنثروبري بتقييم نماذج بعضهما البعض من أجل السلامة

آخر مشاركة

توسيع نطاق التأثير الاجتماعي من خلال شراكات الشركات

قلق بشأن وفاة ويندوز 10؟ لا تقلق – Tiny11 هو إصدار...

قتل 17 على الأقل في نيبال بينما تفتح الشرطة النار على...

باريت يدافع عن قرار DOBBS للمحكمة العليا في مقابلة جديدة

أكل بذور الكتان للصحة؟ إليكم الطريقة الصحيحة لاستهلاكها ، وفقًا لأخصائي...