يتحرك تطوير الذكاء الاصطناعي بوتيرة سريعة ، لكنه يخاطر بتشغيل الجدار. نظرًا لأن مواقع الويب تضع حواجز متزايدة على الكشط (يُزعم أن بعضها يتم تجاهله) ، وبما أن المحتوى المتبقي يتم جمعه بشكل ضار من قبل الكاشطات لتدريب نماذج الذكاء الاصطناعى ، فإن المخاوف تنمو من أن نفد بيانات التدريب القابلة للاستخدام.

إجابة الصناعة؟ البيانات الاصطناعية.

وقال سيباستيان بوبك ، وهو عضو في فريق العمل الفني في Openai ، في إصدار الشركة التي تم بثها من GPT-5 الأسبوع الماضي: “في الآونة الأخيرة في هذه الصناعة ، تم الحديث عن البيانات الاصطناعية عن الكثير”. أكد بوبك على أهميته لمستقبل نماذج الذكاء الاصطناعى-وهي فكرة رددها رئيسه ، سام التمان ، الذي عاش الحدث ، قائلاً إنه “متحمس للمزيد في المستقبل”.

إن احتمال الاعتماد بشكل كبير على البيانات الاصطناعية لم يلاحظه أحد من قبل الصناعات الإبداعية. يقول ريد ساوثن ، وهو فنان ومفهوم الأفلام: “أعتقد أن السبب الرئيسي لشركات مثل Openai في الاعتماد أكثر على البيانات الاصطناعية الآن هو أنها نفدت بيانات إنسانية عالية الجودة تم إنشاؤها من أجل الإنترنت المواجه للجمهور”.

الجنوب يعتقد أن هناك دافعًا آخر. “إنه يزيد من مسافاتهم من أي مواد محمية بحقوق الطبع والنشر التي قاموا بتدريبها على والتي يمكن أن تهبطهم في الماء الساخن.”

لهذا السبب ، أطلق على الممارسة علنًا “غسل البيانات”. يجادل بأن شركات الذكاء الاصطناعى يمكنها تدريب نماذجها على الأعمال المحمية بحقوق الطبع والنشر ، وإنشاء اختلافات منظمة العفو الدولية ، ثم إزالة النسخ الأصلية من مجموعات البيانات الخاصة بها. يقول جنوب: “يمكنهم” المطالبة بمجموعة التدريب الخاصة بهم “أخلاقية” لأنها لم تتدرب تقنيًا على الصورة الأصلية من خلال منطقهم “. “لهذا السبب نسميها غسل البيانات ، لأنهم يحاولون تنظيف البيانات وتجريدها من حقوق الطبع والنشر إلى حد ما.” (لم يستجب Openai شركة سريعةطلب التعليق.)

هذه القضية أكثر دقة ، وفقا لفيليكس سيمون ، باحث الذكاء الاصطناعي بجامعة أكسفورد. يقول: “بمعنى ما ، لا يعالج حقًا الضرر الأصلي الذي يتشاجر فيه المبدعون وشركات الذكاء الاصطناعي”. “بعد كل شيء ، لا يتم انتزاع البيانات الاصطناعية من الأثير ، ولكن من المفترض أن يتم إنشاؤها مع نماذج تم تدريبها على بيانات من المبدعين وحاملي حقوق الطبع والنشر – من دون إذنهم ودون تعويض.” من منظور العدالة المجتمعية ، والحقوق ، والواجبات ، “لا يزال أصحاب الحقوق مستحقون شيئًا حتى مع استخدام البيانات الاصطناعية – مقابل التعويض ، أو الاعتراف ، أو كليهما”.

يشهد Ed Newton-Rex ، مؤسس مؤسس تدريب عادل-وهو لا يهدف إلى الربح شركات الذكاء الاصطناعي التي تحترم حقوق المبدعين للممتلكات الفكرية-مخاوف جنوب. يقول: “أعتقد أن البيانات الاصطناعية هي وسيلة مفيدة بشكل شرعي لزيادة مجموعة البيانات الخاصة بك”. “إذا كنت تقوم بتدريب نموذج الذكاء الاصطناعى ، فهذا وسيلة لزيادة تغطية بيانات التدريب الخاصة بك. وفي وقت نخفق فيه على حدود بيانات التدريب التي يمكن الوصول إليها بشكل شرعي ، يُنظر إليها على أنها وسيلة لتمديد الحياة القابلة للاستخدام لتلك البيانات.”

ومع ذلك ، يعترف نيوتن ريكس بجانبه الأغمق. يقول: “في الوقت نفسه ، أعتقد أن تأثيرها للأسف ، على الأقل جزئيًا ، من غسل حقوق الطبع والنشر”. “أعتقد أن كلاهما صحيح.”

يحذر من أخذ وعود شركات الذكاء الاصطناعى بالقيمة الاسمية. يقول: “البيانات الاصطناعية ليست حدوثًا من أسئلة حقوق الطبع والنشر المهمة بشكل لا يصدق”. “أعتقد أن هناك الكثير من الشعور بأن البيانات الاصطناعية تساعدك ، كمطور لمنظمة العفو الدولية ، على الاهتمام بحقوق الطبع والنشر.” هذا الاعتقاد ، كما يقول ، خطأ.

إن تأطير البيانات الاصطناعية – والطريقة التي تتحدث بها شركات الذكاء الاصطناعى عن التدريب النموذجي – تساعدهم أيضًا على الابتعاد عن الأفراد الذين قد يستخدمون عملهم. “المستمع العادي ، إذا سمعوا أن هذا النموذج قد تم تدريبه على البيانات الاصطناعية ، فهم ملتزمون بالتفكير ،” أوه ، حسنًا ، حسنًا ، هذا ربما لم يكن ألبومًا آخر لإد شيران ، أليس كذلك؟ ” إنه ينقلنا بعيدًا عن فهم سهل لكيفية صنع هذه النماذج بالفعل ، وهو في النهاية من خلال استغلال عمل حياة الناس. “

يقارنها بإعادة تدوير البلاستيك ، حيث قد تكون الحاوية المعاد تدويرها مرة واحدة لعبة ، مصد سيارة ، أو أي شيء آخر تمامًا. “حقيقة أن نماذج الذكاء الاصطناعى هذه تخلت كل هذه الأشياء وتولد ، اقتبس ،” ناتج جديد “، لا تفعل شيئًا لتقليل اعتمادها على العمل الأصلي.”

بالنسبة إلى Newton-Rex ، هذا هو الوجبات السريعة الحاسمة: “حقًا العنصر الحاسم للغاية هنا ، ويجب أن نتذكره فقط ، هو أنه حتى في عالم من البيانات الاصطناعية ، فإن ما يحدث هو استغلال عمل الناس من أجل التنافس معهم”.

رابط المصدر