
حصل برايان أرمسترونغ ، الرئيس التنفيذي لشركة Coinbase ، على بعض المشاعر السيئة للغاية في الأسبوع الماضي بعد أن تفاخر على X أن ما يقرب من نصف رمز تبادله تم إنشاؤه بالفعل ، مع خطط لدفعه إلى أعلى. أطلقت المنشور سيلًا من السخرية ، ويبدو أنه يبلل الشكوك حول موثوقية أدوات “الترميز” التي كانت تتدفق لعدة أشهر.
على مدار العامين الماضيين ، وصلت أدوات ترميز الذكاء الاصطناعى مثل Claude Code (الإنسان) ، Codex (Openai) ، المؤشر ، المحبوب ، والإعادة إلى ما وراء خطوط الإكمال التلقائي للرمز ؛ يمكنهم إنشاء تطبيقات وميزات كاملة من مطالبة باللغة البسيطة ، حتى بالنسبة للمستخدمين الذين لديهم تجربة ترميز ضئيلة أو معدومة. ولكن حتى مع تأمل Execs Exects في أن تقوم الأدوات بتسريع إنتاج البرمجيات ، فإن الكثير منهم في مجتمع التطوير يجدون أنه على الرغم من أن الترميز المليء بالحيوية قد يكون رائعًا لصفع العروض التوضيحية معًا ، فإنه ليس رائعًا لبناء برامج آمنة وموثوقة وقابلة للتفسير. والمشاكل التي أنشأتها التعليمات البرمجية التي تم إنشاؤها من الذكاء الاصطناعى قد تظهر فقط بعد فترة طويلة من شحن البرنامج.
يقول Jack Zante Hays ، كبير مهندسي البرمجيات في PayPal الذي يعمل على أدوات تطوير برمجيات الذكاء الاصطناعي: “يمكن أن يصبح الرمز الذي أنشأته وكلاء ترميز الذكاء الاصطناعي جحيمًا للتطوير”. ويشير إلى أنه على الرغم من أن الأدوات يمكن أن تدور بسرعة في ميزات جديدة ، فإنها غالبًا ما تولد ديونًا فنية ، وتقدم الأخطاء وأعباء الصيانة التي يجب سدادها في النهاية مع وقت المطور والجهد. تحتوي هذه المفاضلة على بعض المهندسين الذين يتساءلون عما إذا كانت أدوات الترميز فيبي تكلف في النهاية وقتًا أكثر مما يوفرون.
تعد أدوات الترميز Vibe رائعة لإنشاء عروض تجريبية للبرامج ، ويوافق معظمها على ذلك. هناك قيمة حقيقية في أداة تسمح لمدير المنتجات غير الفني بتجميع الواجهة الأمامية وبعض ميزات التطبيق ، واتخاذها إلى فريق البرمجيات وتقول “انظر؟ هذا ما أريده”. تبدأ المشكلات عند استخدام أدوات ترميز الذكاء الاصطناعي لترميز التطبيقات أو الميزات أو الوظائف الجديدة التي سيتعين عليها في النهاية التفاعل مع جميع البرامج الأخرى في قاعدة البيانات ، بما في ذلك قواعد البيانات وأدوات الأمان وخدمات المصادقة وواجهة برمجة التطبيقات الخارجية والبنية التحتية.
إدارة كل هذه الاتصالات أمر صعب. وفقًا لـ Hays ، ضربت أدوات الترميز Vibe “سقف تعقيد” بمجرد أن تنمو قاعدة الكود إلى ما هو أبعد من حجم معين. يقول: “قد تكون قواعد التعليمات البرمجية الصغيرة على ما يرام حتى تصل إلى حجم معين ، وهذا عادة عندما تبدأ أدوات الذكاء الاصطناعي في كسر أكثر مما تحل”.
والمشكلة تزداد سوءًا مع المستخدمين الذين يفتقرون إلى الخبرة. “يمكن أن يتضمن الترميز فيبي – خاصةً من المستخدمين غير المتميزين الذين لا يمكنهم تقديم متطلبات ميزة الذكاء الاصطناعى إلا أن يتغير مثل 60 شيئًا في وقت واحد – مع الاختبار ، لذلك يمكن كسر 10 أشياء في وقت واحد.” على عكس المهندس البشري ، الذي يختبر بشكل منهجي كل إضافة ، غالباً ما يكافح البرامج المشفرة في الغالب للتكيف بمجرد أن تكون حياً ، خاصة عند مواجهة حالات “الحافة” في العالم الحقيقي.
يجادل البعض بأن مشكلة تطبيقات الترميز الأكثر أهمية. لإنشاء رمز آمن وموثوق ، يحتاج وكيل الذكاء الاصطناعي إلى فهم واسع لقاعدة الكود بأكملها. غالبًا ما يعتمد سلوك ميزة واحدة على حالة أو تصرفات العديد من المكونات الأخرى. يتطلب هذا النوع من التكامل التفكير ، ويتأثر مجموعة متنامية من البحث حول ما إذا كانت نماذج اللغة الكبيرة يمكن أن تسبب حقًا في حفظ أنماط السياق وإعادة تطبيقها.
لدى المطورين أنفسهم شكوك حقيقية حول أدوات الترميز فيبي. وجد أحدث استطلاع في Stack Overflow أنه على الرغم من أن أكثر من نصف المطورين المحترفين يستخدمون الآن أدوات ترميز الذكاء الاصطناعى يوميًا ، إلا أن 46 ٪ من دقتهم مقارنة بـ 33 ٪ الذين يثقون بهم. كما انخفض المشاعر الإيجابية ، حيث انخفض من 70 ٪ في 2024 إلى 60 ٪ في عام 2025. وقال 30 ٪ فقط من مطوري العاملون إن الأدوات جيدة أو رائعة في التعامل مع مهام الترميز المعقدة.
ستحدث الحوادث
بدأت قصص العواقب غير المقصودة لترميز الأجواء في السطح ، حتى لو لم يتم الإبلاغ عن العديد من الحوادث.
في يوليو / تموز ، قام تطبيق الشاي – الذي يتيح للنساء بمشاركة معلومات حول الرجال الذين مؤرخة – خرقًا كبيرًا للبيانات يعتقد بعض المراقبين أنه مرتبط بعوامل ترميز الذكاء الاصطناعي. ترك التطبيق قاعدة بيانات سحابة غير مضمونة تحتوي على 72000 صورة حساسة ، بما في ذلك صور شخصية ومعرفات الصور ، وكذلك الصور من المنشورات والرسائل. وصل المتسللون إلى TROVE وشارك المستخدمون البيانات على 4CHAN قبل أن تنتشر على نطاق أوسع عبر الإنترنت. وبحسب ما ورد ، أدى التعرض الثاني للخطر إلى المزيد من بيانات المستخدم ، مما دفع الشاي إلى تعطيل ميزة الرسائل المباشرة.
يقول Will Wilson من شركة اختبار برامج الذكاء الاصطناعى Antithesis إن العيوب الموجودة في رمز الشاي قد تم إنشاؤها من قبل منظمة العفو الدولية. يقول: “إن نمط الحقيقة يتناسب بشكل جيد مع ألف مثيلات أخرى من هذا يحدث مع ترميز فيبي”. اختبارات الإجهاد في منصة ANTITLES ضمن بيئة محاكاة.
وجاءت حلقة أخرى في أغسطس ، عندما قام وكيل منظمة العفو الدولية من Ariit بحذف قاعدة بيانات كاملة لجهات الاتصال التنفيذية أثناء العمل على تطبيق الويب لمستثمر SaaS Jason Lemkin. بعد تسعة أيام من بناء الواجهة الأمامية مع وكيل الدردشة في Refort ، أخبر Lemkin ذلك “تجميد” الكود. عندما عاد ، تم محو قاعدة البيانات. تمكنت Repray من استرداد السجلات ، لكن الحادث أكد على خطر أن المبرمجين فيبي قد يبالغون في تقدير ما يمكن أن تفعله هذه الأدوات بشكل موثوق.
يشدد Amjad Masad ، الرئيس التنفيذي لشركة Reprof ، على أن عوامل ترميز الذكاء الاصطناعى تهدف إلى التعامل مع بناء الجملة حتى يتمكن المطورون من التركيز على العمل ذي المستوى الأعلى. لكنه يقول ، يجب أن يفكر المستخدمون مثل المطورين. يقول: “أعتقد أننا بحاجة إلى أن نكون واضحين أنه ليس سحرًا ، فأنت بحاجة إلى تعلم الأدوات”. “يجب ألا تطلب من الوكيل فقط كل شيء ؛ يجب أن تكون الحيلة”.
الرئيس التنفيذي المحبوب والمؤسس أنطون أوسيكا يردد هذه النقطة. يقول: “من الواضح أن المتطلبات مختلفة بالنسبة للمستخدمين غير الفنيين الذين يقومون ببناء تطبيقات شخصية مقارنة بمستخدمي مؤسستنا”. “لكن من المفهوم عمومًا أنه ينبغي مراجعة جميع الكود قبل نشرها ، سواء كانت منظمة العفو الدولية أو التي يتم إنشاؤها من قبل الإنسان.”
النفايات السامة والجنون الشريرة
شهدت Will Wilson’s Willon الكثير من أنواع مختلفة من أخطاء البرامج على مر السنين ، وكثير منها تم إنشاؤه بواسطة المبرمجين البشريين. أنواع أدوات الترميز من الأخطاء AI ليست جديدة تمامًا ؛ لكنها يمكن أن تحدث بشكل أسرع وبأعداد أكبر. يقول ويلسون: “أود أن أقول إنها بالتأكيد الرياح ذات الخلاف الكبير للغاية لأعمالنا لأن هناك الكثير من الأشخاص الذين يأتون الآن إلى الباب ويقولون:” هذا الشيء الذي يحدث ، لا يمكنني حقًا التحكم في ما يفعله مطوراتي “ويلوننا على أنه شبكة أمان يمكن أن يلتقط أسوأ الأشياء التي قد تتسللها منظمة العفو الدولية إلى مراجعة الكود اليدوي”.
يضع ويلسون الحشرات التي تم إنشاؤها في الذكاء الاصطناعى في فئتين: “النفايات السامة” و “الجينات الشريرة”.
بعد فترة طويلة من الانتهاء من الترميز ، عندما يتعين على مطوري البرامج العودة وإصلاح أو تعديل الكود ، قد يصادفهم مشكلة النفايات السامة. على الرغم من أن أدوات ترميز الذكاء الاصطناعى تنشئ الكثير من التعليمات البرمجية بناءً على مدخلات اللغة الطبيعية ، إلا أنها ليست جيدة في شرح “لماذا” و “كيف” من الكود باللغة الطبيعية. يقول ويلسون: “أحتاج الآن إلى المجيء وأحاول فهم هذا الرمز من الصفر”. “وقد يستغرق الأمر مني وقتًا أطول مما كان سيستغرقه فقط كتابة الكود في المقام الأول.”
تتصرف أدوات الترميز فيبي أحيانًا مثل جني شرير يفسر الرغبات بأكثر الطرق الحرفية فقط. قل أن الرجل يسأل جنيًا عن الحياة الأبدية: قد يمنح جني شرير الرغبة ، ولكنه يتسبب أيضًا في أن يعيش الرجل إلى الأبد كشخص عجوز ، لأن الرجل لم يحدد أنه يرغب في أن يكون شابًا إلى الأبد. قد تفسر أداة الترميز فيبي (الرغبة) بالمثل.
يقول ويلسون: “قد تجد (الأداة) طريقة لتفسير ما تطلبه في نوع من الأسوأ أكثر من ذلك لأنك لم تعطي مواصفات كاملة لما تريده”. وغالبًا ما يفشل المبرمجين في توصيل أشياء صريحة مثل متطلبات العمل أو معايير الأمان ، سواء في الكود الخاص بهم أو في المطالبات التي يقدمونها لوكلاء ترميز الذكاء الاصطناعي.
قياس التحسن ، أو لا
بالطبع تعمل شركات الذكاء الاصطناعى باستمرار على تحسين نماذج اللغة الكبيرة التي هي أدمغة عوامل ترميز الذكاء الاصطناعى. يعمل البعض على البناء في اختبار الدرابزين والأمن ، لذلك لا يتعين على المطورين البشريين إصلاح عواقبهم غير المقصودة لاحقًا.
يقول Hays من Paypal: “تشير الكثير من هذه الانتقادات إلى مشاكل في أدوات ترميز الذكاء الاصطناعى في السنوات القليلة الماضية ، والتي لا يمكنني الوثوق بها دائمًا حول الكود الخاص بي”. “لكن يجب أن أقول ، لقد اكتسبت Claude Code مؤخرًا ثقتي أكثر فأكثر لأنها عادةً ما تكون قادرة على إصلاح الرمز الذي أوجهه إليه جراحياً فقط دون لمس رمز غامض خارج نطاق طلبي.”
هناك أدلة على أن هذه الأدوات أصبحت أكثر ذكاءً. يقول تقرير مؤشر الذكاء الاصطناعى الأخير من شركة Stanford في عام 2024 عن 71.7 ٪ من المهام في Swebench ، وهو معيار لهندسة البرمجيات في العالم الحقيقي. في عام 2023 ، حلت LLMS 4.4 ٪ فقط. لكن المعايير ليست جيدة مثل انعكاسها لمشاكل الترميز في العالم الحقيقي. يجادل بعض النقاد بأن Swebench سهلة للغاية ، مما يتطلب إصلاحات بسيطة نسبيًا. يشعر آخرون بالقلق من الأسئلة ، التي يتم استخلاصها من مستودعات المصدر المفتوح ، قد تظهر بالفعل في بيانات التدريب. ولأن Swebench يركز فقط على Python-لغة الذكاء الاصطناعي المهيمن-لا يختبر التحديات في رمز الواجهة الأمامية أو البنية التحتية.
وقال بوريس تشيرني ، المهندس الإنساني الذي أنشأ كلود كود ، في بودكاست حديث: “من الصعب للغاية بناء evals. إلى حد بعيد الإشارة الأكبر هي مجرد المشاعر. هل تشعر أنها أكثر ذكاءً؟”
إلى جانب المشاعر ، تبحث الشركات والمستثمرين عن دليل على أن هذه الأدوات يمكن أن تحقق مكاسب ذات إنتاجية حقيقية. يتم وصف عوامل ترميز الذكاء الاصطناعى كأحد التطبيقات الأولى لنماذج اللغة الكبيرة للحصول على مكاسب قابلة للقياس في مكاسب الإنتاجية.
غالبًا ما تتحدث الشركات الناشئة في الترميز في الغالب عن كيفية تتيح أدواتهم لأي شخص إنشاء تطبيقات ، وليس فقط مطوري المحترفين. إنه ملعب قوي. X غارقة في قصص من غير المرئيين حول بناء تطبيق جديد بطريقة سحرية في عطلة نهاية الأسبوع. وقد استجابت الأسهم الخاصة.
المحبوب ، على سبيل المثال ، يقال إنه يسلي عروض جديدة بتقييم بقيمة 4 مليارات دولار – أكثر من مضاعفة آخرها. تضاعف Anysphere ، صانع أداة ترميز المؤشر ، تقييمها كل ثمانية أسابيع منذ أغسطس 2024 ، وفقًا لـ Pitchbook. جمعت الأنثروبور فقط 13 مليار دولار أخرى ، مما رفع تقييمه إلى 183 مليار دولار.
تلك التقييمات عالية السماء ليست مدفوعة فقط من قبل الهواة. إنهم يعتمدون على الاعتقاد بأن أدوات الترميز فيبي ستصبح سير العمل الافتراضي للمطورين داخل الشركات الكبيرة ، حيث يأمل المسؤولون التنفيذيون أن تزيد التكنولوجيا بشكل كبير من السرعة والكفاءة والمخرجات. في الوقت الحالي ، يعمل هذا التفاؤل قويًا على مستوى القيادة ، وتتسابق الشركات الناشئة للترميز في الجليد لالتقاط حصة من سوق المؤسسات المربحة لوكلاء ترميز الذكاء الاصطناعي.
مع تطور المنتجات ، قد يميل البعض أكثر صعوبة على زاوية الترميز فيبي ، مما يوسع لتغطية المزيد من بنية البرامج. لكن من المحتمل أن يكون الفائزون في نهاية المطاف هم أولئك الذين يعمقون أدواتهم مع الوعي القوي في السياق ، واختبار الموثوقية ، ودرابزين الأمن.








