على مدار السنوات الخمس الماضية ، دفعت التقدم في إمكانات معالجة بيانات نماذج الذكاء الاصطناعى وتفكيرها للمؤسسات والمطورين الصناعيين متابعة نماذج أكبر والمعايير الأكثر طموحًا. الآن ، مع ظهور Agenic AI كخليفة لمنظمة العفو الدولية ، ينمو الطلب على عوامل أكثر ذكاءً وأكثر دقة. ومع ذلك ، يتم قياس “الذكاء الذكي” في كثير من الأحيان حسب حجم النموذج أو حجم بيانات التدريب الخاصة به.

يجادل Databricks تحليلات البيانات وشركة الذكاء الاصطناعي بأن سباق AI Arm Race اليوم يفتقد إلى نقطة حاسمة: في الإنتاج ، أكثر ما يهم ليس ما يعرفه نموذج “يعرفه” ، ولكن كيف يعمل عندما يعتمد أصحاب المصلحة عليه. يؤكد جوناثان فرانكل ، كبير علماء الذكاء الاصطناعي في Databricks ، على أن الثقة في العالم الحقيقي والعائد على الاستثمار تأتي من كيفية تصرف نماذج الذكاء الاصطناعى في الإنتاج ، وليس من مقدار المعلومات التي تحتوي عليها.

على عكس البرامج التقليدية ، تولد نماذج الذكاء الاصطناعي مخرجات احتمالية بدلاً من تلك الحتمية. “الشيء الوحيد الذي يمكنك قياسه حول نظام الذكاء الاصطناعى هو كيف يتصرف. لا يمكنك النظر بداخله. لا يوجد أي ما يعادل الكود المصدر”. شركة سريعة. ويزعم أنه على الرغم من أن المعايير العامة مفيدة لقياس القدرة العامة ، إلا أن المؤسسات غالباً ما تكون تتفوق عليها.

ما يهم أكثر بكثير ، كما يقول ، هو تقييم دقيق للبيانات الخاصة بالأعمال لقياس الجودة ، وصقل المخرجات ، وتوجيه استراتيجيات تعلم التعزيز. يقول: “اليوم ، غالبًا ما ينشر الأشخاص الوكلاء من خلال كتابة موجه ، ومحاولة بعض المدخلات ، والتحقق من مشاعرهم ، والنشر. لن نفعل ذلك أبدًا في البرامج – ولا ينبغي لنا أن نفعل ذلك في الذكاء الاصطناعي ،”.

يوضح فرانكل أنه بالنسبة لوكلاء الذكاء الاصطناعي ، تحل التقييمات محل العديد من القطع الأثرية الهندسية التقليدية ، أي المناقشة ، ووثائق التصميم ، واختبارات الوحدة ، واختبارات التكامل. لا يوجد أي معادلة لمراجعة التعليمات البرمجية لأنه لا يوجد رمز وراء الوكيل ، والمطالبات ليست رمزًا. هذا ، كما يقول ، هو بالضبط سبب أهمية التقييمات ويجب أن تكون أساس نشر الذكاء الاصطناعي المسؤول.

إن التحول من التركيز على الاعتقاد إلى التأكيد على السلوك هو أساس اثنين من الابتكارات الرئيسية من قبل Databricks هذا العام: تحسين وقت الاختبار (TAO) وطوب الوكيل. معا ، تسعى هذه التقنيات إلى إجراء التقييم السلوكي للخطوة الأولى في AI للمؤسسة ، بدلاً من الفكرة اللاحقة.

سلوك الذكاء الاصطناعي يهم أكثر من المعرفة الخام

غالبًا ما يعتمد تقييم الذكاء الاصطناعي التقليدي على الدرجات القياسية ومجموعات البيانات المسمى المستمدة من التمارين الأكاديمية. في حين أن هذه المقاييس لها قيمة ، فنادراً ما تعكس القرارات السياقية التي تواجهها الشركات الخاصة بالمجال. في الإنتاج ، قد يحتاج الوكلاء إلى إنشاء لغة استعلام منظمة (SQL) في لهجة الشركة الملكية ، أو تفسير المستندات التنظيمية بدقة ، أو استخراج حقول محددة للغاية من البيانات الفوضوية غير المهيكلة.

يقول Naveen Rao ، نائب رئيس الذكاء الاصطناعي في Databricks ، إن هذه تحديات سلوكية بشكل أساسي ، تتطلب ردود فعل تكرارية ، وتسجيل مدرك للمجال ، والضبط المستمر ، وليس مجرد معرفة أساسية.

“قد تكون المعرفة العامة مفيدة للمستهلكين ، ولكن ليس بالضرورة للمؤسسات. تحتاج المؤسسات إلى التمايز ؛ يجب أن تستفيد من أصولها للتنافس بفعالية” ، كما يقول شركة سريعة. “التفاعل والتغذية المرتدة أمران ضروريون لفهم ما هو مهم لمجموعة المستخدمين ومتى يتم تقديمه. ما هو أكثر من ذلك ، هناك طرق معينة يجب تنسيق المعلومات اعتمادًا على السياق. كل هذا يتطلب ضبطًا مفصلًا ، إما في شكل هندسة السياق أو تعديل أوزان الشبكة العصبية بالفعل.”

في كلتا الحالتين ، كما يقول ، فإن تسخير التعلم القوي أمر ضروري ، مقترن بواجهة المستخدم لالتقاط التغذية المرتدة بشكل فعال. هذا هو وعد TAO ، طريقة صقل فريق Residents Team لفريق DataBricks: تحسين الأداء باستخدام مؤسسات المدخلات التي تولد بالفعل ، وتوسيع نطاق الجودة من خلال حساب الطاقة بدلاً من وضع علامات على البيانات والتعليقات التوضيحية.

في حين أن معظم الشركات تعامل التقييم كفكرة لاحقة في نهاية خط الأنابيب ، فإن Databricks تجعلها أساسية في هذه العملية. يستخدم TAO حساب وقت الاختبار لإنشاء استجابات متعددة ، ويسجلها بالقضاة الآليين أو المخصصين ، ويغذي تلك الدرجات في تحديثات التعلم التعزيز لضبط النموذج الأساسي. والنتيجة هي نموذج ضبط يوفر نفس تكلفة الاستدلال مثل الأصل – مع حساب ثقيل يتم تطبيقه مرة واحدة فقط أثناء التوليف ، وليس في كل استعلام.

يقول فرانكل: “الجزء الصعب هو الحصول على نماذج منظمة العفو الدولية للقيام بعمل جيد في مهمتك المحددة ، وذلك باستخدام المعرفة والبيانات التي لديك ، ضمن مظروف التكلفة والسرعة. هذا هو التحول من الذكاء العام إلى ذكاء البيانات”. “يمكن أن تساعد TAO في ضبط نماذج غير مكلفة ومفتوحة المصدر لتكون قوية بشكل مدهش باستخدام نوع من البيانات التي وجدناها شائعة في المؤسسة.”

وفقًا لمدونة Databricks ، قامت Tao بتحسين متغيرات Llama مفتوحة المصدر ، حيث سجلت النماذج المضبوطة أعلى بكثير في معايير المؤسسات مثل FinanceBench و DB Enterprise Arena و Bird-SQL. تدعي الشركة أن الطريقة جلبت نماذج LLAMA ضمن نطاق من الأنظمة الملكية مثل GPT-4O و O3-MINI في مهام مثل توليد وثيقة Q&A و SQL ، مع الحفاظ على تكاليف الاستدلال منخفضة. في تشغيل مهام متعددة الأوسع باستخدام 175،000 مطالبة ، عزز Tao أداء Llama 3.3 70B بحوالي 2.4 نقطة و LLAMA 3.1 70B بحوالي 4.0 نقطة ، مما أدى إلى تضييق الفجوة مع نماذج كبيرة معاصرة.

لاستكمال تقنية صقلها النموذجي ، قدمت Databricks عميل الطوب ، وهي ميزة تعمل بالنيابة عن الذكاء الاصطناعى في منصة ذكاء البيانات الخاص بها. إنه يمكّن المؤسسات من تخصيص وكلاء الذكاء الاصطناعى ببياناتهم الخاصة ، وضبط أوزان الشبكة العصبية ، وبناء قضاة مخصصين لفرض قواعد خاصة بالمجال. يهدف المنتج إلى أتمتة الكثير من تطوير الوكلاء: تحدد الفرق غرض الوكيل وتوصيل مصادر البيانات ، وينشئ الطوب عوامل مجموعات بيانات التقييم ، ويقوم بإنشاء القضاة ، واختبارات أساليب التحسين.

يمكن للعملاء اختيار تحسين الحد الأقصى للجودة أو التكلفة المنخفضة ، مما يتيح التكرار بشكل أسرع مع الرقابة البشرية وعدد أقل من التعديلات اليدوية.

“أحدث تقنيات البحث في Databricks ، بما في ذلك تعلم TAO والوكيل من التعليقات البشرية (ALHF) ، وطوب وكيل الطاقة. بعض حالات الاستخدام تدعو إلى نماذج ملكية ، وعندما يكون هذا هو الحال ، فإنه يربطها بشكل آمن ببيانات المؤسسة وتطبق التقنيات مثل Retrieval و Unluctive Guitping.

ويضيف أن الطوب العميل مصمم حتى يتشكل خبراء المجال – الذين لا يحصلون على قدرة الترميز – على تشكيل عوامل الذكاء الاصطناعى وتحسينه. يمكن لخبراء الموضوع مراجعة استجابات الوكيل مع إبهام بسيط أو إبهام التغذية المرتدة ، في حين يمكن للمستخدمين التقنيين تحليل النتائج بعمق وتقديم إرشادات مفصلة. يقول راو: “هذا يضمن أن وكلاء الذكاء الاصطناعى يعكسون أهداف المؤسسة ومعرفة المجال والتوقعات المتطورة” ، مشيرًا إلى أن العملاء الأوائل شهدوا مكاسب سريعة.

قامت Astrazeneca بمعالجة أكثر من 400000 وثيقة تجريبية سريرية واستخرجت بيانات منظمة في أقل من ساعة مع طوب الوكيل. وبالمثل ، مكنت الميزة Flo Health من مضاعفة مقياس الدقة الطبية مقارنة مع نماذج اللغة الكبيرة التجارية مع الحفاظ على الخصوصية والسلامة الصارمة. “إن نهجهم يمزج الخبرة الصحية المتخصصة في FLO مع الطوب العامل ، والذي يستفيد من البيانات الاصطناعية والتقييم المصمم لتوفير الدعم الصحي الموثوق به وفعال من حيث التكلفة على نطاق واسع-وهو وضعنا في وضعنا بشكل لا يطاق لتحفيز صحة المرأة” ، يوضح Rao.

من المعايير إلى بيانات العمل

التحول نحو التقييم الأول للسلوك عملي ولكن ليس علاجًا. يحذر المتشككون من أن التقييمات والضبط الآلي يمكن أن تعزز التحيز بسهولة ، أو قفل المخرجات المعيبة ، أو السماح للأداء بالانجراف دون أن يلاحظها أحد.

يقول فيليب إيسولا ، الأستاذ المشارك والمحقق الرئيسي في مختبر علوم الكمبيوتر والذكاء الاصطناعي في معهد ماساتشوستس للتكنولوجيا: “في بعض المجالات ، لدينا حقًا التحقق التلقائي الذي يمكننا الوثوق به ، مثل نظرية الإثبات في الأنظمة الرسمية. في المجالات الأخرى ، لا يزال الحكم البشري أمرًا بالغ الأهمية”. “إذا استخدمنا الذكاء الاصطناعى كناقد لتحسين الذات ، وإذا كان الذكاء الاصطناعى خطأ ، فقد ينطلق النظام من القضبان”.

يشير Isola إلى أنه على الرغم من أن أنظمة الذكاء الاصطناعى ذاتية التفسير تولد الإثارة ، فإنها تحمل أيضًا مخاطر سلامة وأمن متزايدة. يقول: “إنهم أقل تقييدًا ، ويفتقرون إلى الإشراف المباشر ، ويمكنهم تطوير استراتيجيات قد تكون غير متوقعة ولها آثار جانبية سلبية”. “المفتاح هو الاستمرار في تحديث التقييمات كل عام ، لذلك نحن دائمًا نختبر النماذج حول المشكلات الجديدة التي لم يحفظها بالفعل.”

Databricks تقر بالمخاطر. يشدد فرانكل على الفرق بين تجاوز العلامات البشرية وتجاوز الإشراف على الإنسان ، مشيرًا إلى أن TAO “ببساطة تقنية صقل تغذيها مؤسسات البيانات بالفعل”. في التطبيقات الحساسة ، كما يقول ، تظل الضمانات ضرورية ولا ينبغي نشر أي وكيل دون تقييم دقيق للأداء.

يلاحظ الخبراء الآخرون أن أكبر كفاءة لا تعمل تلقائيًا على تحسين محاذاة نموذج الذكاء الاصطناعي ، وليس هناك طريقة واضحة لقياس محاذاة نموذج الذكاء الاصطناعى حاليًا. يقول مات زيلر ، الرئيس التنفيذي لشركة Clarifai: “بالنسبة لمهمة محددة جيدًا حيث يتخذ الوكيل إجراءً ، يمكنك إضافة ملاحظات بشرية ، ولكن لمهمة أكثر إبداعًا أو مفتوحة ، هل من الواضح كيفية تحسين المحاذاة؟ التفسير الميكانيكي ليس قويًا بما يكفي”.

يجادل Zeiler بأن اعتماد الصناعة على مزيج من المعايير العامة والمحددة يحتاج إلى التطور. في حين أن هذه الاختبارات تكثف العديد من العوامل المعقدة في عدد قليل من الأرقام البسيطة ، فإن النماذج ذات الدرجات المماثلة لا “تشعر” دائمًا بنفس القدر من الاستخدام.

يقول: “لا يتم التقاط” الشعور “في معايير اليوم ، ولكن إما أن نتعرف على كيفية قياسه ، أو سنقبله فقط كجانب شخصي من التفضيلات البشرية ؛ بعض الناس ببساطة يحبون بعض النماذج أكثر من غيرها”.

إذا كانت النتائج من Databricks ، فيجوز للمؤسسات إعادة التفكير في استراتيجية الذكاء الاصطناعي ، وإعطاء الأولوية لحلقات التغذية المرتدة ، وخطوط أنابيب التقييم ، والحوكمة على حجم النموذج الهائل أو مجموعات البيانات الضخمة المسمى ، ومعالجة الذكاء الاصطناعي كنظام يتطور مع الاستخدام بدلاً من منتج Onet -Time.

يقول راو: “نعتقد أن مستقبل الذكاء الاصطناعي لا يكمن في النماذج الأكبر ، ولكن في الأنظمة التكيفية والوكيل التي تتعلم وسبب بيانات المؤسسة”. “هذا هو المكان الذي تعمل فيه البنية التحتية والذكاء: أنت بحاجة إلى تزامن واتصال البيانات والتقييم والتحسين معًا.”


رابط المصدر