لطالما تخيلنا “المستقبل” ، تخيلنا أجهزة الكمبيوتر التي تتحدث مع البشر. من الكمبيوتر الهدوء ، في أي وقت مضى في ستار تريك إلى جارفيس في الرجل الحديدي، كان منظمة العفو الدولية التي تدعم الصوت هي محور الخيال العلمي ورمزًا للتقدم التكنولوجي.

حسنًا ، هذا المستقبل الآن. والصوت الذكاء الاصطناعي في منتصف اندفاع الذهب.

تطورت تفاعلات الصوت من الذكاء الاصطناعي من أدوات النص إلى الكلام مع الأصوات التي تبدو مثل الروبوتات لتكنولوجيا صوت المحادثة الجديدة التي تشبه الخطاب البشري عن كثب. يمكننا التحدث إلى Chatgpt والحصول على ردود صوتية تشعر بأنها مدروسة ومضحكة وحقيقية. يمكن الآن للبحث عن بحث منظمة العفو الدولية من Google التحدث معك أثناء البحث في الويب والإجابة على أسئلة مثل مساعد جيد. هذه البوتات الصوتية لا تتحدث فقط ، بل يتحدثون. يثبتون أنهم في الحقيقة افهم ما نقوله أثناء محاكاة التواصل الحقيقي المنطوق بشكل وثيق مع الإيقاف المؤقت والانعكاس والعاطفة والسياق والنبرة.

وهذه ليست سوى البداية. بلا شك ، الصوت هو الحدود القادمة من الذكاء الاصطناعي. لكن تقدمه يعتمد على جودة ونزاهة البيانات الصوتية التي يتم تدريبها عليها.

الذهب الحقيقي؟ البيانات الصوتية

ما الذي يعمل على تشغيل هذا الجيل الجديد من Voice AI ليس مجرد رمز – إنها بيانات صوتية يتم تدريبها على النماذج الصوتية. وبشكل أكثر تحديداً ، فهي مجموعات بيانات ضخمة ذات جودة عالية ومتنوعة من الأصوات البشرية ، والتي تمثل نطاق الكلام البشري بكل تعقيدها – اللغات الذروة ، واللهجات ، والمفردات ، والأنماط ، والعواطف ، والانحدار ، والسياق.

الآن بعد أن رأت الصناعة المكان الذي تتجه إليه الذكاء الاصطناعي ، فإنه يفهم القيمة المهمة للبيانات الصوتية ، والجميع يريد الوصول إلى هذه البيانات. تتدافع عمالقة التكنولوجيا والشركات الناشئة لجمعها أو ترخيصها أو بناءها من نقطة الصفر. الكل يريد إنشاء ما يلي ، معظمهم يتحدثون عن الذكاء الاصطناعي ، ويحتاجون إلى البيانات الصوتية لتزويدها.

هذا هو اندفاع بيانات الصوت الذهب.

ولكن تمامًا مثل الاندفاع الذهب الأصلي في القرن التاسع عشر ، يأتي الهيجان الحالي مع المخاطرة والنتيجة.

إذا لم يكن لديك إذن ، فهذا يسرق

أعتقد اعتقادا راسخا أنه لبناء صوت الذكاء الاصطناعي بالطريقة الصحيحة ، من الناحية الفنية والأخلاقية ، تحتاج البيانات التي تدرب على نماذج صوتية منظمة العفو الدولية لتلبية ثلاثة معايير. يجب أن تكون البيانات

يمكن للعديد من مجموعات البيانات الحالية تلبية واحد أو اثنتين من هذه المتطلبات. الحصول على البيانات التي تضرب الثلاثة هي الجزء الصعب.

لا تأخذ اختصارات

لا أسمع العديد من الشركات التي تتحدث عن كيفية قيامهم ببناء الذكاء الاصطناعي أخلاقياً ، أو ذكرت بوضوح المصادر أو الأذونات وراء البيانات المستخدمة لبناء صوتهم. نعم ، إنهم قادرون على التحرك بسرعة. العديد من الشركات الناشئة AI الصوتية تذهب إلى السوق في غضون أشهر. ولكن عندما يتمكنون من إنتاج أصوات تشبه الحياة بسرعة ومع رأس مال محدود للغاية ، لا يسعني إلا أن أتساءل: من أين أتت جميع بيانات التدريب الخاصة بهم؟

لتوفير الوقت وخفض التكاليف ، تأخذ الشركات اختصارات عن طريق تجزئة الصوت من الإنترنت ، أو الاعتماد على مجموعات البيانات بملكية غامضة أو غير معروفة ، أو استخدام بيانات مرخصة لتدريب الذكاء الاصطناعي ، لكنها تفشل في تلبية معايير الجودة اللازمة لتدريب النماذج الصوتية المقنعة.

هذا هو الذهب الخداع من الذكاء الاصطناعى: البيانات التي تبدو لامعة ، ولكن لا يمكنها الوقوف في وجه التدقيق القانوني أو تلبية معايير الجودة المناسبة.

والحقيقة هي أن الصوت الذكاء الاصطناعي هو فقط جيد مثل البيانات التي تدرب عليها. وإذا كنت تقوم ببناء نموذج صوتي يهدف إلى الوصول إلى ملايين المستخدمين ، فإن المخاطر عالية. يجب أن تكون بياناتك نظيفة وموافقة ومرخصة ومتنوعة. مجرد إلقاء نظرة على العناوين: “سرقت شركة AI VoiceOver أصوات الممثلين ، دعوى قضائية في نيويورك” يتم استدعاء الشركات ومقاضاة الاستنساخ واستخدام الأصوات دون إذن.

عندما تسلك المسار غير المستمر ، فأنت لا تخاطر فقط بصداع العلاقات العامة ؛ تقوم بفتح الباب أمام الدعاوى القضائية ، والأضرار السمعة ، والأهم من ذلك ، تخاطر بخسارة كبيرة في ثقة العملاء.

بناء منظمة العفو الدولية التي تستمر

نحن ندخل حقبة جديدة من التفاعل بين الإنسان إلى الحاسوب ، حيث يكون الصوت هو الواجهة الافتراضية. منظمة العفو الدولية التي ستصبح المحادثات هي الطريقة القياسية التي نتسوق فيها ، والتعلم ، والبحث ، والعمل ، وحتى صياغة العلاقات.

ولكن لكي تكون هذا المستقبل مفيدًا حقًا وإنسانيًا وجديرًا بالثقة ، نحتاج إلى بنائه على الأساس الصحيح. ما زلنا في وقت مبكر نسبيًا في طفرة الذكاء الاصطناعى التوليدي ، والتنقل في المشهد القانوني حول حقوق وتراخيص بيانات التدريب معقدة. إذا كان هناك شيء واحد نعرفه على وجه اليقين ، فإن أي منتج صوتي دائم وناجح من الذكاء الاصطناعي سيعتمد على بيانات الجودة التي تم الحصول عليها بالطريقة الصحيحة.

الاندفاع الذهب هنا. اللاعبون الأذكياء لا يطاردون الأشياء اللامعة. إنهم يبنون أصواتًا تدوم.

جاي أوكونور الرئيس التنفيذي لشركة Voices.com.

رابط المصدر