أحدث أبحاث مايكروسوفت في الذكاء الاصطناعي لتحويل ا...

كشفت شركة Ars Technica أن Microsoft عرضت أحدث أبحاثها في مجال الذكاء الاصطناعي لتحويل النص إلى كلام باستخدام نموذج يسمى VALL-E يمكنه محاكاة صوت شخص ما من عينة صوتية مدتها ثلاث ثوانٍ فقط.

التفاصيل

ويمكن للخطاب أن يطابق الجرس فحسب بل يتطابق أيضًا مع النغمة العاطفية للمتكلم، وحتى صوتيات الغرفة، ويمكن استخدامه يومًا ما لتطبيقات تحويل النص إلى كلام المخصصة أو المتطورة، على الرغم من أنه مثل التزييف العميق، فإنه ينطوي على مخاطر إساءة الاستخدام، وفق تقرير إنغادجيت.

قد يهمّك أيضاً

دراسة: المستخدمون يميلون لتبني آراء تطبيقات الذكاء الاصطناعي

تقنية جديدة للتحكم في سلوك الحيوان بالذكاء الاصطناعي

VALL-E هو ما تسميه Microsoft “ونموذج لغة الترميز العصبي” إنه مشتق من ترميز الشبكة العصبية للضغط المدعوم بالذكاء الاصطناعي من ميتا، مما يولد الصوت من إدخال النص وعينات قصيرة من السماعة المستهدفة.

ووصف الباحثون في ورقة بحثية، كيف قاموا بتدريب VALL-E على 60.000 ساعة من الكلام باللغة الإنجليزية من أكثر من 7000 متحدث في مكتبة Meta الصوتية LibriLight ، ويجب أن يكون الصوت الذي تحاول تقليده مطابقًا تمامًا للصوت الموجود في بيانات التدريب، وإذا كان الأمر كذلك فإنه يستخدم بيانات التدريب لاستنتاج ما سيبدو عليه المتحدث المستهدف إذا كان يتحدث بإدخال النص المطلوب.

آلية العمل

ويوضح الفريق بالضبط كيف يعمل هذا بشكل جيد على صفحة VALL-E Github. لكل عبارة يريدون من الذكاء الاصطناعي “التحدث” ، لديهم مطالبة مدتها ثلاث ثوان من المتحدث لتقليد، “حقيقة أساسية” للمتحدث نفسه يقول عبارة أخرى للمقارنة ، “خط أساسي” لتحويل النص إلى كلام التقليدي التوليف وعينة VALL-E في النهاية.

والنتائج مختلطة، بعضها يشبه الآلة والبعض الآخر واقعي بشكل مدهش، حقيقة أنه يحتفظ بالنبرة العاطفية للعينات الأصلية، كما أنه يطابق البيئة الصوتية بأمانة، لذلك إذا قام المتحدث بتسجيل صوته في قاعة echo-y ، فإن إخراج VALL-E يبدو أيضًا وكأنه جاء من نفس المكان.

ولتحسين النموذج، تخطط Microsoft لتوسيع نطاق بيانات التدريب الخاصة بها “لتحسين أداء النموذج عبر وجهات نظر التشابه بين العروض الفنية وأسلوب التحدث والمتحدثين.” كما أنها تستكشف طرقًا لتقليل الكلمات غير الواضحة أو المفقودة.

واختارت Microsoft عدم جعل الكود مفتوح المصدر، ربما بسبب المخاطر الكامنة في الذكاء الاصطناعي التي يمكن أن تضع الكلمات في فم شخص ما.

وأضافت أنها ستتبع “مبادئ مايكروسوفت للذكاء الاصطناعي” في أي تطوير آخر، وكتبت الشركة في قسم “التأثيرات الأوسع” في استنتاجها: “نظرًا لأن VALL-E يمكنه تجميع الكلام الذي يحافظ على هوية المتحدث، فقد يحمل مخاطر محتملة في إساءة استخدام النموذج، مثل انتحال التعرف على الصوت أو انتحال الشخصية”.

تعادل السعودية ضد إندونيسيا إيجابيًّا بالشوط الأول

لحظة انطلاق مركبة دراغون ‎نحو الفضاء وعلى متنها علي القرني

“الأبحاث والإعلام” تحقق 121 مليون ريال أرباحاً

صحيفة أوكرانية: السعودية تلعب دورًا مهمًا في خطة السلام

خلل يتسبب في تأخير رحلة السعودية وتغيير الطائرة

السعودية

حصاد اليوم

العالم

أخبار أمنية

السوق

حساب المواطن

الرياضة

الرياضة العالمية

جولة ولي العهد

تكنولوجيا

تقارير

وظائف

السياحة والسفر

المجتمع

أحدث أبحاث مايكروسوفت في الذكاء الاصطناعي لتحويل النص لكلام

مواضيع ذات علاقة

التفاصيل

دراسة: المستخدمون يميلون لتبني آراء تطبيقات الذكاء الاصطناعي

تقنية جديدة للتحكم في سلوك الحيوان بالذكاء الاصطناعي

آلية العمل

ALI

إقرأ المزيد

أعلن معنا

اتصل بنا

من نحن

سياسة الخصوصية