الثلاثاء 30 يوليو 2024
رئيس مجلس الإدارة
هبة صادق
رئيس التحرير
أيمن عبد المجيد
وشك من صوتك

وشك من صوتك

الأمثال الشعبية والأقوال المأثورة تحتوى على كثير من الثنائيات الطريفة مثل «منه فيه» أو «من دقنه وافتل له» وهما بمعنى أن المتلقى أو المستقبل لن يحصل على شىء جديد أو إضافى بل سيحصل على جزء منه أصلًا.



فى عام 2019 قام 7 خبراء فى مجال تحليل الأصوات والذكاء الاصطناعى بعرض ورقة بحثية فى مؤتمر IEEE  والقيام بتجربة عملية لما أسموه Speech2Face: Learning the Face Behind a Voice , حيث يتم تغذية البرنامج بمقطع صوتى لشخص يتحدث ويقوم البرنامج برسم صورة تخيلية لوجه هذا الشخص، بالطبع هذا يتم من خلال البرمجة  بتقنيات الذكاء الاصطناعى (AI) والشبكات العصبية ( Neural Network).

الفكرة ببساطة تعتمد على تحليل ملايين من مقاطع الفيديو المصورة لأشخاص يتكلمون حيث يتم فصل الصوت عن الصورة ومن خلال تلك الخوارزميات المعقدة يتم عمل تصور أو أكثر لكل نغمة صوتية تشمل خصائص متعددة منها النوع ذكر أم أنثى وأيضًا منطقة  المنشأ (شرق أوسط- شرق أقصى- أوروبا- إفريقيا- أمريكا اللاتينية-...إلخ) مع عدد آخر من الخصائص المرتبطة بالسن وشكل الفك والأسنان وباقى ملامح الوجه من سمنة أو نحافة... إلخ.

والأمر وإن بدأ هزليًا أو للتسلية فقط إلا أن من يقرأ الورقة البحثية حتى النهاية يعرف أن الغرض والهدف فى غاية الأهمية والخطورة، فبعد أن يقوم البرنامج  بتكوين وجه للمتحدث بناء على المقطع الصوتى الذى تمت تغذيته به (مدة المقطع الصوتى 3 أو 6 ثوان فقط)، يتم بعد ذلك مقارنة  ملامح الوجه الناتجة بملامح الوجه الحقيقية لصاحب الصوت الأصلى وتحديد معامل الخطأ أو الحيود، بالطبع  تكون نسبة الخطأ أكبر عندما تكون مدة المقطع الصوتى 3 ثوان فقط وتقل نسبة الخطأ فى حالة أن يكون المقطع الصوتى مدته 6 ثوان.

وفى الحقيقة فإن النتائج الأولية تظهر تقاربًا كبيرًا بين الصورتين- لم تصل إلى حد التطابق- وهو ما يجعل هذا المشروع يحتاج إلى المزيد من الدراسة - مثلما كانت توصية الباحثين فى نهاية الورقة البحثية- وذلك لكى نصل إلى درجة نضج تسمح بتكوين صورة الوجه الدقيقة من خلال مقطع صوتى صغير.