أعلنت شركة ميتا عن إطلاق أداة ذكاء اصطناعي متقدمة ومفتوحة المصدر باسم SAM Audio، قادرة على فصل الأصوات وتنقية التسجيلات المشوشة بمجرد كتابة وصف نصي لما يريده المستخدم، دون الحاجة لأي أدوات تحرير صوتية تقليدية.
وتتيح الأداة الجديدة إمكانية استخراج أصوات محددة مثل الصوت البشري، الآلات الموسيقية، أو ضوضاء الخلفية، من تسجيل واحد مليء بالأصوات المتداخلة، وهو ما قد يعيد رسم أساليب تحرير الصوت في مجالات البودكاست، الإنتاج الموسيقي، صناعة الأفلام، وحتى الأدوات المساعدة لذوي الإعاقة.
آلية عمل SAM Audio
تعتمد الأداة على نموذج متعدد الوسائط يدعم ثلاثة أنواع من الأوامر:
وصف نصي لتحديد الصوت المطلوب عزله.
اختيار بصري لشخص أو عنصر في الفيديو لتحديد مصدر الصوت.
تحديد لحظة زمنية لظهور الصوت داخل التسجيل.
ويمكن استخدام هذه الطرق بشكل منفصل أو دمجها معًا للحصول على فصل صوتي أكثر دقة وتحكمًا أكبر. ويستند النموذج إلى محرك Perception Encoder Audiovisual من ميتا، الذي يتيح فهم الصوت وتحليله قبل عزله بدقة عالية، بحسب تقرير موقع “DigitalTrends”.
معايير تقييم جديدة للأداء
واصطحب إطلاق SAM Audio معايير تقييم مبتكرة، أبرزها SAM Audio-Bench لقياس أداء نماذج فصل الصوت، وأداة SAM Audio Judge التي تتيح تقييم جودة الصوت الناتج من منظور المستمع، حتى في غياب أي ملفات مرجعية.
وأظهرت النتائج تفوق النموذج عند دمج أكثر من نوع من الأوامر، مع قدرة على معالجة الصوت بسرعة تتجاوز الزمن الحقيقي، حتى عند التعامل مع تسجيلات ضخمة.

توفر الأداة استخدامات عملية متنوعة
إزالة ضوضاء المرور من تسجيلات البودكاست.
عزل الصوت البشري من المقطوعات الموسيقية.
حذف أصوات غير مرغوبة، مثل نباح الحيوانات في التسجيلات المنزلية.
ولكن الشركة أكدت وجود بعض القيود، أبرزها عدم دعم الأوامر الصوتية، وصعوبة فصل الأصوات المتشابهة أو المتداخلة، مثل تحديد صوت شخص واحد داخل جوقة كاملة.
نقلاً عن : الجمهور الاخباري

تعليقات