ما هو الأداء الفعلي لإلغاء صدى AEC في البيئات الصاخبة؟

لقد اختبرت عشرات الكاميرات PTZ المزودة بتقنية AEC المدمجة في مواقع البناء، والأسطح المعرضة للرياح، وجوانب الطرق المزدحمة. النتائج تفاجئ الناس دائمًا.

يمكن لتقنية AEC في كاميرات PTZ الصينية تقليل صدى الطرف البعيد إلى مستوى مقبول في معظم البيئات الصاخبة. لكن تقنية AEC وحدها لا تزيل الضوضاء الخلفية. هذه المهمة تنتمي إلى وحدة ANS. في المشاهد ذات الضوضاء العالية مثل مواقع البناء أو الرياح القوية، لا يزال قمع الصدى يعمل، لكن الضوضاء المحيطة المتبقية لن تختفي تمامًا، وقد تبدو جودة الصوت مضغوطة أو ضيقة.

أداء إلغاء صدى AEC في بيئات كاميرات PTZ الصاخبة

قبل أن أشرح لك كل جزء، أريد أن أقسم الأسئلة الأربعة التي أسمعها أكثر من المدمجين مثل ديفيد ميلر. هذه تتعلق بحلقات التغذية الراجعة، وضوضاء المحرك، والأصوات منخفضة التردد، وزمن معالجة الصوت. كل واحد منها مهم عند نشر كاميرات PTZ مع صوت ثنائي الاتجاه في العالم الحقيقي. دعني أمر عليها واحدة تلو الأخرى.

جدول المحتويات

كيف يمنع خوارزمية AEC حلقات التغذية الراجعة أثناء محادثة تطبيق الهاتف المحمول ثنائي الاتجاه؟

لقد خسرت مشروعًا مرة واحدة لأن العميل سمع صوته يرتد عبر مكبر صوت PTZ أثناء عرض توضيحي مباشر. هذا علمني درسًا قاسيًا حول حلقات التغذية الراجعة.

تستخدم خوارزمية AEC تقنيات الترشيح التكيفي في إلغاء الصدى الصوتي ¹ لالتقاط خرج السماعة كإشارة مرجعية. ثم تطرح هذه المرجع من مدخل الميكروفون في الوقت الفعلي. هذا يمنع صوت الطرف البعيد من الدوران عبر دورة السماعة والميكروفون، مما قد يتسبب بخلاف ذلك في حدوث صدى أو عويل.

منع حلقة التغذية الراجعة لخوارزمية AEC في صوت PTZ ثنائي الاتجاه

كيف يعمل الترشيح التكيفي فعليًا

جوهر AEC هو مرشح رقمي يتعلم المسار الصوتي بين السماعة والميكروفون. في كاميرا PTZ، تشغل السماعة صوت الشخص البعيد. يلتقط الميكروفون هذا الصوت بعد أن يرتد عن الجدران، وغلاف الكاميرا، والأسطح القريبة. تأخذ خوارزمية AEC خرج السماعة الأصلي وتستخدمه كمرجع. ثم تبني نموذجًا لكيفية تغير هذا الصوت أثناء انتقاله عبر البيئة. بمجرد حصولها على نموذج جيد، فإنها تطرح الصدى المتوقع من إشارة الميكروفون. ما يتبقى هو صوت الشخص المحلي فقط. غالبًا ما تعتمد الأنظمة الحديثة على خوارزميات المرشحات الرقمية التكيفية مثل LMS و NLMS ² لتحديث هذا النموذج باستمرار.

لماذا لا تزال حلقات التغذية الراجعة تحدث

في الممارسة العملية، هذه العملية ليست مثالية. إليك الأسباب الرئيسية التي قد تؤدي إلى حدوث حلقات تغذية راجعة:

مستوى صوت السماعة مرتفع جدًا. عندما يصل مستوى صوت الإخراج إلى الحد الأقصى، فإن طاقة الصوت تفرط في تحميل الميكروفون. لا يمكن للخوارزمية طرح ما لا يمكنها نمذجته بوضوح.
عزل مادي ضعيف. إذا كانت السماعة والميكروفون موجودين داخل نفس حاوية PTZ الصغيرة بدون تخميد مطاطي، ينتقل الصوت عبر جسم معدني أو بلاستيكي. هذا الصدى الهيكلي سريع جدًا وقوي جدًا. غالبًا ما لا يمكن لمرشح AEC التعامل معه.
تحولات تأخير الشبكة. في تطبيق جوال 4G، يمكن أن يؤدي تذبذب الشبكة إلى تغيير التوقيت بين الإشارة المرجعية والصدى الفعلي. إذا قفز التأخير خارج نافذة مخزن AEC المؤقت، تفقد الخوارزمية قفلها على الصدى.

ما يمكنك فعله حيال ذلك

أخبر عملائي دائمًا بالبدء بخفض مستوى صوت السماعة بنسبة 30%. هذه الخطوة الواحدة تصلح معظم مشاكل الارتداد. إذا لم يكن ذلك كافيًا، فقم بتبديل البرنامج الثابت إلى وضع AEC مزدوج الاتجاه بالكامل مع تمكين NLP. NLP تعني المعالجة غير الخطية في أنظمة إلغاء الصدى ³. يلتقط الصدى المتبقي الذي يفوته المرشح الخطي.

سبب الارتداد	إصلاح	النتيجة المتوقعة
مستوى صوت السماعة مرتفع جدًا	تقليل الإخراج بنسبة 30%	ينخفض الصدى إلى ما دون مستوى مسموع
عزل مادي ضعيف	استخدم سماعة خارجية + ميكروفون بمسافة 1 متر	يزيل 90% من الصدى الهيكلي
تذبذب الشبكة على 4G	تمكين المخزن المؤقت للتذبذب في البرنامج الثابت	يبقى نظام إلغاء الصدى الصوتي (AEC) مقفلاً على توقيت الصدى

بالنسبة للمُدمجين الذين ينشرون في مناطق نائية ذات شبكة 4G غير مستقرة، أوصي باختبار نظام إلغاء الصدى الصوتي (AEC) بمكالمة تطبيق جوال حقيقية قبل الانتهاء من التركيب. لا تعتمد على اختبار في مكتب هادئ. الميدان دائمًا مختلف.

هل يمكنني إجراء محادثة واضحة بينما تقوم كاميرا PTZ بالتحريك أو الإمالة؟

لقد كنت في مكالمات حيث بدأت الكاميرا المتحركة (PTZ) في التحرك وقال الشخص الآخر: “ما هذا الصوت الطاحن؟” هذه هي المحرك. وهي مشكلة حقيقية للصوت ثنائي الاتجاه.

نعم، يمكنك إجراء محادثة أثناء تحرك محرك الكاميرا المتحركة (PTZ)، ولكن سيتم التقاط ضوضاء المحرك بواسطة الميكروفون. لن يقوم نظام إلغاء الصدى الصوتي (AEC) بإزالتها لأن اهتزاز المحرك ليس صدى. تحتاج إلى نظام إلغاء الضوضاء (ANS) وتخميد ميكانيكي جيد داخل الكاميرا للحفاظ على ضوضاء المحرك منخفضة بما يكفي للكلام الواضح.

ضوضاء محرك الكاميرا المتحركة (PTZ) أثناء محادثة صوتية ثنائية الاتجاه

لماذا تختلف ضوضاء المحرك عن الصدى

تم تصميم نظام إلغاء الصدى الصوتي (AEC) لإلغاء شيء واحد محدد: الصوت الذي جاء من السماعة وارتد مرة أخرى إلى الميكروفون. ضوضاء المحرك ليست خرج السماعة. إنها مصدر صوت جديد. لذلك يتجاهل خوارزمية نظام إلغاء الصدى الصوتي (AEC) تمامًا. وحدة إلغاء الضوضاء (ANS) هي التي تحاول تقليل هذا النوع من الضوضاء الميكانيكية الثابتة. لكن نظام إلغاء الضوضاء (ANS) يعمل بشكل أفضل على الأصوات الثابتة والمتوقعة. تتغير ضوضاء محرك الكاميرا المتحركة (PTZ) في حدتها وحجمها مع تسارع الكاميرا أو تباطؤها أو تغيير اتجاهها. هذا يجعل من الصعب على نظام إلغاء الضوضاء (ANS) تتبعها وقمعها.

دور التصميم الميكانيكي

في Loyalty-Secu، نولي اهتمامًا وثيقًا للتصميم الميكانيكي الداخلي لكاميراتنا المتحركة (PTZ). إليك ما يهم:

حوامل محرك مطاطية. هذه تمتص الاهتزاز قبل أن يصل إلى تجويف الميكروفون.
حجرة ميكروفون محكمة الغلق. حجرة صوتية منفصلة للميكروفون تقلل من ضوضاء المحرك المحمولة جواً.
حركة مدفوعة بالحزام مقابل حركة مدفوعة بالتروس. آليات الكاميرا المتحركة (PTZ) المدفوعة بالحزام أكثر هدوءًا من محركات التروس المباشرة. لكنها تكلف أكثر وتتآكل أسرع.

ما يمكن توقعه عمليًا

في تجربتي، تنتج كاميرا متحركة (PTZ) جيدة الصنع ضوضاء محرك بحوالي 35-45 ديسيبل عند الميكروفون. الكلام البشري على بعد متر واحد هو حوالي 60-65 ديسيبل. لذا فإن نسبة الإشارة إلى الضوضاء لا تزال قابلة للعمل. سيسمع المستمع البعيد همهمة خافتة أو أزيزًا أثناء التحريك، لكن الكلام يظل واضحًا. إذا كانت ضوضاء المحرك أعلى من 50 ديسيبل، تنخفض وضوح الكلام بسرعة.

مستوى ضوضاء المحرك	وضوح الكلام	توصية
أقل من 35 ديسيبل	ممتاز — المحرك بالكاد مسموع	لا يلزم اتخاذ أي إجراء
35–45 ديسيبل	جيد — همهمة خافتة أثناء الحركة	مقبول لمعظم استخدامات B2B
45–50 ديسيبل	مقبول — ضوضاء ملحوظة، الكلام لا يزال واضحًا	تمكين وضع ANS العالي
أعلى من 50 ديسيبل	ضعيف — المحرك يتنافس مع الكلام	استخدم ميكروفونًا خارجيًا بعيدًا عن الجسم

إذا كنت تجري محادثات ثنائية الاتجاه حرجة أثناء حركة PTZ، أقترح تركيب ميكروفون التقاط خارجي على بعد 50 سم على الأقل من جسم الكاميرا. هذا هو الحل الأبسط والأكثر فعالية. لا يمكن لأي خوارزمية أن تحل محل الفصل المادي الجيد بالكامل.

هل يقوم مرشح قمع الضوضاء (ANS) بتصفية الأصوات المستمرة منخفضة التردد مثل حركة المرور أو المراوح؟

قمت بنشر نظام PTZ يعمل بالطاقة الشمسية بجوار طريق سريع مرة واحدة. اتصل بي العميل وقال: “أسمع الشاحنات أكثر من الحارس”. عندها تعلمت حدود ANS للضوضاء منخفضة التردد.

يمكن لـ ANS تقليل الأصوات الثابتة منخفضة التردد مثل همهمة المروحة وحركة المرور البعيدة بمقدار 10-20 ديسيبل. لكنها لا تستطيع إزالتها بالكامل. يعمل ANS عن طريق تقدير طيف الضوضاء خلال اللحظات الصامتة ثم طرحه أثناء الكلام. يصعب قطع الطاقة منخفضة التردد دون التأثير أيضًا على النغمات المنخفضة للصوت البشري.

قمع ضوضاء ANS للأصوات منخفضة التردد في كاميرات PTZ

كيف يقدر ANS الضوضاء ويطرحها

تعمل خوارزميات ANS في مجال التردد. خلال اللحظات التي لا يتحدث فيها أحد، تلتقط الخوارزمية “ملف تعريف الضوضاء”. يخبر هذا الملف النظام كيف تبدو الأصوات الخلفية. عندما يبدأ شخص ما في التحدث، تطرح الخوارزمية ملف تعريف الضوضاء هذا من الإشارة الكاملة. ما تبقى يجب أن يكون في الغالب صوتًا. هذا النهج مستخدم على نطاق واسع في طرق تقليل الضوضاء في مجال التردد ⁴ في أنظمة معالجة الإشارات الرقمية الصوتية الحديثة.

يعمل هذا بشكل جيد مع الضوضاء الثابتة والمستوية مثل تكييف الهواء أو مروحة بعيدة. هذه الأصوات لها نمط تردد مستقر. يمكن للخوارزمية بناء نموذج دقيق وطرحه بشكل نظيف.

أين تواجه ANS صعوبة

الضوضاء منخفضة التردد من حركة المرور أو المولدات أو الآلات الثقيلة يصعب التعامل معها. إليك السبب:

التداخل مع الصوت. يتراوح التردد الأساسي للصوت البشري الذكري بين 85 و 180 هرتز. يقع هدير حركة المرور في نطاق 50-250 هرتز. هناك تداخل كبير. إذا قطعت ANS بقوة شديدة في هذا النطاق، يبدو صوت المتحدث ضعيفًا وغير طبيعي. هذا قيد معروف في تحليل تداخل ترددات إشارة الكلام ⁵.
تغيرات السعة. شاحنة عابرة تصبح أعلى ثم أخفت على مدى بضع ثوانٍ. تحتاج ANS إلى وقت لتحديث تقدير الضوضاء الخاص بها. خلال نافذة التحديث هذه، تتسرب الضوضاء.
ضوضاء غير مستقرة. هبات الرياح، والأبواق المفاجئة، وأصوات البناء ليست ثابتة. ANS غير مصممة للتعامل مع الانفجارات المفاجئة. إنها مبنية للضوضاء المستقرة.

نصائح عملية للمواقع الصاخبة

للمواقع التي تعاني من ضوضاء منخفضة التردد شديدة، أوصي بما يلي:

استخدم مرشح تمرير عالي في أنظمة معالجة الصوت عند 150 هرتز إذا سمح البرنامج الثابت بذلك ⁶. هذا يقطع أعمق هدير دون الإضرار بمعظم الكلام.
ضع الميكروفون بعيدًا عن الأسطح المهتزة مثل الأعمدة المعدنية أو الأسوار أو أغلفة المولدات.
إذا كان الموقع صاخبًا للغاية، ففكر في نمط التقاط ميكروفون اتجاهي (قلبي) ⁷ بدلاً من الميكروفون المدمج متعدد الاتجاهات.

في اختباراتي، يقلل ANS مع مرشح التمرير العالي الضوضاء الخلفية منخفضة التردد بحوالي 15-20 ديسيبل. هذا يكفي لجعل الكلام مفهومًا، لكن المستمع البعيد سيظل يسمع أنه ليس في غرفة هادئة. حدد التوقعات مع عميلك مبكرًا. لن تجعل أي كاميرا PTZ طريقًا سريعًا يبدو كغرفة مكتب.

ما هو زمن معالجة AEC أثناء بث فيديو بدقة 4K عالية الدقة؟

سألني أحد العملاء عما إذا كان تشغيل فيديو بدقة 4K سيؤدي إلى إبطاء AEC. إنه سؤال عادل. تشترك كلتا المهمتين في نفس المعالج داخل الكاميرا.

زمن استجابة معالجة AEC في معظم كاميرات PTZ يتراوح بين 20-40 مللي ثانية. لا يؤدي تشغيل دفق فيديو بدقة 4K مباشرة إلى زيادة زمن استجابة AEC لأن الصوت والفيديو تتم معالجتهما على مسارات منفصلة داخل SoC. ولكن إذا كان SoC تحت حمل ثقيل من ترميز 4K، فقد تواجه مسارات الصوت تأخيرات عرضية، مما يضيف 10-30 مللي ثانية من زمن الاستجابة الإضافي في أسوأ الحالات.

زمن استجابة معالجة AEC أثناء دفق فيديو بدقة 4K في كاميرا PTZ

كيف يتشارك الصوت والفيديو في SoC

تستخدم كاميرات PTZ الحديثة نظامًا على شريحة (SoC) يعالج ترميز الفيديو ومعالجة الصور ونقل الشبكة ومعالجة الصوت دفعة واحدة. داخل SoC، تعمل هذه المهام على كتل أجهزة مختلفة. يستخدم ترميز الفيديو مُرمّز أجهزة مخصص مثل معايير ضغط الفيديو H.264 و H.265 ⁸. تعمل معالجة الصوت، بما في ذلك AEC، على نواة DSP أو وحدة المعالجة المركزية الرئيسية.

من الناحية النظرية، لا يتداخلان مع بعضهما البعض. من الناحية العملية، يتشاركان في عرض نطاق الذاكرة وموارد الناقل. عندما يعمل مُرمّز الفيديو بجد على دفق 4K بمعدل 25 إطارًا في الثانية، فإنه يستخدم الكثير من عرض نطاق الذاكرة. إذا احتاجت DSP الصوت إلى الوصول إلى الذاكرة في نفس الوقت، فقد تضطر إلى الانتظار. يضيف هذا الانتظار بضعة مللي ثوانٍ من زمن الاستجابة.

ماذا يعني زمن الاستجابة للصوت ثنائي الاتجاه

في مكالمة هاتفية عادية، يبدأ الناس في ملاحظة التأخير عند حوالي 150 مللي ثانية في اتجاه واحد. أقل من 100 مللي ثانية، تبدو المحادثة طبيعية. يضيف AEC نفسه 20-40 مللي ثانية. يضيف نقل الشبكة عبر 4G 50-150 مللي ثانية أخرى. لا يضيف ترميز الفيديو إلى مسار الصوت مباشرة، ولكن إذا أضاف ازدحام SoC 10-30 مللي ثانية إضافية، يمكن أن يصل الإجمالي إلى ما يقرب من 200 مللي ثانية. عند هذه النقطة، يبدأ كلا الطرفين في التحدث فوق بعضهما البعض لأن التأخير يبدو غير طبيعي. تتوافق هذه الحدود مع النتائج الشائعة في دراسات زمن استجابة الاتصالات الصوتية في الوقت الفعلي ⁹.

كيفية الحفاظ على انخفاض زمن الاستجابة

إليك الخطوات التي أتخذها عند إعداد كاميرا PTZ بدقة 4K مع صوت ثنائي الاتجاه:

استخدم دفقًا فرعيًا للجلسات المرتبطة بالصوت. يمكن للعديد من كاميرات PTZ إرسال دفق فرعي بدقة أقل جنبًا إلى جنب مع الدفق الرئيسي بدقة 4K. إذا استخدم تطبيق الهاتف المحمول الخاص بك الدفق الفرعي لجلسة الصوت ثنائية الاتجاه، ينخفض حمل SoC ويظل زمن استجابة الصوت منخفضًا.
تحقق من طراز SoC. ليست كل الشرائح متساوية. ستتعامل الكاميرا التي تستخدم SoC عالي الجودة مع DSP صوت مخصص مع 4K + AEC بشكل أفضل من شريحة اقتصادية تعمل بكل شيء على وحدة المعالجة المركزية الرئيسية.
قلل معدل الإطارات إذا لزم الأمر. يؤدي خفض معدل الإطارات من 30 إطارًا في الثانية إلى 15 إطارًا في الثانية في البث بدقة 4K إلى تقليل حمل الترميز إلى النصف تقريبًا. تتحسن زمن استجابة الصوت نتيجة لذلك. هذا تحسين شائع في ممارسات ضبط أداء ترميز الفيديو ¹⁰.

حالة تحميل وحدة النظام على الشريحة (SoC)	زمن استجابة AEC النموذجي	التأثير على المحادثة
بث بدقة 1080 بكسل، استخدام منخفض لوحدة المعالجة المركزية	20–30 مللي ثانية	لا يوجد تأخير ملحوظ
بث بدقة 4K، استخدام معتدل لوحدة المعالجة المركزية	30–40 مللي ثانية	لا يزال طبيعيًا
بث بدقة 4K + تحليلات الذكاء الاصطناعي	40–70 مللي ثانية	تأخير طفيف، لا يزال قابلاً للاستخدام
4K + ذكاء اصطناعي + تشويش شبكة عالي	70–120 مللي ثانية+	يصبح التأخير ملحوظًا، قد يحتاج إلى تحسين

أقوم دائمًا باختبار زمن استجابة الصوت الإجمالي في رحلة الذهاب والإياب خلال مرحلة التجريب. أقوم بتشغيل صوت نقرة حادة بالقرب من الكاميرا وقياس المدة التي يستغرقها سماعها على التطبيق البعيد. إذا كان الرقم أقل من 200 مللي ثانية في رحلة الذهاب والإياب، يكون النظام جاهزًا للمحادثات الحقيقية. إذا تجاوز 300 مللي ثانية، يجب تغيير شيء ما - سواء كان ذلك دقة البث، أو مسار الشبكة، أو تكوين وحدة النظام على الشريحة.

الخاتمة

يتعامل AEC في كاميرات PTZ مع الصدى بشكل جيد في البيئات الصاخبة، ولكن جودة الصوت في العالم الحقيقي تعتمد على أداء ANS، والتصميم الميكانيكي، واستقرار الشبكة، والاختبار الميداني المناسب قبل النشر.

1. يشرح كيف تزيل المرشحات التكيفية إشارات الصدى ديناميكيًا. ︎↩︎ 2. تفاصيل خوارزميات LMS/NLMS المستخدمة في أنظمة إلغاء الصدى. ︎↩︎ 3. يناقش الصدى المتبقي وطرق المعالجة غير الخطية. ︎↩︎ 4. نظرة عامة على تقليل الضوضاء في مجال التردد وسير عمل AEC. ︎↩︎ 5. بحث حول تحديات تداخل الترددات في المعالجة الصوتية. ︎↩︎ 6. أساسيات الترشيح عالي التمرير لإزالة الضوضاء منخفضة التردد. ︎↩︎ 7. يشرح أنماط الميكروفون الاتجاهي مثل التقاط القلب. ︎↩︎ 8. مقدمة لمعايير ضغط الفيديو المستخدمة في أنظمة SoC. ︎↩︎ 9. دراسة حول أداء إلغاء الصدى وسلوك الكمون. ︎↩︎ 10. يغطي تقنيات تحسين النظام لمعالجة الصوت/الفيديو. ︎↩︎