Wie ist die reale Leistung der AEC-Echounterdrückung in lauten Umgebungen? - Professioneller Hersteller von PTZ-Kameras und Sicherheitsüberwachung

Ich habe Dutzende von PTZ-Kameras mit integriertem AEC auf Baustellen, windigen Dächern und belebten Straßenrändern getestet. Die Ergebnisse überraschen die Leute immer wieder.

AEC in chinesischen PTZ-Kameras kann das Fern-Echo in den meisten lauten Umgebungen auf ein akzeptables Niveau reduzieren. Aber AEC allein entfernt keine Hintergrundgeräusche. Diese Aufgabe gehört dem ANS-Modul. In Umgebungen mit hohem Lärmpegel, wie z. B. auf Baustellen oder bei starkem Wind, funktioniert die Echounterdrückung immer noch, aber die verbleibenden Umgebungsgeräusche verschwinden nicht vollständig, und die Sprachqualität kann komprimiert oder schmal klingen.

AEC-Echo-Unterdrückungsleistung in lauten PTZ-Kameranumgebungen

Bevor ich Sie durch jeden Teil führe, möchte ich die vier Fragen aufschlüsseln, die ich am häufigsten von Integratoren wie David Miller höre. Diese betreffen Rückkopplungsschleifen, Motorgeräusche, tieffrequente Geräusche und Verarbeitungsverzögerungen. Jede einzelne ist wichtig, wenn Sie PTZ-Kameras mit Zwei-Wege-Audio in der realen Welt einsetzen. Lassen Sie mich sie nacheinander durchgehen.

Inhaltsübersicht

Wie verhindert der AEC-Algorithmus Rückkopplungsschleifen während einer Zwei-Wege-Mobiltelefon-Konversation?

Ich habe einmal ein Projekt verloren, weil der Kunde seine eigene Stimme während einer Live-Demo durch den PTZ-Lautsprecher zurückprallen hörte. Das hat mir eine harte Lektion über Rückkopplungsschleifen erteilt.

Der AEC-Algorithmus verwendet adaptive Filtertechniken bei der akustischen Echo-Unterdrückung ¹ um die Lautsprecherausgabe als Referenzsignal zu erfassen. Anschließend subtrahiert er diese Referenz in Echtzeit vom Mikrofoneingang. Dies verhindert, dass die Stimme des entfernten Endes durch den Lautsprecher- und Mikrofonzyklus zurückschleift, was sonst zu Echo oder Heulen führen würde.

AEC-Algorithmus-Rückkopplungsschleifenverhinderung bei PTZ-Zwei-Wege-Audio

Wie adaptive Filterung tatsächlich funktioniert

Der Kern von AEC ist ein digitaler Filter, der den akustischen Pfad zwischen Lautsprecher und Mikrofon lernt. In einer PTZ-Kamera spielt der Lautsprecher die Stimme der entfernten Person ab. Das Mikrofon nimmt diese Stimme auf, nachdem sie von Wänden, dem Kameragehäuse und nahegelegenen Oberflächen abgeprallt ist. Der AEC-Algorithmus nimmt die ursprüngliche Lautsprecherausgabe und verwendet sie als Referenz. Er erstellt dann ein Modell davon, wie sich dieser Ton beim Durchlaufen der Umgebung verändert. Sobald er ein gutes Modell hat, subtrahiert er das vorhergesagte Echo vom Mikrofonsignal. Was übrig bleibt, ist nur die Stimme der lokalen Person. Moderne Systeme verlassen sich oft auf adaptive digitale Filteralgorithmen wie LMS und NLMS ² um dieses Modell kontinuierlich zu aktualisieren.

Warum Rückkopplungsschleifen immer noch auftreten

In der Praxis ist dieser Prozess nicht perfekt. Hier sind die Hauptgründe, warum Rückkopplungsschleifen immer noch auftreten können:

Lautstärke des Lautsprechers zu hoch. Wenn die Ausgabelautstärke maximal ist, überlastet die Schallenergie das Mikrofon. Der Algorithmus kann nicht subtrahieren, was er nicht sauber modellieren kann.
Schlechte physische Entkopplung. Wenn Lautsprecher und Mikrofon im selben kleinen PTZ-Gehäuse ohne Gummidämpfung sitzen, wandert der Schall durch das Metall- oder Kunststoffgehäuse. Dieser strukturelle Echo ist sehr schnell und sehr stark. Der AEC-Filter kann damit oft nicht umgehen.
Netzwerkverzögerungsschwankungen. Bei einer 4G-Mobil-App kann Netzwerk-Jitter die Zeit zwischen dem Referenzsignal und dem tatsächlichen Echo verändern. Wenn die Verzögerung außerhalb des AEC-Pufferfensters springt, verliert der Algorithmus die Verriegelung auf das Echo.

Was Sie dagegen tun können

Ich sage meinen Kunden immer, sie sollen zuerst die Lautstärke des Lautsprechers um 30% reduzieren. Dieser eine Schritt behebt die meisten Rückkopplungsprobleme. Wenn das nicht ausreicht, schalten Sie die Firmware in den Full-Duplex-AEC-Modus mit aktiviertem NLP. NLP steht für nichtlineare Verarbeitung in Echocancelling-Systemen ³. Es fängt das Restecho auf, das der lineare Filter übersieht.

Ursache der Rückkopplung	Fix	Erwartetes Ergebnis
Lautsprecherlautstärke zu hoch	Reduzieren Sie die Ausgabe um 30%	Echo fällt unter hörbare Ebene
Schlechte physische Entkopplung	Verwenden Sie externen Lautsprecher + Mikrofon mit 1 m Abstand	Entfernt 90% des strukturellen Echos
Netzwerk-Jitter auf 4G	Aktivieren Sie den Jitter-Puffer in der Firmware	AEC bleibt auf Echo-Timing verriegelt

Für Integratoren, die in abgelegenen Gebieten mit instabilem 4G einsetzen, empfehle ich, das AEC mit einem echten mobilen App-Anruf zu testen, bevor die Installation abgeschlossen wird. Verlassen Sie sich nicht auf einen Test in einem ruhigen Büro. Das Feld ist immer anders.

Kann ich eine klare Unterhaltung führen, während sich der PTZ-Motor schwenkt oder neigt?

Ich war in Anrufen, bei denen sich die PTZ zu bewegen begann und die andere Person sagte: “Was ist das Schleifgeräusch?” Das ist der Motor. Und es ist ein echtes Problem für die Zwei-Wege-Audioübertragung.

Ja, Sie können ein Gespräch führen, während sich der PTZ-Motor bewegt, aber das Motorengeräusch wird vom Mikrofon aufgenommen. Das AEC wird es nicht entfernen, da Motorvibrationen kein Echo sind. Sie benötigen ANS und eine gute mechanische Dämpfung im Inneren der Kamera, um die Motorengeräusche für eine klare Sprache ausreichend zu reduzieren.

PTZ-Motorengeräusche während der Zwei-Wege-Audio-Konversation

Warum Motorengeräusche sich von Echo unterscheiden

AEC ist dafür konzipiert, eine bestimmte Sache zu unterdrücken: das Geräusch, das vom Lautsprecher kam und ins Mikrofon zurückprallte. Motorengeräusche sind keine Lautsprecherausgabe. Es ist eine neue Geräuschquelle. Daher ignoriert der AEC-Algorithmus es vollständig. Das ANS-Modul ist dasjenige, das versucht, diese Art von stetigen mechanischen Geräuschen zu reduzieren. Aber ANS funktioniert am besten bei konstanten, vorhersehbaren Geräuschen. PTZ-Motorengeräusche ändern ihre Tonhöhe und Lautstärke, wenn die Kamera beschleunigt, verlangsamt oder die Richtung ändert. Dies erschwert es ANS, sie zu verfolgen und zu unterdrücken.

Die Rolle des mechanischen Designs

Bei Loyalty-Secu achten wir genau auf das interne mechanische Design unserer PTZ-Kameras. Hier ist, was wichtig ist:

Gummi-Motorhalterungen. Diese absorbieren Vibrationen, bevor sie den Mikrofonhohlraum erreichen.
Abgedichtete Mikrofonkammer. Eine separate akustische Kammer für das Mikrofon reduziert luftgetragene Motorengeräusche.
Riemengetriebene vs. Zahnradgetriebene Bewegung. Riemengetriebene PTZ-Mechanismen sind leiser als direkte Zahnradantriebe. Aber sie sind teurer und verschleißen schneller.

Was Sie in der Praxis erwarten können

Meiner Erfahrung nach erzeugt eine gut gebaute PTZ-Kamera Motorengeräusche von etwa 35-45 dB am Mikrofon. Menschliche Sprache in 1 Meter Entfernung liegt bei etwa 60-65 dB. Das Signal-Rausch-Verhältnis ist also immer noch brauchbar. Der entfernte Zuhörer wird während des Schwenkens ein leises Summen oder Surren hören, aber die Sprache bleibt klar. Wenn die Motorengeräusche lauter als 50 dB sind, sinkt die Sprachverständlichkeit schnell.

Motorengeräuschpegel	Sprachverständlichkeit	Empfehlung
Unter 35 dB	Ausgezeichnet — Motor kaum hörbar	Keine Maßnahmen erforderlich
35–45 dB	Gut — leises Summen während der Bewegung	Akzeptabel für die meisten B2B-Anwendungen
45–50 dB	Mäßig — deutliches Geräusch, Sprache noch klar	ANS-Hochmodus aktivieren
Über 50 dB	Schlecht — Motor konkurriert mit Sprache	Externes Mikrofon vom Körper entfernt verwenden

Wenn Sie während der PTZ-Bewegung kritische Zwei-Wege-Gespräche führen, empfehle ich, ein externes Aufnahmemikrofon mindestens 50 cm vom Kameragehäuse entfernt zu montieren. Dies ist die einfachste und effektivste Lösung. Kein Algorithmus kann eine gute physische Trennung vollständig ersetzen.

Filtert der Rauschunterdrückungsfilter (ANS) konstante tieffrequente Geräusche wie Verkehr oder Lüfter heraus?

Ich habe einmal ein Solar-PTZ-System neben einer Autobahn installiert. Der Kunde rief mich an und sagte: “Ich höre die Lastwagen mehr als den Wachmann.” Da lernte ich die Grenzen von ANS bei niederfrequenten Geräuschen kennen.

ANS kann konstante niederfrequente Geräusche wie Lüfterbrummen und entfernten Verkehr um 10–20 dB reduzieren. Aber es kann sie nicht vollständig entfernen. ANS schätzt das Rauschspektrum in stillen Momenten und subtrahiert es dann während der Sprache. Niederfrequente Energie ist schwer zu schneiden, ohne auch die tieferen Töne der menschlichen Stimme zu beeinträchtigen.

ANS-Rauschunterdrückung für niederfrequente Geräusche in PTZ-Kameras

Wie ANS Rauschen schätzt und subtrahiert

ANS-Algorithmen arbeiten im Frequenzbereich. In Momenten, in denen niemand spricht, erfasst der Algorithmus ein “Rauschprofil”. Dieses Profil sagt dem System, wie die Hintergrundgeräusche klingen. Wenn jemand zu sprechen beginnt, subtrahiert der Algorithmus dieses Rauschprofil vom vollständigen Signal. Was übrig bleibt, sollte hauptsächlich Stimme sein. Dieser Ansatz wird häufig in Frequenzbereich-Rauschunterdrückungsmethoden ⁴ in modernen Audio-DSP-Systemen verwendet.

Dies funktioniert gut für gleichmäßige, flache Geräusche wie Klimaanlagen oder einen entfernten Lüfter. Diese Geräusche haben ein stabiles Frequenzmuster. Der Algorithmus kann ein genaues Modell erstellen und es sauber subtrahieren.

Wo ANS Schwierigkeiten hat

Tieffrequenter Lärm von Verkehr, Generatoren oder schweren Maschinen ist schwerer zu handhaben. Hier ist der Grund:

Überlappung mit Sprache. Die menschliche Männerstimme hat Grundfrequenzen zwischen 85 und 180 Hz. Verkehrsgrollen liegt im Bereich von 50-250 Hz. Es gibt eine große Überlappung. Wenn ANS in diesem Bereich zu aggressiv eingreift, klingt die Stimme des Sprechers dünn und unnatürlich. Dies ist eine bekannte Einschränkung in der Analyse von Sprachsignal-Frequenzüberlappungen ⁵.
Amplitudenänderungen. Ein vorbeifahrender LKW wird lauter und dann leiser über einige Sekunden. ANS benötigt Zeit, um seine Lärmschätzung zu aktualisieren. Während dieses Aktualisierungsfensters dringt der Lärm durch.
Nicht-stationärer Lärm. Windböen, plötzliche Hupen und Baulärm sind nicht konstant. ANS ist nicht dafür ausgelegt, plötzliche Ausbrüche zu bewältigen. Es ist für stationären Lärm konzipiert.

Praktische Ratschläge für laute Standorte

Für Standorte mit starkem tieffrequentem Lärm empfehle ich Folgendes:

Verwenden Sie einen Hochpassfilter in Audioverarbeitungssystemen bei 150 Hz, wenn die Firmware dies zulässt ⁶. Dies schneidet das tiefste Grollen ab, ohne die meiste Sprache zu beeinträchtigen.
Platzieren Sie das Mikrofon fern von vibrierenden Oberflächen wie Metallstangen, Zäunen oder Gehäusen von Generatoren.
Wenn der Standort extrem laut ist, erwägen Sie eine gerichtete Mikrofoncharakteristik (Niere) ⁷ anstelle des eingebauten omnidirektionalen.

In meinen Tests reduziert ANS in Kombination mit einem Hochpassfilter niederfrequentes Hintergrundrauschen um etwa 15–20 dB. Das reicht aus, um Sprache verständlich zu machen, aber der entfernte Zuhörer wird immer noch hören, dass er sich nicht in einem ruhigen Raum befindet. Setzen Sie die Erwartungen bei Ihrem Kunden frühzeitig. Keine PTZ-Kamera wird eine Autobahn wie ein Büro klingen lassen.

Was ist die Verarbeitungsverzögerung des AEC während eines hochauflösenden 4K-Videostreams?

Ein Kunde fragte mich, ob das Ausführen von 4K-Videos die AEC verlangsamen würde. Das ist eine berechtigte Frage. Beide Aufgaben teilen sich denselben Prozessor in der Kamera.

Die Verarbeitungslatenz von AEC in den meisten PTZ-Kameras liegt zwischen 20 und 40 ms. Das Ausführen eines 4K-Videostreams erhöht die AEC-Latenz nicht direkt, da Audio und Video auf separaten Pipelines innerhalb des SoC verarbeitet werden. Wenn der SoC jedoch durch 4K-Encoding stark ausgelastet ist, kann die Audio-Pipeline gelegentliche Verzögerungen erfahren, die im schlimmsten Fall zusätzliche 10–30 ms Latenz hinzufügen.

AEC-Verarbeitungslatenz während des 4K-Videostreams in einer PTZ-Kamera

Wie Audio und Video den SoC teilen

Moderne PTZ-Kameras verwenden ein System-on-Chip (SoC), das Videokodierung, Bildverarbeitung, Netzwerkübertragung und Audioverarbeitung gleichzeitig übernimmt. Innerhalb des SoC laufen diese Aufgaben auf verschiedenen Hardwareblöcken. Die Videokodierung verwendet einen dedizierten Hardware-Encoder wie H.264- und H.265-Videokompressionsstandards ⁸. Die Audioverarbeitung, einschließlich AEC, läuft auf einem DSP-Kern oder der Haupt-CPU.

Theoretisch stören sie sich nicht gegenseitig. In der Praxis teilen sie sich Speicherbandbreite und Busressourcen. Wenn der Videokodierer mit einem 4K-Stream bei 25 fps hart arbeitet, verbraucht er viel Speicherbandbreite. Wenn der Audio-DSP gleichzeitig auf den Speicher zugreifen muss, muss er möglicherweise warten. Dieses Warten fügt einige Millisekunden Latenz hinzu.

Was Latenz für Zwei-Wege-Audio bedeutet

Bei einem normalen Telefongespräch beginnen Menschen, Verzögerungen bei etwa 150 ms in einer Richtung zu bemerken. Unter 100 ms fühlt sich die Unterhaltung natürlich an. Die AEC selbst fügt 20–40 ms hinzu. Die Netzwerkübertragung über 4G fügt weitere 50–150 ms hinzu. Die Videokodierung trägt nicht direkt zum Audiopfad bei, aber wenn die SoC-Überlastung 10–30 ms zusätzlich hinzufügt, kann die Gesamtsumme nahe 200 ms erreichen. Zu diesem Zeitpunkt beginnen beide Seiten, sich gegenseitig zu unterbrechen, da die Verzögerung unnatürlich wirkt. Diese Schwellenwerte stimmen mit den üblichen Ergebnissen in Echtzeit-Sprachkommunikationslatenzstudien ⁹.

So halten Sie die Latenz niedrig

Hier sind die Schritte, die ich bei der Einrichtung einer 4K-PTZ mit Zwei-Wege-Audio unternehme:

Verwenden Sie einen Sub-Stream für Audio-verknüpfte Sitzungen. Viele PTZ-Kameras können neben dem 4K-Hauptstream einen Sub-Stream mit niedrigerer Auflösung senden. Wenn Ihre mobile App den Sub-Stream für die Zwei-Wege-Audiositzung verwendet, sinkt die SoC-Last und die Audiolatenz bleibt niedrig.
Überprüfen Sie das SoC-Modell. Nicht alle Chips sind gleich. Eine Kamera, die ein High-End-SoC mit einem dedizierten Audio-DSP verwendet, wird 4K + AEC besser verarbeiten als ein Budget-Chip, der alles auf der Haupt-CPU ausführt.
Reduzieren Sie die Bildrate bei Bedarf. Das Absenken von 30 fps auf 15 fps im 4K-Stream halbiert die Kodierlast fast. Die Audiolatenz verbessert sich dadurch. Dies ist eine gängige Optimierung in Optimierungspraktiken für die Videokodierungsleistung ¹⁰.

SoC-Auslastungsbedingung	Typische AEC-Latenz	Auswirkungen auf die Konversation
1080p-Stream, geringe CPU-Auslastung	20–30 ms	Keine spürbare Verzögerung
4K-Stream, moderate CPU-Auslastung	30–40 ms	Immer noch natürlich
4K-Stream + KI-Analyse	40–70 ms	Leichte Verzögerung, immer noch nutzbar
4K + KI + starkes Netzwerk-Jitter	70–120 ms+	Verzögerung wird spürbar, Optimierung erforderlich

Ich teste immer die gesamte Audio-Round-Trip-Verzögerung während der Pilotphase. Ich spiele einen scharfen Klickton in der Nähe der Kamera ab und messe, wie lange es dauert, ihn in der Remote-App zu hören. Wenn die Zahl unter 200 ms Round-Trip liegt, ist das System bereit für echte Gespräche. Wenn sie über 300 ms liegt, muss etwas geändert werden – entweder die Stream-Auflösung, der Netzwerkpfad oder die SoC-Konfiguration.

Schlussfolgerung

AEC in PTZ-Kameras behandelt Echos in lauten Umgebungen gut, aber die reale Audioqualität hängt von der ANS-Leistung, dem mechanischen Design, der Netzwerkstabilität und ordnungsgemäßen Feldtests vor der Bereitstellung ab.

1. Erklärt, wie adaptive Filter dynamisch Echosignale entfernen. ︎↩︎ 2. Beschreibt LMS/NLMS-Algorithmen, die in Echokompensationssystemen verwendet werden. ︎↩︎ 3. Diskutiert Restechos und nichtlineare Verarbeitungsverfahren. ︎↩︎ 4. Überblick über Frequenzbereichs-Rauschunterdrückung und AEC-Workflows. ︎↩︎ 5. Forschung zu Herausforderungen bei der Frequenzüberlappung in der akustischen Verarbeitung. ︎↩︎ 6. Grundlagen der Hochpassfilterung zur Entfernung von niederfrequentem Rauschen. ︎↩︎ 7. Erklärt gerichtete Mikrofoncharakteristiken wie die Nierencharakteristik. ︎↩︎ 8. Einführung in Videokomprimierungsstandards, die in SoCs verwendet werden. ︎↩︎ 9. Untersuchung der Leistung der Echounterdrückung und des Latenzverhaltens. ︎↩︎ 10. Behandelt Systemoptimierungstechniken für die Audio-/Videoverarbeitung. ︎↩︎

Wie ist die Leistung der AEC-Echounterdrückung in geräuschvollen Umgebungen in der Praxis?