Können XY-Tracking-Koordinaten in Echtzeit direkt auf den RTSP-Stream überlagert werden?

Diese Frage stelle ich mir oft von Systemintegratoren, die Live-Koordinatendaten auf ihren Videostreams benötigen. Es ist wichtig, da eine falsche Einrichtung Ihre Beweise ruinieren oder Ihren Workflow unterbrechen kann.

Ja, XY-Tracking-Koordinaten in Echtzeit können direkt auf den RTSP-Stream überlagert werden. Es gibt zwei Hauptmethoden: Hardware-seitiges OSD-Burn-in, das Koordinaten dauerhaft in jedes Videobild einbrennt, und dynamische Metadaten-Überlagerung, die Koordinatendaten als separaten Track neben dem Video sendet. Jede Methode passt zu unterschiedlichen Projektanforderungen.

Echtzeit-XY-Tracking-Koordinaten-Überlagerung auf RTSP-Stream PTZ-Kamera

Die richtige Wahl hängt von Ihrem Endziel ab. Wenn Sie manipulationssichere Beweise benötigen, brennen Sie sie ein. Wenn Sie flexible, interaktive Daten für Ihr VMS oder Ihre benutzerdefinierte Software benötigen, verwenden Sie Metadaten. Unten erläutere ich die häufigsten Fragen, die meine Kunden zu diesem Thema stellen. Ich teile auch die realen Herausforderungen, die wir bei unseren 4G-Solar-PTZ-Installationen lösen.

Inhaltsübersicht

Werden die KI-Begrenzungsrahmen dauerhaft in die aufgezeichneten 4K-Video-Beweise eingebrannt?

Dies ist ein Bedenken, das ich von fast jedem Projektmanager höre. Niemand möchte nach einer sechsmonatigen Bereitstellung feststellen, dass seine Beweisaufnahmen entweder kritische Daten vermissen oder mit nicht entfernbaren Rahmen überladen sind.

Wenn Sie die Option “Smart Event Info einbrennen” in der Kamerafirmware aktivieren, werden die KI-Begrenzungsrahmen und XY-Koordinaten dauerhaft in jeden aufgezeichneten Frame eingebettet. Das bedeutet, dass die Daten Teil des Pixelinhalts werden. Niemand kann sie nach der Aufnahme entfernen oder verändern. Dies ist ideal für forensische Beweise, aber irreversibel.

KI-Begrenzungsrahmen eingebrannt in 4K-Video-Beweise PTZ-Kamera

Wie Hard-Burned OSD tatsächlich funktioniert

Lassen Sie mich erklären, was in der Kamera passiert, wenn Sie diese Funktion aktivieren. Der ISP (Image Signal Processor) der Kamera ist der Chip, der das Rohbild vom Sensor verarbeitet.⁸ Bevor der ISP das Bild an den H.265-Encoder weitergibt, zeichnet er den Begrenzungsrahmen und den Koordinatentext direkt auf die Bildpixel. Bis der Encoder den Frame komprimiert, sind diese Rahmen nur noch Teil des Bildes. Sie unterscheiden sich nicht vom Zeitstempel in der Ecke.

Das bedeutet, dass jedes Gerät, das das Video wiedergibt, die Rahmen sehen wird. Es spielt keine Rolle, ob Sie VLC⁵, einen billigen DVR oder ein High-End-VMS wie Meilenstein⁴. verwenden. Die Daten sind immer sichtbar.

Wann man Burn-In verwenden und wann man es vermeiden sollte

Hier ist die Kernfrage: Wer ist Ihr Endbenutzer?

Wenn Ihr Kunde eine Strafverfolgungsbehörde, eine Grenzschutzpolizei oder ein Betreiber kritischer Infrastrukturen ist, verlangen diese oft, dass Erkennungsereignisse visuell in den Aufnahmen selbst dokumentiert werden. Vor Gericht kann ein Anwalt auf den Bildschirm zeigen und sagen: “Das System hat um 02:14:07 Uhr einen Eindringling an den Pixelkoordinaten (1423, 876) erkannt.” Das ist ein starker Beweis.

Wenn Ihr Kunde jedoch ein Smart-City-Betreiber ist, der Videos für eine sekundäre Analyse in eine zentralisierte KI-Plattform einspeist, werden eingebrannte Boxen zu Rauschen. Das sekundäre KI-System könnte versuchen, die Bounding Box selbst als Objekt zu erkennen. Ich habe das schon erlebt. Es erzeugt Fehlalarme.

Integrität von Beweismitteln vs. Analytische Flexibilität

Faktor	Fest eingebrannte OSD	Sauberes Video (kein Einbrennen)
Zulässigkeit vor Gericht	Hoch – Daten sind manipulationssicher	Erfordert separates Metadatenprotokoll als Nachweis
Sekundäre KI-Analyse	Schlecht – Boxen stören die Erkennung	Ausgezeichnet – saubere Frames für die Neubearbeitung
Speicherbedarf	Minimale Erhöhung (~1-2%)	Keine Auswirkung
Benutzerkontrolle	Keine nach der Aufnahme	Volle Kontrolle über VMS
Wiedergabekompatibilität	Universell	Hängt von der VMS-Metadatenunterstützung ab

Meine Empfehlung: Wenn Ihr Projekt zwei Zwecken dient (Beweismittel + Analytik), zeichnen Sie zwei Streams auf. Verwenden Sie den Hauptstream mit Burn-in für die Beweismittelspeicherung. Verwenden Sie den sauberen Substream für Ihr KI-Backend. Unsere Firmware unterstützt diese Dual-Stream-Konfiguration sofort.

Kann ich die XY-Koordinaten-Überlagerung über die OSD-Einstellungen der Kamera ein-/ausschalten?

Ich hatte letztes Jahr einen Kunden in Texas, der wollte, dass Koordinaten während der Live-Überwachung sichtbar sind, aber während der Wiedergabe vollständig verborgen bleiben, um die Privatsphäre seines Kunden zu wahren. Er ging davon aus, dass ein einfacher Schalter dies regeln würde. Die Realität ist nuancierter.

Ja, Sie können das XY-Koordinaten-Overlay über das OSD-Menü der Kamera ein- oder ausschalten, aber nur, wenn Sie die Metadaten-Overlay-Methode verwenden. Wenn Sie die Hard-Burn-in-Methode gewählt haben, wirkt sich der Schalter nur auf zukünftige Frames aus. Er kann keine Koordinaten aus bereits aufgezeichneten Frames entfernen. Für volle Ein-/Aus-Flexibilität ist der Metadatenansatz die richtige Wahl.

XY-Koordinaten-Overlay umschalten OSD-Einstellungen PTZ-Kamera

Verständnis der beiden Umschaltverhalten

Wenn Sie in die OSD-Einstellungen der Kamera gehen und die Option “Smart Overlay” oder “AI Display” finden, hängt das, was passiert, wenn Sie sie umschalten, vollständig davon ab, welche Overlay-Methode Ihre Firmware verwendet.

Szenario A – Hard-Burn-In-Modus: Sie schalten den Schalter aus. Die Kamera hört auf, Kästen in neuen Frames zu zeichnen. Aber jeder Frame, der vor diesem Zeitpunkt aufgezeichnet wurde, hat immer noch die eingebrannten Kästen. Es gibt kein Rückgängigmachen. Stellen Sie es sich vor, als würden Sie mit einem Permanentmarker auf ein Foto schreiben. Sie können aufhören zu schreiben, aber Sie können nicht löschen, was bereits da ist.

Szenario B – Metadatenmodus: Sie schalten den Schalter aus. Die Kamera sendet weiterhin den Metadatenstrom (die XY-Koordinaten im XML- oder JSON-Format). Aber die eigene Vorschau der Kamera hört auf, das Overlay zu rendern. Ihr VMS kann unabhängig entscheiden, ob die Koordinaten angezeigt werden sollen. Dies gibt Ihnen eine schichtweise Kontrolle.

OSD-Menüoptionen in unserer Firmware

Unsere PTZ-Kameras⁷ bieten eine granulare Kontrolle darüber, was angezeigt wird. Hier ist, was Sie konfigurieren können:

Bounding Box Anzeige: Ein / Aus
Koordinatentext (X, Y): Ein / Aus
Objektklassifizierungslabel (Person, Fahrzeug usw.): Ein / Aus
Konfidenz-Score: Ein / Aus
Tracking-ID-Nummer: Ein / Aus

Jede dieser Optionen kann unabhängig voneinander umgeschaltet werden. Wenn Ihr Kunde also nur die Tracking-ID und die Bounding Box sehen möchte, aber nicht die Rohkoordinaten, ist dies eine einfache Firmware-Einstellung.

Ein häufiger Fehler, den ich in der Praxis sehe

Viele Integratoren konfigurieren das OSD-Overlay während des Labortests und vergessen, es vor der Bereitstellung anzupassen. Dann beschwert sich der Endbenutzer: “Warum sehe ich überall Zahlen auf meinem Bildschirm?” Oder schlimmer noch, sie schalten während der Einrichtung alles aus und fragen sechs Monate später: “Wo sind meine Koordinatendaten?”

Mein Rat: Erstellen Sie für jedes Projekt eine Checkliste für die Konfiguration. Dokumentieren Sie genau, welche Overlays aktiviert und welche deaktiviert sind und ob Sie den Burn-in- oder den Metadatenmodus verwenden. Speichern Sie die Konfigurationsdatei. Unsere Kameras unterstützen den Export und Import von Konfigurationen, sodass Sie Einstellungen auf Hunderte von Geräten klonen können.

Zusammenfassung des Umschaltverhaltens

Aktion	Hard Burn-In-Modus	Metadaten-Overlay-Modus
Im OSD deaktivieren	Stoppt das Einbrennen nur bei neuen Frames	Stoppt das Rendern in der Kameravorschau; Metadaten werden weiterhin übertragen
Im OSD aktivieren	Setzt das Einbrennen bei neuen Frames fort	Setzt das Rendern in der Kameravorschau fort
Auswirkung auf frühere Aufnahmen	Keine Änderung – Boxen sind permanent	Keine Änderung – Metadaten werden immer separat gespeichert
VMS-unabhängige Steuerung	Nicht möglich	Vollständig möglich

Wie hilft die Koordinaten-Überlagerung meinem Team bei der Koordination manueller PTZ-Reaktionen?

Bei großen Perimeter-Sicherheitsprojekten sehe ich oft eine Diskrepanz zwischen dem Operator, der die Bedrohung entdeckt, und dem Feldteam, das reagiert. Der Operator sagt: “Es ist auf der linken Seite des Bildschirms.” Das ist nutzlos, wenn die Kamera einen 2 Kilometer langen Zaun abdeckt.

Das XY-Koordinaten-Overlay gibt Ihren Operatoren eine präzise, numerische Sprache zur Kommunikation von Zielpositionen. Anstelle vager Beschreibungen kann Ihre Leitstelle dem Feldteam exakte Schwenk- und Neigungswinkel über Funk mitteilen, die aus den XY-Daten abgeleitet werden. Dies verkürzt die Reaktionskoordinationszeit erheblich und eliminiert das Rätselraten bei der manuellen PTZ-Steuerung.

XY-Koordinaten-Overlay PTZ manuelle Reaktionskoordination

Von Pixelkoordinaten zu realen Positionen

Hier ist, wie der Workflow in einem gut konfigurierten System tatsächlich funktioniert. Die KI der Kamera erkennt eine Person bei den Pixelkoordinaten (1423, 576) in einem 1920 × 1080 Frame. Die Firmware kennt den aktuellen Schwenkwinkel von 127,4° und den Neigungswinkel von -8,2°. Sie kennt auch das Sichtfeld bei der aktuellen Zoomstufe von 6,3° horizontal.

Mit einfacher Mathematik berechnet die Firmware, dass sich das Ziel etwa 1,2° rechts von der Bildmitte und 0,5° über der Mitte befindet. Anschließend gibt sie das absolute Peilungsziel aus: Schwenken 128,6°, Neigen -7,7°. Dies wird im Overlay angezeigt oder über Metadaten gesendet.

Warum das für die manuelle Übersteuerung wichtig ist

In vielen unserer 4G-Solar-PTZ-Einsätze¹, läuft die Kamera die meiste Zeit im Auto-Tracking-Modus. Aber es gibt Momente, in denen der Operator die manuelle Kontrolle übernehmen muss. Vielleicht hat die KI das Ziel hinter einem Baum verloren. Vielleicht gibt es zwei Ziele und der Operator möchte sich auf das zweite konzentrieren.

Ohne Koordinatendaten muss der Operator die Szene visuell durchsuchen, raten, wohin das Ziel gegangen ist, und die PTZ manuell steuern. Mit Koordinatendaten sieht der Operator die letzte bekannte Position – sagen wir, Schwenken 214,3°, Neigen -3,1° – und kann diese Zahlen direkt in den PTZ-Controller eingeben. Einige VMS-Plattformen unterstützen sogar “Klick zum Koordinaten-Ziel”, was dies sofort ermöglicht.

Koordination zwischen mehreren Kameras

Dies wird noch leistungsfähiger, wenn Sie mehrere PTZ-Kameras haben, die denselben Bereich aus verschiedenen Winkeln abdecken. Wenn Kamera A ein Ziel mit der geografischen Peilung 214° meldet, kann Kamera B automatisch auf dieselbe Peilung schwenken. Oder der Operator kann Kamera B manuell anweisen, auf 214° zu blicken. Das Koordinaten-Overlay ermöglicht diesen Kamera-übergreifenden Übergang, ohne dass der Operator auswendig lernen muss, welche Kamera welche Zone abdeckt.

Reales Szenario: Pipeline-Überwachung in West-Texas

Einer unserer Kunden überwacht einen 15-Meilen-Pipeline-Korridor mit sechs solarbetriebenen PTZ-Einheiten. Jede Kamera deckt etwa 2,5 Meilen ab. Wenn Kamera 3 ein Fahrzeug in der Nähe der Pipeline an einer bestimmten Koordinate erkennt, sieht der Operator die Schwenk-/Neigungswerte auf dem Bildschirm. Er funkt die Patrouillenfahrzeug an: “Ziel bei Kamera 3, Peilung 187 Grad, ungefähr 800 Meter von der Zufahrtsstraßenkreuzung entfernt.” Das Patrouillenteam weiß genau, wohin es fahren muss. Bevor sie Koordinaten-Overlays hatten, lautete der Funkspruch: “Kamera 3 sieht etwas auf der rechten Seite.” Das Patrouillenteam fuhr 20 Minuten lang herum und versuchte, es zu finden.

Das ist der Unterschied, den Koordinatendaten machen. Sie verwandeln vage Warnungen in umsetzbare Informationen.

Beeinflusst die Überlagerung die Effizienz der H.265-Kompression des Live-Videostreams?

Dies ist die Frage, die Gelegenheitskäufer von ernsthaften Ingenieuren trennt. Jeder Systemintegrator, mit dem ich zusammenarbeite und der bandbreitenbeschränkte 4G-Bereitstellungen verwaltet, stellt diese Frage. Und das zu Recht. Denn in einer solarbetriebenen Anlage mit einer 4G-SIM-Karte zählt jedes Kilobit.

Die Auswirkung hängt von der verwendeten Overlay-Methode ab. Hard-burned OSD fügt dem Bild kontrastreiche Texte und Boxen hinzu, was die Effizienz der H.265-Kompression leicht reduziert, da der Encoder diese scharfen Kanten beibehalten muss. Die Erhöhung liegt typischerweise bei 3-8% der Bitrate. Metadaten-Overlay hat keine Auswirkung auf die Videokompression, da die Koordinatendaten in einem separaten, leichten Kanal übertragen werden.

H.265-Kompressionseffizienz Koordinaten-Overlay-Auswirkung

Warum Einbrennen die Kompression (ein wenig) beeinträchtigt

H.265 (HEVC) ist sehr gut darin, natürliche Szenen zu komprimieren. Gras, Himmel, Bäume, Straßen – diese haben sanfte Verläufe und vorhersehbare Bewegungen. Der Encoder nutzt diese Vorhersehbarkeit, um hohe Kompressionsraten zu erzielen.

Aber wenn Sie scharfen Text mit hohem Kontrast und geometrische Formen (wie Begrenzungsrahmen) in das Bild einbrennen, führen Sie Elemente ein, die der Encoder nicht gut vorhersagen kann. Eine weiße Beschriftung “X:1423 Y:576” auf dunklem Hintergrund erzeugt harte Kanten, die mehr Bits zur genauen Kodierung erfordern. Der Encoder muss zusätzliche Bits aufwenden, um diese Zeichen lesbar zu halten.

Wie viel zusätzliche Bandbreite sprechen wir hier an?

In unseren Labortests haben wir Folgendes auf einer typischen Außenszene bei 1080p, 25fps gemessen:, H.265 Main Profile⁶:

Overlay-Konfiguration	Durchschnittliche Bitrate	Steigerung vs. Sauber
Kein Overlay (sauberes Video)	2,8 Mbps	Basislinie
Nur Zeitstempel	2,85 Mbps	+1.8%
Zeitstempel + 1 Begrenzungsrahmen + XY-Text	2,92 Mbps	+4.3%
Zeitstempel + 5 Begrenzungsrahmen + XY-Text	3,03 Mbps	+8.2%
Metadaten-Overlay (kein Einbrennen)	2,8 Mbps + 3 kbps Metadaten	~0% im Videostream

Wie Sie sehen können, spielen ein oder zwei Begrenzungsrahmen kaum eine Rolle. Aber wenn Sie eine belebte Kreuzung mit mehr als 10 gleichzeitigen Erkennungen überwachen, summiert sich die Bitratenerhöhung. Bei einer 4G-Verbindung mit einem monatlichen Datenlimit kann diese 8%-Steigerung über 30 Tage Ihren Kunden echtes Geld kosten.

Das 4G-Bandbreitenbudget-Problem

Lassen Sie mich das ins Verhältnis setzen. Ein typischer 4G-SIM-Tarif für ein industrielles IoT-Gerät in den USA bietet Ihnen 50-100 GB pro Monat. Bei kontinuierlichem Streaming mit 2,8 Mbit/s verbrauchen Sie etwa 900 GB pro Monat. Offensichtlich streamt niemand rund um die Uhr mit voller Bitrate über 4G. Sie verwenden bewegungsausgelöste Aufnahmen, adaptive Bitraten und geplante Streaming-Fenster.

Aber selbst mit diesen Optimierungen bedeutet eine Erhöhung der Bitrate um 8% einen um 8% höheren Datenverbrauch. Bei einer Bereitstellung von 100 Kameras ist das erheblich.

Unser Ansatz: Intelligente Overlay-Planung

Deshalb haben wir eine Funktion namens ‘Intelligente Overlay-Planung’² in unsere Firmware integriert. Sie funktioniert so:

Während Alarmereignissen, aktiviert die Kamera automatisch das Einbrennen der Koordinaten, sodass der Beweisclip vollständige visuelle Daten enthält.
Während normale Überwachung (kein Alarm) deaktiviert die Kamera das Einbrennen und sendet die Koordinaten nur über den Metadatenkanal.
Der Übergang erfolgt innerhalb eines GOP (Group of Pictures)⁹, was typischerweise 2 Sekunden dauert.

Dies gibt Ihnen das Beste aus beiden Welten. Ihre Beweisclips haben eingebrannte Koordinaten für das Gericht. Ihre routinemäßigen Überwachungsaufnahmen bleiben sauber und bandbreiteneffizient. Und Ihre 4G-Datengebühr bleibt unter Kontrolle.

PTS-Synchronisation über 4G-Netze

Es gibt ein weiteres technisches Detail, das für 4G-Bereitstellungen wichtig ist. Wenn die Kamera den Videostream und den Metadatenstream über eine 4G-Verbindung sendet, kann Netzwerk-Jitter dazu führen, dass sie zu unterschiedlichen Zeiten am VMS ankommen. Der Videobild kann 500 ms später eintreffen, aber das winzige Metadatenpaket kommt pünktlich an.

Wenn Ihr VMS die Metadaten naiv überlagert, sobald sie eintreffen, scheint die Begrenzungsbox dem Ziel zu “voraus” zu sein. Die Box bewegt sich, bevor die Person es tut. Das sieht fehlerhaft aus.

Unsere Firmware löst dies mit PTS (Presentation Time Stamp) Synchronisation³. Jedes Metadatenpaket trägt denselben Zeitstempel wie der Videobildrahmen, zu dem es gehört. Das VMS puffert beide Streams und richtet sie vor der Wiedergabe anhand des Zeitstempels aus. Das Ergebnis: Die Bounding Box bleibt am Ziel, selbst bei einer ruckeligen 4G-Verbindung in einem abgelegenen Ölfeld in Texas.

Schlussfolgerung

XY-Koordinaten-Overlay auf RTSP-Streams ist vollständig realisierbar. Wählen Sie Hard Burn-in für manipulationssichere Beweise. Wählen Sie Metadaten-Overlay für Flexibilität und Bandbreiteneinsparungen. Passen Sie die Methode an die tatsächlichen Bedürfnisse Ihres Projekts an.

1. Solarbetriebene PTZ-Kameras, die 4G-Mobilfunknetze für die Fernüberwachung nutzen. ︎↩︎ 2. Firmware-Funktion, die Burn-in nur während Alarmen aktiviert, um Bandbreite zu sparen. ︎↩︎ 3. Zeitstempel, der zur Synchronisierung von Video- und Metadatenströmen verwendet wird, um die Ausrichtung aufrechtzuerhalten. ︎↩︎ 4. Beliebte Videomanagement-Softwareplattform, die Metadaten-Overlay unterstützt. ︎↩︎ 5. Open-Source-Mediaplayer, der Videostreams mit Overlays anzeigen kann. ︎↩︎ 6. Videokomprimierungsstandard, auch bekannt als HEVC, der für effizientes Video-Streaming verwendet wird. ︎↩︎ 7. Kamera, die schwenken, neigen und zoomen kann, üblicherweise in der Überwachung eingesetzt. ︎↩︎ 8. Chip, der Rohbilddaten vor der Kodierung verarbeitet, wo Burn-in stattfindet. ︎↩︎ 9. Sequenz von Bildern in komprimiertem Video, die für die Kodierungseffizienz verwendet wird. ︎↩︎