Wie erfasst das System das anfängliche Ziel in Szenarien mit sich kreuzenden mehreren Zielen? - Professioneller Hersteller von PTZ-Kameras und Sicherheitsüberwachung

Ich habe billigere gesehen PTZ-Kameras¹ ihr Ziel verlieren, sobald sich zwei Personen kreuzen. Das ist frustrierend, kostspielig und in Sicherheitsanwendungen potenziell gefährlich.

Das System erfasst das anfängliche Ziel mit einem vierstufigen Ansatz: tiefe Erscheinungsdeskriptoren (Re-ID²) erstellen einen visuellen Fingerabdruck, Kalman-Filter³ prognostiziert Bewegung während der Verdeckung, der Ungarische Algorithmus⁴ löst die ID-Zuweisung durch Kostenoptimierung, und Edge AI⁵ hält alles lokal am Laufen, auch wenn die 4G-Verbindung abbricht.

PTZ-Kamera verfolgt mehrere sich kreuzende Ziele

Unten werde ich jede Ebene dieser Tracking-Logik aufschlüsseln. Ich werde erklären, wie sie in realen 4G-Solar-PTZ-Installationen funktioniert und warum sie für Systemintegratoren wichtig ist, die sich kein “Zielwechsel”-Versagen im Feld leisten können.

Inhaltsübersicht

Wechselt die Kamera zu einer zweiten Person, wenn sie sich mit dem ursprünglichen Ziel kreuzt?

Ich habe das auf Baustellen erlebt. Zwei Arbeiter gehen aneinander vorbei, und plötzlich verfolgt die Kamera den falschen Kerl. Der Kunde ruft wütend an. Sie schicken einen LKW. Das ist verlorenes Geld.

Nein, eine ordnungsgemäß konstruierte PTZ wechselt nicht das Ziel. Das System behält einen visuellen Fingerabdruck des ursprünglichen Ziels mithilfe tiefer Erscheinungsdeskriptoren bei. Selbst wenn sich zwei Personen im Bild vollständig überlappen, vergleicht der Algorithmus kontinuierlich gespeicherte Merkmalsvektoren und weist die richtige ID neu zu, sobald sie sich trennen.

PTZ-Kamera behält die Zielerfassung während der Personenüberkreuzung bei

Warum billige Kameras hier versagen

Die meisten günstigen Auto-Tracking-Kameras verlassen sich auf eine einzige Methode: Bounding Box¹¹ Position. Sie verfolgen ein Rechteck auf dem Bildschirm. Wenn zwei Rechtecke zu einem verschmelzen, gerät das System in Panik. Es wählt entweder das Rechteck aus, das zuerst erscheint, oder dasjenige, das sich am nächsten zur Mitte des Bildes befindet. Das ist ein Münzwurf. Fünfzig Prozent der Zeit folgt es der falschen Person.

Wie Re-ID den Wechsel verhindert

Unser System macht etwas grundlegend anderes. Sobald Sie ein Ziel erfasst haben, führt der Onboard-SoC ein leichtgewichtiges ResNet⁶ Modell aus. Es extrahiert, was wir einen ‘visuellen Fingerabdruck¹².’ nennen. Dieser beinhaltet:

Farbhistogramm: Die Verteilung der Farben auf der Kleidung des Ziels, von oben nach unten.
Seitenverhältnis: Das Verhältnis von Höhe zu Breite der Körperform.
Erkennung von Accessoires: Rucksäcke, Hüte, Taschen. Diese fügen eindeutige Datenpunkte hinzu.

All dies wird zu einem 128-dimensionalen Vektor komprimiert. Stellen Sie es sich als eine mathematische Zusammenfassung dessen vor, wie diese Person aussieht. Wenn sich zwei Personen kreuzen, sieht das System nicht nur “zwei verschmelzende Blobs”. Es sieht zwei unterschiedliche Vektoren. Nach der Kreuzung vergleicht es jedes erscheinende Ziel mit dem gespeicherten Vektor. Die engste Übereinstimmung behält die ursprüngliche ID.

Was bei vollständiger Verdeckung passiert

Es gibt ein kurzes Zeitfenster, manchmal 5 bis 15 Frames, in dem das ursprüngliche Ziel vollständig hinter der zweiten Person verborgen ist. Während dieser Zeit ist der visuelle Fingerabdruck nutzlos, da nichts zu sehen ist. Hier übernimmt der Kalman-Filter. Das erkläre ich im nächsten Abschnitt.

Tracking-Methode	Risiko des Zielwechsels	Verwendet in
Nur Bounding Box	Hoch (50%+ Fehler)	Preisgünstige Verbraucherkameras
Re-ID + Position	Niedrig (unter 5% Fehler)	Industrielle PTZ-Systeme
Re-ID + Kalman + Ungarisch	Sehr niedrig (unter 1%)	Unsere 4G Solar-PTZ-Plattform

Reale Auswirkungen für Integratoren

Für jemanden wie David, der Kameras auf abgelegenen Baustellen oder Solaranlagen installiert, ist ein Zielwechsel nicht nur ärgerlich. Es bedeutet, dass die Kamera nun in die falsche Richtung zeigt. Der eigentliche Eindringling geht unbemerkt davon. Der Kunde sieht sich später die Aufnahmen an und fragt, warum die Kamera einem Lieferfahrer statt dem Eindringling gefolgt ist. Das ist eine Vertragsstreitigkeit, die vorprogrammiert ist.

Verwendet die KI “visuelle ID-Tags”, um sicherzustellen, dass sie dieselbe Person durch eine Menschenmenge verfolgt?

Diese Frage höre ich oft von Integratoren, die unser System mit dem von Wettbewerbern vergleichen. Sie möchten wissen, ob die Verfolgung wirklich persistent ist oder nur “haftend”, bis etwas sie verwirrt.

Ja, die KI weist dem gesperrten Ziel ein persistentes visuelles ID-Tag zu. Dieses Tag ist ein hochdimensionaler Merkmalsvektor, der von einem tiefen neuronalen Netzwerk extrahiert wird. Es funktioniert wie ein digitaler Fingerabdruck, der an das Ziel gebunden bleibt, unabhängig davon, wie viele andere Personen ins Bild geraten.

KI-visuelles ID-Tagging-System identifiziert Ziel in der Menge

So funktioniert visuelles ID-Tagging Schritt für Schritt

Lassen Sie mich die genaue Sequenz durchgehen, die im Prozessor der Kamera abläuft, wenn Sie eine Zielerfassung initiieren:

Schritt 1: Erste Erfassung und Merkmalsextraktion

Der Bediener klickt auf ein Ziel (oder die KI wählt es basierend auf Regeln zur Eindringlingszone automatisch aus). Innerhalb von 50 Millisekunden schneidet der SoC den Zielbereich aus und speist ihn in ein vortrainiertes Merkmalsextraktionsnetzwerk ein. Das Ergebnis ist ein 128-Float-Vektor. Dieser Vektor wird im lokalen Speicher als “Referenzidentität” gespeichert.”

Schritt 2: Vergleich von Frame zu Frame

In jedem nachfolgenden Frame erkennt das System alle sichtbaren Personen. Für jede erkannte Person extrahiert es denselben Vektortyp. Dann berechnet es den Kosinus-Ähnlichkeit⁷ zwischen jedem erkannten Vektor und der gespeicherten Referenz. Die höchste Übereinstimmung über einem Konfidenzschwellenwert (typischerweise 0,75) erhält die ursprüngliche ID.

Schritt 3: Adaptive Aktualisierung

Hier ist etwas, das die meisten Leute übersehen. Der Referenzvektor ist nicht statisch. Wenn sich die Beleuchtung ändert, wenn sich das Ziel dreht, aktualisiert das System den Referenzvektor langsam mithilfe eines exponentiellen gleitenden Durchschnitts⁸. Dies verhindert Drift und passt sich dennoch allmählich an Erscheinungsänderungen an, wie z. B. wenn eine Person eine Jacke auszieht.

Stufe	Zeitbudget	Was passiert
Merkmalsextraktion	~50ms	ResNet schneidet Ziele zu und kodiert sie
Vektorvergleich	~10ms pro Ziel	Kosinusähnlichkeit gegen alle Detektionen
ID-Zuweisung	~5ms	Der Ungarische Algorithmus löst Konflikte
Referenzaktualisierung	~2ms	Der exponentielle gleitende Durchschnitt passt den gespeicherten Vektor an

Warum das auf 4G-Netzen wichtig ist

Bei einem 4G-Solar-PTZ-System streamen Sie möglicherweise mit 15 Bildern pro Sekunde, um Bandbreite zu sparen. Das bedeutet, dass jedes Bild wertvoll ist. Wenn das System die ID für nur zwei Bilder verliert, sind das 130 ms blinde Nachführung. Unsere Edge-KI verarbeitet all dies lokal. Die 4G-Verbindung überträgt den Videostream zum NVR oder zur Cloud, aber die Nachführungsentscheidung verlässt die Kamera nie. Selbst wenn das 4G-Signal für 3 Sekunden ausfällt, dreht sich die PTZ weiter, folgt weiter, bleibt gesperrt.

Grenzen der Menschendichteschätzung

Ich werde ehrlich über die Grenzen sein. In einer Menge von über 30 dicht gedrängten Personen sinkt die Re-ID-Genauigkeit. Die Vektoren beginnen ähnlich auszusehen, wenn alle ähnliche Kleidung tragen. Für typische Sicherheitsszenarien mit 5 bis 10 Personen im Bild behält das System eine korrekte ID-Persistenz von über 95 % bei. Für dichte Menschenmengen empfehlen wir die Kombination mit einer festen Weitwinkelkamera in einer Dual-Lens-Konfiguration für einen Panoramablick.

Wie beheben Sie den “Zielwechsel”-Fehler, der bei billigeren Auto-Tracking-Kameras üblich ist?

Dies ist die Frage, die ernsthafte Integratoren von Gelegenheitskäufern trennt. Wenn Sie genügend Kameras bereitgestellt haben, kennen Sie den Swap-Bug. Sie wissen, wie teuer es ist, einem Kunden dies zu erklären.

Wir lösen das Ziel-Swap-Problem durch eine dreischichtige Abwehr: Der Ungarische Algorithmus berechnet die globale optimale Zuordnung über alle verfolgten Objekte hinweg, der Kalman-Filter hält die Trajektorienvorhersage während der Verdeckung aufrecht und ein Konfidenzverfall⁹ Timer erzwingt eine Wiedererfassung, wenn der Übereinstimmungswert zu lange unter einem Schwellenwert liegt.

Visualisierung des Algorithmus zur Auflösung von Ziel-Swaps

Die Grundursache für Ziel-Swaps

Ziel-Swaps entstehen durch eine faule Abkürzung im Algorithmusdesign. Billige Systeme verwenden die “Nächster-Nachbar”-Zuordnung. In jedem Frame schauen sie, wo sich das Ziel im letzten Frame befand, und weisen dann die ID der Erkennung zu, die dieser Position am nächsten liegt. Dies funktioniert gut, wenn sich die Ziele weit voneinander entfernt befinden. Sobald sich zwei Ziele innerhalb weniger Pixel voneinander befinden, wird der Nächste-Nachbar-Ansatz zu einem Ratespiel.

Unsere dreischichtige Abwehr

Schicht 1: Ungarischer Algorithmus für globale optimale Zuordnung

Anstatt IDs einzeln zuzuweisen (gieriger Ansatz), lösen wir das Zuordnungsproblem global. Der Ungarische Algorithmus erstellt eine Kostenmatrix, in der:

Zeilen bestehende verfolgte IDs darstellen
Spalten neue Erkennungen im aktuellen Frame darstellen
Jede Zelle enthält eine gewichtete Kosten, die Aussehen-, Bewegungs- und räumliche Distanz kombiniert

Der Algorithmus findet die Zuordnung, die die Gesamtkosten über ALLE Ziele gleichzeitig minimiert. Das bedeutet, selbst wenn Ziel A geringfügig näher an Erkennung 2 liegt, kann das System Ziel A dennoch Erkennung 1 zuweisen, wenn dies eine bessere globale Lösung ergibt.

Schicht 2: Kalman-Filter für Bewegungskontinuität

Der Kalman-Filter verwaltet einen Zustandsschätzer für jedes Ziel: Position (x, y), Geschwindigkeit (vx, vy) und Beschleunigung. Wenn ein Ziel hinter einem anderen Objekt verschwindet, sagt der Filter weiterhin voraus, wo es sich befinden sollte. Nach dem Ende der Verdeckung wird die vorhergesagte Position zu einem starken Prior in der Kostenmatrix. Ein Ziel, das genau dort erscheint, wo der Filter es vorhergesagt hat, erhält einen massiven Bonus in der Zuordnungsbewertung.

Schicht 3: Konfidenzverfall und Wiedererfassung

Manchmal ist sich das System trotz aller Vorsichtsmaßnahmen nicht sicher. Vielleicht tragen beide Ziele identische Uniformen. Vielleicht dauerte die Verdeckung zu lange. In diesen Fällen fällt der Konfidenzwert unter 0,6. Das System tritt in einen “vorläufigen” Zustand ein. Es verfolgt weiterhin den besten Kandidaten, markiert den Stream aber mit einem Metadaten-Marker. Wenn sich die Konfidenz nicht innerhalb von 30 Frames erholt, kann das System entweder:

Position halten und auf den Bediener warten
Wiedererfassung basierend auf dem letzten bekannten Bewegungsvektor

Warum das für Remote-Solar-Bereitstellungen wichtig ist

An einem solarbetriebenen Standort ohne ständiges Personal gibt es niemanden, der einen Tausch manuell korrigieren kann. Die Kamera muss dies autonom richtig machen. Unsere Edge-Verarbeitung stellt sicher, dass die Vorhersagealgorithmen auch bei reduzierten Bildraten (üblich bei niedrigem Akkustand) die Lücken füllen. Die PTZ ruckelt oder jagt nicht. Sie bewegt sich reibungslos entlang des vorhergesagten Pfades.

Ausfallmodus	Günstige Kamerareaktion	Reaktion unseres Systems
Zwei Ziele kreuzen sich bei Gehgeschwindigkeit	50% Chance auf Tausch	Re-ID-Vektor löst in 2-3 Frames auf
Ziel für 1 Sekunde vollständig verdeckt	Verliert die Spur, jagt zufällig	Kalman sagt Pfad voraus, PTZ folgt Vorhersage
4G bricht während des Überkreuzungsereignisses ab	Friert ein oder setzt zurück	Edge AI setzt autonomes Tracking fort
Drei oder mehr Ziele gruppieren sich	Weist IDs zufällig zu	Ungarischer Algorithmus findet globales Optimum

Kann ich eine “Prioritätszone” einrichten, in der die Kamera immer die erste Person erfasst, die sie sieht?

Dies ist eine praktische Bereitstellungsfrage. Integratoren möchten wissen, ob sie einen Triggerbereich definieren können, z. B. eine Zaunlinie oder eine Tür, in der die Kamera automatisch beginnt, jeden zu verfolgen, der zuerst eintritt.

Ja, Sie können definieren Prioritätszonen¹⁰ (auch Einbruchmeldebereiche genannt), in denen die Kamera automatisch auf das erste menschlich aussehende Ziel verriegelt, das eintritt. Das System verwendet die Zonengrenze als Auslöser und initiiert dann sofort die vollständige Re-ID- und Tracking-Pipeline bei dieser ersten Erkennung.

Konfiguration von Prioritätszonen auf der PTZ-Kameraoberfläche

Wie Prioritätszonen in der Praxis funktionieren

Eine Prioritätszone ist ein Polygon, das Sie auf der Weboberfläche der Kamera oder über das VMS zeichnen. Sie definieren die Form, die Empfindlichkeit und die Regeln. Wenn ein Ziel diese Zone durchquert, behandelt die Kamera dies als Sperrbefehl. Hier ist die Sequenz:

Konfigurationsoptionen

Sie erhalten mehrere Parameter zum Einstellen:

Zonenform: Rechteck, Polygon oder Linienüberquerung. Linienüberquerung ist nützlich für Zaunperipherien.
Ziel-Filter: Nur Mensch, nur Fahrzeug oder beides. Dies verhindert, dass die Kamera auf Tiere oder wehende Trümmer reagiert.
Prioritätsregel: Zuerst rein, zuerst gesperrt. Wenn eine zweite Person eintritt, während die Kamera bereits verfolgt, ignoriert das System sie, es sei denn, das erste Ziel verlässt die Szene vollständig.
Verweildauer: Wie lange die Kamera gesperrt bleibt, bevor sie zur Patrouille zurückkehrt. Sie können dies auf unendlich für permanente Verfolgung einstellen, bis das Ziel die Szene verlässt.

Die Logik “Erste Person”

Wenn mehrere Personen gleichzeitig (innerhalb desselben Bildes) die Zone betreten, benötigt das System einen Tiebreaker. Unsere Implementierung verwendet eine einfache Regel: Das Ziel, das dem Zonenmittelpunkt am nächsten ist, erhält Priorität. Dies ist konfigurierbar. Einige Integratoren bevorzugen “größte Bounding Box” (am nächsten zur Kamera) oder “am schnellsten bewegend” (wahrscheinlichste Bedrohung).

Integration mit PTZ-Patrouille

Die meisten Installationen verwenden die Kamera im Patrouillenmodus. Sie schwenkt auf einer voreingestellten Tour hin und her. Wenn eine Prioritätszone ausgelöst wird, pausiert die Patrouille. Die PTZ sperrt das Ziel und folgt ihm. Sobald das Ziel die definierte Verfolgungsgrenze (ein größerer Bereich um die Prioritätszone) verlässt, kehrt die Kamera zu ihrer Patrouillenposition zurück und setzt die Tour fort.

Randfälle und ehrliche Einschränkungen

Ich möchte offenlegen, wo es schwierig werden kann:

Gleichzeitiger Eintritt: Wenn 5 Personen gemeinsam durch ein Tor gehen, kann die Kamera physisch nur einer folgen. Die anderen werden vom Weitwinkelobjektiv aufgezeichnet, wenn Sie ein Dual-Sensor-Setup verwenden, aber die PTZ konzentriert sich auf ein Ziel.
Verwirrung bei Wiedereintritt: Wenn das verfolgte Ziel die Zone verlässt und 10 Minuten später in einer anderen Jacke wieder eintritt, behandelt das System es als neues Ziel. Re-ID funktioniert innerhalb einer kontinuierlichen Tracking-Sitzung, nicht über Stunden hinweg.
Nachtleistung: Nachts mit IR-Beleuchtung gehen Farbinformationen verloren. Der Re-ID-Vektor stützt sich stärker auf Körperform und Bewegungsmuster. Die Genauigkeit sinkt im Vergleich zum Tag um etwa 10-15%.

Warum diese Funktion Geld für abgelegene Standorte spart

Bei Davids typischem Einsatz, einer Solar-PTZ am Perimeter einer Baustelle, eliminiert die Prioritätszone Fehlalarme. Ohne sie könnte die Kamera auf ein vorbeifahrendes Auto auf der Straße hinter dem Zaun fixiert werden. Mit einer richtig gezeichneten Zone, die nur das Innere der Zaunlinie abdeckt, ignoriert die Kamera alles außerhalb. Das spart Batterie (weniger unnötige PTZ-Bewegungen), spart Bandbreite (weniger Fehlalarm-Clips, die über 4G hochgeladen werden) und erspart dem Kunden Alarmmüdigkeit.

Schlussfolgerung

Das Ziel-Lock in Multi-Crossover-Szenarien beruht auf vier zusammenarbeitenden Faktoren: visuelle Fingerabdrücke, Bewegungsvorhersage, optimale Zuordnungsmathematik und lokale Edge-Verarbeitung. Wenn alle vier stimmen, bleibt die Kamera auf dem Ziel, auch wenn das Netzwerk es nicht tut.

1. Grundprinzipien und Anwendungen von Pan-Tilt-Zoom-Kameras kennenlernen. ︎↩︎ 2. Verstehen, wie Person-Re-Identifikation Erscheinungsmerkmale verwendet, um Personen über Kameraansichten hinweg zu verfolgen. ︎↩︎ 3. Den mathematischen Algorithmus für Bewegungsvorhersage und Zustandschätzung untersuchen. ︎↩︎ 4. Den kombinatorischen Optimierungsalgorithmus zur Lösung von Zuordnungsproblemen lesen. ︎↩︎ 5. Lernen, wie KI-Verarbeitung lokal auf Geräten und nicht in der Cloud durchgeführt wird. ︎↩︎ 6. Die tiefe Residualnetzwerkarchitektur für die Merkmalsextraktion verstehen. ︎↩︎ 7. Lernen, wie Kosinusähnlichkeit den Winkel zwischen Vektoren misst, um Ähnlichkeit zu bestimmen. ︎↩︎ 8. Sehen, wie exponentiell gewichtete Durchschnitte für adaptive Aktualisierungen verwendet werden. ︎↩︎ 9. Verstehen, wie Konfidenzschwellenwerte und Verfalls-Timer falsche Zuordnungen verhindern. ︎↩︎ 10. Entdecken, wie definierte Zonen (Intrusion Detection Regions) die automatische Verfolgung auslösen. ︎↩︎ 11. Rechteckige Bounding Boxes kennenlernen, die bei der Objekterkennung und -verfolgung verwendet werden. ︎↩︎ 12. Verstehen, wie Feature-Vektoren (visuelle Fingerabdrücke) verfolgte Objekte eindeutig identifizieren. ︎↩︎

Wie erfasst das System in Szenarien mit mehreren Zielen und Überkreuzungen das anfängliche Ziel?