Basiert Auto-Tracking auf dem visuellen Schwerpunkt oder auf Skelett-Keypoint-Koordinaten? - Professioneller Hersteller von PTZ-Kameras und Sicherheitsüberwachung

Früher habe ich wegen Fehlern beim Auto-Tracking Schlaf verloren. Eine Kamera erfasste eine Person und ruckte dann plötzlich zur Seite, weil ein Schatten den Algorithmus verwirrte. Dieses Problem kostete mich echtes Geld und echte Kunden.

Modernes PTZ-Auto-Tracking basiert auf Skelett-Schlüsselpunkt-Koordinaten, nicht auf dem visuellen Schwerpunkt. Das System erkennt 17 bis 18 Körpergelenke wie Schultern, Hüften und Knie und verwendet diese festen Punkte dann, um den Schwenk-Neige-Motor zu steuern. Diese Methode widersteht Okklusion, Schattenstörungen und Zielüberlappungen weitaus besser als ältere zentroidbasierte Ansätze.

PTZ-Kamera-Auto-Tracking-Skelett-Schlüsselpunkt-Technologie

Unten erkläre ich genau, wie die Schlüsselpunktverfolgung in realen Einsätzen funktioniert, warum sie ältere Methoden übertrifft und was das für Ihr nächstes Projekt bedeutet. Legen wir los.

Inhaltsübersicht

Bietet Skelett-Tracking eine stabilere Verfolgung bei komplexen “menschenähnlichen” Bewegungen?

Ich habe beobachtet, wie zentroidbasierte Kameras ihr Ziel in dem Moment verloren, als jemand in die Hocke ging, um einen Schuh zu binden. Die Tracking-Box flog in einen nahegelegenen Schatten, und die PTZ drehte sich ziellos. Dieses einzelne Versagen kann eine ganze Projektdemo ruinieren.

Ja. Skelett-Tracking bietet eine weitaus stabilere Verfolgung, da es der Gelenkstruktur des Körpers folgt und nicht einem Pixelklumpen. Selbst wenn sich eine Person hinhockt, dreht oder mit den Armen winkt, bleibt die Topologie des Skeletts konsistent. Die Kamera behält ihre Verfolgung bei, da sie Knochen und keine Formen verfolgt.

Skelett-Tracking stabile Verfolgung bei komplexen Bewegungen

Wie Zentroid-Tracking bei Bewegung versagt

Traditionelles Schwerpunkt-Tracking funktioniert so: Der Algorithmus subtrahiert den Hintergrund, findet den verbleibenden Pixelklumpen und berechnet dessen geometrisches Zentrum. Dieser Mittelpunkt wird zum Ziel der PTZ.

Das Problem zeigt sich schnell. Wenn eine Person beide Arme über den Kopf hebt, wird der Klumpen höher. Der Schwerpunkt verschiebt sich nach oben. Die Kamera neigt sich nach oben. Jetzt verlassen die Füße der Person den Bildausschnitt. Wenn sie sich hinhocken, schrumpft der Klumpen und der Schwerpunkt sinkt. Die Kamera taucht ab. Dieses ständige vertikale Wackeln erzeugt ein zittriges, instabiles Videosignal, das auf jeder VMS-Wiedergabe¹.

Wie Skelett-Schlüsselpunkte dies lösen

Ein schlüsselpunktbasiertes System kümmert sich nicht um die Gesamtform des Pixelklumpens. Es identifiziert spezifische anatomische Orientierungspunkte. Der Algorithmus wählt einen stabilen Referenzpunkt, normalerweise den Mittelpunkt zwischen beiden Schultern oder das Beckenzentrum. Diese Punkte bewegen sich auch bei komplexen Aktionen reibungslos und vorhersehbar.

Hier ist, was Bild für Bild passiert:

Das KI-Modell erkennt 17 Schlüsselpunkte am menschlichen Körper.
Die Firmware wählt den “Torso-Mittelpunkt” (Durchschnitt der Schulter- und Hüft-Keypoints) als Tracking-Anker.
Die PID-Regler² wandelt die Pixelposition dieses Ankers in Motorwinkelbefehle um.
A Bewegungsvektor-Prädiktor³ betrachtet die letzten 5 Frames, um vorherzusagen, wo sich der Anker im Frame 6 befinden wird.

Dieser Vorhersageschritt ist entscheidend. Er bedeutet, dass der Motor beginnt, sich zu bewegen, bevor die Person ihre Aktion abschließt. Das Ergebnis ist ein reibungsloses, verzögerungsfreies Tracking.

Stabilitätsvergleichstabelle

Szenario	Verhalten des Zentroid-Trackings	Verhalten des Keypoint-Trackings
Person hebt die Arme	Zentroid springt nach oben, Kamera neigt sich zu hoch	Schultermittelpunkt bewegt sich kaum, Kamera bleibt waagerecht
Person hockt sich hin	Zentroid fällt scharf ab, Kamera taucht ab	Hüft-Keypoint senkt sich allmählich, Kamera folgt reibungslos
Person dreht sich im Kreis	Blob-Form ändert sich drastisch, Zentroid zittert	Skelett-Topologie bleibt konsistent, Sperre hält
Person trägt großes Objekt	Objekt verschmilzt mit Blob, Zentroid verschiebt sich zum Objekt	Schlüsselpunkte bleiben am Körper, Objekt wird ignoriert

Nach meiner Erfahrung mit Systemintegratoren in den USA und Europa ist dieser Stabilitätsunterschied das, was Deals abschließt. Wenn David eine Live-Demo für seinen Endkunden durchführt, muss die Kamera intelligent aussehen. Ruckeln zerstört das Vertrauen. Sanftes Tracking baut Vertrauen auf.

Wie verhindern Schlüsselpunkte, dass die Kamera die Spur verliert, wenn sich das Ziel bückt?

Ich hatte einmal einen Kunden in Texas, der mich wütend anrief. Seine zentroidbasierte PTZ verlor jedes Mal die Spur eines Arbeiters, wenn sich der Kerl bückte, um auf einer Baustelle Materialien aufzuheben. Die Kamera schwenkte stattdessen auf ein nahegelegenes Fahrzeug. Das sind 200 Dollar für einen Techniker, um ein Softwareproblem zu beheben.

Wenn sich eine Person bückt, ändert sich ihre Pixelsilhouette dramatisch, aber ihre Skelettschlüsselpunkte bleiben identifizierbar. Der Algorithmus sieht immer noch den Kopf, die Schultern und die Wirbelsäule. Er berechnet den Tracking-Anker neu anhand sichtbarer Gelenke und behält die Sperre bei. Die Kamera verliert nie das Ziel, weil das Skelett nie verschwindet.

Schlüsselpunkt-Tracking verhindert den Verlust des Ziels beim Bücken

Warum Bücken das Zentroid-Tracking bricht

Wenn eine Person aufrecht steht, ist ihre Silhouette groß und schmal. Der Schwerpunkt liegt ungefähr auf Brusthöhe. Wenn sie sich in der Taille nach vorne beugen, wird die Silhouette kurz und breit. Der Schwerpunkt springt plötzlich nach vorne und unten. Für eine PTZ-Kamera sieht das so aus, als wäre das Ziel teleportiert worden. Der Motor überkorrigiert, überschießt und erfasst oft etwas ganz anderes.

Dies ist kein seltener Grenzfall. Auf Baustellen, Bauernhöfen und in Lagerhäusern bücken sich Menschen ständig. Wenn Ihr Tracking-System diese grundlegende menschliche Bewegung nicht bewältigen kann, ist es nicht einsatzbereit.

Die Schlüsselpunkt-Lösung: Gewichtete Ankerberechnung

Unsere KI-Firmware verwendet ein gewichtetes Ankersystem. Anstatt sich auf einen einzigen Schlüsselpunkt zu verlassen, weist sie jedem erkannten Gelenk Konfidenzwerte zu. Wenn sich eine Person bückt:

Der Kopf-Schlüsselpunkt bewegt sich nach unten, bleibt aber sichtbar.
Die Schulter-Schlüsselpunkte drehen sich nach vorne, bleiben aber erkennbar.
Die Hüft-Schlüsselpunkte werden zur stabilsten Referenz.
Die Knie- und Knöchel-Schlüsselpunkte bleiben fast unverändert.

Die Firmware verschiebt ihr Ankergewicht automatisch zu den stabilsten und sichtbarsten Schlüsselpunkten. Wenn der Oberkörper zusammengeklappt und teilweise verdeckt ist, stützt sich das System stärker auf Hüft- und Bein-Schlüsselpunkte. Der Tracking-Anker bewegt sich langsam und vorhersehbar. Die PTZ folgt ohne Drama.

Echtzeit-Rahmenanalyse

Hier ist, was der Algorithmus in einer typischen “Bücken”-Sequenz verarbeitet:

Rahmen	Sichtbare Schlüsselpunkte	Ankerberechnung	Motorbefehl
Frame 1 (stehend)	Alle 17	Schultermittelpunkt	Position halten
Frame 2 (beginnt sich zu beugen)	16 (ein Knöchel vom Körper verdeckt)	Gewichtsverlagerung zu den Hüften	Neigung nach unten 2°
Frame 3 (vollständig gebeugt)	12 (Unterschenkel hinter dem Torso)	Hüftzentrum als primärer Anker	Neigung nach unten 4°, Schwenken halten
Frame 4 (richtet sich wieder auf)	15	Übergang zurück zum Schultermittelpunkt	Neigung nach oben 3°

Die wichtigste Erkenntnis ist, dass das System niemals in Panik gerät. Es sieht nie ein Ereignis “Ziel verloren”. Es passt lediglich an, welche Schlüsselpunkte bei der Ankerberechnung das meiste Gewicht tragen. Dies unterscheidet sich grundlegend vom Zentroid-Tracking, bei dem sich die gesamte Form ändert und der Algorithmus kein internes Modell davon hat, wie ein menschlicher Körper aussieht.

Warum das für abgelegene Standorte wichtig ist

Für 4G-Solarbetriebene Einsätze⁴ an Orten wie Ranches, Ölfeldern oder abgelegenen Baustellen bedeutet ein verlorener Track verlorene Beweise. Man kann nicht zurückspulen und neu verfolgen. Der Moment ist vorbei. Unser Schlüsselpunktsystem stellt sicher, dass die Kamera auch bei den häufigsten menschlichen Bewegungen eine kontinuierliche, ununterbrochene Verfolgung beibehält. Das ist die Zuverlässigkeit, die die Hardwareinvestition rechtfertigt.

Kann das System eine Person auch dann genau verfolgen, wenn sie nur teilweise sichtbar ist?

Ich habe Dutzende von PTZ-Kameras hinter Maschendrahtzäunen, neben Betonbarrieren und in der Nähe von geparkten Fahrzeugen getestet. Die meisten Zentroid-Tracker versagen in dem Moment, in dem die Hälfte des Körpers hinter einem Hindernis verschwindet. Die Tracking-Box friert entweder ein oder springt zum Hindernis selbst.

Ja. Die Keypoint-basierte Verfolgung funktioniert auch dann, wenn nur der Oberkörper oder eine Körperseite der Person sichtbar ist. Das KI-Modell leitet das vollständige Skelett aus teilweisen Beobachtungen ab. Solange 4 bis 5 Keypoints erkennbar bleiben, behält das System eine sichere Verfolgung des Ziels bei und setzt die reibungslose PTZ-Bewegung fort.

Keypoint-Verfolgung bei teilweiser Sichtbarkeit durch Okklusion

Verständnis von teilweiser Okklusion im Feld

Teilweise Sichtbarkeit ist kein Ausnahmefall. Sie ist die Norm. In realen Einsätzen gehen Ziele hinter Autos, lehnen sich um Ecken, stehen hinter Tresen oder bewegen sich entlang von Zäunen. Zu jedem Zeitpunkt können 30 % bis 60 % des Körpers für die Kameraansicht verborgen sein.

Die Zentroidenverfolgung bricht unter diesen Bedingungen zusammen. Wenn die Hälfte des Pixel-Blobs hinter einer Wand verschwindet, verschiebt sich der Zentroid des verbleibenden Blobs dramatisch zur sichtbaren Seite. Die PTZ schwenkt stark in diese Richtung und verliert oft das Ziel vollständig, wenn es auf der anderen Seite wieder auftaucht.

Wie die Pose-Schätzung mit fehlenden Daten umgeht

Moderne Pose-Schätzungsmodelle wie HRNet⁵ und MobileNet-Pose⁶ werden auf Millionen von Bildern trainiert, die teilweise Okklusionen enthalten. Sie lernen die räumlichen Beziehungen zwischen den Gelenken. Wenn das Modell eine linke Schulter und einen Kopf sieht, kann es ableiten, wo sich die rechte Schulter wahrscheinlich befindet, auch wenn sie verborgen ist.

Diese Ableitung geschieht durch das, was wir als “Skelettvervollständigung“⁷. “ bezeichnen. Das Modell gibt Konfidenzwerte für jeden Keypoint aus. Sichtbare Keypoints erhalten eine hohe Konfidenz (0,8 bis 0,99). Abgeleitete Keypoints erhalten eine niedrigere Konfidenz (0,3 bis 0,6). Die Tracking-Firmware verwendet nur Keypoints mit hoher Konfidenz für die Motorsteuerung, aber sie verwendet die abgeleiteten Keypoints, um ihr internes Modell der Position der Person aufrechtzuerhalten.

Praktische Szenarien

Hier sind gängige Situationen mit teilweiser Sichtbarkeit und wie das System darauf reagiert:

Person hinter einer halben Mauer (hüfthohe Barriere): Das System sieht Kopf, Schultern, Ellbogen und manchmal Hände. Das sind 5 bis 7 Keypoints mit hoher Konfidenz. Mehr als genug. Der Anker bleibt auf dem Schultermittelpunkt. Die Verfolgung ist reibungslos und ununterbrochen.

Person, die hinter einem Fahrzeug hervorkommt: Wenn die Person heraustritt, erscheinen die Keypoints nacheinander. Das System wartet nicht auf vollständige Sichtbarkeit. Sobald es 4 zuverlässige Keypoints auf einer Körperseite erkennt, initiiert es die Verfolgung. Bis die Person vollständig sichtbar ist, ist die PTZ bereits gesperrt und zentriert.

Person, die entlang einer Zaunlinie geht (intermittierende Okklusion): Zaunpfosten erzeugen schnelle, sich wiederholende Okklusionen. Der Centroid-Tracker würde bei jedem Pfosten stottern. Das Keypoint-System ignoriert diese kurzen Unterbrechungen, da das Skelettmodell zwischen den Frames bestehen bleibt. Die Firmware verwendet eine zeitliche Glättung, um die 2 bis 3 Frames zu überbrücken, in denen ein Pfosten einen Teil des Körpers blockiert.

Die Rolle der NPU

Diese Art von Echtzeit-Inferenz erfordert dedizierte Hardware. Unsere Kameras verwenden eine integrierte Neuronale Verarbeitungseinheit⁸ (NPU), die das Pose-Estimation-Modell mit 30 Bildern pro Sekunde ausführt. Die NPU übernimmt die rechenintensive Skeletterkennung, während der Hauptprozessor die PID-Regelung und die Motorbefehle verwaltet. Diese Trennung stellt sicher, dass die Tracking-Latenz auch bei komplexen Okklusionsereignissen unter 50 ms bleibt.

Für Integratoren wie David, denen die Systemarchitektur wichtig ist, ist dies ein entscheidender Unterschied. Billige Kameras versuchen, KI auf der Haupt-CPU auszuführen, und erreichen nur 5 bis 10 Bilder pro Sekunde Erkennungsraten. Das ist zu langsam für zuverlässiges Tracking. Unser dedizierter NPU-Ansatz garantiert eine konsistente Leistung unabhängig von der Komplexität der Szene.

Warum ist die schlüsselpunktbasierte Verfolgung zur Fokussierung auf das Gesicht des Ziels überlegen?

Ich hatte Kunden, die mir sagten, dass ihre alten Kameras den Körper gut verfolgen, aber immer falsch ins Bild setzen. Der Kopf der Person wird am oberen Bildrand abgeschnitten, oder die Kamera zentriert sich auf den Oberkörper und das Gesicht ist zu klein, um es zu identifizieren. Für Sicherheitsanwendungen ist das ein kritischer Fehler.

Das Keypoint-Tracking ist für die Fokussierung auf das Gesicht überlegen, da es genau weiß, wo sich der Kopf befindet. Der Algorithmus erkennt direkt die Keypoints für Nase, Augen und Ohren. Die Firmware kann den Tracking-Anker vom Mittelpunkt des Oberkörpers nach oben verschieben, um das Gesicht in der optimalen Bildposition zu halten. Dies garantiert jedes Mal identifizierbare Aufnahmen.

Keypoint-basiertes Tracking zur Fokussierung auf das Zielgesicht

Das Framing-Problem beim Centroid-Tracking

Ein Centroid-Tracker zentriert den geometrischen Mittelpunkt des Blobs im Bild. Bei einer stehenden Person befindet sich dieser Mittelpunkt ungefähr auf Höhe der Taille oder des unteren Brustkorbs. Die Kamera hält pflichtbewusst die Taille zentriert. Das Ergebnis? Der Kopf befindet sich im oberen Viertel des Bildes, oft zu klein für Gesichtserkennung oder sogar grundlegende Identifizierung.

Schlimmer noch, wenn die Person weit entfernt ist und die Kamera heranzoomt, schneidet das durch den Centroid zentrierte Framing den Kopf vollständig ab. Der Bediener sieht einen Oberkörper. Dieses Filmmaterial ist für Identifizierungszwecke nutzlos.

Wie Keypoint-Tracking intelligentes Framing ermöglicht

Mit Skelett-Keypoints hat die Firmware eine vollständige Karte des Körpers. Sie weiß, wo sich der Kopf relativ zum Oberkörper befindet. Sie kann einen gezielten Offset auf den Tracking-Anker anwenden:

Standard-Sicherheits-Framing: Der Anker wird auf den Nacken-Keypoint gesetzt. Dies platziert das Gesicht im oberen Drittel des Bildes, gemäß der Drittel-Regel⁹. Der gesamte Oberkörper bleibt sichtbar.
Identifikationsmodus: Der Anker verschiebt sich zum Nasen-Keypoint. Die Kamera zoomt enger heran und hält das Gesicht zentriert. Dieser Modus wird automatisch aktiviert, wenn sich das Ziel nicht mehr bewegt.
Vollbildmodus: Der Anker bleibt in der Hüftmitte. Die Kamera zoomt heraus, um die gesamte Person zu erfassen, nützlich für die Ganganalyse oder die Kleidererkennung.

Dynamische Zoomkopplung

Die wahre Stärke liegt in der Kopplung von Keypoint-Daten mit dem Zoom-Motor. Die Firmware berechnet den Pixelabstand zwischen dem Kopf-Keypoint und den Fuß-Keypoints. Dies gibt ihr die scheinbare Größe der Person im Bild. Sie passt dann den optische 40X¹⁰ an, um ein konsistentes Rahmungsverhältnis beizubehalten.

Tracking-Modus	Ankerpunkt	Zoomziel	Anwendungsfall
Standard-Sicherheit	Nacken-Keypoint	Person füllt 60% der Rahmenhöhe	Allgemeine Überwachung
Gesichtserkennung	Nasen-Keypoint	Kopf füllt 30% der Rahmenhöhe	Zugangskontrolle, Verdächtige-ID
Ganzkörper	Hüftmitte	Person füllt 85% der Rahmenhöhe	Ganganalyse, Kleidererfassung
Weiter Kontext	Hüftmitte	Person füllt 30% der Rahmenhöhe	Szenenbewusstsein, Pfadverfolgung

Dies ist alles automatisch. Der Bediener muss den Zoom oder die Rahmengestaltung nicht manuell anpassen. Die KI erledigt dies basierend auf dem bei der Installation konfigurierten Bereitstellungsprofil.

Warum das für die Beweisqualität wichtig ist

In Sicherheitsanwendungen bestimmt die Qualität der Aufnahmen, ob ein Vorfall zu einer Verurteilung oder einem ungelösten Fall führt. Eine Kamera, die durchweg gut gerahmte, gesichts erkennbare Aufnahmen liefert, ist zehnmal mehr wert als Kameras, die verschwommene Oberkörper aufnehmen. Unser Keypoint-basiertes Rahmensystem stellt sicher, dass jedes verfolgte Ziel Videos in Identifikationsqualität liefert, unabhängig von Entfernung, Bewegungsgeschwindigkeit oder Körperhaltung.

Für Integratoren, die Angebote für Regierungs- oder Unternehmenskunden erstellen, ist dies eine Spezifikation, die Sie in das Angebot aufnehmen können. “Das System muss die Gesichtserkennung während der aktiven Verfolgung in Entfernungen von bis zu 150 Metern aufrechterhalten.” Das ist ein Versprechen, das nur Keypoint-basierte Systeme halten können.

Schlussfolgerung

Skelett-Keypoint-Tracking hat zentroid-basierte Methoden als Industriestandard für PTZ-Auto-Tracking abgelöst. Es liefert stabile Sperren bei komplexen Bewegungen, handhabt Okklusionen anmutig und behält die richtige Rahmengestaltung für die Identifizierung bei. Wenn Ihr aktuelles System immer noch auf Pixel-Blob-Zentroiden basiert, ist es Zeit für ein Upgrade.

1. Erfahren Sie mehr über Video Management Systeme und ihre Wiedergabefunktionen. ︎↩︎ 2. Erfahren Sie, wie PID-Regler verwendet werden, um Pixelpositionen in Motorbefehle umzuwandeln. ︎↩︎ 3. Entdecken Sie, wie die Bewegungsvorhersage die Nachführungsglätte verbessert. ︎↩︎ 4. Untersuchen Sie die Herausforderungen und Lösungen für die Überwachung von Fernstandorten. ︎↩︎ 5. HRNet ist ein hochmodernes Pose-Schätzungsmodell, das für die genaue Keypoint-Erkennung verwendet wird. ︎↩︎ 6. MobileNet-Pose ist ein leichtgewichtiges Pose-Schätzungsmodell, das für Echtzeit-Leistung optimiert ist. ︎↩︎ 7. Forschungsarbeit zur Ableitung okkludierter Skelett-Keypoints aus partiellen Beobachtungen. ︎↩︎ 8. NPUs sind spezialisierte Hardware für die effiziente Ausführung von KI-Modellen. ︎↩︎ 9. Verstehen Sie die fotografische Kompositionsrichtlinie, die für intelligentes Framing verwendet wird. ︎↩︎ 10. Erfahren Sie, wie optischer Zoom funktioniert und welche Vorteile er gegenüber digitalem Zoom hat. ︎↩︎

Basiert das Auto-Tracking auf dem visuellen Schwerpunkt oder den Koordinaten von Skelett-Schlüsselpunkten?