Le suivi automatique est-il basé sur le centre de gravité visuel ou sur les coordonnées des points clés squelettiques ? - Fabricant professionnel de caméras PTZ et de surveillance de sécurité

Je perdais le sommeil à cause des échecs du suivi automatique. Une caméra se verrouillait sur une personne, puis soudainement secouait latéralement parce qu'une ombre confondait l'algorithme. Ce problème m'a coûté cher en argent et en clients.

Le suivi automatique moderne des caméras PTZ repose sur les coordonnées des points clés du squelette, et non sur le centre de gravité visuel. Le système détecte 17 à 18 articulations du corps comme les épaules, les hanches et les genoux, puis utilise ces points fixes pour guider le moteur panoramique-inclinaison. Cette méthode résiste mieux à l'occlusion, aux interférences d'ombre et au chevauchement de cibles que les anciennes approches basées sur le centroïde.

Technologie de suivi automatique des caméras PTZ par points clés du squelette

Ci-dessous, j'explique en détail comment fonctionne le suivi des points clés dans les déploiements réels, pourquoi il surpasse les méthodes héritées, et ce que cela signifie pour votre prochain projet. Allons-y.

Table des matières

Le suivi squelettique offre-t-il un verrouillage plus stable lors de mouvements complexes “ à la manière humaine ” ?

J'ai vu des caméras basées sur le centroïde perdre leur cible au moment où quelqu'un s'accroupissait pour lacer une chaussure. La boîte de suivi s'envolait vers une ombre proche, et la PTZ tournait sans but. Cet unique échec peut ruiner une démonstration de projet entière.

Oui. Le suivi squelettique offre un verrouillage beaucoup plus stable car il suit la structure articulaire du corps, et non une masse de pixels. Même lorsqu'une personne s'accroupit, se tord ou agite les bras, la topologie du squelette reste cohérente. La caméra maintient son verrouillage car elle suit les os, pas les formes.

verrouillage stable du suivi squelettique lors de mouvements complexes

Comment le suivi par centroïde échoue lors des mouvements

Le suivi traditionnel du centre de gravité fonctionne ainsi : l'algorithme soustrait l'arrière-plan, trouve la masse de pixels restante et calcule son centre géométrique. Ce point central devient la cible de la PTZ.

Le problème apparaît rapidement. Lorsqu'une personne lève les deux bras au-dessus de sa tête, la masse s'allonge. Le centroïde se déplace vers le haut. La caméra s'incline vers le haut. Maintenant, les pieds de la personne sortent du cadre. Lorsqu'elle s'accroupit, la masse rétrécit et le centroïde descend. La caméra descend. Ce rebond vertical constant crée un flux vidéo saccadé et instable qui semble peu professionnel sur n'importe quel lecture VMS¹.

Comment les points clés du squelette résolvent ce problème

Un système basé sur les points clés ne se soucie pas de la forme globale de la masse de pixels. Il identifie des repères anatomiques spécifiques. L'algorithme choisit un point de référence stable, généralement le point médian entre les deux épaules ou le centre du bassin. Ces points se déplacent de manière fluide et prévisible, même lors d'actions complexes.

Voici ce qui se passe image par image :

Le modèle d'IA détecte 17 points clés sur le corps humain.
Le firmware sélectionne le “ centre du torse ” (moyenne des points clés de l'épaule et de la hanche) comme ancre de suivi.
Les Contrôleur PID² convertit la position pixel de cette ancre en commandes d'angle moteur.
A prédicteur de vecteur de mouvement³ examine les 5 dernières images pour anticiper où sera l'ancre dans l'image 6.

Cette étape de prédiction est essentielle. Elle permet au moteur de commencer à bouger avant que la personne n'ait terminé son action. Le résultat est un suivi fluide et sans décalage.

Tableau comparatif de stabilité

Scénario	Comportement du suivi de centroïde	Comportement du suivi de points clés
La personne lève les bras	Le centroïde saute, la caméra s'incline trop haut	Le point médian de l'épaule bouge à peine, la caméra reste de niveau
La personne s'accroupit	Le centroïde chute brusquement, la caméra plonge	Le point clé de la hanche s'abaisse progressivement, la caméra suit en douceur
La personne tourne sur elle-même	La forme de la tache change radicalement, le centroïde tremble	La topologie du squelette reste cohérente, le verrouillage est maintenu
La personne porte un objet volumineux	L'objet fusionne avec la tache, le centroïde se déplace vers l'objet	Les points clés restent sur le corps, l'objet est ignoré

D'après mon expérience de travail avec des intégrateurs de systèmes aux États-Unis et en Europe, cette différence de stabilité est ce qui conclut les affaires. Lorsque David effectue une démonstration en direct pour son client final, la caméra doit paraître intelligente. Le bégaiement tue la confiance. Un suivi fluide renforce la confiance.

Comment les points clés empêchent-ils la caméra de perdre la cible lorsque celle-ci se penche ?

J'ai eu un client au Texas qui m'a appelé furieux. Son PTZ basé sur le centroïde perdait de vue un travailleur chaque fois que le gars se penchait pour ramasser des matériaux sur un chantier. La caméra se tournait vers un véhicule voisin à la place. C'est un déplacement de $200 pour résoudre un problème logiciel.

Lorsqu'une personne se penche, sa silhouette en pixels change radicalement, mais ses points clés squelettiques restent identifiables. L'algorithme voit toujours la tête, les épaules et la colonne vertébrale. Il recalcule l'ancre de suivi à l'aide des articulations visibles et maintient le verrouillage. La caméra ne perd jamais la cible car le squelette ne disparaît jamais.

le suivi des points clés empêche de perdre la cible lors d'une flexion

Pourquoi se pencher casse le suivi du centroïde

Lorsqu'une personne se tient droite, sa silhouette est grande et étroite. Le centroïde se situe à peu près à la hauteur de la poitrine. Lorsqu'elle se penche en avant à la taille, la silhouette devient courte et large. Le centroïde saute soudainement vers l'avant et vers le bas. Pour une caméra PTZ, cela ressemble à une téléportation de la cible. Le moteur surcompense, dépasse et se verrouille souvent sur autre chose.

Ce n'est pas un cas limite rare. Sur les chantiers de construction, les fermes et les entrepôts, les gens se penchent constamment. Si votre système de suivi ne peut pas gérer ce mouvement humain de base, il n'est pas prêt pour le déploiement.

La solution des points clés : Calcul d'ancre pondéré

Notre firmware IA utilise un système d'ancrage pondéré. Au lieu de s'appuyer sur un seul point clé, il attribue des scores de confiance à chaque articulation détectée. Lorsqu'une personne se penche :

Le point clé de la tête descend mais reste visible.
Les points clés des épaules pivotent vers l'avant mais restent détectables.
Les points clés des hanches deviennent la référence la plus stable.
Les points clés des genoux et des chevilles restent presque inchangés.

Le firmware décale automatiquement son poids d'ancrage vers les points clés les plus stables et visibles. Si le haut du corps est plié et partiellement occulté, le système s'appuie davantage sur les points clés des hanches et des jambes. L'ancre de suivi se déplace lentement et de manière prévisible. Le PTZ suit sans drame.

Analyse d'images du monde réel

Voici ce que l'algorithme traite dans une séquence typique de “se pencher” :

Image	Points clés visibles	Calcul de l'ancre	Commande moteur
Image 1 (debout)	Tous 17	Milieu des épaules	Maintenir la position
Image 2 (début de flexion)	16 (une cheville occultée par le corps)	Transfert du poids vers les hanches	Inclinaison vers le bas de 2°
Image 3 (complètement plié)	12 (jambes inférieures derrière le torse)	Centre de la hanche comme point d'ancrage principal	Inclinaison vers le bas de 4°, maintien du panoramique
Image 4 (remontée)	15	Retour au milieu des épaules	Inclinaison vers le haut de 3°

L'idée clé est que le système ne panique jamais. Il ne voit jamais d'événement “cible perdue”. Il ajuste simplement les points clés qui portent le plus de poids dans le calcul du point d'ancrage. C'est fondamentalement différent du suivi par centroïde, où toute la forme change et l'algorithme n'a pas de modèle interne de ce à quoi ressemble un corps humain.

Pourquoi cela est important pour les sites distants

Pour Déploiements alimentés par énergie solaire 4G⁴ dans des endroits comme les ranchs, les champs pétrolifères ou les zones de construction isolées, une perte de suivi signifie une perte de preuves. Vous ne pouvez pas rembobiner et retracer. Le moment est passé. Notre système de points clés garantit que même lors des mouvements humains les plus courants, la caméra maintient un suivi continu et ininterrompu. C'est la fiabilité qui justifie l'investissement matériel.

Le système peut-il suivre une personne avec précision même si elle n'est que partiellement visible ?

J'ai testé des dizaines de caméras PTZ derrière des clôtures grillagées, à côté de barrières en béton et près de véhicules garés. La plupart des traceurs par centroïde échouent au moment où la moitié du corps disparaît derrière un obstacle. La boîte de suivi se fige ou saute sur l'obstacle lui-même.

Oui. Le suivi basé sur les points clés fonctionne même lorsque seule le haut du corps ou un seul côté de la personne est visible. Le modèle d'IA déduit le squelette complet à partir d'observations partielles. Tant que 4 à 5 points clés restent détectables, le système maintient un verrouillage confiant sur la cible et continue un mouvement PTZ fluide.

suivi de points clés avec visibilité partielle à travers l'occlusion

Comprendre l'occlusion partielle sur le terrain

La visibilité partielle n'est pas un cas extrême. C'est la norme. Dans les déploiements réels, les cibles passent derrière des voitures, se penchent autour des coins, se tiennent derrière des comptoirs ou se déplacent le long de clôtures. À tout moment, 30 % à 60 % du corps peuvent être cachés à la vue de la caméra.

Le suivi du centroïde s'effondre dans ces conditions. Lorsque la moitié de la tache de pixels disparaît derrière un mur, le centroïde de la tache restante se déplace considérablement vers le côté visible. Le PTZ pivote fortement dans cette direction, perdant souvent la cible entièrement lorsqu'elle réapparaît de l'autre côté.

Comment l'estimation de pose gère les données manquantes

Les modèles modernes d'estimation de pose tels que HRNet⁵ et MobileNet-Pose⁶ sont entraînés sur des millions d'images qui incluent une occlusion partielle. Ils apprennent les relations spatiales entre les articulations. Si le modèle voit une épaule gauche et une tête, il peut déduire où se trouve probablement l'épaule droite, même si elle est cachée.

Cette inférence se produit par ce que nous appelons la “complétion du squelette“⁷. ». Le modèle génère des scores de confiance pour chaque point clé. Les points clés visibles obtiennent une confiance élevée (0,8 à 0,99). Les points clés inférés obtiennent une confiance plus faible (0,3 à 0,6). Le micrologiciel de suivi utilise uniquement les points clés à haute confiance pour le contrôle moteur, mais il utilise ceux qui sont inférés pour maintenir son modèle interne de l'emplacement de la personne.

Scénarios pratiques

Voici des situations courantes de visibilité partielle et comment le système réagit :

Personne derrière un demi-mur (barrière à mi-hauteur) : Le système voit la tête, les épaules, les coudes et parfois les mains. Cela fait 5 à 7 points clés à haute confiance. Plus qu'assez. L'ancre reste sur le point médian de l'épaule. Le suivi est fluide et ininterrompu.

Personne émergeant d'un véhicule : Lorsque la personne sort, les points clés apparaissent un par un. Le système n'attend pas la visibilité complète. Dès qu'il détecte 4 points clés fiables d'un côté du corps, il initie le suivi. Au moment où la personne est entièrement visible, le PTZ est déjà verrouillé et centré.

Personne marchant le long d'une clôture (occlusion intermittente) : Les poteaux de clôture créent une occlusion rapide et répétitive. Le traqueur de centroïde bégayerait à chaque poteau. Le système de points clés ignore ces brèves interruptions car le modèle de squelette persiste entre les images. Le firmware utilise un lissage temporel pour combler les 2 à 3 images où un poteau bloque une partie du corps.

Le rôle du NPU

Ce niveau d'inférence en temps réel nécessite du matériel dédié. Nos caméras utilisent un processeur neuronal⁸ (NPU) embarqué qui exécute le modèle d'estimation de pose à 30 ips. Le NPU gère les calculs intensifs de détection de squelette, tandis que le processeur principal gère le contrôle PID et les commandes moteur. Cette séparation garantit que la latence de suivi reste inférieure à 50 ms, même lors d'événements d'occlusion complexes.

Pour les intégrateurs comme David qui se soucient de l'architecture système, c'est un différenciateur clé. Les caméras bon marché essaient d'exécuter l'IA sur le CPU principal et finissent par avoir des taux de détection de 5 à 10 ips. C'est trop lent pour un suivi fiable. Notre approche NPU dédiée garantit des performances constantes quelle que soit la complexité de la scène.

Pourquoi le suivi basé sur les points clés est-il supérieur pour maintenir la mise au point sur le visage de la cible ?

J'ai eu des clients qui m'ont dit que leurs anciennes caméras suivaient bien le corps mais cadraient toujours mal la prise de vue. La tête de la personne est coupée en haut de l'image, ou la caméra se centre sur le torse et le visage est trop petit pour être identifié. Pour les applications de sécurité, c'est un échec critique.

Le suivi des points clés est supérieur pour la mise au point du visage car il sait exactement où se trouve la tête. L'algorithme détecte directement les points clés du nez, des yeux et des oreilles. Le firmware peut décaler l'ancre de suivi vers le haut à partir du centre du torse pour maintenir le visage dans la position optimale du cadre. Cela garantit des séquences identifiables à chaque fois.

suivi basé sur les points clés maintenant la mise au point sur le visage cible

Le problème de cadrage avec le suivi de centroïde

Un traqueur de centroïde centre le milieu géométrique de la tache dans le cadre. Pour une personne debout, ce point médian se situe approximativement à la taille ou au bas de la poitrine. La caméra maintient consciencieusement la taille centrée. Le résultat ? La tête se trouve dans le quart supérieur de l'image, souvent trop petite pour la reconnaissance faciale ou même une identification basique.

Pire encore, lorsque la personne est éloignée et que la caméra effectue un zoom avant, le cadrage centré sur le centroïde coupe entièrement la tête. L'opérateur voit un torse. Ces séquences sont inutiles à des fins d'identification.

Comment le suivi des points clés permet un cadrage intelligent

Avec les points clés du squelette, le firmware dispose d'une carte complète du corps. Il sait où se trouve la tête par rapport au torse. Il peut appliquer un décalage intentionnel à l'ancre de suivi :

Cadrage de sécurité standard : L'ancre est définie sur le point clé du cou. Cela place le visage dans le tiers supérieur de l'image, en suivant la règle des tiers⁹. Le haut du corps entier reste visible.
Mode d'identification : L'ancre se déplace vers le point clé du nez. La caméra effectue un zoom avant et maintient le visage centré. Ce mode s'active automatiquement lorsque la cible s'arrête de bouger.
Mode corps entier : L'ancre reste au centre de la hanche. La caméra effectue un zoom arrière pour capturer la personne entière, utile pour l'analyse de la démarche ou l'identification des vêtements.

Couplage de zoom dynamique

La véritable puissance vient du couplage des données de points clés avec le moteur de zoom. Le firmware calcule la distance en pixels entre le point clé de la tête et les points clés des pieds. Cela lui donne la taille apparente de la personne dans l'image. Il ajuste ensuite le zoom optique¹⁰ pour maintenir un rapport de cadrage cohérent.

Mode suivi	Point d'ancrage	Cible de zoom	Cas d'utilisation
Sécurité standard	Point clé du cou	La personne remplit 60% de la hauteur de l'image	Surveillance générale
Identification faciale	Point clé du nez	La tête remplit 30% de la hauteur de l'image	Contrôle d'accès, identification de suspect
Corps entier	Centre de la hanche	La personne remplit 85% de la hauteur de l'image	Analyse de la démarche, capture de vêtements
Contexte large	Centre de la hanche	La personne remplit 30% de la hauteur du cadre	Conscience de la scène, suivi de trajectoire

Tout cela est automatique. L'opérateur n'a pas besoin d'ajuster manuellement le zoom ou le cadrage. L'IA s'en charge en fonction du profil de déploiement configuré lors de l'installation.

Pourquoi c'est important pour la qualité des preuves

Dans les applications de sécurité, la qualité des images détermine si un incident conduit à une condamnation ou à une affaire non résolue. Une caméra qui fournit constamment des images bien cadrées et où le visage est visible vaut dix caméras qui capturent des torses flous. Notre système de cadrage basé sur des points clés garantit que chaque cible suivie produit une vidéo de qualité d'identification, quelle que soit la distance, la vitesse de déplacement ou la posture du corps.

Pour les intégrateurs qui élaborent des propositions pour des clients gouvernementaux ou d'entreprise, il s'agit d'une spécification que vous pouvez inclure dans l'appel d'offres. “ Le système doit maintenir la visibilité du visage lors du suivi actif à des distances allant jusqu'à 150 mètres. ” C'est une promesse que seuls les systèmes basés sur des points clés peuvent tenir.

Conclusion

Le suivi des points clés squelettiques a remplacé les méthodes basées sur le centroïde comme norme industrielle pour le suivi automatique PTZ. Il offre des verrouillages stables lors de mouvements complexes, gère l'occlusion avec élégance et maintient un cadrage approprié pour l'identification. Si votre système actuel repose encore sur des centroïdes de blobs de pixels, il est temps de le mettre à niveau.

1. Apprenez-en davantage sur les systèmes de gestion vidéo et leurs capacités de lecture. ︎↩︎ 2. Découvrez comment les contrôleurs PID sont utilisés pour convertir les positions de pixels en commandes moteur. ︎↩︎ 3. Découvrez comment la prédiction de mouvement améliore la fluidité du suivi. ︎↩︎ 4. Explorez les défis et les solutions pour la surveillance de sites distants. ︎↩︎ 5. HRNet est un modèle d'estimation de pose de pointe utilisé pour une détection précise des points clés. ︎↩︎ 6. MobileNet-Pose est un modèle d'estimation de pose léger optimisé pour les performances en temps réel. ︎↩︎ 7. Article de recherche sur l'inférence des points clés squelettiques occultés à partir d'observations partielles. ︎↩︎ 8. Les NPU sont des matériels spécialisés pour exécuter efficacement les modèles d'IA. ︎↩︎ 9. Comprenez la directive de composition photographique utilisée pour le cadrage intelligent. ︎↩︎ 10. Découvrez comment fonctionne le zoom optique et ses avantages par rapport au zoom numérique. ︎↩︎

Le suivi automatique est-il basé sur le centre de gravité visuel ou sur les coordonnées des points clés du squelette ?