Comment le système verrouille-t-il la cible initiale dans les scénarios de croisement de plusieurs cibles ?

J'ai vu des systèmes moins chers Caméras PTZ¹ perdre leur cible au moment où deux personnes se croisent. C'est frustrant, coûteux et, dans les applications de sécurité, potentiellement dangereux.

Le système verrouille la cible initiale grâce à une approche à quatre couches : des descripteurs d'apparence profonds (Ré-ID²) créent une empreinte visuelle, Filtre de Kalman³ prédit le mouvement pendant l'occlusion, l'algorithme hongrois⁴ résout l'attribution d'ID par optimisation des coûts, et l'IA en périphérie⁵ maintient tout en fonctionnement localement même lorsque la liaison 4G est interrompue.

Suivi PTZ de plusieurs cibles se croisant

Ci-dessous, je détaillerai chaque couche de cette logique de suivi. J'expliquerai comment cela fonctionne dans les déploiements réels de PTZ solaires 4G, et pourquoi c'est important pour les intégrateurs de systèmes qui ne peuvent pas se permettre une défaillance de “changement de cible” sur le terrain.

Table des matières

La caméra PTZ va-t-elle “changer” vers une deuxième personne si elle croise la cible d'origine ?

J'ai vu cela se produire sur des chantiers. Deux ouvriers se croisent, et soudain la caméra suit le mauvais gars. Le client appelle, en colère. Vous envoyez un camion. C'est de l'argent perdu.

Non, une PTZ correctement conçue ne changera pas de cible. Le système maintient une empreinte visuelle de la cible d'origine à l'aide de descripteurs d'apparence profonds. Même lorsque deux personnes se chevauchent complètement dans le champ, l'algorithme compare en continu les vecteurs de caractéristiques stockés et réattribue le bon ID une fois qu'elles se séparent.

Caméra PTZ maintenant le verrouillage de cible lors du croisement de personnes

Pourquoi les caméras bon marché échouent à cela

La plupart des caméras de suivi budgétaires reposent sur une seule méthode : boîte englobante¹¹ la position. Elles suivent un rectangle à l'écran. Lorsque deux rectangles fusionnent en un seul, le système panique. Il choisit le rectangle qui apparaît en premier, ou celui qui est le plus proche du centre de l'image. C'est un pile ou face. Cinquante pour cent du temps, il suit la mauvaise personne.

Comment Re-ID empêche le changement

Notre système fait quelque chose de fondamentalement différent. Dès que vous verrouillez une cible, le SoC embarqué exécute un modèle léger ResNet⁶ . Il extrait ce que nous appelons une ‘empreinte visuelle¹².’. Cela comprend :

Histogramme des couleurs : La distribution des couleurs sur les vêtements de la cible, de haut en bas.
Rapport d'aspect : La proportion hauteur/largeur de la silhouette.
Détection d'accessoires : Sacs à dos, chapeaux, sacs. Ceux-ci ajoutent des points de données uniques.

Tout cela est compressé en un vecteur de 128 dimensions. Pensez-y comme un résumé mathématique de l'apparence de cette personne. Lorsque deux personnes se croisent, le système ne voit pas seulement “ deux blobs qui fusionnent ”. Il voit deux vecteurs distincts. Après le croisement, il compare chaque cible émergente au vecteur stocké. La correspondance la plus proche conserve l'ID d'origine.

Ce qui se passe lors d'une occlusion complète

Il y a une courte fenêtre, parfois 5 à 15 images, pendant laquelle la cible d'origine est complètement cachée derrière la deuxième personne. Pendant ce temps, l'empreinte visuelle est inutile car il n'y a rien à voir. C'est là que le filtre de Kalman prend le relais. Je l'expliquerai dans la section suivante.

Méthode de suivi	Risque d'échange de cible	Utilisé dans
Boîte englobante uniquement	Élevé (échec de 50%+)	Appareils photo grand public à petit budget
Re-ID + position	Faible (échec inférieur à 5%)	Systèmes PTZ industriels
Re-ID + Kalman + Hongrois	Très faible (inférieur à 1%)	Notre plateforme PTZ solaire 4G

Impact réel pour les intégrateurs

Pour quelqu'un comme David qui déploie des caméras sur des sites de construction éloignés ou des fermes solaires, un changement de cible n'est pas juste ennuyeux. Cela signifie que la caméra pointe maintenant dans la mauvaise direction. L'intrus réel s'éloigne sans être enregistré. Le client voit les images plus tard et demande pourquoi la caméra a suivi un livreur au lieu d'un intrus. C'est une dispute contractuelle en devenir.

L'IA utilise-t-elle un “marquage d'identité visuelle” pour s'assurer qu'elle suit la même personne à travers une foule ?

Je reçois souvent cette question des intégrateurs qui évaluent notre système par rapport à celui des concurrents. Ils veulent savoir si le suivi est vraiment persistant ou juste “collant” jusqu'à ce que quelque chose le perturbe.

Oui, l'IA attribue une étiquette d'identification visuelle persistante à la cible verrouillée. Cette étiquette est un vecteur de caractéristiques de haute dimension extrait par un réseau neuronal profond. Elle fonctionne comme une empreinte digitale numérique qui reste attachée à la cible, peu importe combien d'autres personnes entrent dans le champ.

Système d'étiquetage d'identification visuelle par IA identifiant une cible dans une foule

Comment fonctionne l'étiquetage d'identification visuelle étape par étape

Laissez-moi vous expliquer la séquence exacte qui se produit dans le processeur de la caméra lorsque vous initiez un verrouillage de cible :

Étape 1 : Verrouillage initial et extraction des caractéristiques

L'opérateur clique sur une cible (ou l'IA la sélectionne automatiquement en fonction des règles de zone d'intrusion). En moins de 50 millisecondes, le SoC recadre la région de la cible et la transmet à un réseau d'extraction de caractéristiques pré-entraîné. Le résultat est un vecteur de 128 flottants. Ce vecteur est stocké dans la mémoire locale comme “identité de référence”.”

Étape 2 : Comparaison image par image

À chaque image suivante, le système détecte toutes les personnes visibles. Pour chaque personne détectée, il extrait le même type de vecteur. Ensuite, il calcule la la similarité cosinus⁷ entre chaque vecteur détecté et la référence stockée. La correspondance la mieux notée au-dessus d'un seuil de confiance (généralement 0,75) reçoit l'ID d'origine.

Étape 3 : Mise à jour adaptative

Voici quelque chose que la plupart des gens manquent. Le vecteur de référence n'est pas statique. À mesure que l'éclairage change, à mesure que la cible tourne, le système met lentement à jour la référence à l'aide d'une moyenne mobile exponentielle⁸. Cela évite la dérive tout en s'adaptant aux changements d'apparence graduels, comme une personne qui retire une veste.

Étape	Budget temps	Ce qui se passe
Extraction de caractéristiques	~50 ms	ResNet recadre et encode la cible
Comparaison de vecteurs	~10 ms par cible	Similitude cosinus par rapport à toutes les détections
Attribution d'ID	~5 ms	L'algorithme hongrois résout les conflits
Mise à jour de référence	~2 ms	La moyenne mobile exponentielle ajuste le vecteur stocké

Pourquoi cela est important sur les réseaux 4G

Sur un système PTZ solaire 4G, vous pourriez diffuser en continu à 15 ips pour économiser de la bande passante. Cela signifie que chaque image est précieuse. Si le système perd l'ID pendant même deux images, cela représente 130 ms de suivi aveugle. Notre IA en périphérie gère tout cela localement. Le lien 4G transporte le flux vidéo vers le NVR ou le cloud, mais la décision de suivi ne quitte jamais la caméra. Même si le signal 4G tombe pendant 3 secondes, le PTZ continue de tourner, de suivre, de rester verrouillé.

Limites de densité de foule

Je serai honnête quant aux limites. Dans une foule de plus de 30 personnes serrées les unes contre les autres, la précision du Re-ID diminue. Les vecteurs commencent à se ressembler lorsque tout le monde porte des vêtements similaires. Pour les scénarios de sécurité typiques, avec 5 à 10 personnes dans le champ, le système maintient une persistance d'ID correcte supérieure à 95 %. Pour les scénarios de foule dense, nous recommandons de l'associer à une caméra grand angle fixe dans une configuration à double objectif pour une conscience panoramique.

Comment résoudre le bug du “changement de cible” courant dans les caméras d'auto-suivi moins chères ?

C'est la question qui sépare les intégrateurs sérieux des acheteurs occasionnels. Si vous avez déployé suffisamment de caméras, vous avez vu le bug d'échange. Vous savez combien il est coûteux de l'expliquer à un client.

Nous résolvons l'échange de cible grâce à une défense à trois couches : l'algorithme hongrois calcule l'affectation optimale globale pour tous les objets suivis, le filtre de Kalman maintient la prédiction de trajectoire pendant l'occlusion, et un déclin de confiance⁹ le minuteur force la réacquisition si le score de correspondance tombe en dessous du seuil pendant trop longtemps.

Visualisation de l'algorithme de résolution d'échange de cible

La cause profonde de l'échange de cible

L'échange de cible se produit en raison d'un raccourci paresseux dans la conception de l'algorithme. Les systèmes bon marché utilisent l'affectation du “ plus proche voisin ”. Chaque image, ils regardent où se trouvait la cible à l'image précédente, puis attribuent l'ID à la détection la plus proche de cette position. Cela fonctionne bien lorsque les cibles sont éloignées les unes des autres. Dès que deux cibles se rapprochent à quelques pixels l'une de l'autre, le plus proche voisin devient un jeu de devinettes.

Notre défense à trois couches

Couche 1 : Algorithme hongrois pour l'affectation optimale globale

Au lieu d'attribuer les ID un par un (approche gloutonne), nous résolvons le problème d'affectation globalement. L'algorithme hongrois construit une matrice de coûts où :

Les lignes représentent les ID suivis existants
Les colonnes représentent les nouvelles détections dans l'image actuelle
Chaque cellule contient un coût pondéré combinant la distance d'apparence, la distance de mouvement et la distance spatiale

L'algorithme trouve l'affectation qui minimise le coût total pour TOUTES les cibles simultanément. Cela signifie que même si la cible A est légèrement plus proche de la détection 2, le système peut toujours attribuer la cible A à la détection 1 si cela produit une meilleure solution globale.

Couche 2 : Filtre de Kalman pour la continuité du mouvement

Le filtre de Kalman maintient une estimation d'état pour chaque cible : position (x, y), vitesse (vx, vy) et accélération. Lorsqu'une cible disparaît derrière un autre objet, le filtre continue de prédire où elle devrait se trouver. Après la fin de l'occlusion, la position prédite devient une forte priorité dans la matrice de coûts. Une cible qui apparaît exactement là où le filtre avait prédit qu'elle serait obtient un bonus massif dans le score d'affectation.

Couche 3 : Déclin de confiance et réacquisition

Parfois, malgré toutes les précautions, le système n'est pas sûr. Peut-être que les deux cibles portent des uniformes identiques. Peut-être que l'occlusion a duré trop longtemps. Dans ces cas, le score de confiance tombe en dessous de 0,6. Le système entre dans un état “ tentatif ”. Il continue de suivre le meilleur candidat mais marque le flux avec un marqueur de métadonnées. Si la confiance ne se rétablit pas dans les 30 images, le système peut soit :

Maintenir la position et attendre l'opérateur
Réacquérir en se basant sur le dernier vecteur de mouvement connu

Pourquoi c'est important pour les déploiements solaires à distance

Sur un site alimenté à l'énergie solaire sans personnel permanent, personne ne peut corriger manuellement un échange. La caméra doit le faire correctement de manière autonome. Notre traitement en périphérie garantit que même à des fréquences d'images réduites (courant lorsque la batterie est faible), les algorithmes de prédiction comblent les lacunes. La PTZ ne saccade pas et ne cherche pas. Elle se déplace en douceur le long du chemin prédit.

Mode de défaillance	Réponse d'une caméra bon marché	Réponse de notre système
Deux cibles se croisent à vitesse de marche	50% de chance d'échange	Le vecteur Re-ID se résout en 2-3 images
Cible entièrement occultée pendant 1 seconde	Perd la trace, cherche au hasard	Le Kalman prédit le chemin, la PTZ suit la prédiction
La 4G tombe pendant l'événement de croisement	Gèle ou réinitialise	L'IA en périphérie continue le suivi autonome
Trois cibles ou plus se regroupent	Attribue des identifiants au hasard	L'algorithme hongrois trouve l'optimum global

Puis-je définir une “zone prioritaire” où la caméra verrouillera toujours la première personne qu'elle voit ?

C'est une question de déploiement pratique. Les intégrateurs veulent savoir s'ils peuvent définir une zone de déclenchement, comme une ligne de clôture ou une porte, où la caméra commence automatiquement à suivre la première personne qui entre.

Oui, vous pouvez définir des zones prioritaires¹⁰ (également appelées régions de détection d'intrusion) où la caméra verrouillera automatiquement la première cible de forme humaine qui entre. Le système utilise la limite de la zone comme déclencheur, puis lance immédiatement le pipeline complet de Re-ID et de suivi sur cette première détection.

Configuration de la zone prioritaire sur l'interface de la caméra PTZ

Comment fonctionnent les zones prioritaires en pratique

Une zone prioritaire est un polygone que vous dessinez sur l'interface web de la caméra ou via le VMS. Vous définissez la forme, la sensibilité et les règles. Lorsqu'une cible pénètre dans cette zone, la caméra la traite comme une commande de verrouillage. Voici la séquence :

Options de configuration

Vous disposez de plusieurs paramètres à régler :

Forme de la zone : Rectangle, polygone ou franchissement de ligne. Le franchissement de ligne est utile pour les périmètres de clôture.
Filtre de cible : Humain uniquement, véhicule uniquement, ou les deux. Cela empêche la caméra de se verrouiller sur des animaux ou des débris emportés par le vent.
Règle de priorité : Premier entré, premier verrouillé. Si une deuxième personne entre pendant que la caméra suit déjà une cible, le système l'ignore à moins que la première cible ne quitte complètement la scène.
Temps de présence : Durée pendant laquelle la caméra reste verrouillée avant de retourner à la patrouille. Vous pouvez régler cette valeur sur infini pour un suivi permanent jusqu'à ce que la cible quitte la scène.

La logique du “ premier arrivé ”

Lorsque plusieurs personnes entrent simultanément dans la zone (dans la même image), le système a besoin d'un critère de départage. Notre implémentation utilise une règle simple : la cible la plus proche du centre de la zone est prioritaire. Ceci est configurable. Certains intégrateurs préfèrent la “ plus grande boîte englobante ” (la plus proche de la caméra) ou la “ plus rapide ” (la menace la plus probable).

Intégration avec la patrouille PTZ

La plupart des déploiements utilisent la caméra en mode patrouille. Elle balaie d'avant en arrière selon un parcours prédéfini. Lorsqu'une zone prioritaire est déclenchée, la patrouille s'interrompt. La PTZ se verrouille sur la cible et la suit. Une fois que la cible quitte la limite de suivi définie (une zone plus large autour de la zone prioritaire), la caméra retourne à sa position de patrouille et reprend son parcours.

Cas limites et limitations honnêtes

Je tiens à être transparent sur les points où cela peut devenir délicat :

Entrée simultanée : Si 5 personnes passent ensemble par une porte, la caméra ne peut en suivre physiquement qu'une. Les autres sont enregistrées par l'objectif grand angle si vous utilisez une configuration à double capteur, mais la PTZ se concentre sur une seule cible.
Confusion de ré-entrée : Si la cible suivie quitte la zone et y rentre 10 minutes plus tard en portant une veste différente, le système la traite comme une nouvelle cible. Le Re-ID fonctionne dans une session de suivi continue, pas sur plusieurs heures.
Performance nocturne : La nuit, avec l'éclairage infrarouge, les informations de couleur sont perdues. Le vecteur Re-ID repose davantage sur la forme du corps et le schéma de mouvement. La précision chute d'environ 10 à 15 % par rapport au jour.

Pourquoi cette fonctionnalité permet d'économiser de l'argent pour les sites distants

Pour le déploiement typique de David, une PTZ solaire sur le périmètre d'un chantier, la zone prioritaire élimine les fausses activations. Sans elle, la caméra pourrait se verrouiller sur une voiture passant sur la route derrière la clôture. Avec une zone correctement dessinée couvrant uniquement l'intérieur de la ligne de clôture, la caméra ignore tout ce qui se trouve à l'extérieur. Cela permet d'économiser de la batterie (moins de mouvements PTZ inutiles), de la bande passante (moins de clips de fausse alarme téléchargés sur la 4G) et d'éviter la fatigue des alertes pour le client.

Conclusion

Le verrouillage de cible dans les scénarios multi-croisements repose sur quatre éléments qui fonctionnent ensemble : l'empreinte visuelle, la prédiction de mouvement, les mathématiques d'affectation optimale et le traitement local en périphérie. Si ces quatre éléments sont corrects, la caméra reste sur la cible même lorsque le réseau ne l'est pas.

1. Apprendre les principes de base et les applications des caméras Pan-Tilt-Zoom. ︎↩︎ 2. Comprendre comment la ré-identification de personnes utilise les caractéristiques d'apparence pour suivre des individus à travers les vues de caméra. ︎↩︎ 3. Explorer l'algorithme mathématique utilisé pour la prédiction de mouvement et l'estimation d'état. ︎↩︎ 4. Lire sur l'algorithme d'optimisation combinatoire pour résoudre les problèmes d'affectation. ︎↩︎ 5. Apprendre comment le traitement par IA est effectué localement sur les appareils plutôt que dans le cloud. ︎↩︎ 6. Comprendre l'architecture de réseau résiduel profond utilisée pour l'extraction de caractéristiques. ︎↩︎ 7. Apprendre comment la similarité cosinus mesure l'angle entre les vecteurs pour déterminer la similarité. ︎↩︎ 8. Voir comment les moyennes pondérées exponentiellement sont utilisées pour les mises à jour adaptatives. ︎↩︎ 9. Comprendre comment les seuils de confiance et les temporisateurs de décroissance empêchent les affectations erronées. ︎↩︎ 10. Découvrir comment les zones définies (régions de détection d'intrusion) déclenchent le suivi automatique. ︎↩︎ 11. Apprendre les boîtes englobantes rectangulaires utilisées dans la détection et le suivi d'objets. ︎↩︎ 12. Comprendre comment les vecteurs de caractéristiques (empreintes visuelles) identifient de manière unique les objets suivis. ︎↩︎