L'algorithme prend-il en charge la prédiction des trajectoires de cibles 3D basées sur des chemins historiques ? - Fabricant professionnel de caméras PTZ et de surveillance de sécurité

J'ai vu des caméras PTZ perdre des cibles derrière un seul arbre. Ce moment de “où sont-elles allées” coûte cher dans les projets de sécurité.

Oui, notre algorithme PTZ haut de gamme prend en charge la prédiction de trajectoire 3D¹ basée sur des chemins historiques. Il utilise le filtrage de Kalman² et des modèles comportementaux d'apprentissage profond³ pour calculer où se trouvera une cible dans les 0,5 à 3 secondes suivantes. Cela signifie que la caméra se déplace devant la cible, pas derrière elle.

Algorithme de caméra PTZ de prédiction de trajectoire 3D

Ci-dessous, j'expliquerai exactement comment cette prédiction fonctionne dans des scénarios réels. J'aborderai les angles morts, la gestion des obstacles, le pré-positionnement du moteur et le suivi de véhicules non linéaires. Chaque section comprend les détails techniques qui comptent pour votre prochain déploiement.

Table des matières

Comment la prédiction de trajectoire 3D empêche-t-elle de perdre une cible lorsqu'elle entre dans un angle mort temporaire ?

J'ai vu trop de systèmes de suivi se figer au moment où une personne passe derrière un poteau. La caméra s'arrête. L'opérateur panique. La cible est perdue.

La prédiction de trajectoire 3D résout ce problème en calculant la vitesse, la direction et la profondeur de la cible avant qu'elle n'entre dans l'angle mort. L'algorithme maintient le moteur PTZ en mouvement le long de la trajectoire prédite. Lorsque la cible ressort de l'autre côté, la caméra l'attend déjà.

Prédiction de trajectoire d'angle mort de caméra PTZ

Pourquoi le suivi 2D traditionnel échoue-t-il lors de l'occlusion

Un tracker standard fonctionne sur les pixels. Il examine une tache de couleur ou de forme dans l'image. Lorsque cette tache disparaît derrière un objet, le tracker n'a plus rien sur quoi travailler. Il signale “cible perdue” et la caméra s'arrête.

C'est un problème majeur dans les déploiements réels. Pensez à un chantier de construction avec des échafaudages. Ou une ferme avec des rangées d'arbres. Ou un parking avec de grands véhicules. Les cibles disparaissent et réapparaissent constamment.

Comment la prédiction 3D change la donne

Notre algorithme fait quelque chose de différent. Avant que la cible n'entre dans le point mort, il a déjà construit un profil de mouvement :

Point de données	Ce qu'elle mesure	Comment cela aide
Vecteur de vitesse $v$	À quelle vitesse et dans quelle direction	Prédit où sera la cible dans 500 ms à 2000 ms
Accélération $a$	La cible accélère-t-elle ou ralentit-elle ?	Ajuste la prédiction pour le rythme changeant
Estimation de la profondeur $Z$	Quelle est la distance de la cible par rapport à la caméra	Convertit le mouvement des pixels en distance réelle
Chemin historique	Les 2 à 3 dernières secondes de mouvement	Alimente le modèle RNN pour la prédiction de comportement

Le système utilise l'équation de mouvement $S = vt + \frac{1}{2}at^2$ pour projeter la position future de la cible dans l'espace 3D. Il cartographie les coordonnées de pixels 2D dans un système virtuel Système de coordonnées géographiques 3D⁵ en utilisant la hauteur de montage de la caméra, l'angle d'inclinaison et le niveau de zoom actuel.

Le réglage de la “ fenêtre de persistance ”

Dans notre firmware, il existe un paramètre appelé Persistance du suivi. Cela contrôle combien de temps l'algorithme maintient sa prédiction après avoir perdu le contact visuel. Pour les environnements avec de nombreux obstacles, comme le site de David au Texas avec une végétation dense, je recommande de le régler sur la valeur la plus élevée. Une valeur de 2 à 3 secondes donne au modèle de prédiction suffisamment de temps de confiance pour maintenir le moteur en marche de manière fluide à travers le point aveugle.

Le résultat : lorsque la cible sort de derrière l'obstacle, la caméra est déjà pointée vers la zone de sortie. Le temps de réacquisition est inférieur à 200 ms. Aucune intervention de l'opérateur n'est nécessaire.

L'IA peut-elle calculer la vitesse estimée et le point de sortie d'une personne se déplaçant derrière un obstacle ?

Chaque fois que je présente cette fonctionnalité à un intégrateur de systèmes, il pose la même question : “ Comment sait-il par où la personne va sortir ? ” C'est une question légitime.

L'IA calcule à la fois la vitesse et le point de sortie en combinant la vitesse de la cible avant l'occlusion avec un modèle spatial de la scène. Elle connaît la largeur approximative de l'obstacle grâce à la cartographie de profondeur, elle peut donc estimer quand et où la cible réapparaîtra de l'autre côté.

Calcul de la vitesse par IA prédiction de sortie d'obstacle

Décomposition du calcul

Les mathématiques sont simples une fois que vous comprenez les entrées. L'algorithme a besoin de trois choses :

La vitesse et la direction de la cible avant leur disparition
La largeur estimée de l'obstacle en unités du monde réel
L'hypothèse que la cible maintient à peu près la même vitesse derrière l'obstacle

Des pixels aux mètres du monde réel

C'est là que la partie 3D est importante. Une personne marchant à 1,4 m/s à 50 mètres de la caméra a une apparence très différente en pixels que la même personne à 200 mètres. Notre algorithme en tient compte en utilisant le niveau de zoom actuel et l'angle d'inclinaison pour convertir le déplacement en pixels en mètres par seconde réels.

Niveau de zoom	Mouvement en pixels pour 1 m/s à 100 m	Précision de la profondeur	Confiance de la prédiction
10X	~45 pixels/image	±3 m	Haut
20X	~90 pixels/image	±2m	Haut
40X	~180 pixels/trame	±1.5m	Très élevé

À des niveaux de zoom plus élevés, le système obtient des lectures de vitesse plus précises car le déplacement des pixels est plus important et plus facile à mesurer précisément.

Le processus d'estimation du point de sortie

Voici comment le système détermine le point de sortie étape par étape :

L'algorithme enregistre la dernière position connue de la cible et son vecteur de vitesse. Il projette ensuite une ligne droite (ou courbe si la cible tournait) vers l'avant dans l'espace 3D. Il estime la limite de l'obstacle en utilisant la connaissance de la scène précédente ou des indices de profondeur. L'intersection de la trajectoire projetée et du bord éloigné de l'obstacle donne le point de sortie prédit.

Que se passe-t-il lorsque la prédiction est erronée ?

Parfois, les gens changent de direction derrière un obstacle. Ils s'arrêtent. Ils font demi-tour. Notre système gère cela avec une approche multi-hypothèses. Il ne mise pas tout sur un seul point de sortie. Au lieu de cela, il attribue des poids de probabilité à 2-3 zones de sortie possibles. La caméra PTZ se positionne pour couvrir la plus probable tout en gardant les autres à portée de panoramique rapide.

Si la cible n'apparaît pas au point prédit principal dans la fenêtre de persistance, la caméra scanne rapidement les zones secondaires. Cette méthode multi-hypothèses porte le taux global de succès de réacquisition à plus de 92 % lors de nos tests sur le terrain.

Le pathfinding 3D aide-t-il le moteur PTZ à “pré-positionner” son objectif pour un transfert de suivi plus fluide ?

J'ai passé des années à lutter contre le problème de latence dans le suivi à distance 4G. La commande voyage du processeur périphérique au moteur. Le moteur démarre. Au moment où l'objectif arrive, la cible a bougé. Il chasse toujours, il ne mène jamais.

Oui, la trajectoire 3D permet directement le pré-positionnement du moteur. L'algorithme envoie le moteur PTZ là où la cible sera, pas là où elle est actuellement. Cela compense la latence du réseau et le temps de réponse mécanique, produisant un suivi visiblement plus fluide.

pré-positionnement du moteur PTZ, suivi fluide, transfert

Le problème de latence dans les déploiements 4G

Dans un système câblé, le délai entre “voir la cible” et “arrivée du moteur” peut être de 50 à 80 ms. C'est gérable. Mais dans un déploiement 4G alimenté par énergie solaire, le délai total de la boucle peut atteindre 200 à 400 ms. À un zoom 40X, une personne qui marche normalement peut sortir complètement du champ pendant ce temps.

Comment fonctionne le pré-positionnement

L'algorithme de prédiction calcule une distance d'avance. Pensez-y comme un quart-arrière lançant le ballon de football là où le receveur sera, pas là où il est maintenant.

La formule est simple :

Distance d'avance = Vitesse cible × Latence du système

Si une personne marche à 1,4 m/s et que la latence du système est de 300 ms, la distance d'avance est de 0,42 mètre. La commande moteur pointe la caméra 0,42 mètre devant la position actuelle de la cible.

Les trois couches de compensation

Le système de pré-positionnement compense trois délais distincts :

Délai de traitement : Le temps nécessaire à la puce IA pour analyser l'image et générer une commande. Généralement 30 à 60 ms sur notre NPU embarqué.

Délai réseau : Le temps de trajet aller-retour sur la 4G. Cela varie de 80 ms dans une bonne couverture à 300 ms dans les zones rurales. L'algorithme mesure cela en temps réel et ajuste.

Délai mécanique : Le temps nécessaire au moteur pas à pas pour accélérer, se déplacer et se stabiliser. Nos moteurs ont un temps de réponse d'environ 50 ms pour les petits ajustements.

Source du délai	Plage typique	Compensation de pré-positionnement
Traitement IA	30-60 ms	Décalage fixe dans le modèle de prédiction
RTT réseau 4G	80-300 ms	Dynamique, mesurée par cycle de commande
Réponse moteur	40-70 ms	Calibré par unité lors du contrôle qualité en usine
Total	150-430 ms	Entièrement compensé par le calcul de la dérive

La différence visuelle

Sans pré-positionnement, le suivi d'une séquence à 40X semble saccadé. La caméra essaie toujours de rattraper. La cible se trouve sur le bord du cadre, sortant parfois du champ. Avec le pré-positionnement activé, la cible reste centrée. Le mouvement semble fluide et intentionnel. Cela est très important lorsque la séquence est utilisée comme preuve ou présentée aux clients finaux lors de l'acceptation du projet.

Intégration du zoom intelligent

Je recommande d'activer le mode “ Prédiction + Zoom automatique ” conjointement avec le pré-positionnement. Lorsque l'algorithme prédit un mouvement latéral rapide, il effectue un léger zoom arrière. Cela augmente le champ de vision comme marge de sécurité. Une fois la trajectoire de la cible stabilisée, il effectue un zoom avant. Cette combinaison améliore considérablement le taux de réussite du suivi dans les zones ouvertes où les cibles peuvent changer rapidement de direction.

La prédiction de trajectoire est-elle suffisamment précise pour suivre un véhicule se déplaçant à des vitesses non linéaires ?

Les véhicules sont plus difficiles que les personnes. Une personne marche à une vitesse assez constante. Une voiture accélère, freine, tourne brusquement et change de voie. J'ai testé de nombreux systèmes qui suivent bien les personnes mais échouent complètement sur les véhicules.

Notre prédiction de trajectoire gère les vitesses non linéaires des véhicules en utilisant un Réseau neuronal récurrent (RNN)⁴ superposé au filtre de Kalman. Le filtre de Kalman gère les accélérations et décélérations fluides. Le RNN reconnaît des schémas tels que le freinage avant un virage ou l'accélération après un panneau stop. Ensemble, ils maintiennent le verrouillage sur les véhicules changeant de vitesse jusqu'à 30 km/h en 2 secondes.

prédiction de trajectoire de vitesse non linéaire de véhicule PTZ

Pourquoi les véhicules brisent les modèles de prédiction simples

Une prédiction linéaire de base suppose une vitesse constante. Si une voiture se déplace à 40 km/h vers l'est, elle prédit que la voiture se déplacera toujours à 40 km/h vers l'est dans une seconde. Mais les véhicules ne fonctionnent pas ainsi. Ils freinent aux intersections. Ils accélèrent sur les autoroutes. Ils prennent les virages.

Un filtre de Kalman pur améliore cela en modélisant l'accélération. Il peut gérer les changements de vitesse fluides. Mais il a toujours du mal avec les événements soudains tels que le freinage brusque ou les virages serrés.

L'approche hybride : Kalman + RNN

Notre système utilise les deux modèles ensemble :

Rôle du filtre de Kalman : Gère la physique. Suit la position, la vitesse et l'accélération en temps réel. Met à jour les prédictions à chaque image (33 ms à 30 ips). Très rapide, très efficace sur le matériel embarqué.

Rôle du RNN : Gère le comportement. Il a été entraîné sur des milliers d'heures de données de mouvement de véhicules. Il reconnaît des schémas que la physique pure ne peut pas prédire. Par exemple :

Un véhicule ralentissant près d'une intersection s'arrêtera ou tournera probablement
Un véhicule sur une route droite sans obstacles maintiendra probablement sa vitesse
Un véhicule qui accélère depuis 3 secondes atteindra probablement bientôt une vitesse de croisière

Chiffres de performance en conditions réelles

Lors de nos tests dans différents scénarios :

Un véhicule accélérant de 0 à 60 km/h : la prédiction reste à moins de 2 mètres de la position réelle pendant toute la phase d'accélération. Le système reconnaît le schéma d'accélération en 500 ms et ajuste son modèle.

Un véhicule freinant brusquement : la prédiction dépasse initialement d'environ 3-4 mètres, mais se corrige en 300 ms. La caméra ne perd jamais le véhicule car le champ de vision aux niveaux de zoom de suivi typiques couvre cette marge d'erreur.

Un véhicule tournant à une intersection : c'est le cas le plus difficile. Le RNN détecte le schéma de décélération qui précède un virage et commence à ajuster la trajectoire prédite avant que le virage ne commence réellement. Le taux de succès pour maintenir le verrouillage lors d'un virage à 90 degrés est d'environ 85 %.

Conseils pratiques pour les déploiements de suivi de véhicules

Pour David et les autres intégrateurs déployant le suivi de véhicules : réglez le modèle de prédiction sur “Mode Véhicule” dans les paramètres du firmware. Cela bascule le RNN vers un ensemble de poids spécifique aux véhicules et augmente la tolérance d'accélération du filtre de Kalman. Le système sera moins sensible aux changements de vitesse soudains et n'interprétera pas un freinage brusque comme une “perte de cible”.”

Considérez également la hauteur de montage. Pour le suivi de véhicules, un montage plus élevé (8-12 mètres) offre à l'algorithme une meilleure estimation de la profondeur car l'angle entre la caméra et le plan du sol est plus favorable à la cartographie 3D.

Conclusion

La prédiction de trajectoire 3D transforme une caméra PTZ d'un suiveur réactif en un traqueur proactif. Elle gère les angles morts, compense la latence 4G, lisse les mouvements du moteur et s'adapte aux vitesses non linéaires des véhicules. Pour tout déploiement sérieux à longue portée, c'est la fonctionnalité qui sépare les résultats professionnels des échecs frustrants.

1. Aperçu des méthodes de prédiction de trajectoire en robotique et systèmes de contrôle. ︎↩︎ 2. Explication détaillée de l'algorithme de filtre de Kalman utilisé pour l'estimation d'état et la prédiction. ︎↩︎ 3. Aperçu de la modélisation du comportement à l'aide de l'apprentissage profond pour la prédiction de trajectoire. ︎↩︎ 4. Bases des RNN et leur application dans les tâches de prédiction de séquences. ︎↩︎ 5. Aperçu des systèmes de coordonnées géographiques utilisés en cartographie spatiale. ︎↩︎

L'algorithme prend-il en charge la prédiction des trajectoires cibles 3D basées sur des chemins historiques ?