La détection humaine est-elle basée sur le Re-ID de corps entier ou simplement sur un modèle tête et épaules ? - Fabricant professionnel de caméras PTZ et de surveillance de sécurité

Je reçois souvent cette question des intégrateurs qui spécifient les projets de sécurité périmétrique. La réponse est importante car elle affecte directement votre taux de fausses alarmes⁵ et la confiance de votre client.

Notre système ne repose pas sur un modèle unique. Il utilise une approche de fusion multi-caractéristiques qui combine la détection du corps entier⁸ pour l'acquisition de cibles à longue portée, un modèle tête et épaules pour le filtrage des fausses alarmes à courte portée, et le Re-ID pour le suivi continu à travers les occlusions. Chaque couche gère une tâche différente.

algorithme IA caméra PTZ détection humaine

Ci-dessous, j'explique comment chaque couche de détection fonctionne dans les déploiements réels, quand chaque modèle prend le dessus, et comment vous pouvez ajuster l'algorithme pour votre site de projet spécifique. Laissez-moi vous présenter les détails.

Table des matières

La caméra peut-elle identifier avec précision une personne assise ou rampant sur le sol ?

C'est une préoccupation réelle. Sur les chantiers de construction et les fermes, les gens ne se tiennent pas toujours debout. Si votre caméra ne recherche qu'une forme humaine debout, elle manquera des événements critiques.

Oui, la caméra peut détecter une personne assise ou rampant. Le modèle de détection du corps entier utilise un CNN entraîné sur des milliers de postures non standard. Il reconnaît les proportions géométriques humaines et les rapports de membres, pas seulement une silhouette droite. Lorsque la posture est ambiguë, le modèle tête et épaules intervient comme vérification secondaire.

détection personne assise rampant caméra PTZ

Comment la détection du corps entier gère les postures non standard

Le modèle du corps entier ne recherche pas un seul modèle de “ personne debout ”. Il analyse les proportions du corps, les angles des membres et les modèles de mouvement. Une personne qui rampe a toujours un rapport tête-torse, une longueur de bras et une longueur de jambe qui correspondent à la géométrie humaine. Le CNN a été entraîné sur des ensembles de données qui incluent des postures assises, accroupies, penchées et rampantes.

D'après mon expérience avec les intégrateurs de sécurité agricole, le scénario de rampement se présente plus souvent que vous ne le pensez. Les intrus essaient souvent de rester bas près des clôtures. Notre algorithme gère cela car il extrait des points clés du squelette même lorsque le corps est horizontal. Le système cartographie les positions des articulations et vérifie si la structure globale correspond à un squelette humain.

Le rôle de l'analyse du mouvement

La détection de posture statique seule ne suffit pas. Le système analyse également les schémas de mouvement. Une personne qui rampe se déplace différemment d'un chien ou d'une touffe d'herbe roulante. L'algorithme examine :

Vitesse de déplacement par rapport à la taille de l'objet
Schémas d'articulation des membres (bras et jambes se déplaçant en cycles alternés)
Changements de direction qui indiquent une navigation intentionnelle

Quand la détection devient-elle difficile ?

Il existe des cas limites. Si une personne est recroquevillée en boule et complètement immobile, le système peut prendre plus de temps pour classifier la cible. Dans ces situations, la logique de suivi automatique de la caméra maintiendra la position PTZ et attendra un mouvement avant de confirmer l'alerte. Cela évite les faux négatifs sans inonder la connexion 4G d'alarmes incertaines.

Performance de détection de posture par distance

Posture	Plage de détection fiable	Exigence minimale de pixels	Niveau de confiance
Debout/En marche	20m – 100m	32×64 pixels	Haut
Assis/Accroupi	10m – 60m	48×48 pixels	Haut
Ramper/À plat ventre	5m – 40m	64×32 pixels	Moyenne-élevée
Courbé/Stationnaire	3m – 20m	48×48 pixels	Moyen

L'essentiel à retenir ici est que les postures non standard nécessitent plus de pixels dans l'image. C'est pourquoi le zoom optique 40X zoom optique⁷ est important. Le système détecte une cible potentielle en grand angle, puis zoome pour obtenir une densité de pixels suffisante pour la classification de la posture.

Comment le Re-ID piéton améliore-t-il la cohérence du suivi lorsque la personne change de direction ?

Suivre une personne qui marche en ligne droite est facile. Le véritable défi survient lorsqu'elle tourne, se cache derrière un poteau ou change de vêtements en enlevant une veste. Le suivi de mouvement standard perd la cible dans ces moments-là.

Le Re-ID résout ce problème en extrayant un vecteur de caractéristiques de l'apparence de la cible — couleur des vêtements, forme du corps, accessoires et démarche. Lorsque la personne réapparaît après une occlusion ou un changement de direction, le système compare la nouvelle détection aux vecteurs de caractéristiques stockés. Si le score de correspondance est supérieur au seuil, le suivi reprend instantanément sans déclencher une nouvelle alerte.

suivi Re-ID de piétons caméra PTZ occlusion

Ce qui se passe sans Re-ID

Sans Re-ID, un traqueur basique utilise la prédiction de position. Il devine où se trouvera la cible dans l'image suivante en fonction de sa vitesse et de sa direction. Lorsque la personne tourne à 180 degrés, la prédiction échoue. Le système voit alors un “nouvel” objet se déplaçant dans la direction opposée. Cela pose deux problèmes :

La PTZ peut pivoter dans le mauvais sens, perdant ainsi complètement la cible.
Le système génère une deuxième alerte pour la même personne, gaspillant ainsi la bande passante de votre connexion 4G.

Comment fonctionne l'extraction de vecteurs de caractéristiques

La puce IA de notre caméra exécute un réseau d'intégration léger parallèlement au modèle de détection. Pour chaque cible humaine confirmée, elle génère un vecteur de caractéristiques de 128 ou 256 dimensions. Considérez cela comme une empreinte numérique de l'apparence de la personne.

Ce vecteur encode :

Blocs de couleurs dominantes (couleur de la chemise, couleur du pantalon)
Motifs de texture (rayures, uni, gilet réfléchissant)
Proportions corporelles (rapport hauteur/largeur, largeur des épaules)
Objets transportés (sac à dos, boîte à outils)

Le processus de correspondance

Lorsque le suivi est interrompu, le système stocke le dernier vecteur de caractéristiques connu. Pendant les 30 à 60 secondes suivantes (configurable), chaque nouvelle détection humaine dans l'image est comparée à ce vecteur stocké. La comparaison utilise la similarité cosinus¹. Si le score dépasse 0,75 (ajustable), le système associe la nouvelle détection au suivi existant.

Limites du Re-ID à connaître

Le Re-ID n'est pas parfait. Il rencontre des difficultés lorsque :

Plusieurs personnes portent des uniformes identiques (courant sur les chantiers de construction)
L'éclairage change radicalement entre la détection et la redétection
La personne retire ou ajoute une grande couche extérieure

Pour les scénarios d'uniformes, je recommande d'activer l'analyse de la démarche² comme fonctionnalité supplémentaire. Même lorsque deux travailleurs portent le même gilet, leurs schémas de marche sont suffisamment différents pour que le système maintienne des suivis distincts.

Re-ID vs. Suivi de mouvement simple

Fonctionnalité	Suivi de mouvement simple	Suivi Re-ID
Gère le changement de direction	Non — perd la cible	Oui — correspond par l'apparence
Gère l'occlusion brève	Partiel — 1-2 secondes maximum	Oui — jusqu'à 60 secondes
Séparation multi-cibles	Faible — les identifiants échangent souvent	Fort — vecteurs uniques par personne
Coût de calcul	Très faible	Modéré
Meilleur cas d'utilisation	Champ ouvert, cible unique	Sites complexes, plusieurs personnes

L'IA déclenchera-t-elle une alerte si seules les jambes ou le torse d'une personne sont visibles dans l'image ?

Cela arrive plus souvent que les gens ne le pensent. Une personne derrière un demi-mur, une clôture ou une machine garée peut n'afficher que des parties partielles du corps. Si votre système a besoin d'un corps entier pour se déclencher, vous avez un angle mort.

Oui, le système déclenchera une alerte en cas de visibilité partielle du corps. Le modèle tête et épaules est spécifiquement conçu pour les scénarios où seule le haut du corps est visible. Pour les cas où seule le bas du corps est visible (jambes visibles sous une barrière), le modèle corps entier utilise la détection de paires de membres — reconnaissant deux jambes avec des schémas de démarche humaine comme preuve suffisante pour classer la cible comme humaine.

caméra de sécurité IA de détection de corps partiel

Comment fonctionne la détection partielle en pratique

Le pipeline de détection exécute plusieurs classificateurs en parallèle. Il n'attend pas une seule “personne entière” boîte englobante⁴. Au lieu de cela, il recherche des groupes de parties du corps qui appartiennent statistiquement à un humain.

Haut du corps uniquement (tête, épaules, torse)

C'est le cas le plus simple. Le modèle tête et épaules a été conçu exactement pour ce scénario. La forme en “U” inversé d'une tête et des épaules humaines est l'une des formes les plus distinctives de la nature. Aucun animal ou objet commun ne la reproduit à la même échelle et proportion.

Lorsque seul le haut du corps est visible :

Le système exécute d'abord le classificateur tête et épaules
Si la confiance dépasse 0,8, il se déclenche immédiatement
La PTZ tente ensuite de zoomer ou de pivoter pour révéler davantage la cible pour une confirmation secondaire

Bas du corps uniquement (jambes, pieds)

C'est plus difficile. Deux formes verticales se déplaçant selon des motifs alternés pourraient être des jambes humaines, mais elles pourraient aussi être des poteaux de clôture se balançant au vent. Le système utilise trois vérifications :

Rapport d'aspect : Les jambes humaines ont un rapport largeur/hauteur spécifique qui diffère de celui des poteaux ou des piquets.
Articulation : Les jambes se plient au genou. Le système recherche des changements angulaires périodiques à un point médian.
Fréquence de la démarche : La marche humaine a une cadence d'environ 1,5 à 2,5 pas par seconde. Le système vérifie si la fréquence du mouvement se situe dans cette plage.

Si les trois vérifications sont réussies, le système classe la cible comme “ humain probable ” et déclenche une alerte de faible confiance. Il commande ensuite à la PTZ de se repositionner pour un meilleur angle.

Torse seul (sans tête, sans jambes)

C'est le scénario de détection partielle le plus difficile. Un torse sans tête ni membres pourrait être une personne derrière un mur, ou il pourrait s'agir d'un objet en mouvement comme un chariot. Dans ce cas, le système :

Marque la détection comme “ non confirmée ”
Maintient la PTZ sur la cible pendant 3 à 5 secondes
Attend qu'une partie supplémentaire du corps devienne visible
Si aucune preuve supplémentaire n'apparaît, il enregistre l'événement mais n'envoie pas d'alerte 4G.

Cette approche échelonnée permet de réduire l'utilisation de vos données cellulaires tout en capturant les menaces potentielles.

Configuration de la sensibilité pour votre site

Pour les sites présentant de nombreux scénarios de vue partielle (entrepôts, enceintes clôturées), je recommande d'abaisser le seuil de confiance minimum de 0,8 à 0,65 et d'activer le mode de détection “ corps partiel ” dans le firmware. Cela augmente la sensibilité au prix d'un peu plus d'alertes à examiner. Pour les déploiements en champ ouvert où les corps entiers sont presque toujours visibles, conservez le seuil par défaut pour minimiser le bruit.

Le modèle tête et épaules réduit-il les fausses alarmes causées par de grands animaux sur les sites agricoles ?

Les déploiements agricoles sont le pire cas pour les fausses alarmes. Les cerfs, les coyotes, les grands chiens et le bétail déclenchent tous la détection de mouvement de base. Si chaque passage d'animal génère une notification push 4G à 3 heures du matin, votre client désactivera le système en une semaine.

Oui, le modèle tête et épaules réduit considérablement les fausses alarmes causées par les animaux. La différence clé réside dans la géométrie squelettique : les humains ont des épaules horizontales perpendiculaires à un cou vertical, formant une forme de “ U ” inversé. Aucun animal à quatre pattes ne reproduit cette structure. Même les grands animaux comme les cerfs ou les chevaux ont une ligne inclinée du cou au dos que le modèle filtre explicitement.

caméra de sécurité agricole fausse alarme filtre animaux

Pourquoi les animaux trompent la détection de base

La détection de mouvement de base et même certains systèmes de “détection humaine” bas de gamme utilisent la taille simple de la boîte englobante comme filtre principal. Un grand cerf à 30 mètres produit une boîte englobante de taille similaire à celle d'un humain à 50 mètres. Sans analyse de forme, le système ne peut pas les distinguer.

Certaines caméras économiques utilisent un détecteur à une seule étape qui vérifie uniquement “cet objet est-il assez grand et en mouvement ?”. Cette approche échoue complètement dans les fermes et les sites ruraux.

Comment notre approche multicouche résout ce problème

Le pipeline de détection pour le mode ferme fonctionne comme suit :

Déclencheur de mouvement : Quelque chose bouge dans l'image. Le système s'active.
Pré-filtre corps entier : Le rapport d'aspect et la vitesse de déplacement de l'objet sont-ils cohérents avec un humain ? Si oui, continuer. Si l'objet se déplace sur quatre pattes ou a un axe corporel horizontal, il est marqué comme “animal” et supprimé.
Confirmation tête et épaules : La partie supérieure de l'objet présente-t-elle le motif inversé en “U” ? C'est la vérification décisive.
Validation de la taille : La taille en pixels de l'objet se situe-t-elle dans la plage attendue pour un humain à cette distance ? (En utilisant la distance focale et l'angle d'inclinaison connus de la caméra pour estimer la distance.)

Différences structurelles entre animaux et humains

Le modèle tête et épaules exploite des différences anatomiques fondamentales :

Humains : Cou vertical, ligne d'épaules horizontale, tête centrée au-dessus des épaules
Cerfs/Chevaux : Le cou s'étend vers l'avant à 45-60 degrés, pas de ligne d'épaules horizontale
Chiens/Coyotes : La tête est en avant du centre du corps, la largeur des épaules est étroite par rapport à la longueur du corps
Ours (debout) : Le plus proche de la forme humaine, mais le rapport épaules/tête et la position des bras diffèrent considérablement

Réduction des fausses alarmes dans le monde réel

Basé sur des données de terrain provenant d'installations agricoles au Texas et en Alberta, l'activation du filtre tête-épaules réduit les fausses alarmes déclenchées par des animaux de 85 à 95 %. Les 5 à 15 % restants de fausses alarmes proviennent généralement de :

Ours se tenant debout (rare mais possible)
Grands oiseaux atterrissant sur des poteaux de clôture à courte distance (la silhouette ressemble brièvement à une tête)
Épouvantails ou mannequins (ceux-ci sont correctement détectés comme “de forme humaine” - le système ne peut pas savoir qu'ils ne sont pas réels)

Configuration de ferme recommandée

Paramètres	Valeur recommandée	Raison
Mode de détection	Priorité tête-épaules	Filtre efficacement les quadrupèdes
Taille minimale des pixels	40×40	Ignore les petits animaux (lapins, oiseaux)
Sensibilité au mouvement	Moyen	Réduit les déclenchements dus au vent/végétation
Refroidissement des alertes	30 secondes	Empêche les alertes répétées du même animal
Mode nuit	Laser IR + assistance thermique	Maintient la clarté de la forme dans l'obscurité

Pour les projets agricoles, je suggère également de définir le drapeau “ suppression d'animaux ” dans le firmware. Cela ajoute 200 ms de temps de traitement supplémentaires par détection, mais réduit le volume des fausses alarmes d'un ordre de grandeur. Sur une connexion 4G où chaque alerte coûte de la bande passante et de la batterie, ce compromis en vaut la peine à chaque fois.

Conclusion

Détection humaine dans notre Caméras PTZ⁶ n'est pas un algorithme unique — c'est un système multicouche. La détection de corps entier gère la longue portée. Le filtrage tête et épaules élimine les fausses alarmes. Le Re-ID maintient le suivi à travers les occlusions. Ensemble, ils offrent des performances fiables pour les projets de sécurité agricole, de construction et de périmètre.

1. Définition et utilisation de la similarité cosinus pour comparer les vecteurs de caractéristiques dans la récupération et la mise en correspondance. ︎↩︎ 2. Apprenez comment les modèles de démarche sont utilisés comme biométrie pour l'identification humaine. ︎↩︎ 3. Comprendre le rapport d'aspect dans le traitement d'image pour la détection et la classification d'objets. ︎↩︎ 4. Concept des boîtes englobantes utilisées dans la détection d'objets pour localiser les objets dans une image. ︎↩︎ 5. Définition générale des fausses alarmes et de leur impact sur la fiabilité des systèmes de sécurité. ︎↩︎ 6. Introduction aux caméras panoramiques, inclinables et zoom (PTZ) et à leurs applications dans la surveillance. ︎↩︎ 7. Explication du zoom optique par rapport au zoom numérique dans les appareils d'imagerie. ︎↩︎ 8. Comprendre les principes fondamentaux de la détection de personnes en corps entier en vision par ordinateur. ︎↩︎

La détection humaine est-elle basée sur le Re-ID du corps entier ou sur un modèle tête et épaules uniquement ?