Je reçois souvent cette question des intégrateurs de systèmes qui ont besoin de données de coordonnées en direct sur leurs flux vidéo. C'est important car une mauvaise configuration peut ruiner vos preuves ou perturber votre flux de travail.
Oui, les coordonnées de suivi XY en temps réel peuvent être superposées directement sur le flux RTSP. Il existe deux méthodes principales : la gravure OSD au niveau matériel, qui imprime de manière permanente les coordonnées dans chaque image vidéo, et la superposition de métadonnées dynamiques, qui envoie les données de coordonnées sous forme de piste séparée à côté de la vidéo. Chaque méthode convient à différents besoins de projet.

Le bon choix dépend de votre objectif final. Si vous avez besoin de preuves inviolables, vous les gravez. Si vous avez besoin de données flexibles et interactives pour votre VMS ou votre logiciel personnalisé, vous utilisez des métadonnées. Ci-dessous, j'explique les questions les plus fréquentes que mes clients posent sur ce sujet. Je partage également les défis du monde réel que nous résolvons dans nos déploiements de caméras PTZ solaires 4G.
Table des matières
Les boîtes englobantes IA seront-elles gravées de manière permanente dans les preuves vidéo 4K enregistrées ?
C'est une préoccupation que j'entends de la part de presque tous les chefs de projet. Personne ne veut découvrir après un déploiement de six mois que les images de leurs preuves manquent de données critiques ou sont encombrées de boîtes qu'ils ne peuvent pas supprimer.
Si vous activez l'option “ Graver les informations d'événement intelligent ” dans le firmware de la caméra, oui, les boîtes englobantes IA et les coordonnées XY seront intégrées de manière permanente dans chaque image enregistrée. Cela signifie que les données font partie du contenu des pixels. Personne ne peut les supprimer ou les modifier après l'enregistrement. C'est idéal pour les preuves médico-légales, mais irréversible.

Comment fonctionne réellement la gravure OSD
Laissez-moi vous expliquer ce qui se passe à l'intérieur de la caméra lorsque vous activez cette fonctionnalité. Le ISP (processeur de signal d'image)8 de la caméra est la puce qui traite l'image brute du capteur. Avant que l'ISP ne transmette l'image à l'encodeur H.265, il dessine la boîte englobante et le texte des coordonnées directement sur les pixels de l'image. Au moment où l'encodeur compresse l'image, ces boîtes font simplement partie de l'image. Elles ne sont pas différentes de l'horodatage dans le coin.
Cela signifie que chaque appareil qui lit la vidéo verra les boîtes. Peu importe si vous utilisez VLC5, un DVR bon marché, ou un VMS haut de gamme comme Jalon4. Les données sont toujours visibles.
Quand utiliser la gravure et quand l'éviter
Voici la question clé : Qui est votre utilisateur final ?
Si votre client est une agence de maintien de l'ordre, une unité de contrôle des frontières ou un opérateur d'infrastructure critique, il exige souvent que les événements de détection soient documentés visuellement dans les images elles-mêmes. Au tribunal, un avocat peut pointer l'écran et dire : “ Le système a détecté un intrus aux coordonnées pixel (1423, 876) à 02:14:07. ” C'est une preuve solide.
Mais si votre client est un opérateur de ville intelligente qui alimente une plateforme IA centralisée pour une analyse secondaire, les boîtes incrustées deviennent du bruit. Le système IA secondaire pourrait essayer de détecter la boîte englobante elle-même comme un objet. J'ai vu cela se produire. Cela crée de faux positifs.
Intégrité des preuves contre Flexibilité analytique
| Facteur | OSD gravé à chaud | Vidéo propre (pas d'incrustation) |
|---|---|---|
| Admissibilité au tribunal | Élevée — les données sont inviolables | Nécessite un journal de métadonnées séparé comme preuve |
| Analyse IA secondaire | Faible — les boîtes interfèrent avec la détection | Excellente — images propres pour retraitement |
| Impact sur le stockage | Augmentation minimale (~1-2 %) | Aucun impact |
| Contrôle utilisateur | Aucun après l'enregistrement | Contrôle total via VMS |
| Compatibilité de lecture | Universel | Dépend de la prise en charge des métadonnées VMS |
Ma recommandation : si votre projet a une double utilité (preuves + analyse), enregistrez deux flux. Utilisez le flux principal avec gravure pour le stockage des preuves. Utilisez le sous-flux propre pour votre backend IA. Notre firmware prend en charge cette configuration à double flux dès la sortie de la boîte.
Puis-je activer/désactiver la superposition des coordonnées XY via les paramètres OSD de la caméra ?
J'ai eu un client au Texas l'année dernière qui voulait que les coordonnées soient visibles pendant la surveillance en direct mais complètement masquées pendant la lecture pour l'examen de la vie privée de son client. Il pensait qu'un simple interrupteur suffirait. La réalité est plus nuancée.
Oui, vous pouvez activer ou désactiver la superposition des coordonnées XY via le menu OSD de la caméra, mais uniquement si vous utilisez la méthode de métadonnées de superposition. Si vous avez choisi la méthode de gravure permanente, l'interrupteur n'affecte que les images futures. Il ne peut pas supprimer les coordonnées des images déjà enregistrées. Pour une flexibilité totale d'activation/désactivation, l'approche par métadonnées est le bon choix.

Comprendre les deux comportements de basculement
Lorsque vous accédez aux paramètres OSD de la caméra et trouvez l'option “Superposition intelligente” ou “Affichage IA”, ce qui se passe lorsque vous la basculez dépend entièrement de la méthode de superposition utilisée par votre firmware.
Scénario A — Mode gravure permanente : Vous désactivez l'interrupteur. La caméra arrête de dessiner des boîtes sur les nouvelles images. Mais chaque image enregistrée avant ce moment a toujours les boîtes gravées. Il n'y a pas d'annulation. Pensez-y comme écrire avec un marqueur permanent sur une photographie. Vous pouvez arrêter d'écrire, mais vous ne pouvez pas effacer ce qui est déjà là.
Scénario B — Mode métadonnées : Vous désactivez l'interrupteur. La caméra envoie toujours le flux de métadonnées (les coordonnées XY au format XML ou JSON). Mais la propre prévisualisation de la caméra arrête de rendre la superposition. Votre VMS peut décider indépendamment d'afficher ou non les coordonnées. Cela vous donne un contrôle couche par couche.
Options du menu OSD dans notre firmware
Notre Caméras PTZ7 offre un contrôle granulaire sur ce qui est affiché. Voici ce que vous pouvez configurer :
- Affichage de la boîte englobante : Activé / Désactivé
- Texte des coordonnées (X, Y) : Activé / Désactivé
- Étiquette de classification d'objet (Personne, Véhicule, etc.) : Activé / Désactivé
- Score de confiance : Activé / Désactivé
- Numéro d'identification de suivi : Activé / Désactivé
Chacun de ceux-ci peut être activé ou désactivé indépendamment. Ainsi, si votre client ne souhaite voir que l'identifiant de suivi et la boîte englobante, mais pas les coordonnées brutes, il s'agit d'un simple réglage du micrologiciel.
Une erreur courante que je constate sur le terrain
De nombreux intégrateurs configurent la superposition OSD lors des tests en laboratoire et oublient de l'ajuster avant le déploiement. Ensuite, l'utilisateur final se plaint : “ Pourquoi vois-je des chiffres partout sur mon écran ? ” Ou pire, ils désactivent tout lors de la configuration, puis six mois plus tard, ils demandent : “ Où sont mes données de coordonnées ? ”
Mon conseil : créez une liste de contrôle de configuration pour chaque projet. Documentez exactement quelles superpositions sont activées, lesquelles sont désactivées, et si vous utilisez le mode burn-in ou métadonnées. Enregistrez le fichier de configuration. Nos caméras prennent en charge l'exportation et l'importation de configuration, vous pouvez donc cloner les paramètres sur des centaines d'unités.
Résumé du comportement de basculement
| Action | Mode Burn-In matériel | Mode de superposition de métadonnées |
|---|---|---|
| Désactivé dans l'OSD | Arrête la gravure sur les nouvelles images uniquement | Arrête le rendu sur l'aperçu de la caméra ; les métadonnées sont toujours transmises |
| Activé dans l'OSD | Reprend la gravure sur les nouvelles images | Reprend le rendu sur l'aperçu de la caméra |
| Effet sur les enregistrements passés | Aucun changement — les boîtes sont permanentes | Aucun changement — les métadonnées sont toujours stockées séparément |
| Contrôle indépendant du VMS | Pas possible | Entièrement possible |
Comment la superposition des coordonnées aide-t-elle mon équipe à coordonner les réponses PTZ manuelles ?
Dans les grands projets de sécurité périmétrique, je constate souvent un décalage entre l'opérateur qui repère la menace et l'équipe sur le terrain qui intervient. L'opérateur dit : “ C'est sur le côté gauche de l'écran. ” C'est inutile lorsque la caméra couvre une clôture de 2 kilomètres.
La superposition des coordonnées XY donne à vos opérateurs un langage numérique précis pour communiquer les positions des cibles. Au lieu de descriptions vagues, votre salle de contrôle peut communiquer par radio à l'équipe sur le terrain des angles de panoramique et d'inclinaison exacts dérivés des données XY. Cela réduit considérablement le temps de coordination des interventions et élimine les conjectures dans le contrôle manuel des PTZ.

Des coordonnées pixel aux positions réelles
Voici comment le flux de travail fonctionne réellement dans un système bien configuré. L'IA de la caméra détecte une personne aux coordonnées pixel (1423, 576) dans une image 1920 × 1080. Le firmware connaît l'angle de panoramique actuel de 127,4° et l'angle d'inclinaison de -8,2°. Il connaît également le champ de vision au niveau de zoom actuel de 6,3° horizontalement.
À l'aide de calculs simples, le firmware calcule que la cible se trouve à environ 1,2° à droite du centre de l'image et 0,5° au-dessus du centre. Il génère ensuite le relèvement absolu : Panoramique 128,6°, Inclinaison -7,7°. C'est ce qui s'affiche sur la superposition ou est envoyé via les métadonnées.
Pourquoi c'est important pour la commande manuelle
Dans beaucoup de nos Déploiements de PTZ solaires 4G1, la caméra fonctionne la plupart du temps en mode de suivi automatique. Mais il y a des moments où l'opérateur doit prendre le contrôle manuel. Peut-être que l'IA a perdu la cible derrière un arbre. Peut-être qu'il y a deux cibles et que l'opérateur veut se concentrer sur la seconde.
Sans données de coordonnées, l'opérateur doit scanner visuellement la scène, deviner où est allée la cible et déplacer manuellement le PTZ. Avec les données de coordonnées, l'opérateur voit la dernière position connue — disons, Panoramique 214,3°, Inclinaison -3,1° — et peut entrer ces chiffres directement dans le contrôleur PTZ. Certaines plateformes VMS prennent même en charge la fonction “ cliquer pour aller aux coordonnées ”, ce qui rend cela instantané.
Coordination entre plusieurs caméras
Cela devient encore plus puissant lorsque vous avez plusieurs caméras PTZ couvrant la même zone sous différents angles. Si la caméra A signale une cible au relèvement géographique 214°, la caméra B peut automatiquement se déplacer vers le même relèvement. Ou l'opérateur peut commander manuellement à la caméra B de regarder à 214°. La superposition des coordonnées rend possible ce transfert inter-caméras sans que l'opérateur ait besoin de mémoriser quelle caméra couvre quelle zone.
Scénario réel : Surveillance de pipeline dans l'ouest du Texas
L'un de nos clients surveille un corridor de pipeline de 15 miles avec six unités PTZ solaires. Chaque caméra couvre environ 2,5 miles. Lorsque la caméra 3 détecte un véhicule près du pipeline à une coordonnée spécifique, l'opérateur voit les valeurs de panoramique/inclinaison à l'écran. Il communique par radio au camion de patrouille : “ Cible à la caméra 3, relèvement 187 degrés, à environ 800 mètres de la jonction de la route d'accès. ” L'équipe de patrouille sait exactement où aller. Avant qu'ils n'aient les superpositions de coordonnées, l'appel radio était : “ La caméra 3 voit quelque chose sur le côté droit. ” L'équipe de patrouille passait 20 minutes à essayer de le trouver.
C'est la différence que font les données de coordonnées. Elles transforment les alertes vagues en renseignements exploitables.
La superposition affecte-t-elle l'efficacité de la compression H.265 du flux vidéo en direct ?
C'est la question qui sépare les acheteurs occasionnels des ingénieurs sérieux. Tous les intégrateurs de systèmes avec lesquels je travaille et qui gèrent des déploiements 4G contraints en bande passante posent cette question. Et ils devraient. Car dans un site alimenté à l'énergie solaire avec une carte SIM 4G, chaque kilobit compte.
L'impact dépend de la méthode de superposition utilisée. L'OSD gravé ajoute du texte et des boîtes à contraste élevé à l'image, ce qui réduit légèrement l'efficacité de la compression H.265 car l'encodeur doit préserver ces bords nets. L'augmentation est généralement de 3 à 8 % du débit binaire. La superposition de métadonnées n'a aucun impact sur la compression vidéo car les données de coordonnées voyagent dans un canal séparé et léger.

Pourquoi la gravure nuit à la compression (un peu)
H.265 (HEVC) est très performant pour compresser les scènes naturelles. L'herbe, le ciel, les arbres, les routes — ceux-ci ont des dégradés doux et des mouvements prévisibles. L'encodeur exploite cette prévisibilité pour atteindre des taux de compression élevés.
Mais lorsque vous intégrez du texte net à contraste élevé et des formes géométriques (comme des boîtes englobantes) dans l'image, vous introduisez des éléments que l'encodeur ne peut pas bien prédire. Une étiquette blanche “ X:1423 Y:576 ” sur un fond sombre crée des bords nets qui nécessitent plus de bits pour être encodés avec précision. L'encodeur doit dépenser des bits supplémentaires pour que ces caractères restent lisibles.
De quelle bande passante supplémentaire parlons-nous ?
Dans nos tests en laboratoire, voici ce que nous avons mesuré sur une scène extérieure typique à 1080p, 25 ips, H.265 Profil principal6:
| Configuration de la superposition | Bitrate moyen | Augmentation par rapport au nettoyage |
|---|---|---|
| Aucune superposition (vidéo propre) | 2,8 Mbps | Base de référence |
| Horodatage uniquement | 2,85 Mbps | +1.8% |
| Horodatage + 1 boîte englobante + texte XY | 2,92 Mbps | +4.3% |
| Horodatage + 5 boîtes englobantes + texte XY | 3,03 Mbps | +8.2% |
| Superposition de métadonnées (sans gravure) | 2,8 Mbps + 3 kbps de métadonnées | ~0% sur le flux vidéo |
Comme vous pouvez le constater, une ou deux boîtes englobantes n'ont pratiquement aucune importance. Mais si vous surveillez une intersection animée avec plus de 10 détections simultanées, l'augmentation du débit s'accumule. Sur une connexion 4G avec un plafond de données mensuel, cette augmentation de 8% sur 30 jours pourrait coûter cher à votre client.
Le problème du budget de bande passante 4G
Permettez-moi de mettre cela en perspective. Un forfait SIM 4G typique pour un appareil IoT industriel aux États-Unis vous donne 50 à 100 Go par mois. À un streaming continu de 2,8 Mbps, vous consommez environ 900 Go par mois. Évidemment, personne ne streame 24h/24 et 7j/7 à plein débit sur la 4G. Vous utilisez l'enregistrement déclenché par le mouvement, le débit adaptatif et des fenêtres de streaming programmées.
Mais même avec ces optimisations, une augmentation de débit de 8% signifie 8% de consommation de données supplémentaire. Sur un déploiement de 100 caméras, c'est significatif.
Notre approche : Planification intelligente des superpositions
C'est pourquoi nous avons intégré une fonctionnalité appelée ‘ Planification intelligente des superpositions ’2 dans notre firmware. Cela fonctionne comme suit :
- Pendant les événements d'alarme, la caméra active automatiquement la gravure des coordonnées afin que le clip de preuve contienne toutes les données visuelles.
- Pendant les surveillance normale (pas d'alarme), la caméra désactive la gravure et envoie les coordonnées uniquement via le canal de métadonnées.
- La transition se fait en un seul GOP (Groupe d'images)9, ce qui correspond généralement à 2 secondes.
Cela vous offre le meilleur des deux mondes. Vos clips de preuve ont des coordonnées gravées pour le tribunal. Vos enregistrements de surveillance de routine restent clairs et économes en bande passante. Et votre facture de données 4G reste sous contrôle.
Synchronisation PTS sur les réseaux 4G
Il y a un autre détail technique important pour les déploiements 4G. Lorsque la caméra envoie le flux vidéo et le flux de métadonnées sur une connexion 4G, la gigue du réseau peut les faire arriver au VMS à des moments différents. L'image vidéo peut arriver avec 500 ms de retard, mais le petit paquet de métadonnées arrive à temps.
Si votre VMS superpose naïvement les métadonnées à mesure qu'elles arrivent, la boîte englobante semblera “devancer” la cible. La boîte bouge avant la personne. Cela semble défectueux.
Notre firmware résout ce problème avec la synchronisation PTS (Presentation Time Stamp)3. Chaque paquet de métadonnées porte exactement le même horodatage que l'image vidéo à laquelle il appartient. Le VMS met en mémoire tampon les deux flux et les aligne par horodatage avant le rendu. Le résultat : la boîte englobante reste verrouillée sur la cible, même sur une connexion 4G hachée dans un champ pétrolifère isolé du Texas.
Conclusion
La superposition de coordonnées XY sur les flux RTSP est entièrement réalisable. Choisissez l'incrustation matérielle pour des preuves inviolables. Choisissez la superposition de métadonnées pour la flexibilité et les économies de bande passante. Adaptez la méthode aux besoins réels de votre projet.
1. Caméras PTZ solaires utilisant les réseaux cellulaires 4G pour la surveillance à distance. ︎↩︎ 2. Fonctionnalité du firmware qui permet l'incrustation uniquement pendant les alarmes pour économiser la bande passante. ︎↩︎ 3. Horodatage utilisé pour synchroniser les flux vidéo et métadonnées afin de maintenir l'alignement. ︎↩︎ 4. Plateforme logicielle de gestion vidéo populaire qui prend en charge la superposition de métadonnées. ︎↩︎ 5. Lecteur multimédia open-source capable d'afficher des flux vidéo avec des superpositions. ︎↩︎ 6. Norme de compression vidéo également connue sous le nom de HEVC, utilisée pour un streaming vidéo efficace. ︎↩︎ 7. Caméra capable de panoramique, d'inclinaison et de zoom, couramment utilisée dans la surveillance. ︎↩︎ 8. Puce qui traite les données d'image brutes avant l'encodage, où se produit l'incrustation. ︎↩︎ 9. Séquence d'images dans une vidéo compressée utilisée pour l'efficacité de l'encodage. ︎↩︎