J'ai vu trop d'intégrateurs perdre des heures à fouiller dans des enregistrements bruts. Ils avaient des caméras intelligentes mais aucun moyen de rechercher par “personne” ou “voiture” côté backend. C'est un vrai problème.
Oui, les métadonnées identifiées d'humains et de véhicules peuvent être transmises en temps réel à un VMS backend. La caméra envoie des données XML structurées via un flux de métadonnées RTP séparé, parallèlement à la vidéo. Cela permet à votre plateforme VMS d'effectuer des recherches intelligentes, de filtrer par type d'objet et de déclencher des actions automatisées, le tout sans re-traiter la vidéo côté serveur.

Ci-dessous, j'explique exactement comment cela fonctionne, des normes de protocole aux coûts de bande passante sur la 4G. Si vous prévoyez un déploiement distribué avec des dizaines ou des centaines de sites distants, chaque détail ici compte. Allons-y.
Table des matières
La caméra prend-elle en charge le profil ONVIF M pour communiquer les métadonnées IA à mon VMS ?
De nombreux intégrateurs supposent que si une caméra est “compatible ONVIF”, toutes les fonctionnalités intelligentes fonctionneront sur n'importe quel VMS. J'ai appris à mes dépens que ce n'est pas vrai. Le mauvais profil signifie que vos métadonnées ne vont nulle part.
La norme la plus largement adoptée pour la transmission des métadonnées d'analyse IA d'une caméra à un VMS tiers est Profil T ONVIF1, pas le profil M. Le profil T définit comment les métadonnées d'analyse, y compris les classifications humaines et de véhicules, sont empaquetées et diffusées sur RTP. Le profil M est plus récent et son support par les VMS est encore limité en 2024. Pour des déploiements intermarques fiables aujourd'hui, le profil T est votre meilleure option.

Pourquoi le Profil T, pas le Profil M ?
Laissez-moi clarifier une confusion courante. ONVIF a plusieurs profils. Chacun couvre un ensemble différent de fonctionnalités. Voici une comparaison rapide :
| Profil ONVIF | Objectif principal | Support des métadonnées | Adoption par les VMS (2024) |
|---|---|---|---|
| Profil S | Diffusion vidéo de base | Pas de métadonnées d'analyse | Très élevé |
| Profil T | Vidéo avancée + analyse | Oui — flux de métadonnées XML complet | Haut |
| Profil M | Services d'analyse + métadonnées | Oui — schéma plus riche | Faible à modéré |
Le profil M a été conçu spécifiquement pour les métadonnées et l'analyse. Sur le papier, c'est le meilleur choix. Mais en pratique, la plupart des principales plateformes VMS — Milestone, Genetec, Avigilon — prennent en charge le profil T de manière mature. L'adoption du profil M est en croissance, mais elle n'est pas encore là.
Donc, si vous déployez des caméras sur plusieurs sites et que vous les connectez à un VMS tiers, je recommande toujours de confirmer d'abord la prise en charge du profil T.
Comment le profil T gère-t-il les métadonnées ?
Le processus est simple :
- Traitement Edge AI. La puce SoC intégrée à la caméra exécute le modèle d'IA. Elle détecte les humains, les véhicules et d'autres objets en temps réel.
- Empaquetage XML. Les résultats de détection — coordonnées de la boîte englobante, classe de l'objet (personne, voiture, camion), score de confiance — sont encapsulés dans un format XML structuré.
- Flux de métadonnées RTP. Ces données XML sont envoyées sous forme de flux RTP distinct. Il s'exécute en parallèle de votre flux vidéo H.265 ou H.264.
- Synchronisation des horodatages. Le profil T garantit que les horodatages des métadonnées correspondent exactement aux horodatages de la vidéo. Lorsque vous lisez un enregistrement sur votre VMS, les boîtes englobantes s'alignent parfaitement avec l'image visuelle. Pas de dérive. Pas de décalage.
Qu'en est-il des SDK privés ?
Voici quelque chose que je vois souvent sur le terrain. Si vous utilisez une caméra d'une marque et un NVR ou VMS d'une autre marque, vous pourriez vous heurter à un mur. De nombreux fabricants — en particulier les grandes marques chinoises — utilisent par défaut leurs propres protocoles SDK privés. Leurs caméras communiquent parfaitement avec leurs propres NVR. Mais lorsque vous essayez de les connecter à Milestone ou Blue Iris, les métadonnées ne sont pas transmises.
La solution est simple mais facile à manquer. Vous devez accéder aux paramètres réseau de la caméra et activer manuellement le “ Service d'analyse ONVIF ” option. Sur certaines versions de firmware, celle-ci est désactivée par défaut. Sans elle, la caméra diffusera la vidéo via ONVIF sans problème, mais le canal de métadonnées restera fermé.
Chez Loyalty-Secu, nous activons cette option par défaut sur toutes nos caméras PTZ. Notre équipe d'ingénierie teste chaque version de firmware pour la conformité au Profile T avant son expédition. Si vous travaillez avec un VMS comme Milestone XProtect ou Genetec Security Center, le flux de métadonnées devrait apparaître automatiquement une fois que vous avez ajouté la caméra en utilisant le pilote ONVIF.
Une liste de contrôle rapide avant le déploiement
Avant d'envoyer des caméras sur un site distant, vérifiez ces trois points :
- Le firmware de la caméra prend en charge le Profile T d'ONVIF (pas seulement le Profile S).
- La version du pilote VMS est suffisamment récente pour analyser les métadonnées d'analyse.
- Le commutateur “ Service d'analyse ONVIF ” est activé dans l'interface web de la caméra.
Cela vous évite un déplacement technique. Et pour les sites dans le Texas rural ou le nord du Canada, un déplacement technique peut coûter plus cher que la caméra elle-même.
Mon VMS peut-il rechercher les métadonnées pour filtrer les enregistrements par type de véhicule ou apparence humaine ?
C'est la question que j'entends le plus souvent de la part des intégrateurs de systèmes. Ils ne veulent pas seulement des alertes en direct. Ils veulent pouvoir remonter au mardi précédent à 3 heures du matin et trouver chaque clip contenant un pick-up. Sans la recherche par métadonnées, cela signifie regarder manuellement des heures de séquences.
Oui, si votre VMS prend en charge l'ingestion de métadonnées d'analyse, vous pouvez filtrer les séquences enregistrées par type d'objet, tel que humain, voiture, camion ou deux-roues. La caméra transmet des balises de classification dans le flux de métadonnées. Votre VMS indexe ces balises et vous permet d'effectuer des recherches filtrées sur n'importe quelle plage horaire. Cela transforme des heures d'examen manuel en une requête de 30 secondes.

Quels champs de métadonnées la caméra peut-elle envoyer ?
Le flux de métadonnées transporte plus que la simple mention “ personne détectée ”. Voici ce qu'une caméra IA bien configurée peut transmettre à votre backend :
| Champ de métadonnées | Description | Valeur d'exemple |
|---|---|---|
| Boîte englobante | Coordonnées pixel de l'objet détecté | x:320, y:180, l:120, h:200 |
| Classe d'objet4 | Type d'objet détecté | Humain, Voiture, Camion, Vélo |
| Score de confiance5 | À quel point le modèle d'IA est certain | 0.92 (92%) |
| Direction du déplacement | Dans quelle direction l'objet se déplace | Nord, Sud-Est |
| Étiquette de comportement | Étiquette d'événement basée sur des règles | Franchissement de fil barbelé7, Flânerie8 |
| Attributs étendus6 | Détails d'apparence avancés | Couleur du véhicule : blanc, Casque : oui |
Comment fonctionne l'indexation VMS ?
Lorsque le VMS reçoit le flux de métadonnées, il ne se contente pas de l'afficher et de le supprimer. Un bon VMS va indexer chaque événement de métadonnées par rapport à la chronologie vidéo. Pensez-y comme à un moteur de recherche pour vos enregistrements de surveillance.
Voici comment le flux fonctionne en pratique :
- La caméra détecte un pick-up blanc entrant dans une zone restreinte à 2h47 du matin.
- Elle envoie un paquet de métadonnées XML avec : classe d'objet = “ camion ”, couleur = “ blanc ”, comportement = “ intrusion ”, horodatage = 02:47:13.
- Le VMS stocke ces métadonnées aux côtés du segment vidéo correspondant.
- Plus tard, un opérateur recherche : “ Montre-moi tous les camions entre minuit et 6 heures du matin sur la caméra 7. ”
- Le VMS renvoie une liste de clips horodatés. Chaque clip commence quelques secondes avant l'événement de détection.
C'est ce que l'industrie appelle Recherche Intelligente3 ou Recherche Forensique. Sans cela, vos opérateurs ne font que fixer des écrans. Avec cela, ils deviennent des enquêteurs.
Et si mon VMS ne prend pas en charge la recherche par métadonnées ?
Toutes les plateformes VMS ne gèrent pas les métadonnées de la même manière. Certains NVR d'entrée de gamme peuvent recevoir le flux de métadonnées et afficher des boîtes englobantes en direct à l'écran. Mais ils n'indexent pas les données. Vous obtenez donc la superposition en direct, mais aucune capacité de recherche.
Si recherche forensique2 est importante pour votre projet — et pour la plupart des déploiements commerciaux, elle l'est — vous devez confirmer que votre VMS prend en charge la recherche d'enregistrement basée sur les métadonnées. Milestone XProtect Corporate et Genetec Security Center prennent tous deux en charge cela. Blue Iris a un support plus limité, mais il peut toujours déclencher des enregistrements basés sur des événements de métadonnées.
Pour nos clients chez Loyalty-Secu, je recommande toujours de tester toute la chaîne avant un déploiement important. Nous pouvons expédier une unité d'échantillon, vous la connectez à votre VMS dans le laboratoire, et vous vérifiez que la recherche fonctionne comme vous l'attendez. Cela évite les surprises sur site.
Une note sur les attributs étendus
Les attributs étendus comme la couleur du véhicule ou le type de vêtement dépendent fortement du modèle d'IA exécuté sur la caméra. Toutes les caméras ne prennent pas en charge ces éléments. Nos caméras PTZ de suivi IA à double objectif exécutent un modèle plus avancé qui peut distinguer les berlines, les SUV et les camions. Mais une caméra bullet de base avec une IA d'entrée de gamme pourrait seulement vous dire “ véhicule ” sans plus de détails.
Demandez toujours à votre fournisseur : Quelles classes d'objets spécifiques votre modèle d'IA produit-il ? Ne supposez pas. Obtenez la liste par écrit. Si la fiche technique indique “ Détection d'humain/véhicule ”, demandez si cela signifie deux classes ou dix.
Les métadonnées sont-elles transmises sous forme de superposition XML ou de flux de données séparé à haute vitesse ?
J'ai eu des clients qui confondaient deux choses très différentes : la superposition visuelle que vous voyez à l'écran (les boîtes colorées dessinées sur la vidéo) et le flux de données structurées réel. Ils se ressemblent sur un moniteur, mais ils fonctionnent de manière complètement différente. Se tromper sur ce point peut causer de réels problèmes.
Les métadonnées sont transmises sous forme de flux de données RTP distinct, et non sous forme de superposition visuelle incrustée. Les métadonnées structurées en XML voyagent dans leur propre canal à côté du flux vidéo. Cela signifie que le VMS reçoit des données brutes, lisibles par machine, qu'il peut indexer, rechercher et sur lesquelles il peut agir — plutôt que de simples pixels peints sur l'image.

Pourquoi cette distinction est importante
Laissez-moi vous expliquer pourquoi ce n'est pas juste un détail technique. Cela a des conséquences réelles pour votre projet.
Si les boîtes englobantes sont intégrées à la vidéo (parfois appelées “ superposition OSD ” ou “ superposition de codec intelligent ”), elles font partie de l'image. Vous pouvez les voir pendant la lecture. Mais votre VMS ne peut pas les lire. Ce ne sont que des pixels colorés. Le VMS n'a aucune idée qu'une boîte à l'écran signifie “ camion ”. Vous perdez toute capacité de recherche. Vous perdez toute automatisation. Vous revenez à regarder les séquences avec vos yeux.
Si les métadonnées sont envoyées sous forme de flux RTP séparé, le VMS reçoit des données structurées qu'il peut réellement utiliser. Il peut :
- Indexer les événements pour la recherche forensique.
- Déclencher des alarmes ou des notifications basées sur le type d'objet.
- Transférer les métadonnées vers une plateforme de commandement centralisée pour une analyse multi-sites.
- Générer des rapports : “ La caméra 12 a détecté 347 véhicules et 89 piétons la semaine dernière. ”
Comment les deux flux voyagent ensemble
Voici une vue simplifiée de ce qui quitte la caméra :
| Flux | Protocole | Contenu | Bande passante |
|---|---|---|---|
| Flux vidéo | RTP sur RTSP (H.265) | Images vidéo compressées | 2–8 Mbps (variable) |
| Flux de métadonnées | RTP sur RTSP (XML) | Données d'objet, coordonnées, classes | 10–50 Kbits/s |
| Flux audio (facultatif) | RTP sur RTSP (AAC/G.711) | Audio du microphone | 32–128 Kbits/s |
Remarquez la différence de bande passante. Le flux de métadonnées est minuscule par rapport à la vidéo. C'est essentiel pour les déploiements 4G, que j'aborderai dans la section suivante.
Configuration de la sortie des métadonnées
Sur la plupart des caméras professionnelles, vous pouvez configurer la sortie des métadonnées indépendamment du flux vidéo. Voici les paramètres clés à rechercher :
Activer les métadonnées d'analyse
Dans l'interface web de la caméra, trouvez la section “ Smart Event ” ou “ AI Analytics ”. Il devrait y avoir un interrupteur pour “ Metadata Output ” ou “ Analytics Stream ”. Activez-le.
Choisir le type de flux
Certaines caméras vous permettent de choisir entre :
- Flux de métadonnées ONVIF — standard, interopérable, fonctionne avec les VMS tiers.
- Métadonnées SDK privées — ne fonctionne qu'avec le NVR ou le logiciel de la même marque.
Pour les projets intermarques, choisissez toujours ONVIF.
Désactiver les superpositions gravées (si nécessaire)
Si vous envoyez des métadonnées à un VMS qui dessine ses propres boîtes englobantes, vous voudrez peut-être désactiver la superposition visuelle intégrée de la caméra. Sinon, vous verrez des boîtes doubles — une de la caméra et une du VMS. Cela a l'air désordonné et confond les opérateurs.
Chez Loyalty-Secu, notre firmware vous donne des contrôles séparés pour “ Dessiner sur le flux ” et “ Envoyer les métadonnées ”. Vous pouvez activer l'un, l'autre, ou les deux. Cette flexibilité est importante lorsque vous intégrez avec différentes plateformes VMS dans différents projets.
Cas limites à surveiller
Il existe un scénario où les superpositions gravées sont réellement utiles : lorsque vous enregistrez directement sur une carte SD à l'intérieur de la caméra sans aucun VMS. Dans ce cas, la superposition visuelle est le seul moyen de voir les résultats de détection lors de la lecture. Pour les sites solaires hors réseau où la liaison 4G est peu fiable, cela peut servir de sauvegarde. La caméra enregistre localement avec des boîtes englobantes visibles, et lorsque la liaison revient, elle télécharge le flux de métadonnées vers le VMS pour l'indexation.
Quelle quantité de données 4G supplémentaires le flux continu de métadonnées consomme-t-il par heure ?
C'est là que les calculs deviennent sérieux. Je parle chaque semaine à des intégrateurs qui déploient des caméras 4G alimentées par énergie solaire dans des endroits sans fibre, sans Wi-Fi et avec des forfaits de données cellulaires coûteux. Chaque mégaoctet compte. Ils veulent savoir : le flux de métadonnées va-t-il faire exploser ma facture de données ?
Un flux de métadonnées continu consomme généralement entre 10 Kbps et 50 Kbps, ce qui se traduit par environ 4,5 Mo à 22,5 Mo par heure. Comparé à un flux vidéo H.265 à 2–4 Mbps (qui utilise 900 Mo à 1,8 Go par heure), le flux de métadonnées ajoute moins de 2 % à votre utilisation totale de données. Il est extrêmement léger et ne devrait pas être une préoccupation pour les budgets de données 4G.

Répartition des chiffres
Laissez-moi mettre cela dans un tableau pour que vous puissiez voir clairement la comparaison :
| Type de données | Bitrate | Données par heure | Données par 24 heures |
|---|---|---|---|
| Vidéo H.265 (1080p, qualité moyenne) | 2 Mbps | ~900 Mo | ~21,6 Go |
| Vidéo H.265 (4MP, haute qualité) | 4 Mbps | ~1,8 Go | ~43,2 Go |
| Flux de métadonnées (activité faible) | 10 Kbit/s | ~4,5 Mo | ~108 Mo |
| Flux de métadonnées (activité intense) | 50 Kbit/s | ~22,5 Mo | ~540 Mo |
| Flux audio (G.711) | 64 Kbit/s | ~28,8 Mo | ~691 Mo |
Le flux de métadonnées est une erreur d'arrondi par rapport à la vidéo. Même à 50 Kbit/s — ce qui signifierait une scène très animée avec de nombreux objets détectés — vous regardez environ un demi-gigaoctet par jour. Ce n'est rien.
Les vraies économies : Streaming piloté par les événements
C'est là que les métadonnées deviennent un outil d'économie, pas seulement un coût. Bon nombre de nos clients configurent leurs systèmes comme suit :
- Mode par défaut : La caméra diffuse uniquement un sous-flux à faible débit (résolution CIF ou D1, ~256 Kbit/s) plus le flux de métadonnées vers le VMS. Total : environ 300 Kbit/s.
- Déclencheur d'événement : Lorsque l'IA détecte un humain ou un véhicule, la caméra passe au flux principal haute définition (1080p ou 4MP) pendant 30 à 60 secondes.
- Retour au défaut : Une fois l'événement terminé, elle revient au flux à faible débit.
Cette approche peut réduire votre utilisation mensuelle de données 4G de 80 % à 90 % par rapport au streaming Full HD 24h/24 et 7j/7. Le flux de métadonnées rend cela possible. Sans lui, le VMS ne saurait pas quand demander le flux haute définition.
Considérations sur l’MTU et la taille des paquets sur la 4G
Il existe un détail technique qui pose problème sur les réseaux cellulaires. Les paquets XML de métadonnées peuvent varier en taille. Dans une scène calme avec une seule personne, le paquet est petit — quelques centaines d’octets. Mais dans une scène bondée avec 30 ou 40 objets détectés, la charge utile XML peut dépasser 1400 octets.
La plupart des réseaux 4G ont une MTU (Maximum Transmission Unit) d’environ 1400 à 1500 octets. Si un paquet de métadonnées dépasse la MTU, il est fragmenté. Parfois, les paquets fragmentés sont perdus par la passerelle cellulaire. Le résultat : votre VMS affiche des boîtes englobantes qui clignotent ou disparaissent aléatoirement.
La solution est simple. Dans les paramètres réseau de la caméra, réglez l’MTU sur 1380 octets. Cela laisse suffisamment de marge pour la surcharge 4G. Chez Loyalty-Secu, nous définissons cela par défaut sur tous nos modèles de caméras PTZ 4G. Mais si vous utilisez une autre marque, vérifiez ce paramètre manuellement. Cela prend 10 secondes et peut vous éviter une session de dépannage très frustrante sur site.
Optimisation pour les sites alimentés à l’énergie solaire
Pour les déploiements alimentés à l’énergie solaire, l’efficacité des données affecte directement votre budget d’alimentation. La transmission de moins de données signifie que le modem 4G consomme moins d’énergie. Moins de consommation d’énergie signifie un panneau solaire et une batterie plus petits. Cet effet en cascade est la raison pour laquelle nous avons conçu nos systèmes PTZ solaires 4G autour du streaming événementiel dès le départ.
Une configuration typique pour un chantier de construction ou une ferme éloignée :
- Journée (12 heures) : Sous-flux + métadonnées uniquement. Données estimées : ~200 Mo. Alimentation estimée pour le modem 4G : ~1,5 W en moyenne.
- Nuit (12 heures) : Même configuration, mais avec moins d’événements. Données estimées : ~100 Mo.
- Rafales d’événements : Peut-être 20 événements par jour, chacun déclenchant 60 secondes de streaming HD. Données estimées : ~600 Mo.
- Total quotidien : Moins de 1 Go. Gérable sur la plupart des forfaits de données 4G.
C'est le type de conception de système qui rend la surveillance à distance pratique — non seulement techniquement possible, mais économiquement viable.
Conclusion
Les métadonnées humaines et de véhicules circulent de la caméra vers votre VMS sous forme de flux XML léger et interrogeable. Cela coûte presque rien en bande passante, mais transforme la façon dont vous recherchez, automatisez et gérez la surveillance sur des sites distribués.
1. Apprenez-en davantage sur la norme ONVIF Profile T pour le streaming avancé de métadonnées vidéo et analytiques. ︎↩︎ 2. Découvrez comment les capacités de recherche forensique dans les plateformes VMS permettent une récupération rapide des événements enregistrés basée sur les métadonnées. ︎↩︎ 3. Explorez comment la recherche intelligente dans les logiciels VMS utilise les métadonnées pour filtrer et localiser des clips vidéo spécifiques. ︎↩︎ 4. Examinez les classes d'objets courantes utilisées dans la détection d'objets basée sur l'IA, telles que les humains, les voitures, les camions et les vélos. ︎↩︎ 5. Apprenez les scores de confiance dans les modèles d'apprentissage automatique et comment ils indiquent la certitude de la prédiction. ︎↩︎ 6. Comprenez les attributs de métadonnées étendus tels que la couleur du véhicule, le type de vêtement et la détection de casque. ︎↩︎ 7. Découvrez comment les analyses de clôture virtuelle créent des limites virtuelles qui déclenchent des événements lorsqu'elles sont franchies. ︎↩︎ 8. Lisez la détection de rôderie comme règle comportementale courante d'analyse vidéo. ︎↩︎