J'ai vu trop d'intégrateurs perdre des heures à déboguer des problèmes de métadonnées — pour finalement découvrir que leur profil de caméra était le véritable problème.
Oui, Profil T ONVIF1 prend entièrement en charge la transmission de métadonnées avec le codage H.265 (HEVC). Le profil T a été conçu spécifiquement pour gérer les flux vidéo H.264 et H.265 aux côtés de métadonnées structurées, y compris les données d'analyse IA, les événements d'alarme et les résultats de détection d'objets — le tout synchronisé avec le flux vidéo.

Si vous construisez un système qui repose sur le H.265 pour économiser de la bande passante et qui a toujours besoin que les données d'événements IA soient transmises à votre VMS, cet article explique exactement comment le profil T gère cela. Je vais aborder des préoccupations du monde réel — de la livraison des boîtes englobantes à la surcharge de traitement — afin que vous puissiez prendre la bonne décision pour votre prochain déploiement.
Table des matières
Puis-je envoyer des boîtes englobantes de détection humaine par IA sur H.265 via ONVIF ?
C'est la première question que je reçois des intégrateurs qui veulent des fonctionnalités d'IA mais qui ont également besoin de la compression H.265. Ils craignent que les deux ne fonctionnent pas bien ensemble.
Vous pouvez absolument envoyer des boîtes englobantes de détection humaine par IA sur H.265 via ONVIF Profile T. Les métadonnées — y compris le type d'objet, les coordonnées et les scores de confiance — transitent dans un flux RTP séparé au sein de la même session RTSP, de sorte qu'elles n'interfèrent pas du tout avec le codage vidéo H.265.

Comment les métadonnées transitent réellement
Laissez-moi vous expliquer ce qui se passe en coulisses. Lorsque votre caméra détecte une personne, elle fait deux choses en même temps. Premièrement, elle encode l'image vidéo en H.265. Deuxièmement, elle génère un paquet de métadonnées basé sur XML qui décrit ce qu'elle a trouvé — un objet “Personne”, les coordonnées de la boîte englobante et un horodatage.
Ces deux informations transitent par des canaux différents, mais elles partagent la même session RTSP2. Pensez-y comme une autoroute à deux voies. La vidéo prend une voie. Les métadonnées prennent l'autre. Elles arrivent à la même destination au même moment.
La structure XML derrière la boîte englobante
Les Service d'analyse ONVIF3 définit un schéma XML clair pour les résultats de détection. Voici une vue simplifiée de ce à quoi ressemble un événement de détection unique :
| Champ | Valeur d'exemple | Description |
|---|---|---|
| Type d'objet | Personne | Ce que l'IA a détecté |
| Boîte englobante X | 0.35 | Position horizontale (normalisée 0–1) |
| Boîte englobante Y | 0.22 | Position verticale (normalisée 0–1) |
| Largeur | 0.12 | Largeur de la boîte (normalisée) |
| Hauteur | 0.30 | Hauteur de la boîte (normalisée) |
| Horodatage | 2025-01-15T14:32:07Z | Synchronisation de l'heure au niveau de l'image |
| Confiance | 0.92 | Score de confiance de la détection |
Votre VMS lit ces données XML et dessine la boîte englobante à l'écran. La caméra n'incruste pas la boîte dans la vidéo. C'est important. Cela signifie que vous pouvez activer ou désactiver les boîtes au niveau du logiciel. Vous pouvez également rechercher par type d'objet ultérieurement, sans retraiter la vidéo.
Pourquoi c'est important pour les déploiements solaires 4G
Dans nos systèmes PTZ solaires 4G chez Loyalty-Secu, la bande passante est précieuse. Le H.265 réduit déjà le débit binaire d'environ moitié par rapport au H.264. Le flux de métadonnées ajoute très peu — généralement entre 10 kbps et 50 kbps pour quelques objets détectés. Vous bénéficiez ainsi de l'intelligence IA livrée à votre VMS sans augmentation significative de l'utilisation des données.
Mais voici un détail que beaucoup ignorent. Si votre caméra suit 20 ou 30 objets à la fois — disons, une intersection animée — le flux de métadonnées s'agrandit. Dans ces cas, je recommande de plafonner le nombre maximum d'objets suivis dans les paramètres du firmware pour maintenir une bande passante totale prévisible sur une liaison 4G.
Mon VMS tiers pourra-t-il rechercher les métadonnées H.265 pour des événements spécifiques ?
J'ai eu des clients qui ont acheté des caméras avec d'excellentes fonctionnalités d'IA, pour découvrir ensuite que leur VMS ne pouvait pas lire les métadonnées. C'est une leçon douloureuse et coûteuse.
Votre VMS tiers peut rechercher les métadonnées H.265 pour des événements spécifiques — mais seulement si le VMS prend également en charge le profil ONVIF T. Si votre VMS ne prend en charge que le profil S, il recevra le flux vidéo mais ignorera complètement les métadonnées, vous laissant sans capacité de recherche intelligente.

Le contrôle de compatibilité du Profil T
C'est l'étape la plus importante avant de vous engager dans un projet. Vous devez vérifier les deux extrémités de la chaîne. La caméra doit prendre en charge le Profil T. Le VMS doit également prendre en charge le Profil T. Si l'un des côtés est manquant, le lien des métadonnées est rompu.
Voici une matrice de compatibilité rapide que j'utilise lorsque je conseille nos partenaires B2B :
| Plateforme VMS | Support Profil S | Support Profil T | Recherche intelligente via métadonnées |
|---|---|---|---|
| Milestone XProtect4 | ✅ | ✅ (2020+) | ✅ |
| Genetec Security Center5 | ✅ | ✅ (2021+) | ✅ |
| Iris bleu | ✅ | ⚠️ Limité | ❌ Natif (nécessite un plugin) |
| Nx Witness (Network Optix)6 | ✅ | ✅ (v5.0+) | ✅ |
| Digifort | ✅ | ✅ (v7.4+) | ✅ |
| iSpy / Agent DVR | ✅ | ❌ | ❌ |
Si votre VMS se trouve dans la colonne “ limité ” ou “ ” non », vous avez deux options. Vous pouvez mettre à niveau le logiciel VMS. Ou vous pouvez utiliser l'interface web intégrée de la caméra pour accéder directement aux événements IA — la plupart des caméras PTZ professionnelles, y compris les nôtres, offrent cela comme solution de secours.
À quoi ressemble réellement la “ recherche intelligente ”
Lorsque les métadonnées circulent correctement, votre VMS peut faire des choses comme celles-ci :
- Montre-moi toutes les détections de “ personne ” entre 14h00 et 16h00.
- Montre-moi toutes les détections de “ véhicule ” dans la zone B.
- Montre-moi tous les événements où une personne est entrée dans une zone restreinte.
Le VMS n'a pas besoin de réanalyser la vidéo. Il interroge simplement les métadonnées stockées. C'est beaucoup plus rapide. Sur un système avec 50 caméras enregistrant 24h/24 et 7j/7, la différence entre la réanalyse de la vidéo et l'interrogation des métadonnées est la différence entre des heures et des secondes.
Un piège du monde réel : la version du firmware est importante
Je tiens à signaler quelque chose qui surprend souvent les gens. Même si un modèle de caméra indique “ Profile T ” sur la fiche technique, la version réelle du firmware est importante. Les premières versions du firmware avaient parfois des implémentations incomplètes du Profile T. Les champs de métadonnées peuvent être partiellement renseignés, ou la synchronisation des horodatages peut dériver.
Chez Loyalty-Secu, nous effectuons un test de validation complet du Profile T sur chaque version de firmware avant son expédition. Nous vérifions que chaque champ XML est correctement renseigné, que les horodatages sont alignés à moins d'une image près, et que les métadonnées survivent à la perte de paquets sur une connexion 4G. Si vous évaluez une caméra — la nôtre ou celle de quelqu'un d'autre — demandez un rapport de test de conformité Profile T. Cela vous évitera bien des tracas plus tard.
Le flux de métadonnées est-il parfaitement synchronisé avec la vidéo 4K haute résolution ?
Les problèmes de synchronisation sont un cauchemar. J'ai vu des cas où la boîte englobante apparaît deux secondes après que la personne a déjà quitté le cadre. Cela rend la fonctionnalité IA inutile.
Conformément au profil ONVIF T, le flux de métadonnées est synchronisé avec la vidéo H.265 à l'aide d'horodatages NTP partagés au niveau de l'image. Cela signifie que les données de la boîte englobante et l'image vidéo correspondante portent la même référence temporelle, garantissant un alignement précis même sur des réseaux instables comme la 4G LTE.

Comment fonctionne la synchronisation au niveau du protocole
La clé de la synchronisation est l'horodatage RTP. Le flux vidéo et le flux de métadonnées utilisent tous deux RTP comme couche de transport. Chaque paquet RTP contient un horodatage dérivé de l'horloge interne de la caméra. Lorsque la caméra génère une image vidéo et un paquet de métadonnées pour le même instant, les deux paquets reçoivent la même valeur d'horodatage.
À la réception, le VMS fait correspondre ces horodatages. Il sait que le paquet de métadonnées #4521 appartient à l'image vidéo #4521. Il dessine donc la boîte englobante sur la bonne image.
Qu'est-ce qui peut casser la synchronisation ?
Dans un environnement de laboratoire parfait, la synchronisation est sans faille. Mais sur le terrain, plusieurs facteurs peuvent entraîner une dérive :
- Mauvais configuration NTP. Si l'horloge de la caméra n'est pas synchronisée avec un serveur NTP fiable, les horodatages peuvent dériver sur plusieurs heures ou jours. Configurez toujours le NTP, même pour les déploiements 4G. La plupart des réseaux cellulaires fournissent un accès NTP.
- Gigue réseau. Sur une liaison 4G, les paquets peuvent arriver dans le désordre. Le VMS a besoin d'un tampon de gigue7 pour les réorganiser. Si le tampon est trop petit, les métadonnées et la vidéo peuvent apparaître désynchronisées sur l'écran.
- Charge CPU élevée. Si le processeur de la caméra est surchargé, par exemple en exécutant plusieurs algorithmes d'IA à une résolution 4K, la génération des métadonnées peut prendre du retard sur le pipeline d'encodage vidéo.
Conseils pratiques pour les systèmes PTZ solaires 4G
Pour nos clients qui déploient des caméras PTZ solaires 4G dans des endroits éloignés, je recommande toujours trois choses pour préserver la qualité de la synchronisation :
Premièrement, réglez le serveur NTP de la caméra sur un pool public tel que pool.ntp.org8 ou l'adresse NTP de votre opérateur. Cela maintient l'horloge précise.
Deuxièmement, réglez le tampon de gigue du VMS à au moins 200 ms. Cela donne au système suffisamment de marge pour réorganiser les paquets sans délai visible.
Troisièmement, si vous utilisez la 4K à 25 ips avec plusieurs règles d'IA actives, envisagez de passer à 15 ips pour le flux d'analyse. Le flux vidéo peut rester à 25 ips. Cela réduit la charge CPU et maintient le pipeline de métadonnées en bon état de fonctionnement.
Le facteur 4K
La résolution 4K rend la synchronisation plus difficile car le volume de données est beaucoup plus important. Une seule image 4K H.265 peut peser 200 Ko ou plus. Le paquet de métadonnées pour cette image peut ne faire que 500 octets. Si le réseau perd le paquet vidéo et que le VMS demande une retransmission, le paquet de métadonnées attend déjà dans le tampon. Le VMS doit conserver ces métadonnées jusqu'à ce que la vidéo rattrape son retard.
C'est pourquoi je dis toujours à nos partenaires : testez votre pipeline complet de bout en bout avant de déployer. Configurez la caméra, connectez-la via la 4G, diffusez de la 4K H.265 avec les métadonnées activées, et observez la sortie sur votre VMS pendant au moins 24 heures. Si la synchronisation tient pendant une journée complète, elle tiendra en production.
L'utilisation des métadonnées H.265 consomme-t-elle plus de puissance de traitement que le H.264 ?
Tous les intégrateurs à qui je parle posent des questions sur la surcharge de traitement. Ils veulent de l'IA et du H.265, mais ils ne veulent pas que la caméra surchauffe ou gèle sur le terrain.
L'encodage H.265 nécessite plus de puissance de traitement que le H.264, généralement 30 % à 50 % de charge CPU supplémentaire pour la même résolution et le même débit d'images. Cependant, la génération des métadonnées elle-même ajoute une surcharge minimale, quel que soit le codec. Le véritable coût de traitement provient de l'analyse IA, et non de l'empaquetage des résultats dans les métadonnées ONVIF.

Répartition de la charge de traitement
Laissez-moi séparer les trois tâches principales qui se déroulent à l'intérieur de la caméra :
- Encodage vidéo — conversion des données brutes du capteur en H.264 ou H.265 compressé.
- Analyse IA — exécution de modèles de réseaux neuronaux pour détecter des personnes, des véhicules ou d'autres objets.
- Empaquetage des métadonnées — encapsulage des résultats de l'IA dans du XML conforme ONVIF et envoi via RTP.
La tâche 1 est celle où le H.265 coûte plus cher que le H.264. L'algorithme HEVC est plus complexe. Il utilise des unités d'arbre de codage plus grandes, plus de modes de prédiction et un codage entropique plus avancé. Tout cela nécessite plus de cycles de calcul.
La tâche 2 est la même, que vous utilisiez H.264 ou H.265. Le modèle d'IA s'exécute sur les images vidéo brutes ou décodées, pas sur le flux compressé.
La tâche 3 est triviale. La génération d'un petit paquet XML ne prend presque pas de temps CPU.
Une comparaison côte à côte
Voici une comparaison approximative basée sur nos tests internes chez Loyalty-Secu, en utilisant une caméra PTZ 4K typique avec un chipset IA intégré :
| Métrique | H.264 + Métadonnées | H.265 + Métadonnées | Différence |
|---|---|---|---|
| Utilisation CPU de l'encodage vidéo | ~35% | ~50% | +15% |
| Utilisation CPU de la détection IA | ~25% | ~25% | 0% |
| Utilisation CPU de l'empaquetage des métadonnées | ~1% | ~1% | 0% |
| Utilisation CPU totale | ~61% | ~76% | +15% |
| Débit binaire (4K, 25 ips) | ~8 Mbps | ~4 Mbps | -50% |
| Bande passante des métadonnées | ~50 kbps | ~50 kbps | 0% |
Le message clé est clair. Le H.265 coûte plus cher en CPU mais économise beaucoup de bande passante. La couche de métadonnées est la même dans les deux cas.
Quand cela devient-il un problème ?
Pour la plupart des caméras modernes dotées d'encodeurs matériels dédiés (comme les SoC Hi3559 ou similaires), la charge supplémentaire du H.265 est gérée par l'encodeur matériel, et non par le CPU principal. En pratique, l'impact sur le CPU est donc bien moindre que ce que suggèrent les chiffres bruts.
Mais des problèmes peuvent apparaître dans deux scénarios :
- Encodage en double flux. Si vous exécutez à la fois un flux principal 4K et un sous-flux 720p, tous deux en H.265, l'encodeur matériel effectue un double travail. Ajoutez l'IA par-dessus, et vous pourriez atteindre la limite.
- Nombre élevé d'objets. Si la scène contient 30 objets en mouvement ou plus et que l'IA suit chacun d'eux, le moteur d'analyse – et non l'encodeur – devient le goulot d'étranglement.
Ma recommandation pour les intégrateurs système
Si vous déployez dans un environnement à bande passante limitée comme un site solaire 4G, utilisez le H.265 pour le flux principal et le H.264 pour le sous-flux. Cela équilibre la charge de traitement tout en vous offrant des économies de bande passante sur le flux d'enregistrement principal. Limitez la détection IA aux objets qui vous intéressent réellement – généralement les personnes et les véhicules. N'activez le suivi de “ tous les objets ” que si vous en avez vraiment besoin.
Et vérifiez toujours la température de fonctionnement de la caméra sous pleine charge. Chez Loyalty-Secu, chaque unité subit un test de rodage de 48 heures à résolution maximale, fréquence d'images maximale et IA activée. Si elle survit à cela, elle survivra sur le terrain.
Conclusion
Le profil ONVIF T prend entièrement en charge la transmission des métadonnées H.265. Vérifiez que votre caméra et votre VMS prennent en charge le profil T, et vos données IA circuleront de manière fiable – même sur la 4G.
1. Page ONVIF officielle pour le profil T, qui définit la prise en charge du H.265 et du streaming de métadonnées. ︎↩︎ 2. Spécification du protocole de streaming en temps réel (RTSP) – utilisé pour transporter les flux vidéo et de métadonnées. ︎↩︎ 3. Spécification ONVIF pour les services d'analyse, définissant le schéma XML pour les métadonnées de détection. ︎↩︎ 4. Milestone XProtect VMS – confirmé pour prendre en charge le profil T pour la recherche intelligente via les métadonnées. ︎↩︎ 5. Genetec Security Center VMS – prend en charge le profil T pour la recherche d'événements basée sur les métadonnées. ︎↩︎ 6. Nx Witness VMS – prend en charge le profil T à partir de la v5.0 pour la recherche intelligente de métadonnées. ︎↩︎ 7. Explication Wikipedia du jitter buffering – essentiel pour réordonner les paquets retardés sur les liaisons 4G. ︎↩︎ 8. Le pool NTP public est recommandé pour la synchronisation de l'horloge de la caméra dans les déploiements distants. ︎↩︎