Unterstützt Profil T die Metadatensendung unter H.265-Kodierung? - Professioneller PTZ-Kamera- & Sicherheitsüberwachungshersteller

Ich habe zu viele Integratoren gesehen, die Stunden mit dem Debuggen von Metadatenproblemen verbracht haben – nur um festzustellen, dass ihr Kameraprofil das eigentliche Problem war.

Ja, ONVIF Profil T¹ unterstützt die Metadatensendung unter H.265 (HEVC) Kodierung vollständig. Profil T wurde speziell entwickelt, um sowohl H.264- als auch H.265-Videostreams neben strukturierten Metadaten zu verarbeiten, einschließlich KI-Analysedaten, Alarmereignissen und Objekterkennungs ergebnissen – alles synchronisiert mit dem Videostream.

ONVIF Profil T H.265 Metadatensendung PTZ-Kamera

Wenn Sie ein System aufbauen, das H.265 zur Bandbreiteneinsparung nutzt und dennoch KI-Ereignisdaten an Ihr VMS übertragen muss, erklärt dieser Artikel genau, wie Profil T damit umgeht. Ich werde reale Bedenken untersuchen – von der Lieferung von Bounding Boxes bis hin zum Verarbeitungsaufwand –, damit Sie die richtige Entscheidung für Ihre nächste Bereitstellung treffen können.

Inhaltsübersicht

Kann ich KI-Mensch-Erkennungs-Bounding-Boxes über H.265 per ONVIF senden?

Dies ist die erste Frage, die ich von Integratoren erhalte, die KI-Funktionen wünschen, aber auch H.265-Kompression benötigen. Sie befürchten, dass die beiden nicht gut zusammenpassen.

Sie können KI-Mensch-Erkennungs-Bounding-Boxes absolut über H.265 per ONVIF Profil T senden. Die Metadaten – einschließlich Objekttyp, Koordinaten und Konfidenzwerte – werden in einem separaten RTP-Stream innerhalb derselben RTSP-Sitzung übertragen, sodass sie die H.265-Videokodierung überhaupt nicht beeinträchtigen.

KI-Bounding-Box-Metadaten H.265 ONVIF Profil T

Wie die Metadaten tatsächlich übertragen werden

Lassen Sie mich erklären, was unter der Haube passiert. Wenn Ihre Kamera eine Person erkennt, tut sie gleichzeitig zwei Dinge. Erstens kodiert sie den Videorahmen in H.265. Zweitens generiert sie ein XML-basiertes Metadatenpaket, das beschreibt, was sie gefunden hat – ein “Person”-Objekt, die Bounding-Box-Koordinaten und einen Zeitstempel.

Diese beiden Informationen reisen über verschiedene Kanäle, aber sie teilen sich dieselbe RTSP-Sitzung². Stellen Sie es sich wie eine Autobahn mit zwei Spuren vor. Das Video nimmt eine Spur. Die Metadaten nehmen die andere. Sie kommen gleichzeitig am selben Ziel an.

Die XML-Struktur hinter der Bounding Box

Die ONVIF-Analyse-Dienst³ definiert ein klares XML-Schema für Erkennungsergebnisse. Hier ist eine vereinfachte Ansicht, wie ein einzelnes Erkennungsereignis aussieht:

Feld	Beispielwert	Beschreibung
Objekttyp	`Person`	Was die KI erkannt hat
Bounding Box X	`0.35`	Horizontale Position (normalisiert 0–1)
Bounding Box Y	`0.22`	Vertikale Position (normalisiert 0–1)
Breite	`0.12`	Boxbreite (normalisiert)
Höhe	`0.30`	Boxhöhe (normalisiert)
Zeitstempel	`2025-01-15T14:32:07Z`	Frame-Level-Zeitsynchronisation
Konfidenz	`0.92`	Erkennungskonfidenzwert

Ihr VMS liest diese XML-Daten und zeichnet die Bounding Box auf dem Bildschirm. Die Kamera brennt die Box nicht in das Video. Das ist wichtig. Das bedeutet, dass Sie die Boxen auf Softwareebene ein- oder ausschalten können. Sie können später auch nach Objekttyp suchen – ohne das Video neu zu verarbeiten.

Warum das für 4G-Solar-Bereitstellungen wichtig ist

In unseren 4G-Solar-PTZ-Systemen bei Loyalty-Secu ist Bandbreite kostbar. H.265 reduziert die Bitrate bereits etwa auf die Hälfte im Vergleich zu H.264. Der Metadatenstrom fügt nur sehr wenig hinzu – normalerweise zwischen 10 Kbit/s und 50 Kbit/s für einige erkannte Objekte. So erhalten Sie KI-Intelligenz, die an Ihr VMS geliefert wird, ohne eine nennenswerte Erhöhung der Datennutzung.

Aber hier ist ein Detail, das viele Leute übersehen. Wenn Ihre Kamera 20 oder 30 Objekte gleichzeitig verfolgt – sagen wir, eine belebte Kreuzung – wächst der Metadatenstrom. In diesen Fällen empfehle ich, die maximal verfolgten Objekte in den Firmware-Einstellungen zu begrenzen, um die Gesamtbandbreite über eine 4G-Verbindung vorhersagbar zu halten.

Kann mein Drittanbieter-VMS die H.265-Metadaten nach bestimmten Ereignissen durchsuchen?

Ich hatte Kunden, die Kameras mit großartigen KI-Funktionen kauften, nur um festzustellen, dass ihr VMS die Metadaten nicht lesen konnte. Das ist eine schmerzhafte und teure Lektion.

Ihr VMS von Drittanbietern kann H.265-Metadaten nach bestimmten Ereignissen durchsuchen – aber nur, wenn das VMS auch ONVIF Profile T unterstützt. Wenn Ihr VMS nur Profile S unterstützt, empfängt es den Videostream, ignoriert aber die Metadaten vollständig, sodass Sie keine intelligente Suchfunktion haben.

VMS-Intelligente Suche H.265-Metadaten ONVIF Profile T

Die Profile-T-Kompatibilitätsprüfung

Dies ist der wichtigste Schritt, bevor Sie sich auf ein Projekt festlegen. Sie müssen beide Enden der Kette überprüfen. Die Kamera muss Profile T unterstützen. Das VMS muss ebenfalls Profile T unterstützen. Wenn eine Seite fehlt, bricht die Metadatenverbindung ab.

Hier ist eine schnelle Kompatibilitätsmatrix, die ich bei der Beratung unserer B2B-Partner verwende:

VMS-Plattform	Profil-S-Unterstützung	Profil-T-Unterstützung	Intelligente Suche über Metadaten
Meilenstein XProtect⁴	✅	✅ (2020+)	✅
Genetec Security Center⁵	✅	✅ (2021+)	✅
Blaue Schwertlilie	✅	⚠️ Eingeschränkt	❌ Nativ (erfordert Plugin)
Nx Witness (Network Optix)⁶	✅	✅ (v5.0+)	✅
Digifort	✅	✅ (v7.4+)	✅
iSpy / Agent DVR	✅	❌	❌

Wenn sich Ihre VMS in der Spalte “eingeschränkt” oder “nein” befindet, haben Sie zwei Möglichkeiten. Sie können die VMS-Software aktualisieren. Oder Sie können die integrierte Weboberfläche der Kamera verwenden, um direkt auf die KI-Ereignisse zuzugreifen – die meisten professionellen PTZ-Kameras, einschließlich unserer, bieten dies als Fallback.

Wie “Smart Search” tatsächlich aussieht

Wenn die Metadaten korrekt fließen, kann Ihre VMS Dinge wie diese tun:

Zeigen Sie mir alle “Person”-Erkennungen zwischen 14:00 und 16:00 Uhr.
Zeigen Sie mir alle “Fahrzeug”-Erkennungen in Zone B.
Zeigen Sie mir alle Ereignisse, bei denen eine Person einen gesperrten Bereich betreten hat.

Die VMS muss das Video nicht erneut analysieren. Sie fragt einfach die gespeicherten Metadaten ab. Das ist viel schneller. Bei einem System mit 50 Kameras, die rund um die Uhr aufzeichnen, ist der Unterschied zwischen der erneuten Analyse von Videos und der Abfrage von Metadaten der Unterschied zwischen Stunden und Sekunden.

Ein reales Problem: Die Firmware-Version ist wichtig

Ich möchte auf etwas hinweisen, das die Leute überrascht. Selbst wenn ein Kameramodell auf dem Datenblatt “Profile T” angibt, ist die tatsächliche Firmware-Version wichtig. Frühe Firmware-Versionen hatten manchmal unvollständige Profile T-Implementierungen. Die Metadatenfelder sind möglicherweise teilweise gefüllt oder die Zeitsynchronisation kann abweichen.

Bei Loyalty-Secu führen wir vor dem Versand einen vollständigen Profile T-Validierungstest für jede Firmware-Version durch. Wir prüfen, ob jedes XML-Feld korrekt ausgefüllt ist, ob die Zeitstempel innerhalb eines Frames übereinstimmen und ob die Metadaten Paketverluste bei einer 4G-Verbindung überstehen. Wenn Sie eine Kamera evaluieren – unsere oder eine andere –, bitten Sie um einen Profile T-Konformitätstestbericht. Das erspart Ihnen später viel Ärger.

Ist der Metadatenstrom perfekt mit dem hochauflösenden 4K-Video synchronisiert?

Synchronisationsprobleme sind ein Albtraum. Ich habe Fälle gesehen, in denen die Bounding Box erscheint, nachdem die Person den Rahmen bereits verlassen hat. Das macht die gesamte KI-Funktion nutzlos.

Gemäß ONVIF Profile T wird der Metadatenstrom mit dem H.265-Video über gemeinsame NTP-Zeitstempel auf Frame-Ebene synchronisiert. Das bedeutet, dass die Bounding Box-Daten und der entsprechende Videofram denselben Zeitbezug tragen, was eine präzise Ausrichtung auch über instabile Netzwerke wie 4G LTE gewährleistet.

Metadaten-Synchronisation 4K H.265 Videostream

Wie Synchronisation auf Protokollebene funktioniert

Der Schlüssel zur Synchronisation ist der RTP-Zeitstempel. Sowohl der Videostream als auch der Metadatenstrom verwenden RTP als Transportschicht. Jedes RTP-Paket enthält einen Zeitstempel, der von der internen Uhr der Kamera abgeleitet ist. Wenn die Kamera einen Videofram und ein Metadatenpaket für denselben Moment generiert, erhalten beide Pakete denselben Zeitstempelwert.

Auf der Empfängerseite gleicht die VMS diese Zeitstempel ab. Sie weiß, dass Metadatenpaket #4521 zu Videofram #4521 gehört. Daher zeichnet sie die Bounding Box auf dem richtigen Frame ein.

Was kann die Synchronisation stören?

In einer perfekten Laborumgebung ist die Synchronisation fehlerfrei. Aber im Feld können mehrere Dinge zu Abweichungen führen:

NTP-Fehlkonfiguration. Wenn die Uhr der Kamera nicht mit einem zuverlässigen NTP-Server synchronisiert ist, können die Zeitstempel über Stunden oder Tage abweichen. Konfigurieren Sie immer NTP – auch bei 4G-Bereitstellungen. Die meisten Mobilfunknetze bieten NTP-Zugriff.
Netzwerk-Jitter. Bei einer 4G-Verbindung können Pakete außer Reihenfolge ankommen. Das VMS benötigt einen Jitter-Puffer⁷ um sie neu zu sortieren. Wenn der Puffer zu klein ist, können Metadaten und Video auf dem Display unsynchronisiert erscheinen.
Hohe CPU-Auslastung. Wenn der Prozessor der Kamera überlastet ist – zum Beispiel durch die Ausführung mehrerer KI-Algorithmen bei 4K-Auflösung – kann die Metadatengenerierung hinter der Videokodierungspipeline zurückbleiben.

Praktische Ratschläge für 4G Solar PTZ-Systeme

Für unsere Kunden, die 4G Solar PTZ-Kameras an abgelegenen Standorten einsetzen, empfehle ich immer drei Dinge, um die Synchronisationsqualität zu schützen:

Stellen Sie zuerst den NTP-Server der Kamera auf einen öffentlichen Pool wie pool.ntp.org⁸ oder die NTP-Adresse Ihres Mobilfunkanbieters ein. Dies hält die Uhrzeit genau.

Stellen Sie zweitens den VMS-Jitter-Puffer auf mindestens 200 ms ein. Dies gibt dem System genügend Spielraum, um Pakete ohne sichtbare Verzögerung neu zu ordnen.

Drittens, wenn Sie 4K bei 25 fps mit mehreren aktiven KI-Regeln ausführen, sollten Sie erwägen, für den Analyse-Stream auf 15 fps zu reduzieren. Der Videostream kann bei 25 fps bleiben. Dies reduziert die CPU-Auslastung und hält die Metadaten-Pipeline reibungslos am Laufen.

Der 4K-Faktor

Die 4K-Auflösung macht die Synchronisation schwieriger, da das Datenvolumen viel größer ist. Ein einzelner 4K H.265-Frame kann 200 KB oder mehr betragen. Das Metadatenpaket für diesen Frame kann nur 500 Bytes groß sein. Wenn das Netzwerk das Videopaket verliert und das VMS eine Neuübertragung anfordert, wartet das Metadatenpaket bereits im Puffer. Das VMS muss diese Metadaten halten, bis das Video aufgeholt hat.

Deshalb sage ich unseren Partnern immer: Testen Sie Ihre gesamte Pipeline Ende-zu-Ende, bevor Sie sie bereitstellen. Richten Sie die Kamera ein, verbinden Sie sie über 4G, streamen Sie 4K H.265 mit aktivierten Metadaten und beobachten Sie die Ausgabe auf Ihrem VMS für mindestens 24 Stunden. Wenn die Synchronisation einen ganzen Tag lang hält, wird sie auch in der Produktion halten.

Verbraucht die H.265-Metadatennutzung mehr Rechenleistung als H.264?

Jeder Integrator, mit dem ich spreche, fragt nach dem Verarbeitungsaufwand. Sie wollen KI und H.265 – aber sie wollen nicht, dass die Kamera überhitzt oder im Feld einfriert.

Die H.265-Kodierung erfordert mehr Rechenleistung als H.264 – typischerweise 30 % bis 50 % mehr CPU-Last bei gleicher Auflösung und Bildrate. Die Metadatengenerierung selbst verursacht jedoch nur einen minimalen Mehraufwand, unabhängig vom Codec. Die eigentlichen Verarbeitungskosten entstehen durch die KI-Analyse, nicht durch die Verpackung der Ergebnisse in ONVIF-Metadaten.

H.265 vs H.264 Verarbeitungsleistung Metadaten-Overhead

Aufschlüsselung der Verarbeitungsbelastung

Lassen Sie mich die drei Hauptaufgaben aufschlüsseln, die in der Kamera stattfinden:

Videokodierung — Umwandlung von Rohsensordaten in komprimiertes H.264 oder H.265.
KI-Analyse — Ausführung von neuronalen Netzwerkmodellen zur Erkennung von Personen, Fahrzeugen oder anderen Objekten.
Metadaten-Verpackung — Einbettung der KI-Ergebnisse in ONVIF-konformes XML und deren Übertragung über RTP.

Aufgabe 1 ist der Punkt, an dem H.265 mehr kostet als H.264. Der HEVC-Algorithmus ist komplexer. Er verwendet größere Coding Tree Units, mehr Vorhersagemodi und fortschrittlichere Entropiekodierung. All dies erfordert mehr Rechenzyklen.

Aufgabe 2 ist unabhängig davon, ob Sie H.264 oder H.265 verwenden, gleich. Das KI-Modell läuft auf den Roh- oder dekodierten Videoframes, nicht auf dem komprimierten Stream.

Aufgabe 3 ist trivial. Das Erstellen eines kleinen XML-Pakets benötigt fast keine CPU-Zeit.

Ein Seitenvergleich

Hier ist ein grober Vergleich, basierend auf unseren internen Tests bei Loyalty-Secu, unter Verwendung einer typischen 4K PTZ-Kamera mit einem eingebetteten KI-Chipsatz:

Metrisch	H.264 + Metadaten	H.265 + Metadaten	Unterschied
CPU-Auslastung Videokodierung	~35%	~50%	+15%
CPU-Auslastung KI-Erkennung	~25%	~25%	0%
CPU-Auslastung Metadaten-Verpackung	~1%	~1%	0%
Gesamte CPU-Auslastung	~61%	~76%	+15%
Bitrate (4K, 25fps)	~8 Mbps	~4 Mbps	-50%
Metadaten-Bandbreite	~50 Kbit/s	~50 Kbit/s	0%

Die Quintessenz ist klar. H.265 kostet mehr CPU, spart aber viel Bandbreite. Die Metadatenebene ist in beiden Fällen gleich.

Wann wird das zu einem Problem?

Bei den meisten modernen Kameras mit dedizierten Hardware-Encodern (wie Hi3559 oder ähnlichen SoCs) wird die zusätzliche H.265-Last vom Hardware-Encoder und nicht von der Haupt-CPU übernommen. In der Praxis ist die CPU-Auswirkung daher viel geringer, als die reinen Zahlen vermuten lassen.

Probleme können jedoch in zwei Szenarien auftreten:

Dual-Stream-Encoding. Wenn Sie sowohl einen 4K-Hauptstream als auch einen 720p-Substream ausführen, beide in H.265, leistet der Hardware-Encoder doppelte Arbeit. Fügen Sie KI hinzu, und Sie könnten an Ihre Grenzen stoßen.
Hohe Objektanzahl. Wenn die Szene 30+ bewegte Objekte aufweist und die KI alle verfolgt, wird die Analyse-Engine – nicht der Encoder – zum Engpass.

Meine Empfehlung für Systemintegratoren

Wenn Sie in einer bandbreitenbeschränkten Umgebung wie einer 4G-Solaranlage einsetzen, verwenden Sie H.265 für den Hauptstream und H.264 für den Substream. Dies gleicht die Verarbeitungsleistung aus und spart gleichzeitig Bandbreite beim primären Aufnahmestream. Beschränken Sie die KI-Erkennung auf die Objekte, die Sie tatsächlich interessieren – normalerweise Menschen und Fahrzeuge. Aktivieren Sie die “Alle Objekte”-Verfolgung nicht, es sei denn, Sie benötigen sie wirklich.

Und überprüfen Sie immer die Betriebstemperatur der Kamera unter Volllast. Bei Loyalty-Secu durchläuft jede Einheit einen 48-stündigen Burn-in-Test bei maximaler Auflösung, maximaler Bildrate und aktivierter voller KI. Wenn sie das übersteht, wird sie auch im Feld bestehen.

Schlussfolgerung

ONVIF Profile T unterstützt die Übertragung von H.265-Metadaten vollständig. Verifizieren Sie, dass sowohl Ihre Kamera als auch Ihr VMS Profile T unterstützen, und Ihre KI-Daten werden zuverlässig fließen – auch über 4G.

1. Offizielle ONVIF-Seite für Profile T, die die Unterstützung für H.265 und Metadaten-Streaming definiert. ︎↩︎ 2. Real Time Streaming Protocol (RTSP) Spezifikation – wird für den Transport von Video- und Metadatenströmen verwendet. ︎↩︎ 3. ONVIF-Spezifikation für Analysedienste, die das XML-Schema für Erkennungsmetadaten definiert. ︎↩︎ 4. Milestone XProtect VMS – Bestätigte Unterstützung von Profile T für die intelligente Suche über Metadaten. ︎↩︎ 5. Genetec Security Center VMS – Unterstützt Profile T für die metadatenbasierte Ereignissuche. ︎↩︎ 6. Nx Witness VMS – Unterstützt Profile T ab v5.0 für die intelligente Metadatensuche. ︎↩︎ 7. Wikipedia-Erklärung zum Jitter-Puffer – unerlässlich für die Neuordnung verzögerter Pakete über 4G-Verbindungen. ︎↩︎ 8. Öffentlicher NTP-Pool empfohlen für die Kamerasynchronisation bei Remote-Installationen. ︎↩︎

Unterstützt das Profil T die Übertragung von Metadaten unter H.265-Kodierung?