Ho visto troppi integratori perdere ore a esaminare filmati grezzi. Avevano telecamere intelligenti ma nessun modo per cercare “persona” o “auto” nel backend. Questo è un vero problema.
Sì, i metadati identificati di esseri umani e veicoli possono essere trasmessi in tempo reale a un VMS di backend. La telecamera invia dati XML strutturati tramite uno stream separato di metadati RTP accanto al video. Ciò consente alla tua piattaforma VMS di eseguire ricerche intelligenti, filtrare per tipo di oggetto e attivare azioni automatizzate, il tutto senza rielaborare il video lato server.

Di seguito, spiego esattamente come funziona, dagli standard di protocollo ai costi di larghezza di banda su 4G. Se stai pianificando un'implementazione distribuita con decine o centinaia di siti remoti, ogni dettaglio qui conta. Entriamo nel vivo.
Indice dei contenuti
La telecamera supporta ONVIF Profile M per la comunicazione di metadati AI al mio VMS?
Molti integratori presumono che se una telecamera dice “compatibile ONVIF”, tutte le funzionalità intelligenti funzioneranno su qualsiasi VMS. Ho imparato a mie spese che non è così. Il profilo sbagliato significa che i tuoi metadati non vanno da nessuna parte.
Lo standard più ampiamente adottato per la trasmissione di metadati di analisi AI da una telecamera a un VMS di terze parti è ONVIF Profilo T1, non il Profilo M. Il Profilo T definisce come i metadati di analisi, incluse le classificazioni di esseri umani e veicoli, vengono impacchettati e trasmessi su RTP. Il Profilo M è più recente e ha ancora un supporto VMS limitato nel 2024. Per implementazioni affidabili tra marchi oggi, il Profilo T è la tua scommessa più sicura.

Perché il Profilo T, non il Profilo M?
Chiarisco una confusione comune. ONVIF ha più profili. Ognuno copre un diverso set di funzionalità. Ecco un rapido confronto:
| Profilo ONVIF | Scopo primario | Supporto metadati | Adozione VMS (2024) |
|---|---|---|---|
| Profilo S | Streaming video di base | Nessun metadato di analisi | Molto alto |
| Profilo T | Video avanzato + analisi | Sì — flusso di metadati XML completo | Alto |
| Profilo M | Servizi di analisi + metadati | Sì — schema più ricco | Basso o moderato |
Il Profilo M è stato progettato specificamente per metadati e analisi. Sulla carta, è la scelta migliore. Ma in pratica, la maggior parte delle principali piattaforme VMS — Milestone, Genetec, Avigilon — ha un supporto maturo per il Profilo T. L'adozione del Profilo M è in crescita, ma non è ancora arrivata.
Quindi, se stai distribuendo telecamere in più sedi e collegandole a un VMS di terze parti, consiglio sempre di verificare prima il supporto del Profilo T.
Come gestisce il Profilo T i metadati?
Il processo è semplice:
- Elaborazione AI sul dispositivo. Il chip SoC integrato della telecamera esegue il modello AI. Rileva persone, veicoli e altri oggetti in tempo reale.
- Pacchettizzazione XML. I risultati del rilevamento — coordinate del riquadro di delimitazione, classe dell'oggetto (persona, auto, camion), punteggio di confidenza — vengono racchiusi in un formato XML strutturato.
- Flusso di metadati RTP. Questi dati XML vengono inviati come un flusso RTP separato. Viene eseguito in parallelo con il tuo flusso video H.265 o H.264.
- Sincronizzazione dei timestamp. Il Profilo T garantisce che i timestamp dei metadati corrispondano esattamente ai timestamp del video. Quando riproduci una registrazione sul tuo VMS, i riquadri di delimitazione si allineano perfettamente con il fotogramma visivo. Nessuna deriva. Nessun ritardo.
E per quanto riguarda gli SDK privati?
Ecco qualcosa che vedo spesso sul campo. Se stai usando una telecamera di una marca e un NVR o VMS di un'altra marca, potresti incontrare un ostacolo. Molti produttori — specialmente i grandi marchi cinesi — utilizzano di default i propri protocolli SDK privati. Le loro telecamere comunicano perfettamente con i loro NVR. Ma quando provi a collegarle a Milestone o Blue Iris, i metadati non vengono trasmessi.
La soluzione è semplice ma facile da trascurare. Devi accedere alle impostazioni di rete della telecamera e abilitare manualmente il “Servizio di analisi ONVIF” opzione. Su alcune versioni del firmware, questa è disattivata per impostazione predefinita. Senza di essa, la telecamera trasmetterà video tramite ONVIF senza problemi, ma il canale dei metadati rimarrà chiuso.
Noi di Loyalty-Secu abilitiamo questa opzione per impostazione predefinita su tutte le nostre telecamere PTZ. Il nostro team di ingegneri testa ogni rilascio del firmware rispetto alla conformità del Profilo T prima della spedizione. Se stai lavorando con un VMS come Milestone XProtect o Genetec Security Center, lo stream dei metadati dovrebbe apparire automaticamente una volta aggiunta la telecamera utilizzando il driver ONVIF.
Una rapida checklist prima della distribuzione
Prima di inviare le telecamere in una sede remota, verifica queste tre cose:
- Il firmware della telecamera supporta ONVIF Profile T (non solo Profile S).
- La versione del driver VMS è sufficientemente recente per analizzare i metadati di analisi.
- L'interruttore “Servizio di analisi ONVIF” è attivato nell'interfaccia web della telecamera.
Questo ti evita un intervento sul posto. E per le sedi nel Texas rurale o nel Canada settentrionale, un intervento sul posto può costare più della telecamera stessa.
Il mio VMS può cercare i metadati per filtrare le registrazioni per tipo di veicolo o aspetto umano?
Questa è la domanda che sento più spesso dagli integratori di sistemi. Non vogliono solo avvisi in tempo reale. Vogliono poter tornare a martedì scorso alle 3 del mattino e trovare ogni clip che contiene un pick-up. Senza la ricerca dei metadati, ciò significa guardare ore di filmati manualmente.
Sì, se il tuo VMS supporta l'acquisizione di metadati di analisi, puoi filtrare i filmati registrati per tipo di oggetto, come umano, auto, camion o due ruote. La telecamera trasmette tag di classificazione all'interno del flusso di metadati. Il tuo VMS indicizza questi tag e ti consente di eseguire ricerche filtrate su qualsiasi intervallo di tempo. Questo trasforma ore di revisione manuale in una query di 30 secondi.

Quali campi di metadati può inviare la telecamera?
Il flusso di metadati trasporta più di un semplice “rilevamento persona”. Ecco cosa una telecamera AI ben configurata può trasmettere al tuo backend:
| Campo Metadati | Descrizione | Valore di esempio |
|---|---|---|
| Riquadro di delimitazione | Coordinate pixel dell'oggetto rilevato | x:320, y:180, w:120, h:200 |
| Classe Oggetto4 | Tipo di oggetto rilevato | Umano, Auto, Camion, Bicicletta |
| Punteggio di fiducia5 | Quanto è sicuro il modello AI | 0.92 (92%) |
| Direzione di marcia | In quale direzione si sta muovendo l'oggetto | Nord, Sud-est |
| Tag del comportamento | Etichetta dell'evento basata su regole | Attraversamento filo spinato7, Aggiramento8 |
| Attributi estesi6 | Dettagli avanzati dell'aspetto | Colore del veicolo: bianco, Casco: sì |
Come funziona l'indicizzazione VMS?
Quando il VMS riceve lo stream di metadati, non si limita a visualizzarlo e scartarlo. Un buon VMS indicizzerà ogni evento di metadati sulla timeline video. Pensalo come un motore di ricerca per le tue riprese di sorveglianza.
Ecco come funziona il flusso in pratica:
- La telecamera rileva un pick-up bianco che entra in una zona riservata alle 2:47 del mattino.
- Invia un pacchetto di metadati XML con: classe oggetto = “camion”, colore = “bianco”, comportamento = “intrusione”, timestamp = 02:47:13.
- Il VMS memorizza questi metadati accanto al segmento video corrispondente.
- Successivamente, un operatore cerca: “Mostrami tutti i camion tra mezzanotte e le 6 del mattino sulla telecamera 7.”
- Il VMS restituisce un elenco di clip con data e ora. Ogni clip inizia qualche secondo prima dell'evento di rilevamento.
Questo è ciò che l'industria chiama Ricerca Intelligente3 o Ricerca Forense. Senza di essa, i tuoi operatori fissano solo schermi. Con essa, diventano investigatori.
E se il mio VMS non supporta la ricerca di metadati?
Non tutte le piattaforme VMS gestiscono i metadati allo stesso modo. Alcuni NVR di fascia bassa possono ricevere il flusso di metadati e visualizzare riquadri di delimitazione in tempo reale sullo schermo. Ma non indicizzano i dati. Quindi ottieni l'overlay live, ma nessuna capacità di ricerca.
Se ricerca forense2 è importante per il tuo progetto - e per la maggior parte delle implementazioni commerciali lo è - devi confermare che il tuo VMS supporti la ricerca di registrazioni basata su metadati. Milestone XProtect Corporate e Genetec Security Center supportano entrambi questo. Blue Iris ha un supporto più limitato, ma può comunque attivare registrazioni basate su eventi di metadati.
Per i nostri clienti di Loyalty-Secu, consiglio sempre di testare l'intera catena prima di un'ampia implementazione. Possiamo spedire un'unità campione, collegarla al tuo VMS in laboratorio e verificare che la ricerca funzioni come ti aspetti. Questo evita sorprese sul posto.
Una nota sugli attributi estesi
Attributi estesi come il colore del veicolo o il tipo di abbigliamento dipendono fortemente dal modello AI in esecuzione sulla telecamera. Non tutte le telecamere supportano queste funzionalità. Le nostre telecamere PTZ con tracciamento AI a doppia lente eseguono un modello più avanzato che può distinguere tra berline, SUV e camion. Ma una telecamera bullet di base con AI entry-level potrebbe solo dirti “veicolo” senza ulteriori dettagli.
Chiedi sempre al tuo fornitore: Quali classi di oggetti specifici produce il tuo modello AI? Non dare per scontato. Ottieni l'elenco per iscritto. Se la scheda tecnica dice “Rilevamento umano/veicolo”, chiedi se ciò significa due classi o dieci.
I metadati vengono trasmessi come sovrapposizione XML o come stream di dati separato ad alta velocità?
Ho avuto clienti che hanno confuso due cose molto diverse: l'overlay visivo che vedi sullo schermo (i riquadri colorati disegnati sul video) e il flusso di dati strutturati effettivo. Sembrano simili su un monitor, ma funzionano in modi completamente diversi. Sbagliare questo può causare problemi reali.
I metadati vengono trasmessi come un flusso di dati RTP separato, non come un overlay visivo bruciato. I metadati strutturati in XML viaggiano nel proprio canale accanto al flusso video. Ciò significa che il VMS riceve dati grezzi, leggibili dalla macchina, che può indicizzare, cercare e su cui agire, piuttosto che semplici pixel dipinti sull'immagine.

Perché questa distinzione è importante
Lasciate che vi spieghi perché questo non è solo un dettaglio tecnico. Ha conseguenze reali per il vostro progetto.
Se i riquadri di delimitazione sono "bruciati" nel video (a volte chiamati “sovrapposizione OSD” o “sovrapposizione smart codec”), diventano parte dell'immagine. Li potete vedere durante la riproduzione. Ma il vostro VMS non può leggerli. Sono solo pixel colorati. Il VMS non ha idea che un riquadro sullo schermo significhi “camion”. Perdete ogni capacità di ricerca. Perdete ogni automazione. Siete tornati a guardare i filmati con i vostri occhi.
Se i metadati vengono inviati come stream RTP separato, il VMS riceve dati strutturati che può effettivamente utilizzare. Può:
- Indicizzare eventi per la ricerca forense.
- Attivare allarmi o notifiche in base al tipo di oggetto.
- Inoltrare metadati a una piattaforma di comando centrale per analisi multi-sito.
- Generare report: “La telecamera 12 ha rilevato 347 veicoli e 89 pedoni la scorsa settimana.”
Come i due stream viaggiano insieme
Ecco una vista semplificata di ciò che esce dalla telecamera:
| Flusso | Protocollo | Contenuto | Larghezza di banda |
|---|---|---|---|
| Stream video | RTP su RTSP (H.265) | Fotogrammi video compressi | 2–8 Mbps (variabile) |
| Flusso di metadati | RTP su RTSP (XML) | Dati oggetto, coordinate, classi | 10–50 Kbps |
| Flusso audio (opzionale) | RTP su RTSP (AAC/G.711) | Audio del microfono | 32–128 Kbps |
Notare la differenza di larghezza di banda. Il flusso di metadati è minuscolo rispetto al video. Questo è fondamentale per le implementazioni 4G, che tratterò nella prossima sezione.
Configurazione dell'output dei metadati
Sulla maggior parte delle telecamere di livello professionale, è possibile configurare l'output dei metadati indipendentemente dal flusso video. Ecco le impostazioni chiave da cercare:
Abilita metadati di analisi
Nell'interfaccia web della telecamera, trovare la sezione “Smart Event” o “AI Analytics”. Dovrebbe esserci un interruttore per “Metadata Output” o “Analytics Stream”. Attivalo.
Scegli il tipo di flusso
Alcune telecamere consentono di scegliere tra:
- Flusso di metadati ONVIF — standard, interoperabile, funziona con VMS di terze parti.
- Metadati SDK privati — funziona solo con NVR o software della stessa marca.
Per progetti tra marchi diversi, scegli sempre ONVIF.
Disabilita sovrapposizioni bruciate (se necessario)
Se stai inviando metadati a un VMS che disegna i propri riquadri di delimitazione, potresti voler disattivare la sovrapposizione visiva integrata della fotocamera. Altrimenti, vedrai doppie caselle: una dalla fotocamera e una dal VMS. Questo sembra disordinato e confonde gli operatori.
In Loyalty-Secu, il nostro firmware ti offre controlli separati per “Disegna sullo stream” e “Invia metadati”. Puoi abilitare uno, l'altro o entrambi. Questa flessibilità è importante quando si integra con diverse piattaforme VMS in diversi progetti.
Casi limite a cui prestare attenzione
C'è uno scenario in cui le sovrapposizioni bruciate sono effettivamente utili: quando si registra direttamente su una scheda SD all'interno della fotocamera senza alcun VMS. In tal caso, la sovrapposizione visiva è l'unico modo per vedere i risultati del rilevamento durante la riproduzione. Per siti solari off-grid dove il collegamento 4G è inaffidabile, questo può servire come backup. La fotocamera registra localmente con riquadri di delimitazione visibili e, quando il collegamento torna, carica lo stream di metadati sul VMS per l'indicizzazione.
Quanti dati 4G aggiuntivi consuma lo stream continuo di metadati all'ora?
Qui la matematica diventa seria. Parlo con gli integratori ogni settimana che stanno implementando telecamere 4G alimentate a energia solare in luoghi senza fibra, senza Wi-Fi e con costosi piani dati cellulari. Ogni megabyte conta. Vogliono sapere: lo stream di metadati farà esplodere la mia bolletta dati?
Uno stream di metadati continuo consuma tipicamente tra 10 Kbps e 50 Kbps, che si traduce in circa 4,5 MB - 22,5 MB all'ora. Rispetto a uno stream video H.265 a 2–4 Mbps (che utilizza 900 MB - 1,8 GB all'ora), lo stream di metadati aggiunge meno del 2% al tuo utilizzo totale dei dati. È estremamente leggero e non dovrebbe essere una preoccupazione per i budget dati 4G.

Analisi dei numeri
Lascia che metta questo in una tabella in modo che tu possa vedere chiaramente il confronto:
| Tipo di Dati | Bitrate | Dati per ora | Dati per 24 ore |
|---|---|---|---|
| Video H.265 (1080p, qualità media) | 2 Mbps | ~900 MB | ~21,6 GB |
| Video H.265 (4MP, alta qualità) | 4 Mbps | ~1,8 GB | ~43,2 GB |
| Stream di metadati (bassa attività) | 10 Kbps | ~4,5 MB | ~108 MB |
| Flusso di metadati (alta attività) | 50 Kbps | ~22,5 MB | ~540 MB |
| Flusso audio (G.711) | 64 Kbps | ~28,8 MB | ~691 MB |
Il flusso di metadati è un errore di arrotondamento rispetto al video. Anche a 50 Kbps — il che significherebbe una scena molto trafficata con molti oggetti rilevati — si parla di circa mezzo gigabyte al giorno. Non è niente.
Il vero risparmio: streaming basato su eventi
È qui che i metadati diventano uno strumento di risparmio, non solo un costo. Molti dei nostri clienti configurano i loro sistemi in questo modo:
- Modalità predefinita: La telecamera trasmette solo un sottostream a basso bitrate (risoluzione CIF o D1, ~256 Kbps) più il flusso di metadati al VMS. Totale: circa 300 Kbps.
- Trigger di evento: Quando l'IA rileva un essere umano o un veicolo, la telecamera passa allo stream principale ad alta definizione (1080p o 4MP) per 30-60 secondi.
- Ritorno alla predefinita: Al termine dell'evento, torna allo stream a basso bitrate.
Questo approccio può ridurre il tuo utilizzo mensile di dati 4G del 80% al 90% rispetto allo streaming Full HD 24 ore su 24, 7 giorni su 7. Lo stream di metadati è ciò che rende possibile tutto ciò. Senza di esso, il VMS non saprebbe quando richiedere lo stream ad alta definizione.
Considerazioni su MTU e dimensioni dei pacchetti su 4G
C'è un dettaglio tecnico che confonde le persone sulle reti cellulari. I pacchetti XML di metadati possono variare in dimensioni. In una scena tranquilla con una persona, il pacchetto è piccolo: poche centinaia di byte. Ma in una scena affollata con 30 o 40 oggetti rilevati, il payload XML può superare 1400 byte.
La maggior parte delle reti 4G ha un MTU (Maximum Transmission Unit) di circa 1400-1500 byte. Se un pacchetto di metadati supera l'MTU, viene frammentato. A volte, i pacchetti frammentati vengono persi dal gateway cellulare. Il risultato: il tuo VMS mostra riquadri di delimitazione che lampeggiano o scompaiono casualmente.
La soluzione è semplice. Nelle impostazioni di rete della fotocamera, impostare l'MTU su 1380 byte. Questo fornisce un margine sufficiente per l'overhead 4G. Noi di Loyalty-Secu impostiamo questo valore come predefinito su tutti i nostri modelli di telecamere PTZ 4G. Ma se stai utilizzando un'altra marca, controlla manualmente questa impostazione. Richiede 10 secondi e può salvarti da una sessione di risoluzione dei problemi molto frustrante in loco.
Ottimizzazione per siti alimentati a energia solare
Per le implementazioni alimentate a energia solare, l'efficienza dei dati influisce direttamente anche sul tuo budget energetico. Trasmettere meno dati significa che il modem 4G consuma meno energia. Meno consumo energetico significa un pannello solare e una batteria più piccoli. Questo effetto a cascata è il motivo per cui abbiamo progettato i nostri sistemi PTZ solari 4G attorno allo streaming basato su eventi fin dall'inizio.
Una configurazione tipica per un cantiere remoto o una fattoria:
- Diurno (12 ore): Solo sottostream + metadati. Dati stimati: ~200 MB. Potenza stimata per modem 4G: ~1,5 W in media.
- Notturno (12 ore): Stessa configurazione, ma con meno eventi. Dati stimati: ~100 MB.
- Rajate di eventi: Forse 20 eventi al giorno, ognuno dei quali attiva 60 secondi di streaming HD. Dati stimati: ~600 MB.
- Totale giornaliero: Sotto 1 GB. Gestibile sulla maggior parte dei piani dati 4G.
Questo è il tipo di progettazione di sistema che rende il monitoraggio remoto pratico, non solo tecnicamente possibile, ma economicamente vantaggioso.
Conclusione
I metadati di persone e veicoli fluiscono dalla telecamera al tuo VMS come un flusso XML leggero e ricercabile. Costa quasi nulla in termini di larghezza di banda, ma trasforma il modo in cui cerchi, automatizzi e gestisci la sorveglianza in siti distribuiti.
1. Scopri lo standard ONVIF Profile T per lo streaming avanzato di metadati video e di analisi. ︎↩︎ 2. Scopri come le funzionalità di ricerca forense nelle piattaforme VMS consentono il recupero rapido di eventi registrati basati sui metadati. ︎↩︎ 3. Esplora come Smart Search nel software VMS utilizza i metadati per filtrare e localizzare clip video specifiche. ︎↩︎ 4. Rivedi le classi di oggetti comuni utilizzate nel rilevamento di oggetti basato sull'IA come persona, auto, camion e bicicletta. ︎↩︎ 5. Scopri i punteggi di confidenza nei modelli di machine learning e come indicano la certezza della previsione. ︎↩︎ 6. Comprendi gli attributi estesi dei metadati come il colore del veicolo, il tipo di abbigliamento e il rilevamento del casco. ︎↩︎ 7. Scopri come le analisi tripwire creano confini virtuali che attivano eventi quando vengono superati. ︎↩︎ 8. Leggi il rilevamento di stazionamento come una comune regola di comportamento per l'analisi video. ︎↩︎