...

¿Se pueden transmitir metadatos identificados de "Humano/Vehículo" a un VMS de backend?

19 de mayo de 2026 Por Han

He visto a demasiados integradores perder horas revisando grabaciones sin procesar. Tenían cámaras inteligentes pero ninguna forma de buscar por “persona” o “coche” en el backend. Eso es un problema real.

Sí, los metadatos identificados de humanos y vehículos se pueden transmitir en tiempo real a un VMS de backend. La cámara envía datos XML estructurados a través de un flujo de metadatos RTP separado junto con el video. Esto permite que su plataforma VMS realice búsquedas inteligentes, filtre por tipo de objeto y active acciones automatizadas, todo sin reprocesar el video en el lado del servidor.

Transmisión de metadatos de humanos y vehículos a VMS de backend Transmisión de metadatos de humanos y vehículos a VMS de backend

A continuación, detallo exactamente cómo funciona esto, desde los estándares de protocolo hasta los costos de ancho de banda en 4G. Si está planeando una implementación distribuida con docenas o cientos de sitios remotos, cada detalle aquí importa. Vamos a ello.

¿La cámara admite el Perfil M de ONVIF para comunicar metadatos de IA a mi VMS?

Muchos integradores asumen que si una cámara dice “compatible con ONVIF”, todas las funciones inteligentes funcionarán en cualquier VMS. He aprendido por las malas que esto no es cierto. El perfil incorrecto significa que sus metadatos no van a ninguna parte.

El estándar más adoptado para transmitir metadatos de análisis de IA desde una cámara a un VMS de terceros es ONVIF Perfil T1, no el Perfil M. El Perfil T define cómo se empaquetan y transmiten los metadatos de análisis, incluidas las clasificaciones de humanos y vehículos, a través de RTP. El Perfil M es más nuevo y todavía tiene un soporte limitado de VMS a partir de 2024. Para implementaciones confiables entre marcas hoy en día, el Perfil T es su mejor opción.

Comunicación de metadatos del Perfil T de ONVIF con VMS Comunicación de metadatos del Perfil T de ONVIF con VMS

¿Por qué el Perfil T, no el Perfil M?

Permítanme aclarar una confusión común. ONVIF tiene múltiples perfiles. Cada uno cubre un conjunto diferente de características. Aquí hay una comparación rápida:

Perfil ONVIF Propósito principal Soporte de metadatos Adopción de VMS (2024)
Perfil S Transmisión básica de video Sin metadatos de análisis Muy alta
Perfil T Vídeo avanzado + análisis Sí — flujo de metadatos XML completo Alta
Perfil M Servicios de análisis + metadatos Sí — esquema más enriquecido Bajo a moderado

El Perfil M fue diseñado específicamente para metadatos y análisis. En teoría, es la mejor opción. Pero en la práctica, la mayoría de las principales plataformas VMS — Milestone, Genetec, Avigilon — tienen un soporte maduro para el Perfil T. La adopción del Perfil M está creciendo, pero aún no ha llegado.

Por lo tanto, si está implementando cámaras en varios sitios y conectándolas a un VMS de terceros, siempre recomiendo confirmar primero el soporte del Perfil T.

¿Cómo maneja el Perfil T los metadatos?

El proceso es sencillo:

  1. Procesamiento de IA en el borde. El chip SoC integrado de la cámara ejecuta el modelo de IA. Detecta humanos, vehículos y otros objetos en tiempo real.
  2. Empaquetado XML. Los resultados de la detección — coordenadas del cuadro delimitador, clase del objeto (persona, coche, camión), puntuación de confianza — se encapsulan en un formato XML estructurado.
  3. Flujo de metadatos RTP. Estos datos XML se envían como un flujo RTP separado. Se ejecuta en paralelo con su flujo de vídeo H.265 o H.264.
  4. Sincronización de marcas de tiempo. El Perfil T asegura que las marcas de tiempo de los metadatos coincidan exactamente con las marcas de tiempo del vídeo. Cuando reproduce una grabación en su VMS, los cuadros delimitadores se alinean perfectamente con el fotograma visual. Sin desfase. Sin retraso.

¿Qué pasa con los SDK privados?

Esto es algo que veo mucho en el campo. Si está utilizando una cámara de una marca y un NVR o VMS de otra marca, podría encontrarse con un obstáculo. Muchos fabricantes — especialmente las grandes marcas chinas — utilizan por defecto sus propios protocolos SDK privados. Sus cámaras se comunican perfectamente con sus propios NVR. Pero cuando intenta conectarlas a Milestone o Blue Iris, los metadatos no se transmiten.

La solución es simple pero fácil de pasar por alto. Necesita ir a la configuración de red de la cámara y habilitar manualmente el “Servicio de Análisis ONVIF” opción. En algunas versiones de firmware, esta opción está desactivada por defecto. Sin ella, la cámara transmitirá vídeo a través de ONVIF sin problemas, pero el canal de metadatos permanecerá cerrado.

En Loyalty-Secu, habilitamos esto por defecto en todas nuestras cámaras PTZ. Nuestro equipo de ingeniería prueba cada versión de firmware para el cumplimiento del Perfil T antes de su envío. Si está trabajando con un VMS como Milestone XProtect o Genetec Security Center, el flujo de metadatos debería aparecer automáticamente una vez que agregue la cámara utilizando el controlador ONVIF.

Una lista de verificación rápida antes de la implementación

Antes de enviar las cámaras a un sitio remoto, verifique estas tres cosas:

  • El firmware de la cámara admite ONVIF Perfil T (no solo Perfil S).
  • La versión del controlador VMS es lo suficientemente reciente como para analizar los metadatos de análisis.
  • El interruptor “Servicio de Análisis ONVIF” está activado en la interfaz web de la cámara.

Esto le ahorra un desplazamiento técnico. Y para sitios en el área rural de Texas o el norte de Canadá, un desplazamiento técnico puede costar más que la cámara misma.

¿Puede mi VMS buscar los metadatos para filtrar grabaciones por tipo de vehículo o apariencia humana?

Esta es la pregunta que más escucho de los integradores de sistemas. No solo quieren alertas en vivo. Quieren poder retroceder al martes pasado a las 3 AM y encontrar cada clip que contenga una camioneta. Sin la búsqueda de metadatos, eso significa ver horas de metraje manualmente.

Sí, si su VMS admite la ingesta de metadatos de análisis, puede filtrar las grabaciones por tipo de objeto, como humano, coche, camión o vehículo de dos ruedas. La cámara transmite etiquetas de clasificación dentro del flujo de metadatos. Su VMS indexa estas etiquetas y le permite ejecutar búsquedas filtradas en cualquier rango de tiempo. Esto convierte horas de revisión manual en una consulta de 30 segundos.

VMS búsqueda de metadatos filtrada por tipo de vehículo o humano VMS búsqueda de metadatos filtrada por tipo de vehículo o humano

¿Qué campos de metadatos puede enviar la cámara?

El flujo de metadatos transporta más que solo “persona detectada”. Esto es lo que una cámara de IA bien configurada puede transmitir a su backend:

Campo de metadatos Descripción Valor de ejemplo
Cuadro delimitador Coordenadas de píxeles del objeto detectado x:320, y:180, w:120, h:200
Clase de objeto4 Tipo de objeto detectado Humano, Coche, Camión, Bicicleta
Puntuación de Confianza5 Qué tan seguro está el modelo de IA 0.92 (92%)
Dirección de Viaje Hacia dónde se mueve el objeto Norte, Sureste
Etiqueta de Comportamiento Etiqueta de evento basada en reglas Se cruzó el cable trampa7, Merodeo8
Atributos Extendidos6 Detalles avanzados de apariencia Color del vehículo: blanco, Casco: sí

¿Cómo Funciona la Indexación de VMS?

Cuando el VMS recibe el flujo de metadatos, no solo lo muestra y lo descarta. Un buen VMS indexará cada evento de metadatos contra la línea de tiempo del video. Piénselo como un motor de búsqueda para sus grabaciones de vigilancia.

Así es como funciona el flujo en la práctica:

  1. La cámara detecta una camioneta blanca entrando en una zona restringida a las 2:47 AM.
  2. Envía un paquete de metadatos XML con: clase de objeto = “camión”, color = “blanco”, comportamiento = “intrusión”, marca de tiempo = 02:47:13.
  3. El VMS almacena estos metadatos junto con el segmento de video correspondiente.
  4. Más tarde, un operador busca: “Muéstrame todos los camiones entre la medianoche y las 6 AM en la Cámara 7”.”
  5. El VMS devuelve una lista de clips con marcas de tiempo. Cada clip comienza unos segundos antes del evento de detección.

Esto es lo que la industria llama Búsqueda Inteligente3 o Búsqueda Forense. Sin ella, sus operadores solo miran pantallas. Con ella, se convierten en investigadores.

¿Qué pasa si mi VMS no admite la búsqueda de metadatos?

No todas las plataformas VMS manejan los metadatos por igual. Algunos NVR de gama baja pueden recibir el flujo de metadatos y mostrar cuadros delimitadores en vivo en la pantalla. Pero no indexan los datos. Por lo tanto, obtiene la superposición en vivo, pero sin capacidad de búsqueda.

Si búsqueda forense2 es importante para su proyecto — y para la mayoría de las implementaciones comerciales, lo es — necesita confirmar que su VMS admite búsqueda de grabación basada en metadatos. Milestone XProtect Corporate y Genetec Security Center admiten esto. Blue Iris tiene un soporte más limitado, pero aún puede activar grabaciones basadas en eventos de metadatos.

Para nuestros clientes en Loyalty-Secu, siempre recomiendo probar la cadena completa antes de un gran despliegue. Podemos enviar una unidad de muestra, la conecta a su VMS en el laboratorio y verifica que la búsqueda funcione como espera. Esto evita sorpresas en el sitio.

Una nota sobre atributos extendidos

Los atributos extendidos como el color del vehículo o el tipo de ropa dependen en gran medida del modelo de IA que se ejecuta en la cámara. No todas las cámaras admiten estos. Nuestras cámaras PTZ de seguimiento de IA de doble lente ejecutan un modelo más avanzado que puede distinguir entre sedanes, SUV y camiones. Pero una cámara tipo bala básica con IA de nivel de entrada podría solo decirle “vehículo” sin más detalles.

Siempre pregunte a su proveedor: ¿Qué clases de objetos específicas produce su modelo de IA? No asuma. Obtenga la lista por escrito. Si la hoja de especificaciones dice “Detección de humanos/vehículos”, pregunte si eso significa dos clases o diez.

¿Se transmiten los metadatos como una superposición XML o un flujo de datos separado de alta velocidad?

He tenido clientes que confunden dos cosas muy diferentes: la superposición visual que ve en la pantalla (los cuadros de colores dibujados en el video) y el flujo de datos estructurados real. Se ven similares en un monitor, pero funcionan de maneras completamente diferentes. Equivocarse en esto puede causar problemas reales.

Los metadatos se transmiten como un flujo de datos RTP separado, no como una superposición visual incrustada. Los metadatos estructurados en XML viajan en su propio canal junto con el flujo de video. Esto significa que el VMS recibe datos sin procesar y legibles por máquina que puede indexar, buscar y sobre los cuales actuar, en lugar de solo píxeles pintados en la imagen.

Comparación de flujo de metadatos XML frente a superposición de video Comparación de flujo de metadatos XML frente a superposición de video

Por qué importa esta distinción

Permítanme explicar por qué esto no es solo un detalle técnico. Tiene consecuencias reales para su proyecto.

Si los cuadros delimitadores están grabados en el video (a veces llamado “superposición OSD” o “superposición de códec inteligente”), se convierten en parte de la imagen. Puede verlos durante la reproducción. Pero su VMS no puede leerlos. Son solo píxeles de colores. El VMS no tiene idea de que un cuadro en la pantalla significa “camión”. Pierde toda capacidad de búsqueda. Pierde toda automatización. Ha vuelto a ver las imágenes con sus propios ojos.

Si los metadatos se envían como una transmisión RTP separada, el VMS recibe datos estructurados que realmente puede utilizar. Puede:

  • Indexar eventos para búsqueda forense.
  • Activar alarmas o notificaciones basadas en el tipo de objeto.
  • Reenviar metadatos a una plataforma de comando central para análisis multisitio.
  • Generar informes: “La cámara 12 detectó 347 vehículos y 89 peatones la semana pasada”.”

Cómo viajan juntas las dos transmisiones

Aquí hay una vista simplificada de lo que sale de la cámara:

Transmisión Protocolo Contenido Ancho de banda
Transmisión de video RTP sobre RTSP (H.265) Fotogramas de vídeo comprimidos 2–8 Mbps (varía)
Flujo de metadatos RTP sobre RTSP (XML) Datos de objetos, coordenadas, clases 10–50 Kbps
Flujo de audio (opcional) RTP sobre RTSP (AAC/G.711) Audio del micrófono 32–128 Kbps

Observe la diferencia de ancho de banda. El flujo de metadatos es diminuto en comparación con el vídeo. Esto es fundamental para las implementaciones 4G, que cubriré en la siguiente sección.

Configuración de la salida de metadatos

En la mayoría de las cámaras de nivel profesional, puede configurar la salida de metadatos de forma independiente del flujo de vídeo. Aquí están los ajustes clave que debe buscar:

Habilitar metadatos de análisis

En la interfaz web de la cámara, busque la sección “Evento inteligente” o “Análisis de IA”. Debería haber un interruptor para “Salida de metadatos” o “Flujo de análisis”. Actívelo.

Elegir el tipo de flujo

Algunas cámaras le permiten elegir entre:

  • Flujo de metadatos ONVIF — estándar, interoperable, funciona con VMS de terceros.
  • Metadatos del SDK privado — funciona solo con el NVR o software de la misma marca.

Para proyectos entre marcas, elija siempre ONVIF.

Desactivar superposiciones grabadas (si es necesario)

Si está enviando metadatos a un VMS que dibuja sus propios cuadros delimitadores, es posible que desee desactivar la superposición visual integrada de la cámara. De lo contrario, verá cuadros dobles: uno de la cámara y otro del VMS. Esto se ve desordenado y confunde a los operadores.

En Loyalty-Secu, nuestro firmware le brinda controles separados para “Dibujar en la transmisión” y “Enviar metadatos”. Puede habilitar uno, el otro o ambos. Esta flexibilidad es importante cuando se integra con diferentes plataformas VMS en diferentes proyectos.

Casos extremos a tener en cuenta

Hay un escenario en el que las superposiciones grabadas son realmente útiles: cuando graba directamente en una tarjeta SD dentro de la cámara sin ningún VMS. En ese caso, la superposición visual es la única forma de ver los resultados de detección durante la reproducción. Para sitios solares fuera de la red donde el enlace 4G no es confiable, esto puede servir como respaldo. La cámara graba localmente con cuadros delimitadores visibles y, cuando el enlace regresa, carga la transmisión de metadatos al VMS para su indexación.

¿Cuántos datos 4G adicionales consume el flujo continuo de metadatos por hora?

Aquí es donde las matemáticas se vuelven reales. Hablo con integradores todas las semanas que están implementando cámaras 4G alimentadas por energía solar en lugares sin fibra, sin Wi-Fi y con planes de datos celulares costosos. Cada megabyte cuenta. Quieren saber: ¿la transmisión de metadatos disparará mi factura de datos?

Una transmisión continua de metadatos generalmente consume entre 10 Kbps y 50 Kbps, lo que se traduce en aproximadamente 4.5 MB a 22.5 MB por hora. En comparación con una transmisión de video H.265 de 2–4 Mbps (que utiliza 900 MB a 1.8 GB por hora), la transmisión de metadatos agrega menos del 2% a su uso total de datos. Es extremadamente liviana y no debería ser una preocupación para los presupuestos de datos 4G.

Consumo de datos 4G ancho de banda de transmisión de metadatos Consumo de datos 4G ancho de banda de transmisión de metadatos

Desglose de los números

Permítame poner esto en una tabla para que pueda ver la comparación claramente:

Tipo de datos Bitrate Datos por hora Datos por 24 horas
Video H.265 (1080p, calidad media) 2 Mbps ~900 MB ~21.6 GB
Video H.265 (4MP, alta calidad) 4 Mbps ~1.8 GB ~43.2 GB
Transmisión de metadatos (baja actividad) 10 Kbps ~4,5 MB ~108 MB
Flujo de metadatos (alta actividad) 50 Kbps ~22,5 MB ~540 MB
Flujo de audio (G.711) 64 Kbps ~28,8 MB ~691 MB

El flujo de metadatos es un error de redondeo en comparación con el video. Incluso a 50 Kbps, lo que significaría una escena muy activa con muchos objetos detectados, estarías viendo alrededor de medio gigabyte por día. Eso no es nada.

El Ahorro Real: Transmisión Basada en Eventos

Aquí es donde los metadatos se convierten en una herramienta de ahorro, no solo en un costo. Muchos de nuestros clientes configuran sus sistemas de esta manera:

  1. Modo predeterminado: La cámara transmite solo una subcorriente de baja tasa de bits (resolución CIF o D1, ~256 Kbps) más la corriente de metadatos al VMS. Total: aproximadamente 300 Kbps.
  2. Disparador de evento: Cuando la IA detecta un humano o un vehículo, la cámara cambia a la corriente principal de alta definición (1080p o 4MP) durante 30 a 60 segundos.
  3. Volver al predeterminado: Después de que termina el evento, vuelve a la corriente de baja tasa de bits.

Este enfoque puede reducir su uso de datos 4G mensuales en 80% a 90% en comparación con la transmisión Full HD 24/7. El flujo de metadatos es lo que hace esto posible. Sin él, el VMS no sabría cuándo solicitar el flujo de alta definición.

Consideraciones sobre MTU y tamaño de paquete en 4G

Hay un detalle técnico que confunde a la gente en las redes celulares. Los paquetes XML de metadatos pueden variar en tamaño. En una escena tranquila con una persona, el paquete es pequeño, unos pocos cientos de bytes. Pero en una escena abarrotada con 30 o 40 objetos detectados, la carga útil XML puede exceder 1400 bytes.

La mayoría de las redes 4G tienen una MTU (Unidad de Transmisión Máxima) de alrededor de 1400 a 1500 bytes. Si un paquete de metadatos excede la MTU, se fragmenta. A veces, los paquetes fragmentados son descartados por la puerta de enlace celular. El resultado: su VMS muestra cuadros delimitadores que parpadean o desaparecen aleatoriamente.

La solución es simple. En la configuración de red de la cámara, establezca la MTU en 1380 bytes. Esto proporciona suficiente margen para la sobrecarga 4G. En Loyalty-Secu, establecemos esto como predeterminado en todos nuestros modelos de cámaras PTZ 4G. Pero si está utilizando otra marca, verifique esta configuración manualmente. Toma 10 segundos y puede ahorrarle una sesión de solución de problemas muy frustrante en el sitio.

Optimización para sitios con energía solar

Para implementaciones con energía solar, la eficiencia de los datos también afecta directamente su presupuesto de energía. Transmitir menos datos significa que el módem 4G consume menos energía. Menos consumo de energía significa un panel solar y una batería más pequeños. Este efecto en cascada es la razón por la que diseñamos nuestros sistemas PTZ solares 4G en torno a la transmisión basada en eventos desde el principio.

Una configuración típica para un sitio de construcción remoto o una granja:

  • Diurno (12 horas): Subflujo + solo metadatos. Datos estimados: ~200 MB. Potencia estimada para el módem 4G: ~1.5W promedio.
  • Nocturno (12 horas): Misma configuración, pero con menos eventos. Datos estimados: ~100 MB.
  • Ráfagas de eventos: Quizás 20 eventos por día, cada uno activando 60 segundos de transmisión HD. Datos estimados: ~600 MB.
  • Total diario: Menos de 1 GB. Manejable en la mayoría de los planes de datos 4G.

Este es el tipo de diseño de sistema que hace que la monitorización remota sea práctica, no solo técnicamente posible, sino económicamente viable.

Conclusión

Los metadatos de humanos y vehículos fluyen de la cámara a su VMS como un flujo XML ligero y buscable. Cuesta casi nada en ancho de banda, pero transforma la forma en que busca, automatiza y gestiona la vigilancia en sitios distribuidos.


1. Obtenga información sobre el estándar ONVIF Profile T para la transmisión avanzada de metadatos de video y análisis. ︎↩︎ 2. Descubra cómo las capacidades de búsqueda forense en las plataformas VMS permiten la recuperación rápida de eventos grabados basándose en metadatos. ︎↩︎ 3. Explore cómo la Búsqueda Inteligente en el software VMS utiliza metadatos para filtrar y localizar clips de video específicos. ︎↩︎ 4. Revise las clases de objetos comunes utilizadas en la detección de objetos basada en IA, como humano, coche, camión y bicicleta. ︎↩︎ 5. Obtenga información sobre las puntuaciones de confianza en los modelos de aprendizaje automático y cómo indican la certeza de la predicción. ︎↩︎ 6. Comprenda los atributos de metadatos extendidos, como el color del vehículo, el tipo de ropa y la detección de cascos. ︎↩︎ 7. Descubra cómo los análisis de tripwire crean límites virtuales que activan eventos cuando se cruzan. ︎↩︎ 8. Lea sobre la detección de merodeo como una regla común de comportamiento de análisis de video. ︎↩︎

¿Listo para asegurar su proyecto?

Obtenga especificaciones técnicas completas, precios al por mayor y una solución personalizada para sus requisitos específicos de PTZ y Solar.

Respuesta en 24 horas

¿Necesita una solución solar a medida para su proyecto?

Consulte nuestras guías técnicas revisadas por expertos o solicite un plan de configuración personalizado. Nuestro equipo de ingenieros le ayudará a encontrar el kit de energía solar perfecto para sus requisitos específicos de cámara PTZ.