Solía perder el sueño por los fallos del seguimiento automático. Una cámara se fijaba en una persona, luego se movía bruscamente hacia un lado porque una sombra confundía el algoritmo. Ese problema me costó dinero real y clientes reales.
El seguimiento automático moderno de PTZ se basa en las coordenadas de los puntos clave del esqueleto, no en el centro de gravedad visual. El sistema detecta de 17 a 18 articulaciones del cuerpo como hombros, caderas y rodillas, y luego utiliza esos puntos fijos para guiar el motor de paneo e inclinación. Este método resiste la oclusión, la interferencia de sombras y la superposición de objetivos mucho mejor que los enfoques más antiguos basados en centroides.
Tecnología de puntos clave del esqueleto para el seguimiento automático de cámaras PTZ
A continuación, detallo exactamente cómo funciona el seguimiento de puntos clave en implementaciones del mundo real, por qué supera a los métodos heredados y qué significa esto para su próximo proyecto. Vamos a ello.
Índice
¿El seguimiento del esqueleto proporciona un bloqueo más estable durante movimientos complejos “similares a los humanos”?
He visto cámaras basadas en centroides perder su objetivo en el momento en que alguien se agacha para atarse un zapato. El cuadro de seguimiento sale volando hacia una sombra cercana y la PTZ gira sin rumbo. Ese único fallo puede arruinar la demostración de un proyecto completo.
Sí. El seguimiento del esqueleto proporciona un bloqueo mucho más estable porque sigue la estructura de las articulaciones del cuerpo, no una masa de píxeles. Incluso cuando una persona se agacha, se retuerce o agita los brazos, la topología del esqueleto se mantiene constante. La cámara mantiene su bloqueo porque sigue los huesos, no las formas.
seguimiento del esqueleto bloqueo estable durante movimientos complejos
Cómo falla el seguimiento de centroides durante el movimiento
El seguimiento tradicional del centro de gravedad funciona así: el algoritmo resta el fondo, encuentra la masa de píxeles restante y calcula su centro geométrico. Ese punto central se convierte en el objetivo de la PTZ.
El problema aparece rápido. Cuando una persona levanta ambos brazos por encima de la cabeza, la masa se alarga. El centroide se desplaza hacia arriba. La cámara se inclina hacia arriba. Ahora los pies de la persona salen del encuadre. Cuando se agachan, la masa se encoge y el centroide baja. La cámara desciende. Este rebote vertical constante crea una señal de video inestable y temblorosa que se ve poco profesional en cualquier reproducción de VMS1.
Cómo los puntos clave del esqueleto resuelven esto
A un sistema basado en puntos clave no le importa la forma general de la masa de píxeles. Identifica puntos de referencia anatómicos específicos. El algoritmo elige un punto de referencia estable, generalmente el punto medio entre los dos hombros o el centro de la pelvis. Estos puntos se mueven de manera suave y predecible, incluso durante acciones complejas.
Esto es lo que sucede cuadro por cuadro:
- El modelo de IA detecta 17 puntos clave en el cuerpo humano.
- El firmware selecciona el “centro del torso” (promedio de los puntos clave del hombro y la cadera) como ancla de seguimiento.
- En Controlador PID2 convierte la posición de píxeles de esa ancla en comandos de ángulo del motor.
- A predictor de vectores de movimiento3 observa los últimos 5 fotogramas para anticipar dónde estará el ancla en el fotograma 6.
Este paso de predicción es crítico. Significa que el motor comienza a moverse antes de que la persona complete su acción. El resultado es un seguimiento suave y sin retrasos.
Tabla de comparación de estabilidad
| Escenario | Comportamiento del seguimiento de centroide | Comportamiento del seguimiento de puntos clave |
|---|---|---|
| La persona levanta los brazos | El centroide salta hacia arriba, la cámara se inclina demasiado | El punto medio del hombro apenas se mueve, la cámara se mantiene nivelada |
| La persona se agacha | El centroide cae bruscamente, la cámara se inclina | El punto clave de la cadera baja gradualmente, la cámara sigue suavemente |
| La persona gira | La forma de la mancha cambia drásticamente, el centroide tiembla | La topología del esqueleto se mantiene consistente, el bloqueo se mantiene |
| La persona lleva un objeto grande | El objeto se fusiona con la mancha, el centroide se desplaza hacia el objeto | Los puntos clave permanecen en el cuerpo, se ignora el objeto |
En mi experiencia trabajando con integradores de sistemas en EE. UU. y Europa, esta diferencia de estabilidad es lo que cierra acuerdos. Cuando David realiza una demostración en vivo para su cliente final, la cámara necesita parecer inteligente. El jitter mata la confianza. El seguimiento suave genera confianza.
¿Cómo evitan los puntos clave que la cámara pierda el seguimiento cuando el objetivo se inclina?
Una vez tuve un cliente en Texas que me llamó furioso. Su PTZ basado en centroide perdía el rastro de un trabajador cada vez que el tipo se agachaba para recoger materiales en un sitio de construcción. La cámara se dirigía a un vehículo cercano en su lugar. Eso es una llamada de servicio de $200 para arreglar un problema de software.
Cuando una persona se agacha, su silueta de píxeles cambia drásticamente, pero sus puntos clave esqueléticos permanecen identificables. El algoritmo todavía ve la cabeza, los hombros y la columna vertebral. Recalcula el ancla de seguimiento utilizando las articulaciones visibles y mantiene el bloqueo. La cámara nunca pierde el objetivo porque el esqueleto nunca desaparece.

Por qué agacharse rompe el seguimiento de centroide
Cuando una persona está de pie, su silueta es alta y estrecha. El centroide se encuentra aproximadamente a la altura del pecho. Cuando se inclinan hacia adelante desde la cintura, la silueta se vuelve corta y ancha. El centroide salta repentinamente hacia adelante y hacia abajo. Para una cámara PTZ, esto parece que el objetivo se teletransportó. El motor se corrige en exceso, se pasa de largo y, a menudo, se bloquea en otra cosa por completo.
Este no es un caso límite raro. En sitios de construcción, granjas y almacenes, las personas se agachan constantemente. Si su sistema de seguimiento no puede manejar este movimiento humano básico, no está listo para su implementación.
La Solución de Puntos Clave: Cálculo de Ancla Ponderada
Nuestro firmware de IA utiliza un sistema de ancla ponderada. En lugar de depender de un solo punto clave, asigna puntuaciones de confianza a cada articulación detectada. Cuando una persona se agacha:
- El punto clave de la cabeza se mueve hacia abajo pero permanece visible.
- Los puntos clave de los hombros giran hacia adelante pero permanecen detectables.
- Los puntos clave de la cadera se convierten en la referencia más estable.
- Los puntos clave de las rodillas y los tobillos permanecen casi sin cambios.
El firmware cambia automáticamente el peso de su ancla hacia los puntos clave más estables y visibles. Si la parte superior del cuerpo está doblada y parcialmente ocluida, el sistema se apoya más en los puntos clave de la cadera y las piernas. El ancla de seguimiento se mueve de manera lenta y predecible. El PTZ sigue sin dramas.
Análisis de Fotogramas del Mundo Real
Aquí se muestra lo que el algoritmo procesa en una secuencia típica de “agacharse”:
| Fotograma | Puntos Clave Visibles | Cálculo de Ancla | Comando del motor |
|---|---|---|---|
| Fotograma 1 (de pie) | Los 17 | Punto medio del hombro | Mantener posición |
| Fotograma 2 (empezando a doblarse) | 16 (un tobillo ocluido por el cuerpo) | Desplazamiento del peso hacia las caderas | Inclinación hacia abajo 2° |
| Fotograma 3 (completamente doblado) | 12 (piernas inferiores detrás del torso) | Centro de la cadera como ancla principal | Inclinación hacia abajo 4°, mantener paneo |
| Fotograma 4 (volviendo a subir) | 15 | Transición de regreso al punto medio del hombro | Inclinación hacia arriba 3° |
La idea clave es que el sistema nunca entra en pánico. Nunca ve un evento de “objetivo perdido”. Simplemente ajusta qué puntos clave tienen más peso en el cálculo del ancla. Esto es fundamentalmente diferente del seguimiento de centroides, donde toda la mancha cambia de forma y el algoritmo no tiene un modelo interno de cómo se ve un cuerpo humano.
Por qué es importante para las sedes remotas
Para Despliegues alimentados por energía solar 4G4 en lugares como ranchos, campos petroleros o zonas de construcción remotas, un seguimiento perdido significa evidencia perdida. No puedes rebobinar y volver a rastrear. El momento se ha ido. Nuestro sistema de puntos clave garantiza que incluso durante los movimientos humanos más comunes, la cámara mantiene un seguimiento continuo e ininterrumpido. Esa es la fiabilidad que justifica la inversión en hardware.
¿Puede el sistema seguir a una persona con precisión incluso si solo es parcialmente visible?
He probado docenas de cámaras PTZ detrás de vallas de malla de alambre, junto a barreras de hormigón y cerca de vehículos estacionados. La mayoría de los rastreadores de centroides fallan en el momento en que la mitad del cuerpo desaparece detrás de un obstáculo. El cuadro de seguimiento se congela o salta al propio obstáculo.
Sí. El seguimiento basado en puntos clave funciona incluso cuando solo se ve la parte superior del cuerpo o un solo lado de la persona. El modelo de IA infiere el esqueleto completo a partir de observaciones parciales. Siempre que 4 o 5 puntos clave sigan siendo detectables, el sistema mantiene un bloqueo seguro en el objetivo y continúa el movimiento PTZ fluido.
seguimiento de puntos clave de visibilidad parcial a través de oclusión
Comprensión de la oclusión parcial en el campo
La visibilidad parcial no es un caso extremo. Es la norma. En implementaciones reales, los objetivos caminan detrás de automóviles, se asoman por las esquinas, se paran detrás de mostradores o se mueven a lo largo de vallas. En cualquier momento dado, entre el 30% y el 60% del cuerpo puede estar oculto a la vista de la cámara.
El seguimiento del centroide colapsa en estas condiciones. Cuando la mitad de la mancha de píxeles desaparece detrás de una pared, el centroide de la mancha restante se desplaza drásticamente hacia el lado visible. El PTZ gira bruscamente en esa dirección, a menudo perdiendo por completo el objetivo cuando emerge por el otro lado.
Cómo la estimación de pose maneja los datos faltantes
Los modelos modernos de estimación de pose como HRNet5 y MobileNet-Pose6 se entrenan con millones de imágenes que incluyen oclusión parcial. Aprenden las relaciones espaciales entre las articulaciones. Si el modelo ve un hombro izquierdo y una cabeza, puede inferir dónde probablemente esté el hombro derecho, incluso si está oculto.
Esta inferencia ocurre a través de lo que llamamos “completado del esqueleto“7. ". El modelo genera puntuaciones de confianza para cada punto clave. Los puntos clave visibles obtienen una alta confianza (0.8 a 0.99). Los puntos clave inferidos obtienen una confianza menor (0.3 a 0.6). El firmware de seguimiento utiliza solo puntos clave de alta confianza para el control del motor, pero utiliza los inferidos para mantener su modelo interno de dónde se encuentra la persona.
Escenarios prácticos
Aquí se presentan situaciones comunes de visibilidad parcial y cómo responde el sistema:
Persona detrás de un medio muro (barrera a la altura de la cintura): El sistema ve cabeza, hombros, codos y, a veces, manos. Eso son de 5 a 7 puntos clave de alta confianza. Más que suficiente. El ancla permanece en el punto medio del hombro. El seguimiento es fluido e ininterrumpido.
Persona emergiendo de detrás de un vehículo: A medida que la persona sale, los puntos clave aparecen uno por uno. El sistema no espera la visibilidad completa. En el momento en que detecta 4 puntos clave fiables en un lado del cuerpo, inicia el seguimiento. Para cuando la persona es completamente visible, el PTZ ya está bloqueado y centrado.
Persona caminando a lo largo de una valla (oclusión intermitente): Los postes de la valla crean oclusiones rápidas y repetitivas. El rastreador de centroides tartamudearía con cada poste. El sistema de puntos clave ignora estas breves interrupciones porque el modelo de esqueleto persiste entre fotogramas. El firmware utiliza suavizado temporal para salvar los 2 o 3 fotogramas en los que un poste bloquea parte del cuerpo.
El Papel de la NPU
Este nivel de inferencia en tiempo real requiere hardware dedicado. Nuestras cámaras utilizan una Unidad de Procesamiento Neuronal8 (NPU) integrada que ejecuta el modelo de estimación de pose a 30 fps. La NPU se encarga de los cálculos intensivos de detección de esqueletos, mientras que el procesador principal gestiona el control PID y los comandos del motor. Esta separación garantiza que la latencia de seguimiento se mantenga por debajo de los 50 ms, incluso durante eventos de oclusión complejos.
Para integradores como David, a quienes les importa la arquitectura del sistema, este es un diferenciador clave. Las cámaras baratas intentan ejecutar IA en la CPU principal y terminan con tasas de detección de 5 a 10 fps. Eso es demasiado lento para un seguimiento fiable. Nuestro enfoque de NPU dedicada garantiza un rendimiento constante independientemente de la complejidad de la escena.
¿Por qué el seguimiento basado en puntos clave es superior para mantener el enfoque en la cara del objetivo?
He tenido clientes que me dicen que sus cámaras antiguas rastrean el cuerpo bien, pero siempre encuadran mal la toma. La cabeza de la persona se corta en la parte superior del encuadre, o la cámara se centra en el torso y la cara es demasiado pequeña para identificarla. Para aplicaciones de seguridad, eso es un fallo crítico.
El seguimiento de puntos clave es superior para el enfoque facial porque sabe exactamente dónde está la cabeza. El algoritmo detecta directamente los puntos clave de la nariz, los ojos y las orejas. El firmware puede compensar el ancla de seguimiento hacia arriba desde el centro del torso para mantener la cara en la posición óptima del encuadre. Esto garantiza imágenes identificables en todo momento.

El Problema del Encuadre con el Seguimiento de Centroides
Un rastreador de centroides centra el punto medio geométrico de la mancha en el encuadre. Para una persona de pie, ese punto medio está aproximadamente en la cintura o en la parte inferior del pecho. La cámara mantiene diligentemente la cintura centrada. ¿El resultado? La cabeza se sitúa en el cuarto superior del encuadre, a menudo demasiado pequeña para el reconocimiento facial o incluso para la identificación básica.
Peor aún, cuando la persona está lejos y la cámara se acerca, el encuadre centrado en el centroide corta la cabeza por completo. El operador ve un torso. Esas imágenes son inútiles para fines de identificación.
Cómo el Seguimiento de Puntos Clave Permite un Encuadre Inteligente
Con los puntos clave del esqueleto, el firmware tiene un mapa completo del cuerpo. Sabe dónde está la cabeza en relación con el torso. Puede aplicar una compensación intencional al ancla de seguimiento:
- Encuadre de seguridad estándar: El ancla se establece en el punto clave del cuello. Esto coloca la cara en el tercio superior del encuadre, siguiendo la regla de los tercios9. Se mantiene visible todo el cuerpo superior.
- Modo de identificación: El ancla se desplaza al punto clave de la nariz. La cámara se acerca más y mantiene la cara centrada. Este modo se activa automáticamente cuando el objetivo deja de moverse.
- Modo cuerpo completo: El ancla permanece en el centro de la cadera. La cámara se aleja para capturar a la persona completa, útil para el análisis de la marcha o la identificación de ropa.
Acoplamiento de zoom dinámico
El verdadero poder proviene de acoplar los datos de los puntos clave con el motor de zoom. El firmware calcula la distancia en píxeles entre el punto clave de la cabeza y los puntos clave de los pies. Esto le da el tamaño aparente de la persona en el cuadro. Luego ajusta el zoom óptico10 para mantener una relación de encuadre consistente.
| Modo de seguimiento | Punto de anclaje | Objetivo de zoom | Caso práctico |
|---|---|---|---|
| Seguridad estándar | Punto clave del cuello | La persona llena el 60% de la altura del cuadro | Vigilancia general |
| Identificación facial | Punto clave de la nariz | La cabeza llena el 30% de la altura del cuadro | Control de acceso, identificación de sospechosos |
| Cuerpo completo | Centro de la cadera | La persona llena el 85% de la altura del cuadro | Análisis de la marcha, captura de ropa |
| Contexto amplio | Centro de la cadera | La persona llena la altura del cuadro 30% | Conciencia de escena, seguimiento de trayectoria |
Todo esto es automático. El operador no necesita ajustar manualmente el zoom ni el encuadre. La IA se encarga de ello basándose en el perfil de implementación configurado durante la instalación.
Por qué esto es importante para la calidad de la evidencia
En aplicaciones de seguridad, la calidad de las imágenes determina si un incidente conduce a una condena o a un caso sin resolver. Una cámara que ofrece consistentemente imágenes bien encuadradas y con rostros visibles vale diez cámaras que capturan torsos borrosos. Nuestro sistema de encuadre basado en puntos clave garantiza que cada objetivo rastreado produzca video de grado de identificación, independientemente de la distancia, la velocidad de movimiento o la postura corporal.
Para los integradores que elaboran propuestas para clientes gubernamentales o empresariales, esta es una especificación que pueden incluir en la oferta. “El sistema mantendrá la visibilidad facial durante el seguimiento activo a distancias de hasta 150 metros”. Esa es una promesa que solo los sistemas basados en puntos clave pueden cumplir.
Conclusión
El seguimiento de puntos clave esqueléticos ha reemplazado a los métodos basados en centroides como el estándar de la industria para el seguimiento automático PTZ. Ofrece bloqueos estables durante movimientos complejos, maneja la oclusión con gracia y mantiene un encuadre adecuado para la identificación. Si su sistema actual todavía depende de centroides de blobs de píxeles, es hora de actualizar.
1. Aprenda sobre los sistemas de gestión de video y sus capacidades de reproducción. ︎↩︎ 2. Aprenda cómo se utilizan los controladores PID para convertir posiciones de píxeles en comandos de motor. ︎↩︎ 3. Descubra cómo la predicción de movimiento mejora la fluidez del seguimiento. ︎↩︎ 4. Explore los desafíos y soluciones para la vigilancia de sitios remotos. ︎↩︎ 5. HRNet es un modelo de estimación de pose de última generación utilizado para una detección precisa de puntos clave. ︎↩︎ 6. MobileNet-Pose es un modelo de estimación de pose ligero optimizado para un rendimiento en tiempo real. ︎↩︎ 7. Artículo de investigación sobre la inferencia de puntos clave esqueléticos ocluidos a partir de observaciones parciales. ︎↩︎ 8. Las NPU son hardware especializado para ejecutar modelos de IA de manera eficiente. ︎↩︎ 9. Comprenda la guía de composición fotográfica utilizada para el encuadre inteligente. ︎↩︎ 10. Aprenda cómo funciona el zoom óptico y sus ventajas sobre el zoom digital. ︎↩︎