¿Cómo se fija el sistema en el objetivo inicial en escenarios de cruce de múltiples objetivos?

He visto que los más baratos Cámaras PTZ¹ pierden su objetivo en el momento en que dos personas se cruzan. Es frustrante, costoso y, en aplicaciones de seguridad, potencialmente peligroso.

El sistema se fija en el objetivo inicial utilizando un enfoque de cuatro capas: descriptores de apariencia profunda (Re-identificación²) crean una huella visual, Filtro de Kalman³ predice el movimiento durante la oclusión, el Algoritmo Húngaro⁴ resuelve la asignación de ID a través de la optimización de costos, y IA de borde⁵ mantiene todo funcionando localmente incluso cuando el enlace 4G se cae.

Seguimiento de cámara PTZ de múltiples objetivos que se cruzan

A continuación, desglosaré cada capa de esta lógica de seguimiento. Explicaré cómo funciona en implementaciones PTZ solares 4G del mundo real, y por qué es importante para los integradores de sistemas que no pueden permitirse un fallo de “intercambio de objetivo” en el campo.

Índice

¿Cambiará la cámara a una segunda persona si se cruza con el objetivo original?

He visto esto suceder en obras. Dos trabajadores pasan el uno junto al otro, y de repente la cámara sigue al tipo equivocado. El cliente llama, enfadado. Envías una furgoneta. Eso es dinero perdido.

No, una PTZ correctamente diseñada no cambiará de objetivo. El sistema mantiene una huella visual del objetivo original utilizando descriptores de apariencia profunda. Incluso cuando dos personas se superponen completamente en el encuadre, el algoritmo compara continuamente los vectores de características almacenados y reasigna el ID correcto una vez que se separan.

Cámara PTZ manteniendo la fijación del objetivo durante el cruce de personas

Por qué las cámaras baratas fallan en esto

La mayoría de las cámaras de seguimiento automático económicas dependen de un solo método: cuadro delimitador¹¹ posición. Rastrea un rectángulo en la pantalla. Cuando dos rectángulos se fusionan en uno, el sistema entra en pánico. Elige el rectángulo que aparece primero o el que está más cerca del centro de la imagen. Eso es lanzar una moneda. El cincuenta por ciento de las veces, sigue a la persona equivocada.

Cómo Re-ID previene el cambio

Nuestro sistema hace algo fundamentalmente diferente. En el momento en que fijas un objetivo, el SoC integrado ejecuta un ligero ResNet⁶ modelo. Extrae lo que llamamos una ‘huella visual¹².’. Esto incluye:

Histograma de color: La distribución de colores en la ropa del objetivo, de arriba a abajo.
Relación de aspecto: La proporción de altura a anchura de la forma del cuerpo.
Detección de accesorios: Mochilas, sombreros, bolsos. Estos añaden puntos de datos únicos.

Todo esto se comprime en un vector de 128 dimensiones. Piénsalo como un resumen matemático de cómo es esa persona. Cuando dos personas se cruzan, el sistema no solo ve “dos manchas fusionándose”. Ve dos vectores distintos. Después del cruce, compara cada objetivo emergente con el vector almacenado. La coincidencia más cercana mantiene la ID original.

Qué sucede durante la oclusión completa

Hay una breve ventana, a veces de 5 a 15 fotogramas, donde el objetivo original está completamente oculto detrás de la segunda persona. Durante este tiempo, la huella visual es inútil porque no hay nada que ver. Aquí es donde entra en juego el Filtro de Kalman. Lo explicaré en la siguiente sección.

Método de seguimiento	Riesgo de cambio de objetivo	Usado en
Solo cuadro delimitador	Alto (fallo 50%+)	Cámaras de consumo económicas
Re-ID + posición	Bajo (fallo inferior a 5%)	Sistemas PTZ industriales
Re-ID + Kalman + Húngaro	Muy bajo (inferior a 1%)	Nuestra plataforma PTZ solar 4G

Impacto en el mundo real para integradores

Para alguien como David, que instala cámaras en sitios de construcción remotos o granjas solares, un cambio de objetivo no es solo molesto. Significa que la cámara ahora apunta en la dirección equivocada. El intruso real se va sin ser grabado. El cliente ve las imágenes más tarde y pregunta por qué la cámara siguió a un repartidor en lugar del intruso. Eso es una disputa contractual esperando a suceder.

¿Utiliza la IA “Etiquetado de ID visual” para asegurarse de que sigue a la misma persona entre la multitud?

Recibo esta pregunta con frecuencia de integradores que evalúan nuestro sistema frente a la competencia. Quieren saber si el seguimiento es verdaderamente persistente o simplemente “pegajoso” hasta que algo lo confunde.

Sí, la IA asigna una etiqueta de ID visual persistente al objetivo bloqueado. Esta etiqueta es un vector de características de alta dimensión extraído por una red neuronal profunda. Funciona como una huella digital que permanece unida al objetivo, independientemente de cuántas otras personas entren en el encuadre.

Sistema de etiquetado de ID visual de IA que identifica objetivos en una multitud

Cómo funciona el etiquetado de ID visual paso a paso

Permítanme repasar la secuencia exacta que ocurre dentro del procesador de la cámara cuando inician un bloqueo de objetivo:

Paso 1: Bloqueo inicial y extracción de características

El operador hace clic en un objetivo (o la IA lo selecciona automáticamente según las reglas de zona de intrusión). En 50 milisegundos, el SoC recorta la región del objetivo y la introduce en una red de extracción de características preentrenada. La salida es un vector de 128 flotantes. Este vector se almacena en la memoria local como la “identidad de referencia”.”

Paso 2: Comparación fotograma a fotograma

En cada fotograma subsiguiente, el sistema detecta a todas las personas a la vista. Para cada persona detectada, extrae el mismo tipo de vector. Luego calcula la similitud coseno⁷ entre cada vector detectado y la referencia almacenada. La coincidencia con la puntuación más alta por encima de un umbral de confianza (típicamente 0.75) obtiene el ID original.

Paso 3: Actualización adaptativa

Aquí hay algo que la mayoría de la gente pasa por alto. El vector de referencia no es estático. A medida que la iluminación cambia, a medida que el objetivo gira, el sistema actualiza lentamente la referencia utilizando un promedio móvil exponencial⁸. Esto evita la deriva y, al mismo tiempo, se adapta a los cambios graduales de apariencia, como una persona que se quita una chaqueta.

Etapa	Presupuesto de tiempo	Qué ocurre
Extracción de características	~50ms	ResNet recorta y codifica el objetivo
Comparación de vectores	~10ms por objetivo	Similitud del coseno contra todas las detecciones
Asignación de ID	~5ms	El algoritmo húngaro resuelve conflictos
Actualización de referencia	~2ms	El promedio móvil exponencial ajusta el vector almacenado

Por qué esto importa en redes 4G

En un sistema PTZ solar 4G, es posible que esté transmitiendo a 15 fps para ahorrar ancho de banda. Eso significa que cada fotograma es precioso. Si el sistema pierde la ID incluso por dos fotogramas, son 130 ms de seguimiento ciego. Nuestra IA de borde maneja todo esto localmente. El enlace 4G transporta la transmisión de video al NVR o a la nube, pero la decisión de seguimiento nunca abandona la cámara. Incluso si la señal 4G se interrumpe durante 3 segundos, el PTZ sigue girando, sigue siguiendo, sigue bloqueado.

Límites de densidad de multitudes

Seré honesto sobre los límites. En una multitud de más de 30 personas muy juntas, la precisión de Re-ID disminuye. Los vectores comienzan a parecerse cuando todos visten ropa similar. Para escenarios de seguridad típicos, de 5 a 10 personas en el cuadro, el sistema mantiene una persistencia de ID correcta superior al 95%. Para escenarios de multitudes densas, recomendamos emparejarlo con una cámara gran angular fija en una configuración de doble lente para una conciencia panorámica.

¿Cómo se resuelve el error de “intercambio de objetivo” común en cámaras de seguimiento automático más baratas?

Esta es la pregunta que separa a los integradores serios de los compradores ocasionales. Si ha instalado suficientes cámaras, ha visto el error de intercambio. Sabe lo caro que es explicárselo a un cliente.

Resolvemos el intercambio de objetivos a través de una defensa de tres capas: el Algoritmo Húngaro calcula la asignación óptima global en todos los objetos rastreados, el Filtro de Kalman mantiene la predicción de trayectorias durante la oclusión y un decaimiento de confianza⁹ el temporizador fuerza la readquisición si la puntuación de coincidencia cae por debajo del umbral durante demasiado tiempo.

Visualización del algoritmo de resolución de intercambio de objetivos

La causa raíz del intercambio de objetivos

El intercambio de objetivos ocurre debido a un atajo perezoso en el diseño del algoritmo. Los sistemas baratos utilizan la asignación de “vecino más cercano”. Cada fotograma, miran dónde estaba el objetivo en el fotograma anterior y luego asignan la ID a cualquier detección que esté más cerca de esa posición. Esto funciona bien cuando los objetivos están muy separados. En el momento en que dos objetivos se acercan a unos pocos píxeles, el vecino más cercano se convierte en un juego de adivinanzas.

Nuestra defensa de tres capas

Capa 1: Algoritmo Húngaro para Asignación Óptima Global

En lugar de asignar IDs una por una (enfoque codicioso), resolvemos el problema de asignación de forma global. El Algoritmo Húngaro construye una matriz de costos donde:

Las filas representan las IDs rastreadas existentes
Las columnas representan las nuevas detecciones en el fotograma actual
Cada celda contiene un costo ponderado que combina la distancia de apariencia, la distancia de movimiento y la distancia espacial

El algoritmo encuentra la asignación que minimiza el costo total en TODOS los objetivos simultáneamente. Esto significa que incluso si el Objetivo A está ligeramente más cerca de la Detección 2, el sistema aún podría asignar el Objetivo A a la Detección 1 si eso produce una mejor solución global.

Capa 2: Filtro de Kalman para Continuidad del Movimiento

El Filtro de Kalman mantiene una estimación del estado de cada objetivo: posición (x, y), velocidad (vx, vy) y aceleración. Cuando un objetivo desaparece detrás de otro objeto, el filtro sigue prediciendo dónde debería estar. Después de que termina la oclusión, la posición predicha se convierte en una fuerte prioridad en la matriz de costos. Un objetivo que aparece exactamente donde el filtro predijo que estaría obtiene una bonificación masiva en la puntuación de asignación.

Capa 3: Decaimiento de Confianza y Readquisición

A veces, a pesar de todas las precauciones, el sistema no está seguro. Quizás ambos objetivos lleven uniformes idénticos. Quizás la oclusión duró demasiado. En estos casos, la puntuación de confianza cae por debajo de 0.6. El sistema entra en un estado “tentativo”. Continúa rastreando al mejor candidato pero marca la transmisión con un marcador de metadatos. Si la confianza no se recupera en 30 fotogramas, el sistema puede:

Mantener la posición y esperar al operador
Readquirir basándose en el último vector de movimiento conocido

Por qué esto es importante para despliegues solares remotos

En un sitio con energía solar y sin personal permanente, no hay nadie para corregir manualmente un cruce. La cámara debe hacerlo bien de forma autónoma. Nuestro procesamiento en el borde asegura que, incluso a tasas de fotogramas reducidas (común cuando la batería está baja), los algoritmos de predicción llenan los vacíos. La PTZ no se sacude ni busca. Se mueve suavemente por la ruta predicha.

Modo de fallo	Respuesta de cámara barata	Respuesta de nuestro sistema
Dos objetivos se cruzan a velocidad de caminata	50% de probabilidad de cruce	El vector Re-ID se resuelve en 2-3 fotogramas
Objetivo completamente ocluido durante 1 segundo	Pierde el seguimiento, busca aleatoriamente	Kalman predice la ruta, PTZ sigue la predicción
Se cae la 4G durante el evento de cruce	Se congela o reinicia	Edge AI continúa el seguimiento autónomo
Tres o más objetivos se agrupan	Asigna IDs aleatoriamente	El Algoritmo Húngaro encuentra el óptimo global

¿Puedo establecer una “zona prioritaria” donde la cámara siempre se fijará en la primera persona que vea?

Esta es una pregunta práctica de despliegue. Los integradores quieren saber si pueden definir un área de activación, como una línea de valla o una puerta, donde la cámara comience a rastrear automáticamente a quien entre primero.

Sí, puedes definir zonas de prioridad¹⁰ (también llamadas regiones de detección de intrusos) donde la cámara se bloqueará automáticamente en el primer objetivo con forma humana que entre. El sistema utiliza el límite de la zona como disparador, y luego inicia inmediatamente el pipeline completo de Re-ID y seguimiento en esa primera detección.

Configuración de zona prioritaria en la interfaz de la cámara PTZ

Cómo funcionan las zonas prioritarias en la práctica

Una zona prioritaria es un polígono que dibujas en la interfaz web de la cámara o a través del VMS. Tú defines la forma, la sensibilidad y las reglas. Cuando un objetivo cruza esa zona, la cámara lo trata como una orden de bloqueo. Aquí está la secuencia:

Opciones de configuración

Tienes varios parámetros para ajustar:

Forma de la zona: Rectángulo, polígono o cruce de línea. El cruce de línea es útil para perímetros de vallas.
Filtro de objetivo: Solo humano, solo vehículo o ambos. Esto evita que la cámara se fije en animales o escombros arrastrados por el viento.
Regla de prioridad: El primero en entrar es el primero en ser bloqueado. Si una segunda persona entra mientras la cámara ya está rastreando, el sistema la ignora a menos que el primer objetivo abandone la escena por completo.
Tiempo de permanencia: Cuánto tiempo permanece la cámara bloqueada antes de volver a patrullar. Puedes configurarlo a infinito para un rastreo permanente hasta que el objetivo salga.

La lógica de “la primera persona”

Cuando varias personas entran en la zona simultáneamente (dentro del mismo fotograma), el sistema necesita un desempate. Nuestra implementación utiliza una regla simple: el objetivo más cercano al centro de la zona tiene prioridad. Esto es configurable. Algunos integradores prefieren “el cuadro delimitador más grande” (más cercano a la cámara) o “el que se mueve más rápido” (la amenaza más probable).

Integración con patrulla PTZ

La mayoría de las implementaciones utilizan la cámara en modo de patrulla. Barre de un lado a otro en un recorrido preestablecido. Cuando se activa una zona prioritaria, la patrulla se detiene. La PTZ se fija en el objetivo y lo sigue. Una vez que el objetivo abandona el límite de rastreo definido (un área más grande alrededor de la zona prioritaria), la cámara regresa a su posición de patrulla y reanuda el recorrido.

Casos extremos y limitaciones honestas

Quiero ser transparente sobre dónde esto puede volverse complicado:

Entrada simultánea: Si 5 personas cruzan una puerta juntas, la cámara solo puede seguir físicamente a una. Las otras quedan registradas por el lente gran angular si se utiliza una configuración de doble sensor, pero la PTZ se compromete con un solo objetivo.
Confusión de reingreso: Si el objetivo rastreado sale y vuelve a ingresar a la zona 10 minutos después vistiendo una chaqueta diferente, el sistema lo trata como un nuevo objetivo. Re-ID funciona dentro de una sesión de seguimiento continua, no a lo largo de horas.
Rendimiento nocturno: Por la noche, con iluminación IR, se pierde la información del color. El vector Re-ID depende más de la forma del cuerpo y el patrón de movimiento. La precisión se reduce aproximadamente entre un 10 y un 15 % en comparación con el día.

Por qué esta función ahorra dinero en sitios remotos

Para la implementación típica de David, una PTZ solar en el perímetro de un sitio de construcción, la zona prioritaria elimina las activaciones falsas. Sin ella, la cámara podría fijarse en un automóvil que pasa por la carretera detrás de la valla. Con una zona dibujada correctamente que cubra solo el interior de la línea de la valla, la cámara ignora todo lo exterior. Esto ahorra batería (menos movimientos innecesarios de la PTZ), ahorra ancho de banda (menos clips de falsas alarmas subidos por 4G) y evita la fatiga de alertas del cliente.

Conclusión

El bloqueo de objetivos en escenarios de múltiples cruces se reduce a cuatro elementos que trabajan juntos: huella visual, predicción de movimiento, matemáticas de asignación óptima y procesamiento local en el borde. Si aciertas los cuatro, la cámara se mantiene en el objetivo incluso cuando la red no lo hace.

1. Aprender los principios básicos y las aplicaciones de las cámaras Pan-Tilt-Zoom. ︎↩︎ 2. Comprender cómo la reidentificación de personas utiliza características de apariencia para rastrear individuos a través de vistas de cámara. ︎↩︎ 3. Explorar el algoritmo matemático utilizado para la predicción de movimiento y la estimación de estado. ︎↩︎ 4. Leer sobre el algoritmo de optimización combinatoria para resolver problemas de asignación. ︎↩︎ 5. Aprender cómo se realiza el procesamiento de IA localmente en los dispositivos en lugar de en la nube. ︎↩︎ 6. Comprender la arquitectura de red residual profunda utilizada para la extracción de características. ︎↩︎ 7. Aprender cómo la similitud del coseno mide el ángulo entre vectores para determinar la similitud. ︎↩︎ 8. Ver cómo se utilizan los promedios ponderados exponencialmente para actualizaciones adaptativas. ︎↩︎ 9. Comprender cómo los umbrales de confianza y los temporizadores de decaimiento evitan asignaciones falsas. ︎↩︎ 10. Descubrir cómo las zonas definidas (regiones de detección de intrusiones) activan el seguimiento automático. ︎↩︎ 11. Aprender sobre los cuadros delimitadores rectangulares utilizados en la detección y el seguimiento de objetos. ︎↩︎ 12. Comprender cómo los vectores de características (huellas visuales) identifican de forma única los objetos rastreados. ︎↩︎