He visto que los más baratos Cámaras PTZ1 pierden su objetivo en el momento en que dos personas se cruzan. Es frustrante, costoso y, en aplicaciones de seguridad, potencialmente peligroso.
El sistema se fija en el objetivo inicial utilizando un enfoque de cuatro capas: descriptores de apariencia profunda (Re-identificación2) crean una huella visual, Filtro de Kalman3 predice el movimiento durante la oclusión, el Algoritmo Húngaro4 resuelve la asignación de ID a través de la optimización de costos, y IA de borde5 mantiene todo funcionando localmente incluso cuando el enlace 4G se cae.

A continuación, desglosaré cada capa de esta lógica de seguimiento. Explicaré cómo funciona en implementaciones PTZ solares 4G del mundo real, y por qué es importante para los integradores de sistemas que no pueden permitirse un fallo de “intercambio de objetivo” en el campo.
Índice
¿Cambiará la cámara a una segunda persona si se cruza con el objetivo original?
He visto esto suceder en obras. Dos trabajadores pasan el uno junto al otro, y de repente la cámara sigue al tipo equivocado. El cliente llama, enfadado. Envías una furgoneta. Eso es dinero perdido.
No, una PTZ correctamente diseñada no cambiará de objetivo. El sistema mantiene una huella visual del objetivo original utilizando descriptores de apariencia profunda. Incluso cuando dos personas se superponen completamente en el encuadre, el algoritmo compara continuamente los vectores de características almacenados y reasigna el ID correcto una vez que se separan.

Por qué las cámaras baratas fallan en esto
La mayoría de las cámaras de seguimiento automático económicas dependen de un solo método: cuadro delimitador11 posición. Rastrea un rectángulo en la pantalla. Cuando dos rectángulos se fusionan en uno, el sistema entra en pánico. Elige el rectángulo que aparece primero o el que está más cerca del centro de la imagen. Eso es lanzar una moneda. El cincuenta por ciento de las veces, sigue a la persona equivocada.
Cómo Re-ID previene el cambio
Nuestro sistema hace algo fundamentalmente diferente. En el momento en que fijas un objetivo, el SoC integrado ejecuta un ligero ResNet6 modelo. Extrae lo que llamamos una ‘huella visual12.’. Esto incluye:
- Histograma de color: La distribución de colores en la ropa del objetivo, de arriba a abajo.
- Relación de aspecto: La proporción de altura a anchura de la forma del cuerpo.
- Detección de accesorios: Mochilas, sombreros, bolsos. Estos añaden puntos de datos únicos.
Todo esto se comprime en un vector de 128 dimensiones. Piénsalo como un resumen matemático de cómo es esa persona. Cuando dos personas se cruzan, el sistema no solo ve “dos manchas fusionándose”. Ve dos vectores distintos. Después del cruce, compara cada objetivo emergente con el vector almacenado. La coincidencia más cercana mantiene la ID original.
Qué sucede durante la oclusión completa
Hay una breve ventana, a veces de 5 a 15 fotogramas, donde el objetivo original está completamente oculto detrás de la segunda persona. Durante este tiempo, la huella visual es inútil porque no hay nada que ver. Aquí es donde entra en juego el Filtro de Kalman. Lo explicaré en la siguiente sección.
| Método de seguimiento | Riesgo de cambio de objetivo | Usado en |
|---|---|---|
| Solo cuadro delimitador | Alto (fallo 50%+) | Cámaras de consumo económicas |
| Re-ID + posición | Bajo (fallo inferior a 5%) | Sistemas PTZ industriales |
| Re-ID + Kalman + Húngaro | Muy bajo (inferior a 1%) | Nuestra plataforma PTZ solar 4G |
Impacto en el mundo real para integradores
Para alguien como David, que instala cámaras en sitios de construcción remotos o granjas solares, un cambio de objetivo no es solo molesto. Significa que la cámara ahora apunta en la dirección equivocada. El intruso real se va sin ser grabado. El cliente ve las imágenes más tarde y pregunta por qué la cámara siguió a un repartidor en lugar del intruso. Eso es una disputa contractual esperando a suceder.
¿Utiliza la IA “Etiquetado de ID visual” para asegurarse de que sigue a la misma persona entre la multitud?
Recibo esta pregunta con frecuencia de integradores que evalúan nuestro sistema frente a la competencia. Quieren saber si el seguimiento es verdaderamente persistente o simplemente “pegajoso” hasta que algo lo confunde.
Sí, la IA asigna una etiqueta de ID visual persistente al objetivo bloqueado. Esta etiqueta es un vector de características de alta dimensión extraído por una red neuronal profunda. Funciona como una huella digital que permanece unida al objetivo, independientemente de cuántas otras personas entren en el encuadre.
Sistema de etiquetado de ID visual de IA que identifica objetivos en una multitud
Cómo funciona el etiquetado de ID visual paso a paso
Permítanme repasar la secuencia exacta que ocurre dentro del procesador de la cámara cuando inician un bloqueo de objetivo:
Paso 1: Bloqueo inicial y extracción de características
El operador hace clic en un objetivo (o la IA lo selecciona automáticamente según las reglas de zona de intrusión). En 50 milisegundos, el SoC recorta la región del objetivo y la introduce en una red de extracción de características preentrenada. La salida es un vector de 128 flotantes. Este vector se almacena en la memoria local como la “identidad de referencia”.”
Paso 2: Comparación fotograma a fotograma
En cada fotograma subsiguiente, el sistema detecta a todas las personas a la vista. Para cada persona detectada, extrae el mismo tipo de vector. Luego calcula la similitud coseno7 entre cada vector detectado y la referencia almacenada. La coincidencia con la puntuación más alta por encima de un umbral de confianza (típicamente 0.75) obtiene el ID original.
Paso 3: Actualización adaptativa
Aquí hay algo que la mayoría de la gente pasa por alto. El vector de referencia no es estático. A medida que la iluminación cambia, a medida que el objetivo gira, el sistema actualiza lentamente la referencia utilizando un promedio móvil exponencial8. Esto evita la deriva y, al mismo tiempo, se adapta a los cambios graduales de apariencia, como una persona que se quita una chaqueta.
| Etapa | Presupuesto de tiempo | Qué ocurre |
|---|---|---|
| Extracción de características | ~50ms | ResNet recorta y codifica el objetivo |
| Comparación de vectores | ~10ms por objetivo | Similitud del coseno contra todas las detecciones |
| Asignación de ID | ~5ms | El algoritmo húngaro resuelve conflictos |
| Actualización de referencia | ~2ms | El promedio móvil exponencial ajusta el vector almacenado |
Por qué esto importa en redes 4G
En un sistema PTZ solar 4G, es posible que esté transmitiendo a 15 fps para ahorrar ancho de banda. Eso significa que cada fotograma es precioso. Si el sistema pierde la ID incluso por dos fotogramas, son 130 ms de seguimiento ciego. Nuestra IA de borde maneja todo esto localmente. El enlace 4G transporta la transmisión de video al NVR o a la nube, pero la decisión de seguimiento nunca abandona la cámara. Incluso si la señal 4G se interrumpe durante 3 segundos, el PTZ sigue girando, sigue siguiendo, sigue bloqueado.
Límites de densidad de multitudes
Seré honesto sobre los límites. En una multitud de más de 30 personas muy juntas, la precisión de Re-ID disminuye. Los vectores comienzan a parecerse cuando todos visten ropa similar. Para escenarios de seguridad típicos, de 5 a 10 personas en el cuadro, el sistema mantiene una persistencia de ID correcta superior al 95%. Para escenarios de multitudes densas, recomendamos emparejarlo con una cámara gran angular fija en una configuración de doble lente para una conciencia panorámica.
¿Cómo se resuelve el error de “intercambio de objetivo” común en cámaras de seguimiento automático más baratas?
Esta es la pregunta que separa a los integradores serios de los compradores ocasionales. Si ha instalado suficientes cámaras, ha visto el error de intercambio. Sabe lo caro que es explicárselo a un cliente.
Resolvemos el intercambio de objetivos a través de una defensa de tres capas: el Algoritmo Húngaro calcula la asignación óptima global en todos los objetos rastreados, el Filtro de Kalman mantiene la predicción de trayectorias durante la oclusión y un decaimiento de confianza9 el temporizador fuerza la readquisición si la puntuación de coincidencia cae por debajo del umbral durante demasiado tiempo.
Visualización del algoritmo de resolución de intercambio de objetivos
La causa raíz del intercambio de objetivos
El intercambio de objetivos ocurre debido a un atajo perezoso en el diseño del algoritmo. Los sistemas baratos utilizan la asignación de “vecino más cercano”. Cada fotograma, miran dónde estaba el objetivo en el fotograma anterior y luego asignan la ID a cualquier detección que esté más cerca de esa posición. Esto funciona bien cuando los objetivos están muy separados. En el momento en que dos objetivos se acercan a unos pocos píxeles, el vecino más cercano se convierte en un juego de adivinanzas.
Nuestra defensa de tres capas
Capa 1: Algoritmo Húngaro para Asignación Óptima Global
En lugar de asignar IDs una por una (enfoque codicioso), resolvemos el problema de asignación de forma global. El Algoritmo Húngaro construye una matriz de costos donde:
- Las filas representan las IDs rastreadas existentes
- Las columnas representan las nuevas detecciones en el fotograma actual
- Cada celda contiene un costo ponderado que combina la distancia de apariencia, la distancia de movimiento y la distancia espacial
El algoritmo encuentra la asignación que minimiza el costo total en TODOS los objetivos simultáneamente. Esto significa que incluso si el Objetivo A está ligeramente más cerca de la Detección 2, el sistema aún podría asignar el Objetivo A a la Detección 1 si eso produce una mejor solución global.
Capa 2: Filtro de Kalman para Continuidad del Movimiento
El Filtro de Kalman mantiene una estimación del estado de cada objetivo: posición (x, y), velocidad (vx, vy) y aceleración. Cuando un objetivo desaparece detrás de otro objeto, el filtro sigue prediciendo dónde debería estar. Después de que termina la oclusión, la posición predicha se convierte en una fuerte prioridad en la matriz de costos. Un objetivo que aparece exactamente donde el filtro predijo que estaría obtiene una bonificación masiva en la puntuación de asignación.
Capa 3: Decaimiento de Confianza y Readquisición
A veces, a pesar de todas las precauciones, el sistema no está seguro. Quizás ambos objetivos lleven uniformes idénticos. Quizás la oclusión duró demasiado. En estos casos, la puntuación de confianza cae por debajo de 0.6. El sistema entra en un estado “tentativo”. Continúa rastreando al mejor candidato pero marca la transmisión con un marcador de metadatos. Si la confianza no se recupera en 30 fotogramas, el sistema puede:
- Mantener la posición y esperar al operador
- Readquirir basándose en el último vector de movimiento conocido
Por qué esto es importante para despliegues solares remotos
En un sitio con energía solar y sin personal permanente, no hay nadie para corregir manualmente un cruce. La cámara debe hacerlo bien de forma autónoma. Nuestro procesamiento en el borde asegura que, incluso a tasas de fotogramas reducidas (común cuando la batería está baja), los algoritmos de predicción llenan los vacíos. La PTZ no se sacude ni busca. Se mueve suavemente por la ruta predicha.
| Modo de fallo | Respuesta de cámara barata | Respuesta de nuestro sistema |
|---|---|---|
| Dos objetivos se cruzan a velocidad de caminata | 50% de probabilidad de cruce | El vector Re-ID se resuelve en 2-3 fotogramas |
| Objetivo completamente ocluido durante 1 segundo | Pierde el seguimiento, busca aleatoriamente | Kalman predice la ruta, PTZ sigue la predicción |
| Se cae la 4G durante el evento de cruce | Se congela o reinicia | Edge AI continúa el seguimiento autónomo |
| Tres o más objetivos se agrupan | Asigna IDs aleatoriamente | El Algoritmo Húngaro encuentra el óptimo global |
¿Puedo establecer una “zona prioritaria” donde la cámara siempre se fijará en la primera persona que vea?
Esta es una pregunta práctica de despliegue. Los integradores quieren saber si pueden definir un área de activación, como una línea de valla o una puerta, donde la cámara comience a rastrear automáticamente a quien entre primero.
Sí, puedes definir zonas de prioridad10 (también llamadas regiones de detección de intrusos) donde la cámara se bloqueará automáticamente en el primer objetivo con forma humana que entre. El sistema utiliza el límite de la zona como disparador, y luego inicia inmediatamente el pipeline completo de Re-ID y seguimiento en esa primera detección.

Cómo funcionan las zonas prioritarias en la práctica
Una zona prioritaria es un polígono que dibujas en la interfaz web de la cámara o a través del VMS. Tú defines la forma, la sensibilidad y las reglas. Cuando un objetivo cruza esa zona, la cámara lo trata como una orden de bloqueo. Aquí está la secuencia:
Opciones de configuración
Tienes varios parámetros para ajustar:
- Forma de la zona: Rectángulo, polígono o cruce de línea. El cruce de línea es útil para perímetros de vallas.
- Filtro de objetivo: Solo humano, solo vehículo o ambos. Esto evita que la cámara se fije en animales o escombros arrastrados por el viento.
- Regla de prioridad: El primero en entrar es el primero en ser bloqueado. Si una segunda persona entra mientras la cámara ya está rastreando, el sistema la ignora a menos que el primer objetivo abandone la escena por completo.
- Tiempo de permanencia: Cuánto tiempo permanece la cámara bloqueada antes de volver a patrullar. Puedes configurarlo a infinito para un rastreo permanente hasta que el objetivo salga.
La lógica de “la primera persona”
Cuando varias personas entran en la zona simultáneamente (dentro del mismo fotograma), el sistema necesita un desempate. Nuestra implementación utiliza una regla simple: el objetivo más cercano al centro de la zona tiene prioridad. Esto es configurable. Algunos integradores prefieren “el cuadro delimitador más grande” (más cercano a la cámara) o “el que se mueve más rápido” (la amenaza más probable).
Integración con patrulla PTZ
La mayoría de las implementaciones utilizan la cámara en modo de patrulla. Barre de un lado a otro en un recorrido preestablecido. Cuando se activa una zona prioritaria, la patrulla se detiene. La PTZ se fija en el objetivo y lo sigue. Una vez que el objetivo abandona el límite de rastreo definido (un área más grande alrededor de la zona prioritaria), la cámara regresa a su posición de patrulla y reanuda el recorrido.
Casos extremos y limitaciones honestas
Quiero ser transparente sobre dónde esto puede volverse complicado:
- Entrada simultánea: Si 5 personas cruzan una puerta juntas, la cámara solo puede seguir físicamente a una. Las otras quedan registradas por el lente gran angular si se utiliza una configuración de doble sensor, pero la PTZ se compromete con un solo objetivo.
- Confusión de reingreso: Si el objetivo rastreado sale y vuelve a ingresar a la zona 10 minutos después vistiendo una chaqueta diferente, el sistema lo trata como un nuevo objetivo. Re-ID funciona dentro de una sesión de seguimiento continua, no a lo largo de horas.
- Rendimiento nocturno: Por la noche, con iluminación IR, se pierde la información del color. El vector Re-ID depende más de la forma del cuerpo y el patrón de movimiento. La precisión se reduce aproximadamente entre un 10 y un 15 % en comparación con el día.
Por qué esta función ahorra dinero en sitios remotos
Para la implementación típica de David, una PTZ solar en el perímetro de un sitio de construcción, la zona prioritaria elimina las activaciones falsas. Sin ella, la cámara podría fijarse en un automóvil que pasa por la carretera detrás de la valla. Con una zona dibujada correctamente que cubra solo el interior de la línea de la valla, la cámara ignora todo lo exterior. Esto ahorra batería (menos movimientos innecesarios de la PTZ), ahorra ancho de banda (menos clips de falsas alarmas subidos por 4G) y evita la fatiga de alertas del cliente.
Conclusión
El bloqueo de objetivos en escenarios de múltiples cruces se reduce a cuatro elementos que trabajan juntos: huella visual, predicción de movimiento, matemáticas de asignación óptima y procesamiento local en el borde. Si aciertas los cuatro, la cámara se mantiene en el objetivo incluso cuando la red no lo hace.
1. Aprender los principios básicos y las aplicaciones de las cámaras Pan-Tilt-Zoom. ︎↩︎ 2. Comprender cómo la reidentificación de personas utiliza características de apariencia para rastrear individuos a través de vistas de cámara. ︎↩︎ 3. Explorar el algoritmo matemático utilizado para la predicción de movimiento y la estimación de estado. ︎↩︎ 4. Leer sobre el algoritmo de optimización combinatoria para resolver problemas de asignación. ︎↩︎ 5. Aprender cómo se realiza el procesamiento de IA localmente en los dispositivos en lugar de en la nube. ︎↩︎ 6. Comprender la arquitectura de red residual profunda utilizada para la extracción de características. ︎↩︎ 7. Aprender cómo la similitud del coseno mide el ángulo entre vectores para determinar la similitud. ︎↩︎ 8. Ver cómo se utilizan los promedios ponderados exponencialmente para actualizaciones adaptativas. ︎↩︎ 9. Comprender cómo los umbrales de confianza y los temporizadores de decaimiento evitan asignaciones falsas. ︎↩︎ 10. Descubrir cómo las zonas definidas (regiones de detección de intrusiones) activan el seguimiento automático. ︎↩︎ 11. Aprender sobre los cuadros delimitadores rectangulares utilizados en la detección y el seguimiento de objetos. ︎↩︎ 12. Comprender cómo los vectores de características (huellas visuales) identifican de forma única los objetos rastreados. ︎↩︎