Ho visto sistemi più economici Telecamere PTZ1 perdere il loro bersaglio nel momento in cui due persone si incrociano. È frustrante, costoso e, nelle applicazioni di sicurezza, potenzialmente pericoloso.
Il sistema blocca il bersaglio iniziale utilizzando un approccio a quattro livelli: descrittori di aspetto profondi (Re-ID2) creano un'impronta visiva, Filtro di Kalman3 prevede il movimento durante l'occlusione, l'algoritmo Ungherese4 risolve l'assegnazione dell'ID tramite ottimizzazione dei costi, e AI perimetrale5 mantiene tutto in esecuzione localmente anche quando il collegamento 4G cade.

Di seguito, analizzerò ogni livello di questa logica di tracciamento. Spiegherò come funziona nelle distribuzioni PTZ solari 4G reali e perché è importante per gli integratori di sistemi che non possono permettersi un errore di “scambio di bersaglio” sul campo.
Indice dei contenuti
La telecamera “passerà” a una seconda persona se si incrocia con il bersaglio originale?
Ho visto succedere questo nei cantieri. Due operai si passano accanto e improvvisamente la telecamera sta seguendo la persona sbagliata. Il cliente chiama, arrabbiato. Invii un furgone. Sono soldi persi.
No, una PTZ correttamente ingegnerizzata non cambierà bersaglio. Il sistema mantiene un'impronta visiva del bersaglio originale utilizzando descrittori di aspetto profondi. Anche quando due persone si sovrappongono completamente nell'inquadratura, l'algoritmo confronta continuamente i vettori di caratteristiche memorizzati e riassegna l'ID corretto una volta che si separano.

Perché le telecamere economiche falliscono in questo
La maggior parte delle telecamere di auto-tracking economiche si basa su un unico metodo: riquadro di delimitazione11 posizione. Tracciano un rettangolo sullo schermo. Quando due rettangoli si fondono in uno, il sistema va in panico. Sceglie il rettangolo che emerge per primo, o quello più vicino al centro dell'inquadratura. È un lancio di moneta. Il cinquanta percento delle volte, segue la persona sbagliata.
Come Re-ID Previene lo Scambio
Il nostro sistema fa qualcosa di fondamentalmente diverso. Nel momento in cui agganci un bersaglio, il SoC integrato esegue un leggero ResNet6 modello. Estrae quello che chiamiamo un ‘impronta visiva12.’. Questo include:
- Istogramma dei colori: La distribuzione dei colori sull'abbigliamento del bersaglio, dall'alto verso il basso.
- Rapporto d'aspetto: La proporzione altezza-larghezza della forma del corpo.
- Rilevamento accessori: Zaini, cappelli, borse. Questi aggiungono punti dati unici.
Tutto questo viene compresso in un vettore a 128 dimensioni. Pensalo come un riassunto matematico dell'aspetto di quella persona. Quando due persone si incrociano, il sistema non vede solo “due blob che si fondono”. Vede due vettori distinti. Dopo l'incrocio, confronta ogni bersaglio emergente con il vettore memorizzato. La corrispondenza più vicina mantiene l'ID originale.
Cosa Succede Durante l'Occlusione Completa
C'è una breve finestra, a volte da 5 a 15 fotogrammi, in cui il bersaglio originale è completamente nascosto dietro la seconda persona. Durante questo periodo, l'impronta visiva è inutile perché non c'è nulla da vedere. È qui che entra in gioco il filtro di Kalman. Lo spiegherò nella prossima sezione.
| Metodo di tracciamento | Rischio di scambio bersaglio | Utilizzato in |
|---|---|---|
| Solo riquadro di delimitazione | Alto (fallimento 50%+) | Fotocamere consumer economiche |
| Re-ID + posizione | Basso (fallimento inferiore a 5%) | Sistemi PTZ industriali |
| Re-ID + Kalman + Ungherese | Molto basso (inferiore a 1%) | La nostra piattaforma PTZ solare 4G |
Impatto reale per gli integratori
Per qualcuno come David, che installa telecamere in siti di costruzione remoti o fattorie solari, uno scambio di bersaglio non è solo fastidioso. Significa che la telecamera è ora puntata nella direzione sbagliata. Il vero intruso se ne va non registrato. Il cliente vede in seguito le riprese e chiede perché la telecamera ha seguito un fattorino invece del trasgressore. Questa è una disputa contrattuale in attesa di accadere.
L'IA utilizza il “tagging visivo dell'ID” per garantire che segua la stessa persona attraverso la folla?
Ricevo spesso questa domanda dagli integratori che valutano il nostro sistema rispetto ai concorrenti. Vogliono sapere se il tracciamento è veramente persistente o solo “appiccicoso” finché qualcosa non lo confonde.
Sì, l'IA assegna un tag di identificazione visiva persistente al bersaglio bloccato. Questo tag è un vettore di caratteristiche ad alta dimensionalità estratto da una rete neurale profonda. Funziona come un'impronta digitale che rimane attaccata al bersaglio, indipendentemente da quante altre persone entrano nell'inquadratura.
Sistema di tagging di identificazione visiva AI che identifica il bersaglio nella folla
Come funziona il tagging di identificazione visiva passo dopo passo
Vi illustrerò la sequenza esatta che si verifica all'interno del processore della telecamera quando si avvia un blocco del bersaglio:
Passaggio 1: Blocco iniziale ed estrazione delle caratteristiche
L'operatore fa clic su un bersaglio (o l'IA lo seleziona automaticamente in base alle regole della zona di intrusione). Entro 50 millisecondi, il SoC ritaglia la regione del bersaglio e la inserisce in una rete di estrazione delle caratteristiche pre-addestrata. L'output è un vettore di 128 float. Questo vettore viene memorizzato nella memoria locale come “identità di riferimento”.”
Passaggio 2: Confronto fotogramma per fotogramma
In ogni fotogramma successivo, il sistema rileva tutte le persone in vista. Per ogni persona rilevata, estrae lo stesso tipo di vettore. Quindi calcola il la similarità del coseno7 tra ciascun vettore rilevato e il riferimento memorizzato. La corrispondenza con il punteggio più alto al di sopra di una soglia di confidenza (tipicamente 0,75) ottiene l'ID originale.
Passaggio 3: Aggiornamento adattivo
Ecco qualcosa che la maggior parte delle persone non nota. Il vettore di riferimento non è statico. Man mano che l'illuminazione cambia, man mano che il bersaglio ruota, il sistema aggiorna lentamente il riferimento utilizzando una media mobile esponenziale8. Ciò impedisce la deriva pur adattandosi ai cambiamenti graduali dell'aspetto, come una persona che si toglie una giacca.
| Stadio | Budget di tempo | Cosa succede |
|---|---|---|
| Estrazione delle caratteristiche | ~50ms | ResNet ritaglia e codifica il bersaglio |
| Confronto vettoriale | ~10ms per bersaglio | Similitudine del coseno rispetto a tutte le rilevazioni |
| Assegnazione ID | ~5ms | L'algoritmo Ungherese risolve i conflitti |
| Aggiornamento di riferimento | ~2ms | La media mobile esponenziale regola il vettore memorizzato |
Perché questo è importante sulle reti 4G
Su un sistema PTZ solare 4G, potresti trasmettere in streaming a 15 fps per risparmiare larghezza di banda. Ciò significa che ogni fotogramma è prezioso. Se il sistema perde l'ID anche solo per due fotogrammi, si tratta di 130 ms di tracciamento cieco. La nostra IA edge gestisce tutto questo localmente. Il collegamento 4G trasporta lo streaming video all'NVR o al cloud, ma la decisione di tracciamento non lascia mai la telecamera. Anche se il segnale 4G cade per 3 secondi, il PTZ continua a ruotare, a seguire, a rimanere bloccato.
Limiti di densità della folla
Sarò onesto riguardo ai limiti. In una folla di oltre 30 persone stipate insieme, l'accuratezza del Re-ID diminuisce. I vettori iniziano ad apparire simili quando tutti indossano abiti simili. Per scenari di sicurezza tipici, con 5-10 persone inquadrate, il sistema mantiene una persistenza dell'ID corretto superiore al 95%. Per scenari di folla densa, consigliamo di abbinarlo a una telecamera grandangolare fissa in una configurazione a doppia lente per la consapevolezza panoramica.
Come si risolve il bug dello “scambio di bersaglio” comune nelle telecamere di auto-tracking più economiche?
Questa è la domanda che separa gli integratori seri dagli acquirenti occasionali. Se hai installato abbastanza telecamere, hai visto il bug dello scambio. Sai quanto è costoso spiegarlo a un cliente.
Risolviamo lo scambio di bersagli attraverso una difesa a tre livelli: l'algoritmo ungherese calcola l'assegnazione globale ottimale tra tutti gli oggetti tracciati, il filtro di Kalman mantiene la predizione della traiettoria durante l'occlusione e un decadimento della confidenza9 timer forza il riacquisizione se il punteggio di corrispondenza scende al di sotto della soglia per troppo tempo.
Visualizzazione dell'algoritmo di risoluzione dello scambio di bersagli
La causa principale dello scambio di bersagli
Lo scambio di bersagli avviene a causa di una scorciatoia pigra nella progettazione dell'algoritmo. I sistemi economici utilizzano l'assegnazione del “vicino più prossimo”. Ogni fotogramma, guardano dove si trovava il bersaglio nel fotogramma precedente, quindi assegnano l'ID a qualsiasi rilevamento più vicino a quella posizione. Questo funziona bene quando i bersagli sono distanti. Nel momento in cui due bersagli si avvicinano a pochi pixel l'uno dall'altro, il vicino più prossimo diventa un gioco d'azzardo.
La nostra difesa a tre livelli
Livello 1: Algoritmo Ungherese per l'assegnazione globale ottimale
Invece di assegnare gli ID uno alla volta (approccio goloso), risolviamo il problema di assegnazione a livello globale. L'algoritmo ungherese costruisce una matrice dei costi in cui:
- Le righe rappresentano gli ID tracciati esistenti
- Le colonne rappresentano i nuovi rilevamenti nel fotogramma corrente
- Ogni cella contiene un costo ponderato che combina la distanza dell'aspetto, la distanza del movimento e la distanza spaziale
L'algoritmo trova l'assegnazione che minimizza il costo totale per TUTTI i bersagli contemporaneamente. Ciò significa che anche se il bersaglio A è leggermente più vicino al rilevamento 2, il sistema potrebbe comunque assegnare il bersaglio A al rilevamento 1 se ciò produce una soluzione globale migliore.
Livello 2: Filtro di Kalman per la continuità del movimento
Il filtro di Kalman mantiene una stima dello stato per ogni bersaglio: posizione (x, y), velocità (vx, vy) e accelerazione. Quando un bersaglio scompare dietro un altro oggetto, il filtro continua a prevedere dove dovrebbe essere. Dopo che l'occlusione termina, la posizione prevista diventa una forte priorità nella matrice dei costi. Un bersaglio che appare esattamente dove il filtro prevedeva che sarebbe stato ottiene un bonus massiccio nel punteggio di assegnazione.
Livello 3: Decadimento della confidenza e riacquisizione
A volte, nonostante tutte le precauzioni, il sistema non è sicuro. Forse entrambi i bersagli indossano uniformi identiche. Forse l'occlusione è durata troppo a lungo. In questi casi, il punteggio di confidenza scende al di sotto di 0,6. Il sistema entra in uno stato “tentativo”. Continua a tracciare il miglior candidato ma contrassegna lo stream con un marcatore di metadati. Se la confidenza non viene recuperata entro 30 fotogrammi, il sistema può:
- Mantenere la posizione e attendere l'operatore
- Riacquisire in base all'ultimo vettore di movimento noto
Perché è importante per le installazioni solari remote
Su un sito alimentato a energia solare senza personale permanente, non c'è nessuno che possa correggere manualmente uno scambio. La telecamera deve farlo autonomamente. La nostra elaborazione edge garantisce che, anche a frame rate ridotti (comuni quando la batteria è scarica), gli algoritmi di previsione colmino le lacune. La PTZ non scatta o cerca. Si muove fluidamente lungo il percorso previsto.
| Modalità di guasto | Risposta della telecamera economica | Risposta del nostro sistema |
|---|---|---|
| Due bersagli si incrociano a passo d'uomo | 50% di possibilità di scambio | Il vettore Re-ID si risolve in 2-3 frame |
| Bersaglio completamente occluso per 1 secondo | Perde il tracciamento, cerca a caso | Kalman prevede il percorso, la PTZ segue la previsione |
| La 4G cade durante l'evento di incrocio | Si blocca o si riavvia | L'IA Edge continua il tracciamento autonomo |
| Tre o più bersagli si raggruppano | Assegna ID casualmente | L'algoritmo Ungherese trova l'ottimo globale |
Posso impostare una “zona prioritaria” in cui la telecamera bloccherà sempre la prima persona che vede?
Questa è una domanda pratica di implementazione. Gli integratori vogliono sapere se possono definire un'area di trigger, come una linea di recinzione o una porta, dove la telecamera inizia automaticamente a tracciare chiunque entri per primo.
Sì, puoi definire zone prioritarie10 (chiamate anche regioni di rilevamento intrusioni) dove la telecamera bloccherà automaticamente il primo bersaglio di forma umana che entra. Il sistema utilizza il confine della zona come trigger, quindi avvia immediatamente la pipeline completa di Re-ID e tracciamento alla prima rilevazione.

Come funzionano le zone prioritarie in pratica
Una zona prioritaria è un poligono che disegni sull'interfaccia web della telecamera o tramite il VMS. Definisci la forma, la sensibilità e le regole. Quando un bersaglio attraversa quella zona, la telecamera la tratta come un comando di blocco. Ecco la sequenza:
Opzioni di configurazione
Hai diversi parametri da regolare:
- Forma della zona: Rettangolo, poligono o attraversamento di linea. L'attraversamento di linea è utile per i perimetri delle recinzioni.
- Filtro bersaglio: Solo umano, solo veicolo o entrambi. Ciò impedisce alla telecamera di agganciarsi ad animali o detriti trasportati dal vento.
- Regola prioritaria: Primo entrato, primo bloccato. Se una seconda persona entra mentre la telecamera sta già tracciando, il sistema la ignora a meno che il primo bersaglio non lasci completamente la scena.
- Tempo di permanenza: Per quanto tempo la telecamera rimane agganciata prima di tornare alla pattuglia. Puoi impostarlo su infinito per un tracciamento permanente fino all'uscita del bersaglio.
La logica del “primo arrivato”
Quando più persone entrano nella zona contemporaneamente (nello stesso fotogramma), il sistema necessita di un criterio di spareggio. La nostra implementazione utilizza una regola semplice: il bersaglio più vicino al centro della zona ottiene la priorità. Questo è configurabile. Alcuni integratori preferiscono “riquadro di delimitazione più grande” (più vicino alla telecamera) o “movimento più veloce” (minaccia più probabile).
Integrazione con la pattuglia PTZ
La maggior parte delle implementazioni utilizza la telecamera in modalità pattuglia. Scorre avanti e indietro su un tour preimpostato. Quando una zona prioritaria si attiva, la pattuglia si interrompe. La PTZ si aggancia al bersaglio e lo segue. Una volta che il bersaglio lascia il confine di tracciamento definito (un'area più ampia attorno alla zona prioritaria), la telecamera torna alla sua posizione di pattuglia e riprende il tour.
Casi limite e limitazioni oneste
Voglio essere trasparente su dove le cose possono diventare complicate:
- Ingresso simultaneo: Se 5 persone attraversano un cancello insieme, la telecamera può seguirne fisicamente solo una. Le altre vengono registrate dall'obiettivo grandangolare se si utilizza una configurazione a doppio sensore, ma la PTZ si impegna su un bersaglio.
- Confusione da rientro: Se il bersaglio tracciato esce e rientra nella zona 10 minuti dopo indossando una giacca diversa, il sistema lo tratta come un nuovo bersaglio. Il Re-ID funziona all'interno di una sessione di tracciamento continua, non nell'arco di ore.
- Prestazioni notturne: Di notte, con illuminazione IR, le informazioni sul colore vengono perse. Il vettore Re-ID si basa maggiormente sulla forma del corpo e sul modello di movimento. L'accuratezza diminuisce di circa il 10-15% rispetto al giorno.
Perché questa funzionalità consente di risparmiare denaro per siti remoti
Per la tipica implementazione di David, una PTZ solare sul perimetro di un cantiere, la zona prioritaria elimina le false attivazioni. Senza di essa, la telecamera potrebbe agganciarsi a un'auto di passaggio sulla strada dietro la recinzione. Con una zona disegnata correttamente che copre solo l'interno della linea di recinzione, la telecamera ignora tutto ciò che si trova all'esterno. Ciò consente di risparmiare batteria (meno movimenti PTZ non necessari), risparmiare larghezza di banda (meno clip di falsi allarmi caricate tramite 4G) e risparmiare al cliente l'affaticamento da allarmi.
Conclusione
Il blocco del bersaglio in scenari multi-crossover si basa su quattro elementi che lavorano insieme: impronta visiva, predizione del movimento, matematica di assegnazione ottimale ed elaborazione locale edge. Se tutti e quattro funzionano correttamente, la telecamera rimane sul bersaglio anche quando la rete non lo fa.
1. Comprendere i principi di base e le applicazioni delle telecamere Pan-Tilt-Zoom. ︎↩︎ 2. Capire come il re-identification delle persone utilizza le caratteristiche dell'aspetto per tracciare gli individui attraverso le viste delle telecamere. ︎↩︎ 3. Esplorare l'algoritmo matematico utilizzato per la predizione del movimento e la stima dello stato. ︎↩︎ 4. Leggere sull'algoritmo di ottimizzazione combinatoria per la risoluzione dei problemi di assegnazione. ︎↩︎ 5. Imparare come l'elaborazione AI viene eseguita localmente sui dispositivi anziché nel cloud. ︎↩︎ 6. Comprendere l'architettura di rete residuale profonda utilizzata per l'estrazione delle caratteristiche. ︎↩︎ 7. Imparare come la similarità del coseno misura l'angolo tra i vettori per determinare la similarità. ︎↩︎ 8. Vedere come le medie ponderate esponenzialmente vengono utilizzate per aggiornamenti adattivi. ︎↩︎ 9. Comprendere come le soglie di confidenza e i timer di decadimento prevengono assegnazioni errate. ︎↩︎ 10. Scoprire come le zone definite (regioni di rilevamento intrusioni) attivano il tracciamento automatico. ︎↩︎ 11. Imparare sui riquadri di delimitazione rettangolari utilizzati nel rilevamento e tracciamento degli oggetti. ︎↩︎ 12. Comprendere come i vettori di caratteristiche (impronte visive) identificano in modo univoco gli oggetti tracciati. ︎↩︎