L'auto-tracking si basa sul centro di gravità visivo o sulle coordinate dei keypoint scheletrici? - Produttore professionale di telecamere PTZ e sistemi di sorveglianza di sicurezza

Una volta perdevo il sonno per i fallimenti del tracciamento automatico. Una telecamera si agganciava a una persona, poi scattava improvvisamente di lato perché un'ombra confondeva l'algoritmo. Quel problema mi è costato denaro reale e clienti reali.

Il moderno tracciamento automatico PTZ si basa sulle coordinate dei punti chiave dello scheletro, non sul centro di gravità visivo. Il sistema rileva da 17 a 18 articolazioni del corpo come spalle, fianchi e ginocchia, quindi utilizza questi punti fissi per guidare il motore pan-tilt. Questo metodo resiste all'occlusione, alle interferenze delle ombre e alla sovrapposizione dei bersagli molto meglio dei vecchi approcci basati sul centroide.

Tecnologia di tracciamento automatico PTZ con punti chiave dello scheletro

Di seguito, analizzo esattamente come funziona il tracciamento dei punti chiave nelle implementazioni reali, perché supera i metodi legacy e cosa significa questo per il tuo prossimo progetto. Iniziamo.

Indice dei contenuti

Il tracciamento dello scheletro fornisce un aggancio più stabile durante movimenti complessi “simili a quelli umani”?

Ho visto telecamere basate sul centroide perdere il loro bersaglio nel momento in cui qualcuno si accovacciava per allacciarsi una scarpa. La scatola di tracciamento volava verso un'ombra vicina e la PTZ girava senza meta. Quel singolo fallimento può rovinare l'intera demo di un progetto.

Sì. Il tracciamento dello scheletro fornisce un aggancio molto più stabile perché segue la struttura articolare del corpo, non una macchia di pixel. Anche quando una persona si accovaccia, si contorce o agita le braccia, la topologia dello scheletro rimane coerente. La telecamera mantiene il suo aggancio perché traccia le ossa, non le forme.

tracciamento dello scheletro aggancio stabile durante movimenti complessi

Come il tracciamento del centroide fallisce durante il movimento

Il tradizionale tracciamento del centro di gravità funziona in questo modo: l'algoritmo sottrae lo sfondo, trova la macchia di pixel rimanente e calcola il suo centro geometrico. Quel punto centrale diventa il bersaglio della PTZ.

Il problema si manifesta rapidamente. Quando una persona alza entrambe le braccia sopra la testa, la macchia si allunga. Il centroide si sposta verso l'alto. La telecamera si inclina verso l'alto. Ora i piedi della persona escono dall'inquadratura. Quando si accovaccia, la macchia si restringe e il centroide scende. La telecamera si abbassa. Questo costante rimbalzo verticale crea un flusso video instabile e tremolante che appare poco professionale su qualsiasi Riproduzione VMS¹.

Come i punti chiave dello scheletro risolvono questo problema

Un sistema basato sui punti chiave non si preoccupa della forma generale della macchia di pixel. Identifica specifici punti di riferimento anatomici. L'algoritmo sceglie un punto di riferimento stabile, solitamente il punto medio tra le due spalle o il centro del bacino. Questi punti si muovono in modo fluido e prevedibile, anche durante azioni complesse.

Ecco cosa succede fotogramma per fotogramma:

Il modello AI rileva 17 punti chiave sul corpo umano.
Il firmware seleziona il “centro del busto” (media dei punti chiave di spalla e fianchi) come punto di ancoraggio del tracciamento.
Il Controller PID² converte la posizione pixel di tale punto di ancoraggio in comandi di angolo del motore.
A predittore di vettori di movimento³ osserva gli ultimi 5 fotogrammi per anticipare dove sarà il punto di ancoraggio nel fotogramma 6.

Questo passaggio di predizione è fondamentale. Significa che il motore inizia a muoversi prima che la persona completi la sua azione. Il risultato è un tracciamento fluido e senza ritardi.

Tabella di confronto della stabilità

Scenario	Comportamento del tracciamento del centroide	Comportamento del tracciamento dei punti chiave
La persona alza le braccia	Il centroide salta verso l'alto, la telecamera si inclina troppo in alto	Il punto medio delle spalle si muove a malapena, la telecamera rimane livellata
La persona si accovaccia	Il centroide scende bruscamente, la telecamera si abbassa	Il punto chiave dei fianchi si abbassa gradualmente, la telecamera segue fluidamente
La persona gira su se stessa	La forma della blob cambia drasticamente, il centroide vibra	La topologia dello scheletro rimane coerente, il blocco mantiene la presa
La persona trasporta un oggetto grande	L'oggetto si fonde con la blob, il centroide si sposta verso l'oggetto	I punti chiave rimangono sul corpo, l'oggetto viene ignorato

Per la mia esperienza lavorando con system integrator negli Stati Uniti e in Europa, questa differenza di stabilità è ciò che chiude gli affari. Quando David esegue una demo dal vivo per il suo cliente finale, la telecamera deve apparire intelligente. Il jitter uccide la fiducia. Il tracciamento fluido costruisce fiducia.

Come fanno i punti chiave a impedire alla telecamera di perdere il bersaglio quando questo si piega?

Una volta ho avuto un cliente in Texas che mi ha chiamato furioso. La sua PTZ basata sul centroide perdeva il tracciamento di un operaio ogni volta che l'uomo si piegava per raccogliere materiali in un cantiere. La telecamera si spostava invece su un veicolo vicino. Si tratta di un intervento tecnico da $200 per risolvere un problema software.

Quando una persona si piega, la sua silhouette in pixel cambia drasticamente, ma i suoi punti chiave scheletrici rimangono identificabili. L'algoritmo vede ancora la testa, le spalle e la colonna vertebrale. Ricalcola l'ancora di tracciamento utilizzando le articolazioni visibili e mantiene il blocco. La telecamera non perde mai il bersaglio perché lo scheletro non scompare mai.

il tracciamento dei punti chiave impedisce di perdere il bersaglio quando ci si piega

Perché piegarsi rompe il tracciamento del centroide

Quando una persona sta in piedi, la sua silhouette è alta e stretta. Il centroide si trova all'incirca all'altezza del petto. Quando si piega in avanti dalla vita, la silhouette diventa corta e larga. Il centroide salta improvvisamente in avanti e verso il basso. Per una telecamera PTZ, questo sembra un teletrasporto del bersaglio. Il motore corregge eccessivamente, supera il bersaglio e spesso si blocca su qualcos'altro.

Questo non è un raro caso limite. Nei cantieri edili, nelle fattorie e nei magazzini, le persone si piegano costantemente. Se il tuo sistema di tracciamento non è in grado di gestire questo movimento umano di base, non è pronto per l'implementazione.

La soluzione dei punti chiave: calcolo ponderato dell'ancora

Il nostro firmware AI utilizza un sistema di ancoraggio ponderato. Invece di fare affidamento su un singolo punto chiave, assegna punteggi di confidenza a ciascuna articolazione rilevata. Quando una persona si piega:

Il punto chiave della testa si sposta verso il basso ma rimane visibile.
I punti chiave delle spalle ruotano in avanti ma rimangono rilevabili.
I punti chiave dell'anca diventano il riferimento più stabile.
I punti chiave del ginocchio e della caviglia rimangono quasi invariati.

Il firmware sposta automaticamente il peso dell'ancora verso i punti chiave più stabili e visibili. Se la parte superiore del corpo è piegata e parzialmente occlusa, il sistema si basa maggiormente sui punti chiave dell'anca e delle gambe. L'ancora di tracciamento si muove lentamente e in modo prevedibile. La PTZ segue senza drammi.

Analisi di frame nel mondo reale

Ecco cosa elabora l'algoritmo in una tipica sequenza di “piegamento”:

Telaio	Punti chiave visibili	Calcolo dell'ancora	Comando del motore
Fotogramma 1 (in piedi)	Tutti 17	Punto medio della spalla	Mantieni la posizione
Fotogramma 2 (inizio piegamento)	16 (una caviglia occlusa dal corpo)	Spostamento del peso verso i fianchi	Inclinazione verso il basso 2°
Fotogramma 3 (completamente piegato)	12 (parte inferiore delle gambe dietro il busto)	Centro dell'anca come ancora primaria	Inclinazione verso il basso 4°, mantieni panoramica
Fotogramma 4 (risalita)	15	Transizione di nuovo al punto medio della spalla	Inclinazione verso l'alto 3°

L'intuizione chiave è che il sistema non va mai in panico. Non vede mai un evento di “bersaglio perso”. Si limita ad aggiustare quali punti chiave hanno il maggior peso nel calcolo dell'ancora. Questo è fondamentalmente diverso dal tracciamento del centroide, dove l'intero blob cambia forma e l'algoritmo non ha un modello interno di come appare un corpo umano.

Perché è importante per i siti remoti

Per Installazioni 4G alimentate a energia solare⁴ in luoghi come ranch, giacimenti petroliferi o zone di costruzione remote, una traccia persa significa prove perse. Non puoi riavvolgere e ri-tracciare. Il momento è andato. Il nostro sistema di punti chiave garantisce che, anche durante i movimenti umani più comuni, la telecamera mantenga un tracciamento continuo e ininterrotto. Questa è l'affidabilità che giustifica l'investimento hardware.

Il sistema può tracciare una persona accuratamente anche se è solo parzialmente visibile?

Ho testato dozzine di telecamere PTZ dietro recinzioni a maglie, accanto a barriere di cemento e vicino a veicoli parcheggiati. La maggior parte dei tracciatori di centroide fallisce nel momento in cui metà del corpo scompare dietro un ostacolo. La casella di tracciamento si blocca o salta sull'ostacolo stesso.

Sì. Il tracciamento basato su keypoint funziona anche quando è visibile solo la parte superiore del corpo o un solo lato della persona. Il modello AI deduce l'intero scheletro da osservazioni parziali. Finché 4 o 5 keypoint rimangono rilevabili, il sistema mantiene un aggancio sicuro sul bersaglio e continua un movimento PTZ fluido.

tracciamento di keypoint con visibilità parziale attraverso l'occlusione

Comprendere l'occlusione parziale sul campo

La visibilità parziale non è un caso limite. È la norma. Nelle implementazioni reali, i bersagli camminano dietro le auto, si sporgono dietro gli angoli, stanno dietro i banconi o si muovono lungo le recinzioni. In un dato momento, il 30% al 60% del corpo potrebbe essere nascosto alla vista della telecamera.

Il tracciamento del centroide collassa in queste condizioni. Quando metà della macchia di pixel scompare dietro un muro, il centroide della macchia rimanente si sposta drasticamente verso il lato visibile. Il PTZ si sposta bruscamente in quella direzione, perdendo spesso completamente il bersaglio quando emerge dall'altro lato.

Come la stima della posa gestisce i dati mancanti

I moderni modelli di stima della posa come HRNet⁵ e MobileNet-Pose⁶ sono addestrati su milioni di immagini che includono occlusioni parziali. Imparano le relazioni spaziali tra le articolazioni. Se il modello vede una spalla sinistra e una testa, può dedurre dove si trova probabilmente la spalla destra, anche se è nascosta.

Questa inferenza avviene attraverso ciò che chiamiamo “completamento dello scheletro“⁷. ". Il modello restituisce punteggi di confidenza per ogni keypoint. I keypoint visibili ottengono un'alta confidenza (0,8-0,99). I keypoint dedotti ottengono una confidenza inferiore (0,3-0,6). Il firmware di tracciamento utilizza solo keypoint ad alta confidenza per il controllo del motore, ma utilizza quelli dedotti per mantenere il suo modello interno di dove si trova la persona.

Scenari pratici

Ecco le comuni situazioni di visibilità parziale e come risponde il sistema:

Persona dietro un muretto (barriera alta fino alla vita): Il sistema vede testa, spalle, gomiti e talvolta mani. Sono 5-7 keypoint ad alta confidenza. Più che sufficiente. L'ancora rimane sul punto medio della spalla. Il tracciamento è fluido e ininterrotto.

Persona che emerge da dietro un veicolo: Mentre la persona esce, i keypoint appaiono uno per uno. Il sistema non aspetta la visibilità completa. Nel momento in cui rileva 4 keypoint affidabili su un lato del corpo, avvia il tracciamento. Quando la persona è completamente visibile, il PTZ è già agganciato e centrato.

Persona che cammina lungo una recinzione (occlusione intermittente): I pali della recinzione creano occlusioni rapide e ripetute. Il tracker del centroide si sarebbe bloccato ad ogni palo. Il sistema di punti chiave ignora queste brevi interruzioni perché il modello dello scheletro persiste tra i fotogrammi. Il firmware utilizza lo smoothing temporale per colmare i 2-3 fotogrammi in cui un palo blocca parte del corpo.

Il Ruolo dell'NPU

Questo livello di inferenza in tempo reale richiede hardware dedicato. Le nostre telecamere utilizzano un'unità di elaborazione neurale⁸ (NPU) integrata che esegue il modello di stima della posa a 30 fps. L'NPU gestisce i complessi calcoli del rilevamento dello scheletro, mentre il processore principale gestisce il controllo PID e i comandi del motore. Questa separazione garantisce che la latenza di tracciamento rimanga al di sotto dei 50 ms, anche durante eventi di occlusione complessi.

Per gli integratori come David, che tengono alla architettura del sistema, questo è un importante elemento di differenziazione. Le telecamere economiche cercano di eseguire l'IA sulla CPU principale e finiscono con tassi di rilevamento di 5-10 fps. È troppo lento per un tracciamento affidabile. Il nostro approccio con NPU dedicato garantisce prestazioni costanti indipendentemente dalla complessità della scena.

Perché il tracciamento basato sui punti chiave è superiore per mantenere il focus sul volto del bersaglio?

Ho avuto clienti che mi hanno detto che le loro vecchie telecamere tracciavano bene il corpo ma inquadravano sempre male l'immagine. La testa della persona veniva tagliata nella parte superiore dell'inquadratura, oppure la telecamera si centrava sul busto e il viso era troppo piccolo per essere identificato. Per le applicazioni di sicurezza, questo è un fallimento critico.

Il tracciamento dei punti chiave è superiore per la messa a fuoco del viso perché sa esattamente dove si trova la testa. L'algoritmo rileva direttamente i punti chiave del naso, degli occhi e delle orecchie. Il firmware può spostare l'ancora di tracciamento verso l'alto rispetto al centro del busto per mantenere il viso nella posizione ottimale dell'inquadratura. Ciò garantisce filmati identificabili ogni volta.

tracciamento basato su punti chiave che mantiene la messa a fuoco sul viso del bersaglio

Il Problema dell'Inquadratura con il Tracciamento del Centroide

Un tracker del centroide centra il centro geometrico della macchia nell'inquadratura. Per una persona in piedi, quel punto centrale si trova all'incirca alla vita o al petto inferiore. La telecamera mantiene diligentemente la vita al centro. Il risultato? La testa si trova nel quarto superiore dell'inquadratura, spesso troppo piccola per il riconoscimento facciale o persino per l'identificazione di base.

Peggio ancora, quando la persona è lontana e la telecamera zooma, l'inquadratura centrata sul centroide taglia completamente la testa. L'operatore vede un busto. Quel filmato è inutile ai fini dell'identificazione.

Come il Tracciamento dei Punti Chiave Abilita un'Inquadratura Intelligente

Con i punti chiave dello scheletro, il firmware ha una mappa completa del corpo. Sa dove si trova la testa rispetto al busto. Può applicare uno spostamento intenzionale all'ancora di tracciamento:

Inquadratura di sicurezza standard: L'ancora è impostata sul punto chiave del collo. Questo posiziona il viso nel terzo superiore dell'inquadratura, seguendo la regola dei terzi⁹. L'intero busto rimane visibile.
Modalità di identificazione: L'ancora si sposta sul punto chiave del naso. La telecamera zooma più da vicino e mantiene il viso al centro. Questa modalità si attiva automaticamente quando il bersaglio smette di muoversi.
Modalità corpo intero: L'ancora rimane al centro dell'anca. La fotocamera esegue lo zoom indietro per catturare l'intera persona, utile per l'analisi dell'andatura o l'identificazione dell'abbigliamento.

Accoppiamento dinamico dello zoom

La vera potenza deriva dall'accoppiamento dei dati dei punti chiave con il motore di zoom. Il firmware calcola la distanza in pixel tra il punto chiave della testa e i punti chiave dei piedi. Questo gli fornisce le dimensioni apparenti della persona nell'inquadratura. Quindi regola il zoom ottico¹⁰ per mantenere un rapporto di inquadratura coerente.

Modalità di tracciamento	Punto di ancoraggio	Obiettivo dello zoom	Caso d'uso
Sicurezza standard	Punto chiave del collo	La persona riempie il 60% dell'altezza del fotogramma	Sorveglianza generale
Identificazione del volto	Punto chiave del naso	La testa riempie il 30% dell'altezza del fotogramma	Controllo accessi, identificazione sospetti
Corpo intero	Centro dell'anca	La persona riempie l'85% dell'altezza del fotogramma	Analisi dell'andatura, acquisizione abbigliamento
Contesto ampio	Centro dell'anca	La persona riempie l'altezza del fotogramma 30%	Consapevolezza della scena, tracciamento del percorso

Tutto questo è automatico. L'operatore non ha bisogno di regolare manualmente lo zoom o l'inquadratura. L'IA lo gestisce in base al profilo di distribuzione configurato durante l'installazione.

Perché questo è importante per la qualità delle prove

Nelle applicazioni di sicurezza, la qualità delle riprese determina se un incidente porta a una condanna o a un caso irrisolto. Una telecamera che fornisce costantemente filmati ben inquadrati e con volti visibili vale dieci telecamere che catturano torsi sfocati. Il nostro sistema di inquadratura basato su keypoint garantisce che ogni bersaglio tracciato produca video di livello identificativo, indipendentemente dalla distanza, dalla velocità di movimento o dalla postura del corpo.

Per gli integratori che creano proposte per clienti governativi o aziendali, questa è una specifica che potete inserire nell'offerta. “Il sistema dovrà mantenere la visibilità del volto durante il tracciamento attivo a distanze fino a 150 metri.” Questa è una promessa che solo i sistemi basati su keypoint possono mantenere.

Conclusione

Il tracciamento dello scheletro tramite keypoint ha sostituito i metodi basati sul centroide come standard del settore per l'auto-tracking PTZ. Offre blocchi stabili durante movimenti complessi, gestisce l'occlusione in modo efficace e mantiene un'inquadratura corretta per l'identificazione. Se il vostro attuale sistema si basa ancora su centroidi di blob di pixel, è ora di aggiornarlo.

1. Informarsi sui sistemi di gestione video e sulle loro capacità di riproduzione. ︎↩︎ 2. Scoprire come i controller PID vengono utilizzati per convertire le posizioni dei pixel in comandi motore. ︎↩︎ 3. Scoprire come la predizione del movimento migliora la fluidità del tracciamento. ︎↩︎ 4. Esplorare le sfide e le soluzioni per la sorveglianza di siti remoti. ︎↩︎ 5. HRNet è un modello di stima della posa all'avanguardia utilizzato per un'accurata rilevazione dei keypoint. ︎↩︎ 6. MobileNet-Pose è un modello di stima della posa leggero ottimizzato per prestazioni in tempo reale. ︎↩︎ 7. Articolo di ricerca sull'inferenza di keypoint scheletrici occlusi da osservazioni parziali. ︎↩︎ 8. Le NPU sono hardware specializzati per l'esecuzione efficiente di modelli AI. ︎↩︎ 9. Comprendere la linea guida di composizione fotografica utilizzata per l'inquadratura intelligente. ︎↩︎ 10. Scoprire come funziona lo zoom ottico e i suoi vantaggi rispetto allo zoom digitale. ︎↩︎

Il tracciamento automatico si basa sul centro di gravità visivo o sulle coordinate dei punti chiave dello scheletro?