Il rilevamento umano si basa sul Re-ID del corpo intero o solo su un modello testa-spalle?

Ricevo spesso questa domanda dagli integratori che stanno definendo i progetti di sicurezza perimetrale. La risposta è importante perché influisce direttamente sul tuo tasso di falsi allarmi⁵ e sulla fiducia del tuo cliente.

Il nostro sistema non si basa su un singolo modello. Utilizza un approccio di fusione multi-caratteristica che combina il rilevamento del corpo intero⁸ per l'acquisizione di bersagli a lunga distanza, un modello testa-spalle per il filtraggio dei falsi allarmi a corto raggio e il Re-ID per il tracciamento continuo attraverso le occlusioni. Ogni livello gestisce un lavoro diverso.

rilevamento umano PTZ camera algoritmo AI

Di seguito, spiego come ogni livello di rilevamento funziona nelle implementazioni reali, quando ciascun modello ha la priorità e come è possibile ottimizzare l'algoritmo per il tuo specifico sito di progetto. Lascia che ti illustri i dettagli.

Indice dei contenuti

La telecamera può identificare accuratamente una persona seduta o che striscia a terra?

Questa è una preoccupazione reale. Nei cantieri e nelle fattorie, le persone non sono sempre in posizione eretta. Se la tua telecamera cerca solo una forma umana in piedi, perderà eventi critici.

Sì, la telecamera può rilevare una persona seduta o che striscia. Il modello di rilevamento del corpo intero utilizza una CNN addestrata su migliaia di posture non standard. Riconosce le proporzioni geometriche umane e i rapporti tra gli arti, non solo una silhouette eretta. Quando la postura è ambigua, il modello testa-spalle interviene come controllo secondario.

rilevamento persona seduta striscia PTZ camera

Come il rilevamento del corpo intero gestisce le posture non standard

Il modello del corpo intero non cerca un singolo modello di “persona in piedi”. Analizza le proporzioni del corpo, gli angoli degli arti e i modelli di movimento. Una persona che striscia ha ancora un rapporto testa-busto, una lunghezza del braccio e una lunghezza della gamba che corrispondono alla geometria umana. La CNN è stata addestrata su set di dati che includono posture sedute, accovacciate, piegate e striscianti.

Nella mia esperienza di lavoro con gli integratori di sicurezza agricola, lo scenario dello strisciare si presenta più spesso di quanto si pensi. Gli intrusi spesso cercano di rimanere bassi vicino alle recinzioni. Il nostro algoritmo gestisce questo perché estrae punti chiave dello scheletro anche quando il corpo è orizzontale. Il sistema mappa le posizioni delle articolazioni e verifica se la struttura complessiva corrisponde a uno scheletro umano.

Il Ruolo dell'Analisi del Movimento

La sola rilevazione della postura statica non è sufficiente. Il sistema analizza anche i pattern di movimento. Una persona che striscia si muove diversamente da un cane o da un rotolo di erbacce. L'algoritmo esamina:

Velocità di movimento rispetto alle dimensioni dell'oggetto
Pattern di articolazione degli arti (braccia e gambe che si muovono in cicli alternati)
Cambi di direzione che indicano una navigazione intenzionale

Quando la Rilevazione Diventa Difficile?

Ci sono casi limite. Se una persona è raggomitolata in una palla stretta e completamente immobile, il sistema potrebbe impiegare più tempo per classificare il bersaglio. In queste situazioni, la logica di auto-tracking della telecamera manterrà la posizione PTZ e attenderà il movimento prima di confermare l'allarme. Ciò previene falsi negativi senza inondare la connessione 4G con allarmi incerti.

Prestazioni di Rilevazione della Postura per Distanza

Postura	Intervallo di Rilevazione Affidabile	Requisito Minimo di Pixel	Livello di Confidenza
In Piedi/Camminando	20m – 100m	32×64 pixel	Alto
Seduto/Accovacciato	10m – 60m	48×48 pixel	Alto
Strisciando/A Terra	5m – 40m	64×32 pixel	Medio-alto
Arrotondato/Fermo	3m – 20m	48×48 pixel	Medio

Il punto chiave qui è che le posture non standard richiedono più pixel nell'inquadratura. Ecco perché lo zoom ottico 40X zoom ottico⁷ è importante. Il sistema rileva un potenziale bersaglio con un grandangolo, quindi ingrandisce per ottenere una densità di pixel sufficiente per la classificazione della postura.

In che modo il Re-ID dei pedoni migliora la coerenza del tracciamento quando la persona cambia direzione?

Tracciare una persona che cammina in linea retta è facile. La vera sfida è quando si gira, si nasconde dietro un palo o cambia vestiti togliendosi una giacca. Il tracciamento del movimento standard perde il bersaglio in questi momenti.

Re-ID risolve questo problema estraendo un vettore di caratteristiche dall'aspetto del bersaglio: colore dell'abbigliamento, forma del corpo, accessori e andatura. Quando la persona riappare dopo un'occlusione o un cambio di direzione, il sistema confronta la nuova rilevazione con i vettori di caratteristiche memorizzati. Se il punteggio di corrispondenza è superiore alla soglia, il tracciamento riprende istantaneamente senza riattivare un nuovo allarme.

tracciamento Re-ID pedone telecamera PTZ occlusione

Cosa succede senza Re-ID

Senza Re-ID, un tracker di base utilizza la predizione della posizione. Indovina dove sarà il bersaglio nel frame successivo in base a velocità e direzione. Quando la persona gira di 180 gradi, la predizione fallisce. Il sistema vede quindi un “nuovo” oggetto che si muove nella direzione opposta. Ciò causa due problemi:

La PTZ potrebbe oscillare nella direzione sbagliata, perdendo completamente il bersaglio.
Il sistema genera un secondo allarme per la stessa persona, sprecando larghezza di banda sulla tua connessione 4G.

Come funziona l'estrazione del vettore di caratteristiche

Il chip AI sulla nostra fotocamera esegue una rete di embedding leggera accanto al modello di rilevamento. Per ogni bersaglio umano confermato, genera un vettore di caratteristiche di 128 o 256 dimensioni. Pensalo come un'impronta digitale numerica dell'aspetto della persona.

Questo vettore codifica:

Blocchi di colore dominanti (colore della camicia, colore dei pantaloni)
Modelli di texture (righe, tinta unita, giubbotto catarifrangente)
Proporzioni del corpo (rapporto altezza-larghezza, larghezza delle spalle)
Oggetti trasportati (zaino, cassetta degli attrezzi)

Il processo di corrispondenza

Quando il tracciamento viene interrotto, il sistema memorizza l'ultimo vettore di caratteristiche noto. Per i successivi 30-60 secondi (configurabile), ogni nuova rilevazione umana nel frame viene confrontata con questo vettore memorizzato. Il confronto utilizza la similarità del coseno¹. Se il punteggio supera 0,75 (regolabile), il sistema collega la nuova rilevazione alla traccia esistente.

Limitazioni di Re-ID da conoscere

Re-ID non è perfetto. Ha difficoltà quando:

Più persone indossano uniformi identiche (comune nei cantieri)
L'illuminazione cambia drasticamente tra la rilevazione e la ri-rilevazione
La persona rimuove o aggiunge un capospalla ingombrante

Per scenari con uniformi, consiglio di abilitare l'analisi dell'andatura² come funzionalità supplementare. Anche quando due operai indossano lo stesso gilet, i loro schemi di camminata sono sufficientemente diversi perché il sistema mantenga tracce separate.

Re-ID vs. Tracciamento del Movimento Semplice

Caratteristica	Tracciamento del Movimento Semplice	Tracciamento Re-ID
Gestisce il cambio di direzione	No — perde il bersaglio	Sì — corrisponde per aspetto
Gestisce occlusioni brevi	Parziale — massimo 1-2 secondi	Sì — fino a 60 secondi
Separazione multi-obiettivo	Scarso — gli ID si scambiano spesso	Forte — vettori unici per persona
Costo di calcolo	Molto basso	Moderato
Miglior caso d'uso	Campo aperto, bersaglio singolo	Siti complessi, più persone

L'IA attiverà un allarme se nel fotogramma sono visibili solo le gambe o il busto di una persona?

Questo accade più spesso di quanto la gente si aspetti. Una persona dietro un mezzo muro, una recinzione o macchinari parcheggiati potrebbe mostrare solo parti del corpo parziali. Se il tuo sistema necessita di un corpo intero per attivarsi, hai un punto cieco.

Sì, il sistema attiverà un avviso in caso di visibilità parziale del corpo. Il modello testa e spalle è specificamente progettato per scenari in cui è visibile solo la parte superiore del corpo. Per i casi in cui è visibile solo la parte inferiore del corpo (gambe visibili sotto una barriera), il modello a corpo intero utilizza il rilevamento di coppie di arti — riconoscendo due gambe con schemi di andatura umana come prova sufficiente per classificare il bersaglio come umano.

telecamera di sicurezza con IA per il rilevamento parziale del corpo

Come funziona il rilevamento parziale nella pratica

La pipeline di rilevamento esegue più classificatori in parallelo. Non attende un singolo “persona intera” riquadro di delimitazione⁴. Invece, cerca gruppi di parti del corpo che statisticamente appartengono a un essere umano.

Solo parte superiore del corpo (testa, spalle, busto)

Questo è il caso più semplice. Il modello testa e spalle è stato creato esattamente per questo scenario. La forma a “U” rovesciata di testa e spalle umane è una delle forme più distintive in natura. Nessun animale o oggetto comune la replica alla stessa scala e proporzione.

Quando è visibile solo la parte superiore del corpo:

Il sistema esegue prima il classificatore testa e spalle
Se la confidenza supera 0,8, si attiva immediatamente
La PTZ tenta quindi di zoomare o ruotare per rivelare più del bersaglio per una conferma secondaria

Solo parte inferiore del corpo (gambe, piedi)

Questo è più difficile. Due forme verticali che si muovono in schemi alternati potrebbero essere gambe umane, ma potrebbero anche essere pali di una recinzione che ondeggiano al vento. Il sistema utilizza tre controlli:

Rapporto d'aspetto: Le gambe umane hanno un rapporto larghezza-altezza specifico che differisce da pali o montanti.
Articolazione: Le gambe si piegano al ginocchio. Il sistema cerca cambiamenti angolari periodici in un punto intermedio.
Frequenza dell'andatura: La camminata umana ha una cadenza di circa 1,5-2,5 passi al secondo. Il sistema verifica se la frequenza del movimento rientra in questo intervallo.

Se tutti e tre i controlli vengono superati, il sistema classifica il bersaglio come “probabile umano” e attiva un avviso di bassa confidenza. Quindi comanda alla PTZ di riposizionarsi per un angolo migliore.

Solo Torso (Senza Testa, Senza Gambe)

Questo è lo scenario di rilevamento parziale più impegnativo. Un torso senza testa o arti potrebbe essere una persona dietro un muro, oppure potrebbe essere un oggetto in movimento come un carrello. In questo caso, il sistema:

Segnala il rilevamento come “non confermato”
Mantiene la PTZ sul bersaglio per 3-5 secondi
Attende che qualsiasi altra parte del corpo diventi visibile
Se non compaiono prove aggiuntive, registra l'evento ma non invia un avviso 4G

Questo approccio a livelli mantiene basso l'utilizzo dei dati cellulari catturando comunque potenziali minacce.

Configurazione della Sensibilità per il Tuo Sito

Per siti con molti scenari di visualizzazione parziale (magazzini, recinti), consiglio di abbassare la soglia minima di confidenza da 0,8 a 0,65 e di abilitare la modalità di rilevamento “corpo parziale” nel firmware. Ciò aumenta la sensibilità a costo di un numero leggermente maggiore di avvisi da esaminare. Per implementazioni in campo aperto dove i corpi interi sono quasi sempre visibili, mantenere la soglia predefinita per ridurre al minimo il rumore.

Il modello testa-spalle riduce i falsi allarmi causati da animali di grandi dimensioni nei siti agricoli?

Le implementazioni in fattoria sono il peggior caso per i falsi allarmi. Cervi, coyote, cani di grossa taglia e bestiame attivano tutti il rilevamento del movimento di base. Se ogni attraversamento di animali genera una notifica push 4G alle 3 del mattino, il tuo cliente disabiliterà il sistema entro una settimana.

Sì, il modello testa e spalle riduce drasticamente i falsi allarmi causati dagli animali. La differenza fondamentale è la geometria scheletrica: gli esseri umani hanno spalle orizzontali perpendicolari a un collo verticale, formando una forma a “U” rovesciata. Nessun animale a quattro zampe replica questa struttura. Anche animali di grossa taglia come cervi o cavalli hanno una linea inclinata dal collo alla schiena che il modello filtra esplicitamente.

telecamera di sicurezza agricola falso allarme filtro animali

Perché gli animali ingannano il rilevamento di base

Il rilevamento del movimento di base e persino alcuni sistemi di “rilevamento umano” di fascia bassa utilizzano le dimensioni semplici del riquadro di delimitazione come filtro primario. Un cervo grande a 30 metri produce un riquadro di delimitazione di dimensioni simili a un essere umano a 50 metri. Senza analisi della forma, il sistema non può distinguerli.

Alcune telecamere economiche utilizzano un rilevatore a stadio singolo che controlla solo “l'oggetto è abbastanza grande e si sta muovendo?”. Questo approccio fallisce completamente nelle fattorie e nei siti rurali.

Come il nostro approccio multistrato risolve questo problema

La pipeline di rilevamento per la modalità fattoria funziona in questo modo:

Trigger di movimento: Qualcosa si muove nell'inquadratura. Il sistema si attiva.
Pre-filtro a corpo intero: Il rapporto d'aspetto e la velocità di movimento dell'oggetto sono coerenti con un essere umano? Se sì, procedere. Se l'oggetto si muove su quattro zampe o ha un asse corporeo orizzontale, viene contrassegnato come “animale” e soppresso.
Conferma testa e spalle: La parte superiore dell'oggetto mostra il modello a “U” invertita? Questo è il controllo decisivo.
Validazione delle dimensioni: La dimensione in pixel dell'oggetto rientra nell'intervallo previsto per un essere umano a quella distanza? (Utilizzando la lunghezza focale nota della telecamera e l'angolo di inclinazione per la stima della distanza.)

Differenze strutturali tra animali e umani

Il modello testa e spalle sfrutta le differenze anatomiche fondamentali:

Umani: Collo verticale, linea delle spalle orizzontale, testa centrata sopra le spalle
Cervi/Cavalli: Collo esteso in avanti a 45-60 gradi, nessuna linea delle spalle orizzontale
Cani/Coyote: La testa è in avanti rispetto al centro del corpo, la larghezza delle spalle è stretta rispetto alla lunghezza del corpo
Orsi (in piedi): Più vicini alla forma umana, ma il rapporto spalla-testa e la posizione del braccio differiscono in modo significativo

Riduzione dei falsi allarmi nel mondo reale

Sulla base dei dati sul campo da installazioni agricole in Texas e Alberta, l'abilitazione del filtro testa-spalle riduce i falsi allarmi attivati dagli animali dell'85-95%. Il restante 5-15% dei falsi allarmi deriva tipicamente da:

Orsi in piedi (raro ma possibile)
Grandi uccelli che atterrano su pali del recinto a breve distanza (la silhouette assomiglia brevemente a una testa)
Spaventapasseri o manichini (questi vengono rilevati correttamente come “a forma umana” - il sistema non può sapere che non sono reali)

Configurazione consigliata per l'azienda agricola

Impostazione	Valore consigliato	Ragione
Modalità di rilevamento	Priorità testa-spalle	Filtra efficacemente i quadrupedi
Dimensione minima dei pixel	40×40	Ignora piccoli animali (conigli, uccelli)
Sensibilità al movimento	Medio	Riduce i trigger dovuti al vento/vegetazione
Raffreddamento degli allarmi	30 secondi	Impedisce allarmi ripetuti dallo stesso animale
Modalità notturna	Laser IR + assistenza termica	Mantiene la chiarezza della forma al buio

Per i progetti agricoli, suggerisco anche di impostare il flag “soppressione animali” nel firmware. Questo aggiunge 200 ms di tempo di elaborazione per ogni rilevamento, ma riduce il volume dei falsi allarmi di un ordine di grandezza. Su una connessione 4G, dove ogni allarme costa larghezza di banda e batteria, questo compromesso vale la pena ogni volta.

Conclusione

Rilevamento umano nel nostro Telecamere PTZ⁶ non è un singolo algoritmo, è un sistema a più livelli. Il rilevamento del corpo intero gestisce il lungo raggio. Il filtraggio testa-spalle elimina i falsi allarmi. Re-ID mantiene il tracciamento attraverso le occlusioni. Insieme, offrono prestazioni affidabili nei progetti di sicurezza agricola, edile e perimetrale.

1. Definizione e uso della similarità del coseno per confrontare vettori di caratteristiche nel recupero e nel matching. ︎↩︎ 2. Scopri come i pattern di andatura vengono utilizzati come biometrici per l'identificazione umana. ︎↩︎ 3. Comprensione del rapporto d'aspetto nell'elaborazione delle immagini per il rilevamento e la classificazione degli oggetti. ︎↩︎ 4. Concetto di bounding box utilizzati nel rilevamento di oggetti per localizzare oggetti all'interno di un'immagine. ︎↩︎ 5. Definizione generale di falsi allarmi e del loro impatto sull'affidabilità del sistema di sicurezza. ︎↩︎ 6. Introduzione alle telecamere pan-tilt-zoom e alle loro applicazioni nella sorveglianza. ︎↩︎ 7. Spiegazione dello zoom ottico rispetto allo zoom digitale nei dispositivi di imaging. ︎↩︎ 8. Comprendere i fondamenti del rilevamento di persone a corpo intero nella visione artificiale. ︎↩︎