Ricevo spesso questa domanda dagli integratori che stanno definendo i progetti di sicurezza perimetrale. La risposta è importante perché influisce direttamente sul tuo tasso di falsi allarmi5 e sulla fiducia del tuo cliente.
Il nostro sistema non si basa su un singolo modello. Utilizza un approccio di fusione multi-caratteristica che combina il rilevamento del corpo intero8 per l'acquisizione di bersagli a lunga distanza, un modello testa-spalle per il filtraggio dei falsi allarmi a corto raggio e il Re-ID per il tracciamento continuo attraverso le occlusioni. Ogni livello gestisce un lavoro diverso.

Di seguito, spiego come ogni livello di rilevamento funziona nelle implementazioni reali, quando ciascun modello ha la priorità e come è possibile ottimizzare l'algoritmo per il tuo specifico sito di progetto. Lascia che ti illustri i dettagli.
Indice dei contenuti
La telecamera può identificare accuratamente una persona seduta o che striscia a terra?
Questa è una preoccupazione reale. Nei cantieri e nelle fattorie, le persone non sono sempre in posizione eretta. Se la tua telecamera cerca solo una forma umana in piedi, perderà eventi critici.
Sì, la telecamera può rilevare una persona seduta o che striscia. Il modello di rilevamento del corpo intero utilizza una CNN addestrata su migliaia di posture non standard. Riconosce le proporzioni geometriche umane e i rapporti tra gli arti, non solo una silhouette eretta. Quando la postura è ambigua, il modello testa-spalle interviene come controllo secondario.

Come il rilevamento del corpo intero gestisce le posture non standard
Il modello del corpo intero non cerca un singolo modello di “persona in piedi”. Analizza le proporzioni del corpo, gli angoli degli arti e i modelli di movimento. Una persona che striscia ha ancora un rapporto testa-busto, una lunghezza del braccio e una lunghezza della gamba che corrispondono alla geometria umana. La CNN è stata addestrata su set di dati che includono posture sedute, accovacciate, piegate e striscianti.
Nella mia esperienza di lavoro con gli integratori di sicurezza agricola, lo scenario dello strisciare si presenta più spesso di quanto si pensi. Gli intrusi spesso cercano di rimanere bassi vicino alle recinzioni. Il nostro algoritmo gestisce questo perché estrae punti chiave dello scheletro anche quando il corpo è orizzontale. Il sistema mappa le posizioni delle articolazioni e verifica se la struttura complessiva corrisponde a uno scheletro umano.
Il Ruolo dell'Analisi del Movimento
La sola rilevazione della postura statica non è sufficiente. Il sistema analizza anche i pattern di movimento. Una persona che striscia si muove diversamente da un cane o da un rotolo di erbacce. L'algoritmo esamina:
- Velocità di movimento rispetto alle dimensioni dell'oggetto
- Pattern di articolazione degli arti (braccia e gambe che si muovono in cicli alternati)
- Cambi di direzione che indicano una navigazione intenzionale
Quando la Rilevazione Diventa Difficile?
Ci sono casi limite. Se una persona è raggomitolata in una palla stretta e completamente immobile, il sistema potrebbe impiegare più tempo per classificare il bersaglio. In queste situazioni, la logica di auto-tracking della telecamera manterrà la posizione PTZ e attenderà il movimento prima di confermare l'allarme. Ciò previene falsi negativi senza inondare la connessione 4G con allarmi incerti.
Prestazioni di Rilevazione della Postura per Distanza
| Postura | Intervallo di Rilevazione Affidabile | Requisito Minimo di Pixel | Livello di Confidenza |
|---|---|---|---|
| In Piedi/Camminando | 20m – 100m | 32×64 pixel | Alto |
| Seduto/Accovacciato | 10m – 60m | 48×48 pixel | Alto |
| Strisciando/A Terra | 5m – 40m | 64×32 pixel | Medio-alto |
| Arrotondato/Fermo | 3m – 20m | 48×48 pixel | Medio |
Il punto chiave qui è che le posture non standard richiedono più pixel nell'inquadratura. Ecco perché lo zoom ottico 40X zoom ottico7 è importante. Il sistema rileva un potenziale bersaglio con un grandangolo, quindi ingrandisce per ottenere una densità di pixel sufficiente per la classificazione della postura.
In che modo il Re-ID dei pedoni migliora la coerenza del tracciamento quando la persona cambia direzione?
Tracciare una persona che cammina in linea retta è facile. La vera sfida è quando si gira, si nasconde dietro un palo o cambia vestiti togliendosi una giacca. Il tracciamento del movimento standard perde il bersaglio in questi momenti.
Re-ID risolve questo problema estraendo un vettore di caratteristiche dall'aspetto del bersaglio: colore dell'abbigliamento, forma del corpo, accessori e andatura. Quando la persona riappare dopo un'occlusione o un cambio di direzione, il sistema confronta la nuova rilevazione con i vettori di caratteristiche memorizzati. Se il punteggio di corrispondenza è superiore alla soglia, il tracciamento riprende istantaneamente senza riattivare un nuovo allarme.
tracciamento Re-ID pedone telecamera PTZ occlusione
Cosa succede senza Re-ID
Senza Re-ID, un tracker di base utilizza la predizione della posizione. Indovina dove sarà il bersaglio nel frame successivo in base a velocità e direzione. Quando la persona gira di 180 gradi, la predizione fallisce. Il sistema vede quindi un “nuovo” oggetto che si muove nella direzione opposta. Ciò causa due problemi:
- La PTZ potrebbe oscillare nella direzione sbagliata, perdendo completamente il bersaglio.
- Il sistema genera un secondo allarme per la stessa persona, sprecando larghezza di banda sulla tua connessione 4G.
Come funziona l'estrazione del vettore di caratteristiche
Il chip AI sulla nostra fotocamera esegue una rete di embedding leggera accanto al modello di rilevamento. Per ogni bersaglio umano confermato, genera un vettore di caratteristiche di 128 o 256 dimensioni. Pensalo come un'impronta digitale numerica dell'aspetto della persona.
Questo vettore codifica:
- Blocchi di colore dominanti (colore della camicia, colore dei pantaloni)
- Modelli di texture (righe, tinta unita, giubbotto catarifrangente)
- Proporzioni del corpo (rapporto altezza-larghezza, larghezza delle spalle)
- Oggetti trasportati (zaino, cassetta degli attrezzi)
Il processo di corrispondenza
Quando il tracciamento viene interrotto, il sistema memorizza l'ultimo vettore di caratteristiche noto. Per i successivi 30-60 secondi (configurabile), ogni nuova rilevazione umana nel frame viene confrontata con questo vettore memorizzato. Il confronto utilizza la similarità del coseno1. Se il punteggio supera 0,75 (regolabile), il sistema collega la nuova rilevazione alla traccia esistente.
Limitazioni di Re-ID da conoscere
Re-ID non è perfetto. Ha difficoltà quando:
- Più persone indossano uniformi identiche (comune nei cantieri)
- L'illuminazione cambia drasticamente tra la rilevazione e la ri-rilevazione
- La persona rimuove o aggiunge un capospalla ingombrante
Per scenari con uniformi, consiglio di abilitare l'analisi dell'andatura2 come funzionalità supplementare. Anche quando due operai indossano lo stesso gilet, i loro schemi di camminata sono sufficientemente diversi perché il sistema mantenga tracce separate.
Re-ID vs. Tracciamento del Movimento Semplice
| Caratteristica | Tracciamento del Movimento Semplice | Tracciamento Re-ID |
|---|---|---|
| Gestisce il cambio di direzione | No — perde il bersaglio | Sì — corrisponde per aspetto |
| Gestisce occlusioni brevi | Parziale — massimo 1-2 secondi | Sì — fino a 60 secondi |
| Separazione multi-obiettivo | Scarso — gli ID si scambiano spesso | Forte — vettori unici per persona |
| Costo di calcolo | Molto basso | Moderato |
| Miglior caso d'uso | Campo aperto, bersaglio singolo | Siti complessi, più persone |
L'IA attiverà un allarme se nel fotogramma sono visibili solo le gambe o il busto di una persona?
Questo accade più spesso di quanto la gente si aspetti. Una persona dietro un mezzo muro, una recinzione o macchinari parcheggiati potrebbe mostrare solo parti del corpo parziali. Se il tuo sistema necessita di un corpo intero per attivarsi, hai un punto cieco.
Sì, il sistema attiverà un avviso in caso di visibilità parziale del corpo. Il modello testa e spalle è specificamente progettato per scenari in cui è visibile solo la parte superiore del corpo. Per i casi in cui è visibile solo la parte inferiore del corpo (gambe visibili sotto una barriera), il modello a corpo intero utilizza il rilevamento di coppie di arti — riconoscendo due gambe con schemi di andatura umana come prova sufficiente per classificare il bersaglio come umano.

Come funziona il rilevamento parziale nella pratica
La pipeline di rilevamento esegue più classificatori in parallelo. Non attende un singolo “persona intera” riquadro di delimitazione4. Invece, cerca gruppi di parti del corpo che statisticamente appartengono a un essere umano.
Solo parte superiore del corpo (testa, spalle, busto)
Questo è il caso più semplice. Il modello testa e spalle è stato creato esattamente per questo scenario. La forma a “U” rovesciata di testa e spalle umane è una delle forme più distintive in natura. Nessun animale o oggetto comune la replica alla stessa scala e proporzione.
Quando è visibile solo la parte superiore del corpo:
- Il sistema esegue prima il classificatore testa e spalle
- Se la confidenza supera 0,8, si attiva immediatamente
- La PTZ tenta quindi di zoomare o ruotare per rivelare più del bersaglio per una conferma secondaria
Solo parte inferiore del corpo (gambe, piedi)
Questo è più difficile. Due forme verticali che si muovono in schemi alternati potrebbero essere gambe umane, ma potrebbero anche essere pali di una recinzione che ondeggiano al vento. Il sistema utilizza tre controlli:
- Rapporto d'aspetto: Le gambe umane hanno un rapporto larghezza-altezza specifico che differisce da pali o montanti.
- Articolazione: Le gambe si piegano al ginocchio. Il sistema cerca cambiamenti angolari periodici in un punto intermedio.
- Frequenza dell'andatura: La camminata umana ha una cadenza di circa 1,5-2,5 passi al secondo. Il sistema verifica se la frequenza del movimento rientra in questo intervallo.
Se tutti e tre i controlli vengono superati, il sistema classifica il bersaglio come “probabile umano” e attiva un avviso di bassa confidenza. Quindi comanda alla PTZ di riposizionarsi per un angolo migliore.
Solo Torso (Senza Testa, Senza Gambe)
Questo è lo scenario di rilevamento parziale più impegnativo. Un torso senza testa o arti potrebbe essere una persona dietro un muro, oppure potrebbe essere un oggetto in movimento come un carrello. In questo caso, il sistema:
- Segnala il rilevamento come “non confermato”
- Mantiene la PTZ sul bersaglio per 3-5 secondi
- Attende che qualsiasi altra parte del corpo diventi visibile
- Se non compaiono prove aggiuntive, registra l'evento ma non invia un avviso 4G
Questo approccio a livelli mantiene basso l'utilizzo dei dati cellulari catturando comunque potenziali minacce.
Configurazione della Sensibilità per il Tuo Sito
Per siti con molti scenari di visualizzazione parziale (magazzini, recinti), consiglio di abbassare la soglia minima di confidenza da 0,8 a 0,65 e di abilitare la modalità di rilevamento “corpo parziale” nel firmware. Ciò aumenta la sensibilità a costo di un numero leggermente maggiore di avvisi da esaminare. Per implementazioni in campo aperto dove i corpi interi sono quasi sempre visibili, mantenere la soglia predefinita per ridurre al minimo il rumore.
Il modello testa-spalle riduce i falsi allarmi causati da animali di grandi dimensioni nei siti agricoli?
Le implementazioni in fattoria sono il peggior caso per i falsi allarmi. Cervi, coyote, cani di grossa taglia e bestiame attivano tutti il rilevamento del movimento di base. Se ogni attraversamento di animali genera una notifica push 4G alle 3 del mattino, il tuo cliente disabiliterà il sistema entro una settimana.
Sì, il modello testa e spalle riduce drasticamente i falsi allarmi causati dagli animali. La differenza fondamentale è la geometria scheletrica: gli esseri umani hanno spalle orizzontali perpendicolari a un collo verticale, formando una forma a “U” rovesciata. Nessun animale a quattro zampe replica questa struttura. Anche animali di grossa taglia come cervi o cavalli hanno una linea inclinata dal collo alla schiena che il modello filtra esplicitamente.

Perché gli animali ingannano il rilevamento di base
Il rilevamento del movimento di base e persino alcuni sistemi di “rilevamento umano” di fascia bassa utilizzano le dimensioni semplici del riquadro di delimitazione come filtro primario. Un cervo grande a 30 metri produce un riquadro di delimitazione di dimensioni simili a un essere umano a 50 metri. Senza analisi della forma, il sistema non può distinguerli.
Alcune telecamere economiche utilizzano un rilevatore a stadio singolo che controlla solo “l'oggetto è abbastanza grande e si sta muovendo?”. Questo approccio fallisce completamente nelle fattorie e nei siti rurali.
Come il nostro approccio multistrato risolve questo problema
La pipeline di rilevamento per la modalità fattoria funziona in questo modo:
- Trigger di movimento: Qualcosa si muove nell'inquadratura. Il sistema si attiva.
- Pre-filtro a corpo intero: Il rapporto d'aspetto e la velocità di movimento dell'oggetto sono coerenti con un essere umano? Se sì, procedere. Se l'oggetto si muove su quattro zampe o ha un asse corporeo orizzontale, viene contrassegnato come “animale” e soppresso.
- Conferma testa e spalle: La parte superiore dell'oggetto mostra il modello a “U” invertita? Questo è il controllo decisivo.
- Validazione delle dimensioni: La dimensione in pixel dell'oggetto rientra nell'intervallo previsto per un essere umano a quella distanza? (Utilizzando la lunghezza focale nota della telecamera e l'angolo di inclinazione per la stima della distanza.)
Differenze strutturali tra animali e umani
Il modello testa e spalle sfrutta le differenze anatomiche fondamentali:
- Umani: Collo verticale, linea delle spalle orizzontale, testa centrata sopra le spalle
- Cervi/Cavalli: Collo esteso in avanti a 45-60 gradi, nessuna linea delle spalle orizzontale
- Cani/Coyote: La testa è in avanti rispetto al centro del corpo, la larghezza delle spalle è stretta rispetto alla lunghezza del corpo
- Orsi (in piedi): Più vicini alla forma umana, ma il rapporto spalla-testa e la posizione del braccio differiscono in modo significativo
Riduzione dei falsi allarmi nel mondo reale
Sulla base dei dati sul campo da installazioni agricole in Texas e Alberta, l'abilitazione del filtro testa-spalle riduce i falsi allarmi attivati dagli animali dell'85-95%. Il restante 5-15% dei falsi allarmi deriva tipicamente da:
- Orsi in piedi (raro ma possibile)
- Grandi uccelli che atterrano su pali del recinto a breve distanza (la silhouette assomiglia brevemente a una testa)
- Spaventapasseri o manichini (questi vengono rilevati correttamente come “a forma umana” - il sistema non può sapere che non sono reali)
Configurazione consigliata per l'azienda agricola
| Impostazione | Valore consigliato | Ragione |
|---|---|---|
| Modalità di rilevamento | Priorità testa-spalle | Filtra efficacemente i quadrupedi |
| Dimensione minima dei pixel | 40×40 | Ignora piccoli animali (conigli, uccelli) |
| Sensibilità al movimento | Medio | Riduce i trigger dovuti al vento/vegetazione |
| Raffreddamento degli allarmi | 30 secondi | Impedisce allarmi ripetuti dallo stesso animale |
| Modalità notturna | Laser IR + assistenza termica | Mantiene la chiarezza della forma al buio |
Per i progetti agricoli, suggerisco anche di impostare il flag “soppressione animali” nel firmware. Questo aggiunge 200 ms di tempo di elaborazione per ogni rilevamento, ma riduce il volume dei falsi allarmi di un ordine di grandezza. Su una connessione 4G, dove ogni allarme costa larghezza di banda e batteria, questo compromesso vale la pena ogni volta.
Conclusione
Rilevamento umano nel nostro Telecamere PTZ6 non è un singolo algoritmo, è un sistema a più livelli. Il rilevamento del corpo intero gestisce il lungo raggio. Il filtraggio testa-spalle elimina i falsi allarmi. Re-ID mantiene il tracciamento attraverso le occlusioni. Insieme, offrono prestazioni affidabili nei progetti di sicurezza agricola, edile e perimetrale.
1. Definizione e uso della similarità del coseno per confrontare vettori di caratteristiche nel recupero e nel matching. ︎↩︎ 2. Scopri come i pattern di andatura vengono utilizzati come biometrici per l'identificazione umana. ︎↩︎ 3. Comprensione del rapporto d'aspetto nell'elaborazione delle immagini per il rilevamento e la classificazione degli oggetti. ︎↩︎ 4. Concetto di bounding box utilizzati nel rilevamento di oggetti per localizzare oggetti all'interno di un'immagine. ︎↩︎ 5. Definizione generale di falsi allarmi e del loro impatto sull'affidabilità del sistema di sicurezza. ︎↩︎ 6. Introduzione alle telecamere pan-tilt-zoom e alle loro applicazioni nella sorveglianza. ︎↩︎ 7. Spiegazione dello zoom ottico rispetto allo zoom digitale nei dispositivi di imaging. ︎↩︎ 8. Comprendere i fondamenti del rilevamento di persone a corpo intero nella visione artificiale. ︎↩︎