Ho visto troppe telecamere 4G spegnersi in aree remote e rimanere spente per settimane perché non c'era nessuno a premere il pulsante di reset.
Un Watchdog hardware è un chip timer indipendente all'interno della telecamera. Monitora il segnale di battito cardiaco del sistema. Se la CPU principale smette di rispondere, a causa di un blocco del modulo 4G, di un crash del firmware o di un overflow della memoria, il Watchdog interrompe l'alimentazione fisica e forza un riavvio completo. Non è necessario l'intervento di un umano. Non è necessario un camion.

Di seguito, spiego esattamente come funziona questo meccanismo, passo dopo passo. Inoltre, parlo della logica di controllo intelligente dei collegamenti, della registrazione dei riavvii e del timer di ritardo che impedisce i cicli di riavvio infiniti. Se utilizzate telecamere PTZ 4G in luoghi in cui una singola visita sul posto costa più della telecamera stessa, questo articolo è per voi.
Il Watchdog può eseguire il ping di un DNS pubblico (come 8.8.8.8) per rilevare un guasto di Internet?
Pensavo che il Watchdog hardware gestisse tutto da solo, compreso il controllo della disponibilità di Internet. Mi sbagliavo.
Il Watchdog hardware non esegue alcun ping. Si limita a osservare il battito cardiaco della CPU. Un servizio software separato, lo script di monitoraggio dei collegamenti, esegue i test di ping verso server DNS pubblici come 8.8.8.8 o il gateway del vettore. Se i ping falliscono ripetutamente, questo script attiva le azioni di ripristino. Il Watchdog è l'ultima risorsa se tutto il resto fallisce.

Come funziona il sistema a due strati
Pensate a due guardie che fanno turni diversi. La prima guardia è la processo di monitoraggio dei collegamenti. Viene eseguito all'interno del sistema Linux e invia pacchetti ping ICMP a un indirizzo IP pubblico ogni 30-60 secondi. Se il ping torna indietro, tutto va bene. La guardia non fa nulla.
Ma se il ping fallisce, ad esempio per tre volte di seguito, questa prima guardia inizia ad agire. Potrebbe riavviare il servizio di composizione 4G. Potrebbe inviare un comando AT per resettare il modulo del modem. Prima tenta l'approccio più delicato.
La seconda guardia è la Watchdog hardware. Si trova su un chip separato. Non si preoccupa dei risultati del ping. Si preoccupa solo di una cosa: “La CPU principale mi ha inviato un segnale di battito cardiaco negli ultimi 180 secondi?”. Se la risposta è no, stacca la spina. Riavvio completo. Tutto riparte da zero.
Perché questa separazione è importante
Ecco perché ritengo che questo progetto sia intelligente. Il Watchdog hardware è semplice di proposito. Non ha dipendenze software. Non può bloccarsi. Non può bloccarsi. Conta solo il tempo. Se la CPU si blocca a tal punto che anche lo script di monitoraggio dei collegamenti smette di funzionare, il Watchdog continua a funzionare.
Lo script di monitoraggio dei collegamenti, invece, è intelligente. È in grado di distinguere tra “il modulo 4G ha perso il segnale per 10 secondi” e “l'intero stack di rete è morto”. Può provare a risolvere i problemi prima di procedere a un riavvio completo.
Cosa viene segnalato e quando
| Tipo di controllo | Obiettivo | Frequenza | Scopo |
|---|---|---|---|
| Ping ICMP | 8.8.8.8 (Google DNS) | Ogni 30-60 secondi | Confermare l'accesso pubblico a Internet |
| Ping del gateway | Gateway IP del vettore | Ogni 60 secondi | Conferma che la sessione dati 4G è attiva |
| Interrogazione del comando AT | Modulo 4G (interno) | Ogni 120 secondi | Controllare lo stato di registrazione e la potenza del segnale |
Nelle nostre telecamere PTZ di Loyalty-Secu, mi assicuro che entrambi i livelli siano attivi fin dall'inizio. Non dovrebbe essere necessario configurare questo aspetto. Tuttavia, se si desidera modificare il target del ping o l'intervallo di controllo, è possibile farlo tramite l'interfaccia web o il file di configurazione.
Quanti tentativi di connessione falliti determinano un ciclo di spegnimento del modem?
Ho visto telecamere economiche che si riavviano dopo un singolo ping fallito. È un'idea terribile. Un solo pacchetto perso e l'intero sistema si riavvia, proprio nel bel mezzo della registrazione.
In un sistema progettato correttamente, il ripristino segue un approccio graduale. In genere, 3 guasti consecutivi del ping innescano un riavvio morbido del servizio di composizione 4G. Se questo fallisce, il sistema esegue il power-cycle del modulo 4G dopo 5 guasti cumulativi. Un riavvio completo da parte del Watchdog avviene solo dopo 10-15 minuti di perdita totale della rete, non dopo un ping errato.

La strategia di recupero a tre livelli
Dico sempre ai miei clienti, in particolare a quelli che operano nelle zone rurali del Nord America, che una buona telecamera 4G non dovrebbe mai passare subito a un riavvio immediato. Il ripristino deve essere graduale. Ecco come progettare l'escalation nei nostri sistemi:
Livello 1: reset soft della connessione dati. Il monitor di collegamento rileva 3 fallimenti consecutivi del ping. In questo modo, la sessione di dati PPP o QMI in corso viene interrotta e ne viene avviata una nuova. In questo modo si risolve la maggior parte delle disconnessioni temporanee sul lato portante. La telecamera rimane accesa. In questa fase non si verifica alcuna perdita di video.
Livello 2: Ciclo di alimentazione del modulo 4G. Se il livello 1 non risolve il problema dopo 2 tentativi, il sistema invia un segnale GPIO hardware per togliere l'alimentazione al modulo 4G per 10 secondi, quindi lo riaccende. Questo costringe il modem a registrarsi nuovamente con la torre cellulare da zero. In questo modo si elimina qualsiasi blocco a livello di firmware all'interno del chip del modem.
Livello 3: riavvio completo del sistema tramite watchdog. Se il modulo 4G non riesce a connettersi dopo 15 minuti di tentativi di livello 1 e 2, lo script di monitoraggio del collegamento smette deliberatamente di alimentare il Watchdog hardware. Il timer del Watchdog scade. L'alimentazione dell'intera scheda (CPU, memoria, modulo 4G, tutto) viene interrotta e il sistema viene riavviato a freddo.
Perché l'escalation graduale fa risparmiare denaro
Ogni livello richiede più tempo ma risolve un problema più difficile. Il punto chiave è questo: un riavvio completo richiede dai 60 ai 90 secondi. Durante questo tempo, si perde il video, la posizione PTZ e qualsiasi sessione di allarme attiva. Pertanto, è consigliabile un riavvio completo solo quando non funziona nient'altro.
| Livello di recupero | Condizione di innesco | Azione intrapresa | Tempi di inattività |
|---|---|---|---|
| Livello 1 - Soft Reset | 3 fallimenti consecutivi del ping | Riavviare la sessione dati (PPP/QMI) | 5-10 secondi |
| Livello 2 - Ciclo di alimentazione del modulo | Il Tier 1 fallisce due volte | Interruzione dell'alimentazione GPIO al modulo 4G | 20-30 secondi |
| Livello 3 - Riavvio completo | Nessuna connessione per 15 minuti | Il watchdog interrompe l'alimentazione principale | 60-90 secondi |
Ho testato questa esatta sequenza sulle nostre unità PTZ solari 4G in condizioni reali: aree con segnale debole, finestre di manutenzione del vettore, eventi di strozzatura della scheda SIM. In oltre 95% dei casi, il problema viene risolto al livello 1 o al livello 2. Il riavvio completo avviene raramente. Il riavvio completo avviene raramente. Ma quando accade, funziona sempre.
Il Watchdog registra il motivo di ogni riavvio per i rapporti di manutenzione?
Una volta avevo un cliente in Canada che continuava a chiedermi: “Han, la fotocamera si è riavviata di nuovo ieri sera. È stato l'operatore? È stato l'hardware? Devo saperlo per poter scrivere il mio rapporto di manutenzione”.”
Sì. Dopo ogni riavvio, un sistema ben progettato scrive il motivo del riavvio in EEPROM 1 - un tipo di memoria non volatile che sopravvive alle interruzioni di corrente. È possibile estrarre questo registro da remoto. Vi dirà se il riavvio è stato causato da un timeout di Watchdog, da un guasto del collegamento 4G, da un comando di riavvio manuale o da un'interruzione dell'alimentazione.

Cosa viene registrato e dove
Nelle nostre telecamere PTZ Loyalty-Secu, il registro di riavvio è memorizzato in due punti. Il primo è il chip EEPROM a bordo. Si tratta di un piccolo pezzo di memoria che mantiene i dati anche quando l'alimentazione è completamente spenta. Memorizza un breve codice per ogni evento di riavvio, come “WDT_TIMEOUT”, “LINK_FAIL”, “USER_REBOOT” o “POWER_LOSS”.”
La seconda posizione è il file di registro di sistema sulla memoria flash interna. Questo file contiene maggiori dettagli. Include i timestamp, l'ultima potenza di segnale nota prima del riavvio, il numero di tentativi di ping falliti e quale livello di ripristino era attivo quando il sistema si è arreso.
Come accedere ai registri
È possibile estrarre i registri in tre modi. In primo luogo, attraverso l'interfaccia web della telecamera: basta accedere alla pagina di manutenzione. In secondo luogo, attraverso un VMS compatibile con ONVIF come Pietra miliare 2 o Iris blu 3, se la telecamera supporta la segnalazione di eventi ONVIF. In terzo luogo, attraverso una piattaforma di gestione remota se le telecamere segnalano a un server centrale tramite MQTT o HTTP.
Un esempio del mondo reale per capire perché questo è importante
Vi racconto una storia. Un cliente in Texas ha installato 20 delle nostre unità PTZ 4G solari lungo un oleodotto. Dopo tre mesi, cinque telecamere si riavviavano ogni notte intorno alle 2:00 del mattino. I registri mostravano che la causa era “LINK_FAIL”, non “WDT_TIMEOUT”. Questo ci diceva che la CPU era a posto. La connessione 4G cadeva.
Ho esaminato più a fondo i registri. La potenza del segnale prima di ogni guasto era di circa -105 dBm - molto debole. Il vettore stava effettuando la manutenzione su una torre vicina tra l'1:00 e le 3:00 di ogni notte. Una volta appurato ciò, il cliente ha chiamato il vettore, ha confermato l'orario di manutenzione e ha regolato la temporizzazione del Watchdog per attendere più a lungo prima di riavviare. Problema risolto. Non è stato necessario alcun intervento su autocarro.
Senza i registri, il mio cliente avrebbe pensato che le telecamere fossero rotte. Avrebbe potuto mandare una squadra a sostituire l'hardware. Questo gli sarebbe costato migliaia di dollari, per un problema che non era nemmeno colpa della telecamera.
Codici comuni di riavvio
| Codice del registro | Significato | Azione suggerita |
|---|---|---|
| WDT_TIMEOUT | La CPU si è bloccata, Watchdog ha forzato il riavvio | Controllare la versione del firmware, aggiornare se necessario |
| LINK_FAIL | Connessione 4G persa per oltre 15 minuti | Controllare l'intensità del segnale, la posizione dell'antenna |
| USER_REBOOT | Riavvio manuale tramite web o comando | Nessuna azione necessaria |
| PERDITA DI POTENZA | L'alimentazione è scesa sotto la soglia | Controllare lo stato di salute del pannello solare e della batteria |
| MODULO_RESET | Il modulo 4G è stato sottoposto a power-cycling (livello 2) | Solitamente auto-risolto, frequenza di monitoraggio |
Il sistema dispone di un “timer di ritardo” per evitare cicli di riavvio infiniti durante le interruzioni?
Ho già assistito a questo scenario da incubo: una torre di trasmissione si blocca per sei ore e la fotocamera si riavvia ogni 15 minuti, più e più volte, finché la batteria non si esaurisce.
Sì. Un sistema Watchdog correttamente progettato include un timer di ritardo per il back-off. Dopo un certo numero di riavvii consecutivi (di solito da 3 a 5), il sistema prolunga il tempo di attesa tra i tentativi di riavvio. In questo modo si evita che la telecamera scarichi la batteria durante un'interruzione prolungata dell'alimentazione. Alcuni sistemi includono anche il rilevamento del brown-out per bloccare i riavvii quando la tensione della batteria è troppo bassa.

Perché i loop di riavvio sono pericolosi
Ogni volta che una telecamera 4G si riavvia, il modulo 4G esegue una sequenza che richiede energia. Accende la radio. Esegue la scansione delle torri cellulari vicine. Cerca di registrarsi alla rete. Negozia una sessione IP. L'intero processo richiede una corrente elevata, a volte di 2A o più, per 30-60 secondi.
Se si utilizza l'energia solare con una batteria, quei 30 o 60 secondi di elevato consumo si sommano rapidamente. Cinque riavvii in un'ora possono consumare più energia di quanta ne consumi la fotocamera in condizioni normali per lo stesso periodo. Se è nuvoloso o se è inverno e le ore di luce sono poche, la batteria si scarica. Quando la tensione scende al di sotto del valore minimo, la fotocamera si spegne completamente. A questo punto la fotocamera è morta e non tornerà a funzionare finché il sole non avrà caricato la batteria a sufficienza, il che potrebbe richiedere un giorno intero.
Come funziona il timer di back-off
Il timer di back-off è semplice. Dopo il primo riavvio, il sistema attende i normali 15 minuti prima di tentare un altro riavvio se la connessione continua a non funzionare. Dopo il secondo riavvio, attende 30 minuti. Dopo il terzo, attende 60 minuti. Dopo il quarto, attende 2 ore. Questo back-off esponenziale 4 mantiene la telecamera in vita abbastanza a lungo da sopravvivere a un'interruzione prolungata.
Rilevamento di brown-out: Il protettore silenzioso
Voglio sottolineare una caratteristica che la maggior parte degli acquirenti non chiede, ma che dovrebbe essere richiesta. Si chiama rilevamento del brown-out. Prima di attivare il riavvio, il Watchdog controlla la tensione della batteria. Se la tensione è inferiore a una soglia di sicurezza, ad esempio 11,4 V per un sistema a 12 V, il Watchdog rimanda il riavvio. Attende che la tensione risalga al di sopra di 11,8 V prima di consentire il riavvio.
Questo aspetto è fondamentale per le installazioni solari. Durante la fase di ricerca del segnale da parte del modulo 4G, il picco di corrente può causare un calo di tensione. Se la batteria è già scarica, questo calo può bloccare il sistema durante l'avvio. Il rilevamento del brown-out evita questo problema. La telecamera rimane in uno stato di sospensione a basso consumo finché non ha abbastanza energia per completare un ciclo di avvio completo in modo sicuro.
Cosa chiedere al fornitore
Se vi state rifornendo di telecamere PTZ 4G dalla Cina, ecco il mio consiglio. Fate tre domande specifiche alla vostra azienda:
- Il Watchdog ha un timer di back-off per i riavvii ripetuti?
- Il sistema controlla la tensione della batteria prima di attivare un riavvio?
- Qual è il numero massimo di riavvii consentiti all'ora?
Se la fabbrica non è in grado di rispondere chiaramente a queste domande, probabilmente l'implementazione del Watchdog è di base: un semplice timer privo di intelligenza. Questo va bene per le telecamere alimentate dalla rete. Ma per le installazioni solari 4G in aree remote, è necessaria la versione intelligente.
In Loyalty-Secu, ho progettato i nostri sistemi PTZ solari con tutte e tre le protezioni integrate. Il timer di back-off, il rilevamento del brown-out e il limite di riavvio configurabile. Perché so che per clienti come David, una telecamera morta in un campo remoto non è solo un inconveniente. È un progetto fallito e una reputazione danneggiata.
Conclusione
Il Watchdog hardware garantisce il riavvio della telecamera 4G quando si blocca. In combinazione con il monitoraggio intelligente dei collegamenti, il recupero a livelli e la registrazione dei riavvii, mantiene online i siti remoti, senza costosi spostamenti di camion.
1. Memoria non volatile EEPROM per la registrazione dei motivi di riavvio. ︎ 2. Milestone Integrazione di eventi ONVIF e log Watchdog. ︎ 3. Monitoraggio eventi PTZ Watchdog Blue Iris. ︎ 4. Algoritmo di back-off esponenziale per la prevenzione dei loop di riavvio. ︎ 5. Monitoraggio della connettività Internet basato su ping ICMP. ︎ 6. Progettazione del circuito del timer Watchdog hardware per Linux embedded. ︎ 7. Recupero della sessione dati PPP vs QMI per i moduli 4G. ︎ 8. Commutazione dell'alimentazione GPIO per il reset del modulo 4G. ︎ 9. Circuito di rilevamento del brown-out per telecamere alimentate a energia solare. ︎ 10. Gestione remota MQTT per la segnalazione dei registri Watchdog. ︎