¿Cómo monitoriza el Watchdog de hardware el estado en tiempo real del módulo 4G?

He visto demasiadas cámaras PTZ solares remotas quedarse a oscuras porque Módulo 4G¹ se congelaron, y no había nadie para presionar el botón de reinicio.

Un watchdog de hardware no monitoriza directamente el estado en tiempo real del módulo 4G. Monitoriza el latido del sistema principal. Si la CPU principal o el sistema operativo se bloquean, incluidos los bloqueos causados por fallos en la pila 4G, el watchdog fuerza un reinicio completo del hardware. La monitorización real del estado 4G (intensidad de la señal, registro de red, estado del enlace de datos) la manejan demonios de software que se ejecutan en el procesador principal, no el chip watchdog en sí.

Monitorización del estado del módulo 4G por watchdog de hardware en cámaras PTZ

La mayoría de los compradores asumen que el watchdog de hardware lo vigila todo. No es así. Comprender esta brecha es fundamental si despliega cámaras PTZ en lugares donde nadie puede ir a reiniciarlas. Permítame desglosar exactamente cómo funciona cada capa, qué hace realmente el watchdog y qué debe exigir a su proveedor.

Índice

¿Verifica el Watchdog la respuesta del “Comando AT” del módem cada 60 segundos?

Solía pensar que el watchdog de hardware enviaba comandos AT al módem por sí solo. No funciona así.

El watchdog de hardware en sí no envía comandos AT. Es un circuito temporizador simple. Un demonio de software en el procesador principal envía comandos AT como AT, AT+CREG?, o AT+CSQ al módem a intervalos regulares. Si el módem deja de responder, el software deja de alimentar al watchdog, y el watchdog activa entonces un reinicio de hardware.

Proceso de verificación de comandos AT del Watchdog para módem 4G

Cómo funciona realmente la cadena de software-hardware

Permítame guiarle a través de la secuencia real. El watchdog de hardware es un dispositivo muy simple. Tiene un contador. El contador cuenta hacia arriba. Si el software reinicia el contador antes de que se desborde, no sucede nada. Si el contador se desborda, el watchdog pone la línea de reinicio a bajo y reinicia todo el sistema.

El watchdog no tiene puerto UART. No tiene capacidad para analizar comandos AT. No sabe qué AT+CREG? significa. No sabe qué es un módem.

Entonces, ¿quién envía los comandos AT? Un proceso de software —generalmente un demonio de Linux⁵ o un hilo de monitoreo dedicado— se ejecuta en el SoC principal. Este proceso hace lo siguiente:

Abre el puerto serie conectado al módem 4G (generalmente /dev/ttyUSB0 o similar).
Envía AT y espera OK.
Si OK regresa, el firmware del módem está activo.
Envía AT+CREG? para verificar el registro de red.
Envía AT+CSQ para verificar la intensidad de la señal.
Si todas las verificaciones pasan, el demonio alimenta al watchdog (escribe en /dev/watchdog o cambia un pin GPIO).

Qué sucede cuando el módem se congela

Si el firmware del módem se bloquea, el comando AT no recibe respuesta. El demonio lo detecta. Puede reintentar 3 veces. Si todos los reintentos fallan, el demonio tiene dos opciones:

Tipo de fallo	Respuesta del software	Rol del perro guardián
Tiempo de espera del comando AT (congelación del firmware del módem)	El demonio intenta reiniciar el módem a través del control de energía GPIO	El perro guardián aún no está involucrado
El reinicio del módem falla, el propio demonio se bloquea	El demonio deja de alimentar al perro guardián	Desbordamiento del temporizador del perro guardián → reinicio completo del sistema
Pánico del kernel del sistema operativo principal causado por el controlador del módem USB	Ningún proceso puede alimentar al perro guardián	Desbordamiento del temporizador del perro guardián → reinicio completo del sistema

El punto clave: el perro guardián es la última línea de defensa, no el primer respondedor. El demonio de software hace el trabajo inteligente. El perro guardián hace el trabajo de fuerza bruta.

La pregunta de los 60 segundos

¿Sucede esto cada 60 segundos? Depende del diseño del firmware. En la mayoría de los enrutadores 4G y cámaras PTZ industriales con los que he trabajado, el intervalo de sondeo es configurable, generalmente entre 30 segundos y 5 minutos. El tiempo de espera del perro guardián⁴ generalmente se establece en un período más largo (como 90-120 segundos) para evitar reinicios falsos durante problemas temporales de red.

Si su proveedor dice “el perro guardián verifica los comandos AT cada 60 segundos”, pídales que aclaren: ¿es el demonio de software sondeo cada 60 segundos, o es el temporizador de vigilancia ¿establecido en 60 segundos? Son dos cosas muy diferentes.

¿Puede el hardware reiniciar el módem independientemente del sistema operativo principal si la pila celular se congela?

Esta es la pregunta que me quita el sueño. Si el kernel de Linux falla, ¿puede algo salvar la conexión 4G?

Sí, pero solo si el diseño del hardware incluye una ruta de reinicio dedicada. Un sistema bien diseñado otorga al perro guardián de hardware control directo sobre la fuente de alimentación o el pin de reinicio del módem, independientemente del sistema operativo principal. Cuando el temporizador del perro guardián se desborda, puede cortar la energía al módem a través de un interruptor MOSFET o poner en bajo el pin RESET_N del módem, sin necesidad de que se esté ejecutando ningún software.

Circuito de reinicio independiente del módem con perro guardián de hardware

Dos niveles de reinicio de hardware

No todas las implementaciones de perros guardianes son iguales. Hay una gran diferencia entre un perro guardián básico y un perro guardián industrial bien diseñado.

Nivel 1: Reinicio de todo el sistema (Básico)

En la mayoría de las cámaras PTZ baratas, el perro guardián solo puede hacer una cosa: reiniciar todo el sistema. El módem, el SoC principal, el codificador de video, todo se reinicia junto. Esto funciona, pero es lento. Un arranque completo del sistema puede tardar entre 60 y 90 segundos. Durante ese tiempo, no tienes video ni conectividad.

Nivel 2: Reinicio independiente del módem (Avanzado)

En mejores diseños, especialmente en pasarelas 4G industriales y sistemas PTZ solares de gama alta, la MCU del perro guardián tiene una línea GPIO separada conectada al circuito de control de energía del módem 4G. Esto permite una recuperación escalonada:

Etapa de reinicio	Acción	Tiempo de recuperación	Impacto en el sistema
Etapa 1: Reinicio suave	El software envía `AT+CFUN=1,1` para reiniciar el módem	10–15 segundos	Sin interrupción del sistema
Etapa 2: Reinicio forzado	El MCU Watchdog pone el pin RESET_N en bajo durante 500 ms	15–20 segundos	El sistema principal sigue funcionando
Etapa 3: Ciclo de encendido	El MCU Watchdog corta el MOSFET, apaga el VCC del módem durante 3–5 segundos	20-30 segundos	El sistema principal sigue funcionando
Etapa 4: Reinicio completo	El Watchdog se desborda, reinicia toda la energía del sistema	60-90 segundos	Todo se reinicia

Por qué esto es importante para sitios solares remotos

En una implementación con energía solar³, cada reinicio cuesta energía. Un reinicio completo del sistema extrae corriente pico de la batería. Si la batería ya está baja (día nublado, invierno), un reinicio completo podría hacer que el voltaje caiga por debajo del umbral mínimo de operación del módem, causando un bucle de arranque.

Un watchdog bien diseñado con reinicio independiente del módem puede solucionar el 80% de los problemas 4G sin tocar el sistema principal. El codificador de video sigue funcionando. El controlador del motor PTZ permanece inicializado. Solo se reinicia el módem.

Qué preguntar a su proveedor

Al evaluar una cámara PTZ o un sistema solar 4G de China, haga estas preguntas específicas:

¿Tiene el MCU Watchdog un GPIO separado conectado al control de energía del módem 4G?
¿Puede el watchdog reiniciar solo el módem sin reiniciar todo el SoC?
¿Cuál es la duración del ciclo de encendido del módem (cuánto tiempo se corta VCC)?
¿Está el módem alimentado a través de un interruptor MOSFET⁶ o solo a través del GPIO del SoC (que no funcionará si el SoC está congelado)?

Si el proveedor no puede responder a estas preguntas, el watchdog probablemente solo realiza reinicios de todo el sistema. Esto es aceptable para muchos proyectos, pero no es ideal para implementaciones solares fuera de la red donde cada vatio cuenta.

¿Registrará el Watchdog la “Intensidad de la señal” y el “ID de celda” antes de activar un reinicio forzado?

He tenido sitios que se reiniciaron 5 veces en una noche. Sin registros, no tenía idea de si era un problema de señal, un problema de hardware o un problema de energía.

Un watchdog de hardware básico no registra ningún dato; no tiene memoria para registros. Sin embargo, un sistema watchdog avanzado con una MCU dedicada y almacenamiento no volátil (EEPROM o flash) puede registrar la última intensidad de señal conocida (RSSI/RSRP), Cell ID, motivo del reinicio y voltaje de la batería antes de activar un reinicio. Estos datos son críticos para el diagnóstico remoto.

El watchdog registra la intensidad de la señal y el Cell ID antes del reinicio

Por qué el registro previo al reinicio lo cambia todo

Sin registros, cada reinicio es un misterio. Sabes que el dispositivo se desconectó y volvió. Pero no sabes por qué. ¿Fue un fallo del firmware del módem? ¿Una señal débil que hizo que el módem buscara una torre sin fin? ¿Un bajo voltaje de la batería que hizo que el módem se apagara?

Con el registro previo al reinicio, obtienes un rastro forense. Esto es lo que un buen sistema debería registrar:

Qué se debe registrar

Un demonio de monitoreo bien diseñado debería escribir los siguientes datos en almacenamiento no volátil antes de deja de alimentar al watchdog:

Marca de tiempo de la última conexión de red exitosa
RSSI / RSRP / SINR — métricas de calidad de señal de AT+CSQ o AT+QENG
Cell ID y LAC — a qué torre celular estaba conectado el módem (de AT+CREG? o AT+CEREG?)
Código de motivo del reinicio — ¿fue tiempo de espera de AT, fallo de registro de red, tiempo de espera del enlace de datos o bajo voltaje?
Voltaje de la batería en el momento del fallo
Temperatura del módem (si está disponible a través del comando AT)
Número de intentos de reinicio consecutivos

¿Dónde se almacenan estos datos?

El chip del watchdog de hardware en sí (como un TPS3823 o MAX6369) no tiene almacenamiento. Es solo un temporizador y una salida de reinicio. El registro debe ser realizado por:

El demonio de software — escribe en un archivo en el almacenamiento flash del sistema principal antes de activar un reinicio. Riesgo: si el kernel se ha bloqueado, el demonio no puede escribir nada.
El MCU del watchdog — si el watchdog se implementa como un microcontrolador separado (como un STM32 o ATtiny), puede tener su propia EEPROM. El sistema principal envía datos de estado al MCU periódicamente a través de I2C o UART. El MCU almacena el último estado conocido. Incluso si el sistema principal falla, el MCU todavía tiene los datos.

Cómo acceder a los registros de forma remota

Después de que el sistema se reinicie y se reconecte a 4G, el software de monitoreo debería:

Leer los registros de reinicio almacenados de la EEPROM o flash.
Subirlos a su servidor en la nube o plataforma VMS.
Alertarle por correo electrónico o notificación push con el motivo del reinicio y los datos de la señal.

Esto convierte un reinicio ciego en inteligencia procesable. Si ve que cada reinicio ocurre cuando el RSRP cae por debajo de -110 dBm, sabe que necesita una antena mejor o una torre diferente. Si cada reinicio ocurre cuando el voltaje de la batería cae por debajo de 11.2V, sabe que necesita una batería o un panel solar más grande.

Campo de registro	Comando de origen	Valor de diagnóstico
RSRP / RSSI	`AT+CSQ` o `AT+QENG="servingcell"`	Identifica la señal débil como causa raíz
ID de celda / LAC	`AT+CEREG?`	Detecta problemas de traspaso de antena
Voltaje de la batería	Lectura ADC del MCU de vigilancia	Identifica bucles de arranque relacionados con la energía
Razón del reinicio	Indicador de estado del demonio de software	Distingue el bloqueo del módem del bloqueo del sistema operativo
Reinicios consecutivos	Contador en EEPROM	Activa el modo de protección de suspensión profunda

¿Cómo evito que el Watchdog reinicie durante una actualización de firmware legítima?

Una vez brickeé una cámara porque el watchdog la reinició a mitad de la actualización de firmware. El flash estaba medio escrito. El dispositivo nunca volvió.

Antes de iniciar una actualización del firmware², el software debe deshabilitar el temporizador del watchdog o extender su tiempo de espera a un valor más largo que la duración de la actualización. La mayoría de los sistemas Linux admiten esto a través de la interfaz /dev/watchdog usando el WDIOC_SETTIMEOUT llamada ioctl. Para watchdogs de hardware sin control de software, el proceso de actualización debe continuar alimentando al watchdog a intervalos regulares durante toda la actualización.

Prevención del reinicio del watchdog durante la actualización OTA de firmware

El problema de la actualización de firmware

Una actualización de firmware (especialmente una actualización OTA⁷ por 4G) puede tardar entre 5 y 30 minutos, dependiendo del tamaño del archivo y la velocidad de conexión. Durante este tiempo, el sistema está ocupado escribiendo en la memoria flash. Es posible que no esté ejecutando sus tareas normales de monitoreo. Es posible que no esté alimentando al watchdog.

Si el tiempo de espera del watchdog se establece en 120 segundos y la escritura del firmware tarda 10 minutos, el watchdog reiniciará el sistema en el minuto 2. La flash está medio escrita. El gestor de arranque no puede encontrar una imagen válida. El dispositivo está inutilizado. Ahora necesita enviar a alguien al sitio con un programador JTAG o una consola serie.

Este no es un riesgo teórico. Lo he visto suceder en el campo.

Tres estrategias para prevenir esto

Estrategia 1: Desactivar el watchdog durante la actualización

En los sistemas Linux, puede desactivar el watchdog escribiendo el carácter mágico V a /dev/watchdog y luego cerrando el descriptor de archivo. Esto le dice al controlador del watchdog que detenga el temporizador.

Riesgo: Si el propio proceso de actualización falla, no hay ningún watchdog que recupere el sistema. Estás volando sin red de seguridad.

Estrategia 2: Extender el tiempo de espera del watchdog

Un mejor enfoque es extender el tiempo de espera del watchdog a un valor más largo que la duración máxima esperada de la actualización. Por ejemplo, establécelo en 30 minutos antes de iniciar la actualización, luego restablézcalo a 120 segundos después de que la actualización se complete.

Riesgo: Si el sistema falla durante la actualización por una razón no relacionada con la actualización en sí, esperará 30 minutos antes de que el watchdog reinicie. Pero al menos el watchdog sigue activo.

Estrategia 3: Alimentar el watchdog desde el proceso de actualización

El enfoque más robusto es hacer que el propio proceso de actualización de firmware alimente al watchdog a intervalos regulares. Después de que cada bloque de datos se escribe en la flash, el proceso de actualización escribe en /dev/watchdog para restablecer el temporizador.

Riesgo: Mínimo. El watchdog permanece activo con su tiempo de espera normal. Si el proceso de actualización se cuelga, el watchdog reiniciará el sistema. El requisito clave es que su gestor de arranque admita partición A/B⁸ el cambio o tenga un mecanismo de retroceso, de modo que una escritura parcial no inutilice el dispositivo.

Qué exigir a su proveedor

Si su cámara PTZ admite actualizaciones de firmware OTA a través de 4G (y debería hacerlo, para implementaciones remotas), pregunte a su proveedor:

¿Qué le sucede al watchdog durante una actualización de firmware?
¿El proceso de actualización alimenta al watchdog o lo deshabilita?
¿El gestor de arranque admite particiones A/B o retroceso en caso de actualización fallida?
¿Ha probado el proveedor un corte de energía durante la actualización del firmware? ¿Se recupera el dispositivo?

Estas preguntas separan a los fabricantes serios de los ensambladores que solo colocan componentes en una placa. Una cámara inutilizada en un sitio solar remoto puede costarle entre 500 y 2000 dólares en gastos de desplazamiento de técnicos, mucho más que la propia cámara.

Conclusión

El watchdog de hardware es su última línea de defensa, no la primera. Reinicia el sistema cuando todo lo demás falla. Para una monitorización 4G real (comprobaciones de señal, reinicios del módem y registro previo al reinicio), necesita demonios de software que trabajen junto con el watchdog. Exija ambos a su proveedor.

1. Descripción general de la tecnología celular 4G y los estándares de módulos. ︎↩︎ 2. Información general sobre firmware y procedimientos de actualización. ︎↩︎ 3. Fundamentos de los sistemas de energía solar para equipos remotos. ︎↩︎ 4. Nota técnica de aplicación sobre temporizadores watchdog en sistemas integrados. ︎↩︎ 5. Explicación de los procesos en segundo plano en sistemas tipo Unix. ︎↩︎ 6. Cómo se utilizan los MOSFET para la conmutación de potencia en circuitos. ︎↩︎ 7. Definición de actualizaciones de firmware por aire para dispositivos conectados. ︎↩︎ 8. Explicación de las actualizaciones del sistema A/B para un arranque fiable después de actualizaciones fallidas. ︎↩︎