J'ai perdu le compte du nombre de fois où un client m'a demandé : “ Han, votre caméra peut-elle penser localement ET vérifier dans le cloud ? ” La réponse est plus importante que vous ne le pensez.
Oui, nous prenons entièrement en charge l'architecture IA hybride8. Notre système effectue d'abord une détection rapide sur le processeur périphérique de la caméra, puis n'envoie que les événements critiques au cloud pour une analyse approfondie telle que la reconnaissance faciale et la correspondance de plaques d'immatriculation. Cette approche à deux niveaux vous offre une vitesse en temps réel et une grande précision sans épuiser votre forfait de données 4G.

Ci-dessous, j'explique exactement comment cela fonctionne pour chaque question courante que je reçois des intégrateurs comme David Miller qui déploient dans des endroits hors réseau au Texas, en Alberta et en Europe rurale. Laissez-moi vous expliquer les détails.
Table des matières
La caméra peut-elle effectuer un “filtrage humain” de base en périphérie et envoyer le clip pour une “identification faciale” dans le cloud ?
J'entends cette question chaque semaine de la part des intégrateurs de systèmes qui ont besoin d'alertes rapides mais qui ont également besoin de savoir exactement qui les a déclenchées.
Oui, la caméra effectue la détection humaine localement en moins de 50 millisecondes. Lorsqu'elle repère une personne, elle capture un instantané et n'envoie que cette petite image au serveur cloud pour une reconnaissance faciale par rapport à votre liste blanche ou liste noire. La périphérie gère la vitesse. Le cloud gère l'identité.

Comment fonctionne le processus en deux étapes
Le processeur périphérique à l'intérieur de notre Caméra PTZ1 utilise un réseau neuronal léger. Ce réseau est entraîné à séparer les personnes des animaux, des véhicules et du bruit de fond comme les arbres qui se balancent ou les ombres mouvantes. Il fonctionne 24h/24 et 7j/7 sans aucune connexion Internet. Au moment où il classe un objet en mouvement comme “humain”, deux choses se produisent en même temps :
- La caméra déclenche des actions locales — suivi PTZ, sirène, lumière blanche et enregistrement sur carte SD.
- La caméra conditionne un instantané JPEG haute résolution (généralement 50-150 Ko) et le met en file d'attente pour le téléchargement.
Ce petit fichier voyage via la 4G vers votre serveur cloud. Côté cloud, un modèle d'IA beaucoup plus volumineux effectue l'extraction des caractéristiques faciales. Il compare le visage à votre base de données stockée. S'il y a une correspondance sur votre liste noire, le système envoie une alerte à votre téléphone avec le nom et la photo de la personne côte à côte.
Pourquoi ne pas exécuter la reconnaissance faciale en périphérie ?
Les modèles de reconnaissance faciale sont lourds. Ils nécessitent une grande mémoire et une forte puissance GPU. Les exécuter sur le SoC d'une caméra ralentirait le suivi en temps réel et augmenterait la production de chaleur. En divisant la charge de travail, nous maintenons la caméra réactive et refroidie, tandis que le cloud gère les calculs lourds.
Répartition du flux de données
| Étape | Emplacement | Action | Taille des données |
|---|---|---|---|
| 1. Mouvement détecté | Périphérie (Caméra) | Classifier le type d'objet | 0 Ko (interne) |
| 2. Humain confirmé | Périphérie (Caméra) | Déclencher le suivi PTZ + instantané | 50-150 Ko |
| 3. Télécharger l'instantané | Réseau 4G | Envoyer le JPEG au cloud | 50-150 Ko |
| 4. Comparaison faciale | Serveur Cloud | Comparer avec la base de données | Résultat : ~1 Ko |
| 5. Alerte envoyée | Cloud vers Application | Notifier l'utilisateur avec le résultat de la correspondance | ~5 Ko |
La quantité totale de données utilisée par événement est inférieure à 200 Ko. Comparez cela au streaming vidéo complet à 2-4 Mbps. Vous économisez d'énormes quantités de bande passante.
Et si le signal 4G tombait ?
Le Edge ne cesse jamais de fonctionner. Il continue d'enregistrer localement. Une fois la connexion rétablie, les instantanés mis en file d'attente sont automatiquement téléchargés. Vous ne perdez jamais de preuves. Vous obtenez simplement la confirmation du cloud un peu plus tard.
Comment l'IA hybride équilibre-t-elle le besoin de suivi local à haute vitesse et de logique cloud à haute puissance ?
La vitesse et la précision s'opposent souvent. J'ai passé des années à ajuster cet équilibre pour que nos clients n'aient pas à choisir.
L'IA hybride résout ce problème en donnant à chaque couche un travail clair. Le Edge gère toutes les tâches sensibles au temps comme le suivi automatique PTZ en moins de 50 millisecondes. Le cloud gère toutes les tâches sensibles à la précision comme l'extraction d'attributs et la mise en correspondance. Aucune couche n'attend que l'autre termine son travail principal.
L'IA hybride équilibrant la vitesse du Edge et la précision du cloud
La couche de vitesse : ce qui se passe sur le Edge
Le SoC intégré de notre caméra exécute un modèle élagué basé sur YOLO2. Il est optimisé pour trois choses : détecter rapidement, classifier rapidement et déclencher rapidement. Lorsqu'une personne ou un véhicule entre dans le champ, le moteur PTZ commence à bouger en moins de 50 millisecondes. La sirène peut se déclencher en moins de 100 millisecondes. Rien de tout cela ne nécessite de connexion réseau.
C'est essentiel pour les projets de ranch de David Miller au Texas. Un intrus peut franchir une clôture en 2 à 3 secondes. Si le système attendait la confirmation du cloud avant de suivre, la personne serait déjà hors du champ. La vitesse du Edge résout ce problème.
La couche de précision : ce qui se passe dans le cloud
Une fois que le Edge a verrouillé la cible et commencé le suivi, il envoie des métadonnées et des instantanés en amont. Le cloud effectue ensuite une analyse plus approfondie :
- Couleur et type de vêtement — La personne porte-t-elle un gilet haute visibilité (travailleur) ou des vêtements sombres (intrus potentiel) ?
- Objets transportés — La personne tient-elle un outil, un sac ou rien ?
- Détails du véhicule — Marque, modèle, couleur, plaque d'immatriculation, et même les logos de l'entreprise sur le côté.
- Modèles comportementaux — La personne rôde-t-elle, court-elle ou marche-t-elle normalement ?
Pourquoi cette séparation a du sens sur le plan de l'ingénierie
Pensez-y comme à un agent de sécurité avec une radio. L'agent (edge) voit l'intrus en premier et réagit immédiatement — il allume une lampe de poche, lance un avertissement. Ensuite, l'agent contacte la salle de contrôle (cloud) par radio avec une description. La salle de contrôle consulte la base de données, récupère les informations et décide de la prochaine étape. Ni l'agent ni la salle de contrôle ne pourraient faire le travail de l'autre aussi bien.
Comparaison de latence
| Tâche | Temps de réponse Edge | Temps de réponse Cloud | Qui s'en charge |
|---|---|---|---|
| Détection d'objets | <50 ms | N/A | Edge |
| suivi automatique PTZ | <100 ms | N/A | Edge |
| Déclenchement sirène/lumière | <100 ms | N/A | Edge |
| Reconnaissance faciale | N/A | 1-3 secondes | Cloud |
| Recherche de plaque d'immatriculation | N/A | 1-2 secondes | Cloud |
| Extraction d'attributs | N/A | 2-5 secondes | Cloud |
| Filtrage des fausses alarmes | De base (périphérique) | Avancé (cloud) | Les deux |
Le périphérique n'attend jamais que le cloud agisse. Le cloud ne ralentit jamais le périphérique. Ils fonctionnent en parallèle, pas en séquence.
Que se passe-t-il lorsque les deux ne sont pas d'accord ?
Parfois, le périphérique signale quelque chose comme une personne, mais le cloud détermine qu'il s'agissait d'un faux positif — peut-être un mannequin ou une affiche. Dans ce cas, le cloud supprime la notification push. Vous ne recevez que les alertes qui passent les deux couches. Ce système de double vérification réduit les fausses alarmes de plus de 90 % par rapport aux configurations basées uniquement sur le périphérique.
Le mode hybride réduira-t-il mon utilisation globale de données 4G par rapport à une IA entièrement basée sur le cloud ?
Les coûts de données tuent les projets hors réseau. J'ai vu des intégrateurs abandonner les déploiements de caméras solaires car la facture mensuelle 4G dépassait le coût du matériel.
Oui, l'IA hybride réduit l'utilisation des données 4G de 80 % ou plus par rapport à l'IA entièrement basée sur le cloud. Au lieu de diffuser en continu des vidéos vers le cloud pour analyse, notre système ne télécharge que de petits instantanés déclenchés par des événements et des métadonnées. La plupart du traitement reste sur la caméra elle-même.

Les calculs derrière les économies
Un système d'IA entièrement basé sur le cloud doit diffuser des vidéos vers le cloud 24h/24 et 7j/7 afin que le cloud puisse les analyser. Même avec un flux compressé de 1 Mbps, cela représente :
- 1 Mbps × 3 600 secondes = 3 600 Mb par heure = 450 Mo par heure
- 450 Mo × 24 heures = 10,8 Go par jour
- 10,8 Go × 30 jours = 324 Go par mois par caméra
Regardons maintenant l'IA hybride. La caméra traite la vidéo localement. Elle ne télécharge que lorsqu'un événement se produit. Une caméra de ranch typique peut détecter 10 à 30 événements réels par jour. Chaque événement télécharge un instantané de 100 à 200 Ko plus quelques Ko de métadonnées.
- 30 événements × 200 Ko = 6 Mo par jour
- 6 Mo × 30 jours = 180 Mo par mois par caméra
C'est une réduction de 324 Go à 0,18 Go. En pourcentage, vous économisez plus de 99 % de bande passante dans les scènes à faible activité.
Qu'en est-il du téléchargement de courts clips vidéo ?
Certains clients souhaitent que le cloud reçoive un clip vidéo de 5 à 10 secondes au lieu d'un simple instantané. Même dans ce cas, les chiffres restent bas :
- Une vidéo de 10 secondes H.2657 clip à 2 Mbps = environ 2,5 Mo
- 30 événements × 2,5 Mo = 75 Mo par jour
- 75 Mo × 30 jours = 2,25 Go par mois par caméra
Toujours bien en deçà des 324 Go du streaming cloud complet. Et vous obtenez des données beaucoup plus riches à analyser pour le cloud.
Impact réel sur les coûts pour David Miller
David utilise 8 caméras dans un ranch au Texas. Son forfait 4G facture 10 $ par Go après les 50 premiers Go.
| Mode | Données mensuelles (8 caméras) | Coût mensuel 4G |
|---|---|---|
| IA Cloud complète (streaming) | 2 592 Go | $25,420+ |
| IA hybride (instantanés uniquement) | 1,44 Go | Dans le forfait de base |
| IA hybride (courts clips) | 18 Go | Dans le forfait de base |
La différence n'est pas marginale. C'est la différence entre un projet viable et un projet impossible.
Qualité de téléchargement adaptative
Notre système ajuste également la qualité de téléchargement en fonction de la force du signal. Si la connexion 4G est faible, il envoie d'abord une image de résolution inférieure pour garantir la livraison, puis télécharge la version en pleine résolution lorsque la bande passante s'améliore. Cela évite les téléchargements échoués et les boucles de retransmission qui gaspillent encore plus de données.
Stockage local comme filet de sécurité
Chaque image de la vidéo en pleine résolution reste sur la carte SD de la caméra ou sur le stockage NVR embarqué. Le cloud ne reçoit que les moments forts. Si vous avez besoin des séquences complètes — pour des preuves judiciaires ou des réclamations d'assurance — vous pouvez les récupérer lors d'une visite sur site ou via un téléchargement groupé programmé pendant les heures creuses.
Puis-je intégrer mon propre serveur IA cloud personnalisé avec vos caméras de détection en périphérie ?
Tous les intégrateurs ne souhaitent pas utiliser notre plateforme cloud. Certains ont leurs propres serveurs, leurs propres modèles et leurs propres règles. Je respecte cela.
Oui, nos caméras prennent en charge les protocoles ouverts, y compris ONVIF3, RTSP et les rappels webhook HTTP. Vous pouvez diriger les téléchargements déclenchés par événement vers n'importe quel serveur cloud que vous contrôlez. Nous fournissons la documentation de l'API afin que votre backend IA personnalisé puisse recevoir des instantanés, des métadonnées et des événements d'alarme directement de nos caméras edge.

Comment fonctionne l'intégration
Nos caméras peuvent envoyer des données à des serveurs externes de plusieurs manières. La méthode la plus courante pour l'intégration cloud personnalisée est le rappel HTTP POST. Lorsque l'edge détecte un événement, il envoie une charge utile JSON structurée à l'endpoint de votre serveur. Cette charge utile comprend :
- Horodatage
- Type d'événement (personne, véhicule, mouvement)
- Score de confiance
- Image instantanée (encodée en base64 ou sous forme de téléchargement de fichier distinct)
- ID de caméra et métadonnées de localisation
- Position PTZ au moment de la détection
Votre serveur reçoit ces données et exécute le modèle de votre choix — votre propre moteur de reconnaissance faciale, votre base de données de véhicules propriétaire ou un algorithme d'analyse comportementale personnalisé.
Protocoles et formats pris en charge
Nous ne vous enfermons pas dans un écosystème propriétaire. Nos caméras parlent des langages standards :
- Profil ONVIF S/T — Pour le streaming vidéo et l'abonnement aux événements
- RTSP4 — Pour importer des flux vidéo en direct ou enregistrés dans votre propre VMS
- Webhooks HTTP — Pour envoyer des données d'événements à vos points de terminaison d'API
- FTP/SFTP — Pour télécharger des instantanés et des clips sur votre serveur de fichiers
- MQTT5 — Pour une messagerie légère de type IoT vers votre courtier
Qu'en est-il de la compatibilité VMS ?
L'équipe de David Miller utilise Milestone XProtect6 sur la plupart des projets. D'autres clients utilisent Blue Iris, Genetec ou un logiciel NVR personnalisé. Nos caméras s'intègrent à toutes les principales plateformes VMS via ONVIF. Les événements d'IA en périphérie apparaissent comme des événements d'analyse standard dans la chronologie de votre VMS. Vous pouvez définir des règles, déclencher des enregistrements et générer des rapports comme avec n'importe quelle caméra native.
Créer votre propre pipeline hybride
Voici un flux d'intégration personnalisé typique :
- La caméra en périphérie détecte une personne → déclenche le suivi PTZ local
- La caméra envoie un POST HTTP avec un instantané à votre serveur AWS/Azure/sur site
- Votre serveur exécute votre modèle personnalisé (correspondance faciale, détection d'uniforme, etc.)
- Votre serveur renvoie un résultat (autoriser/refuser/alerter)
- La caméra reçoit le résultat et peut déclencher des actions secondaires (déverrouiller la porte, déclencher une alarme, etc.)
Cet aller-retour prend généralement 1 à 3 secondes en fonction de l'emplacement de votre serveur et de la complexité du modèle. La périphérie continue le suivi pendant tout ce temps, quelle que soit la réponse du cloud.
Options de personnalisation OEM/ODM
Si vous avez besoin d'une intégration plus approfondie — comme un module de micrologiciel personnalisé qui formate les données spécifiquement pour votre plateforme — nous proposons des services ODM. Nous avons créé des formats de sortie personnalisés pour des clients exécutant des moteurs d'analyse propriétaires. Notre équipe R&D à Shenzhen peut modifier la structure de sortie des événements de la caméra, ajouter des champs de métadonnées personnalisés ou implémenter des méthodes d'authentification spécifiques requises par votre serveur.
Le point clé : vous n'achetez pas une boîte fermée. Vous achetez un appareil périphérique capable qui s'intègre bien avec le backend que vous possédez déjà.
Conclusion
L'IA hybride vous offre le meilleur des deux mondes : une réponse instantanée en périphérie et une intelligence cloud approfondie, tout en réduisant vos coûts 4G de plus de 80 %. Si vous avez besoin de caméras hors réseau qui fonctionnent avec votre propre backend cloud, contactez-moi à sales05@.com et je spécifierai un système qui correspondra à votre flux de travail exact.
1. Découvrez comment les caméras panoramiques, inclinables et zoom améliorent la couverture de surveillance. ︎↩︎ 2. Lisez l'algorithme de détection d'objets YOLO (You Only Look Once). ︎↩︎ 3. Comprenez la norme ONVIF pour l'interopérabilité des caméras IP. ︎↩︎ 4. Apprenez le protocole de streaming en temps réel pour les flux vidéo. ︎↩︎ 5. Explorez le protocole MQTT pour la messagerie IoT légère. ︎↩︎ 6. Découvrez les fonctionnalités du logiciel de gestion vidéo de Milestone. ︎↩︎ 7. Apprenez la norme de compression vidéo H.265 (HEVC). ︎↩︎ 8. Apprenez l'IA hybride combinant le traitement en périphérie et dans le cloud. ︎↩︎