J'ai vu trop d'intégrateurs perdre des heures à déboguer des problèmes audio qui auraient dû être simples. Le codec fonctionne sur le papier. Mais le VMS reste silencieux.
Le G.711u (PCMU) offre une compatibilité quasi universelle avec les plateformes VMS américaines comme Milestone, Blue Iris et Genetec. L'AAC offre une qualité audio supérieure mais nécessite une vérification minutieuse des licences VMS, du support du profil ONVIF T et d'un encapsulage de flux approprié pour éviter les lectures silencieuses ou les échecs de synchronisation.

Dans ce guide, j'analyse le comportement réel des codecs audio sur les principales plateformes VMS américaines. Je couvre le G.711u, l'AAC, l'intercom bidirectionnel, les ajustements de fréquence d'échantillonnage et les pièges spécifiques que vous rencontrerez sur les déploiements solaires 4G. Si vous êtes un intégrateur ou un chef de projet planifiant un déploiement de surveillance en Amérique du Nord, continuez à lire. Cela vous évitera un déplacement inutile.
Table des matières
Mon logiciel Milestone ou Blue Iris reconnaîtra-t-il le flux audio haute fidélité AAC ?
J'ai eu un client au Texas qui m'a appelé à 2 heures du matin. Son système Milestone affichait parfaitement la vidéo. Mais aucun son. La caméra était en bon état. Le codec était le problème.
Milestone XProtect et Blue Iris prennent tous deux en charge l'audio AAC, mais la reconnaissance dépend de votre version de VMS, de la configuration du profil ONVIF et si votre niveau de licence VMS inclut les droits de décodage AAC. Le G.711u fonctionne immédiatement sur pratiquement toutes les plateformes VMS américaines sans configuration supplémentaire.

G.711u : Le choix sûr pour les VMS nord-américains
G.711u1 est le codec audio standard utilisé dans la téléphonie fixe nord-américaine. Tous les principaux VMS sur le marché américain le prennent en charge nativement. Il n'y a pas de frais de licence. Il n'y a pas de configuration spéciale. Vous ajoutez la caméra. L'audio est diffusé.
L'inconvénient est simple. Le G.711u sonne comme un appel téléphonique. Il échantillonne à 8 kHz. Le débit binaire est fixe à 64 kbps. Vous ne pouvez pas l'ajuster. Pour l'audio de surveillance de base — entendre des voix, détecter des alarmes — c'est suffisant. Pour l'analyse audio pilotée par l'IA comme la détection de bris de verre ou la reconnaissance de cris, il est insuffisant.
AAC : Meilleure qualité, risque d'échec plus élevé
L'AAC offre une bien meilleure qualité audio. Il prend en charge des fréquences d'échantillonnage allant de 16 kHz à 48 kHz. À débit binaire égal, l'AAC capture plus de détails environnementaux que le G.711u. Ceci est important pour l'examen médico-légal et pour alimenter les moteurs d'analyse IA.
Mais c'est là que les intégrateurs se brûlent les ailes. Tous les VMS ne gèrent pas l'AAC de la même manière.
| Plateforme VMS | Support G.711u | Prise en charge AAC | Problèmes AAC connus |
|---|---|---|---|
| Milestone XProtect | ✅ Natif | ✅ Conditionnel | Nécessite le profil T pour ONVIF ; certaines versions nécessitent un mappage manuel des codecs |
| Iris bleu | ✅ Natif | ✅ Conditionnel | L'AAC fonctionne via RTSP direct ; la découverte ONVIF peut utiliser G.711 par défaut |
| Genetec Security Center | ✅ Natif | ✅ Bon | La combinaison H.265 + AAC peut entraîner une dérive de synchronisation A/V sur les anciennes versions |
| ExacqVision | ✅ Natif | ⚠️ Limité | Certains niveaux de licence excluent le décodage AAC |
| Hanwha Wave (Wisenet) | ✅ Natif | ✅ Bon | Fluide avec RTSP ; le canal de retour ONVIF nécessite une mise à jour du firmware |
Le piège des licences
L'AAC n'est pas un codec gratuit. Il est couvert par des brevets. Certaines plateformes NVR économiques et les licences VMS de niveau inférieur omettent le paiement des redevances AAC. Le résultat ? Vous obtenez la vidéo. Vous obtenez le silence. Il n'y a pas de message d'erreur. La piste audio ne se décode tout simplement pas.
Avant de spécifier l'AAC dans un projet, confirmez deux choses. Premièrement, vérifiez que votre niveau de licence VMS mentionne explicitement la prise en charge de l'AAC. Deuxièmement, testez-le. Ne vous fiez pas uniquement à la fiche technique. Connectez la caméra, démarrez un enregistrement et lisez-le. Si la lecture a de l'audio, c'est bon. Sinon, passez à G.711u ou mettez à niveau votre licence VMS.
Ma recommandation pour une première configuration
Commencez avec G.711u. Assurez-vous que l'audio fonctionne. Confirmez que le flux RTSP2 transporte la piste audio à travers votre pare-feu et vos mappages de ports. Une fois que vous avez une base stable, passez à l'AAC si votre projet nécessite une fidélité plus élevée. Cette approche en deux étapes permet d'économiser des heures de débogage.
Comment résoudre les problèmes de “synchronisation audio” lors de l'enregistrement de vidéos haute définition sur une liaison 4G ?
Les problèmes de synchronisation audio-vidéo sont le tueur silencieux des projets de surveillance à distance. La vidéo est belle. L'audio est lu. Mais ils dériveront de 2 à 5 secondes. Votre client le remarquera. Votre crédibilité en prendra un coup.
Les problèmes de synchronisation audio sur les liaisons 4G sont généralement causés par la gigue du réseau, des sources de temps NTP incompatibles entre la caméra et le VMS, ou l'utilisation du transport UDP pour les paquets audio. Le passage à RTP sur TCP, l'activation de la synchronisation NTP et la réduction du taux d'échantillonnage audio à 16 kHz ou moins résoudront la plupart des problèmes de synchronisation.

Pourquoi la 4G rend la synchronisation audio plus difficile que les réseaux câblés
Sur un réseau Ethernet câblé, les paquets arrivent dans l'ordre. La latence est stable. Les flux audio et vidéo restent alignés car le réseau se comporte de manière prévisible.
La 4G est différente. Les tours cellulaires gèrent des milliers d'appareils. La bande passante fluctue. Les temps de livraison des paquets varient de 20 ms à 500 ms au cours de la même minute. Les codecs vidéo comme le H.265 ont une mise en mémoire tampon intégrée pour gérer cela. Les codecs audio — en particulier le G.711u — ne le font pas. Le G.711u envoie un flux continu de petits paquets. Lorsque certains paquets arrivent en retard, l'audio saccade ou devance la vidéo.
Les trois causes profondes et leurs solutions
Cause 1 : Transport UDP pour l'audio
L'UDP ne garantit pas la livraison ni l'ordre des paquets. Sur un LAN stable, cela ne pose pas de problème. Sur une liaison 4G avec de la gigue, les paquets audio UDP sont perdus ou arrivent dans le désordre. Votre VMS essaie de les lire quand même. Le résultat est un audio haché et désynchronisé.
Solution : Basculez le transport RTSP sur RTP sur TCP3 . TCP garantit l'ordre des paquets et retransmet les paquets perdus. Oui, cela ajoute une légère latence. Mais l'audio reste clair et aligné avec la vidéo.
Cause 2 : Désynchronisation de l'heure NTP
Votre caméra horodate chaque paquet audio et vidéo. Votre VMS utilise ces horodatages pour aligner les flux lors de la lecture. Si l'horloge de la caméra et l'horloge du VMS ne sont pas synchronisées, les horodatages divergent. Le VMS voit des paquets audio qui semblent appartenir à une heure différente de la vidéo.
Solution : Pointez votre caméra et votre serveur VMS vers le même serveur NTP. Je recommande d'utiliser time.nist.gov4 pour les déploiements aux États-Unis. Vérifiez que la synchronisation de l'heure fonctionne en consultant la page d'informations système de la caméra. L'horloge doit correspondre à celle de votre serveur VMS à moins de 1 seconde près.
Cause 3 : Taux d'échantillonnage audio élevé sur une liaison congestionnée
Un flux AAC de 48 kHz génère beaucoup plus de données qu'un flux G.711u de 8 kHz. Sur une liaison 4G qui transporte déjà un flux vidéo H.265 de 4 MP, la bande passante audio supplémentaire peut pousser la connexion au-delà de sa limite. Le modem 4G commence à perdre des paquets. L'audio souffre en premier car les paquets vidéo sont généralement prioritaires.
Solution : Pour les déploiements 4G, maintenez le taux d'échantillonnage audio à 8 kHz ou 16 kHz. Cela maintient le débit binaire audio bas et laisse plus de bande passante pour la vidéo.
| Taux d'échantillonnage | Codec | Débit binaire approximatif | Recommandé pour |
|---|---|---|---|
| 8 kHz | G.711u | 64 kbps (fixe) | Sites 4G, interphone bidirectionnel, liaisons à faible bande passante |
| 16 kHz | AAC | 32–64 kbps | Sites 4G nécessitant une qualité audio supérieure à celle d'un téléphone |
| 44,1 kHz | AAC | 96–128 kbps | LAN filaire, capture audio de qualité médico-légale |
| 48 kHz | AAC | 128–256 kbps | Qualité studio ; rarement nécessaire en surveillance |
Une séquence de débogage 4G en conditions réelles
Lorsque j'aide un client à résoudre des problèmes de synchronisation audio sur un site PTZ 4G solaire, je suis cet ordre exact :
- Réglez l'audio sur G.711u, 8 kHz.
- Réglez le transport RTSP sur TCP.
- Confirmez la synchronisation NTP sur la caméra et le VMS.
- Enregistrez 10 minutes. Lisez l'enregistrement. Vérifiez la synchronisation.
- Si la synchronisation est bonne, passez à AAC 16kHz si nécessaire.
- Si la synchronisation se dégrade à nouveau, le lien 4G ne peut pas supporter la charge audio supplémentaire. Restez sur G.711u.
Cette méthode isole les variables une par une. C'est ennuyeux. Ça marche.
Le codec G.711u est-il pris en charge pour l'intercom bidirectionnel à faible bande passante sur mon application mobile ?
L'audio bidirectionnel semble simple jusqu'à ce que vous l'essayiez via une application mobile sur une caméra 4G. La voix va dans un sens. Ou elle sonne comme un robot. Ou l'application affiche simplement un bouton microphone grisé.
G.711u est le codec le plus largement pris en charge pour l'interphone bidirectionnel sur les applications de surveillance mobile. Il fonctionne de manière fiable sur les connexions à faible bande passante en raison de son débit binaire fixe de 64 kbps et de sa surcharge de traitement minimale. Cependant, votre caméra et votre application doivent toutes deux prendre en charge ONVIF Profile T ou un protocole de canal de retour propriétaire pour que la fonction “parler” fonctionne.

Pourquoi l'audio bidirectionnel échoue plus souvent que l'audio unidirectionnel
L'audio unidirectionnel est simple. La caméra capture le son. Elle l'encode. Elle l'envoie au VMS ou à l'application dans le flux RTSP. Le client le décode et le diffuse via un haut-parleur.
L'audio bidirectionnel ajoute un chemin inverse. Le microphone de votre téléphone capture votre voix. L'application l'encode. Elle la renvoie à la caméra. La caméra la décode et la diffuse via son haut-parleur intégré. Ce chemin inverse est appelé le canal de retour audio.
Le canal de retour est l'endroit où la plupart des échecs se produisent. Voici pourquoi.
ONVIF Profile S vs. Profile T : Le fossé du canal de retour
ONVIF Profil S5 a été conçu pour le streaming vidéo et audio de base. Il ne prend en charge que l'audio unidirectionnel — de la caméra au client. Il n'y a pas de spécification de canal de retour dans le Profile S.
ONVIF Profile T a ajouté le canal de retour audio. Si votre caméra prend en charge Profil T6 et que votre VMS ou application mobile prend également en charge le Profile T, l'audio bidirectionnel fonctionne via l'interface ONVIF standard.
Mais de nombreuses plateformes VMS et applications mobiles n'implémentent toujours que le Profile S. Dans ce cas, même si le matériel de votre caméra prend en charge un haut-parleur et un microphone, le logiciel n'a aucun moyen de renvoyer l'audio à la caméra via ONVIF.
Ce qui se passe avec les applications propriétaires
Certains fabricants de caméras — y compris nous chez Loyalty-Secu — fournissent des applications mobiles ou des SDK propriétaires qui gèrent l'audio bidirectionnel en dehors d'ONVIF. Ces applications utilisent un protocole direct de type SIP ou un protocole personnalisé pour établir le canal de retour. Cela contourne entièrement la limitation du Profile S.
Si votre projet nécessite une interphonie bidirectionnelle via un VMS ou une application tierce, vous devez vérifier la prise en charge du profil T des deux côtés. Si votre projet utilise l'application du fabricant, l'audio bidirectionnel G.711u fonctionne généralement sans configuration spéciale.
Choix du codec pour le canal de retour
Même lorsque le canal de retour est établi, le codec doit correspondre des deux côtés. L'entrée du haut-parleur de la caméra attend un codec spécifique. Si l'application envoie de l'AAC mais que la caméra attend du G.711u, vous obtiendrez un silence ou une distorsion.
| Scénario | Codec recommandé pour le canal de retour | Pourquoi |
|---|---|---|
| Application mobile sur 4G vers PTZ distant | G.711u (8 kHz) | Latence la plus faible, bande passante la plus faible, compatibilité la plus élevée |
| Poste de travail VMS vers caméra sur LAN | G.711u ou AAC (16 kHz) | Le LAN dispose d'une marge de bande passante ; l'AAC offre une voix plus claire |
| Intégration d'interphonie basée sur SIP | G.711u | La norme SIP utilise par défaut G.711u en Amérique du Nord |
| Application personnalisée avec SDK propriétaire | G.711u | Le SDK code généralement en dur G.711u pour la fiabilité |
Désynchronisation du taux d'échantillonnage : le problème de la “voix robotique”
C'est un problème courant que je constate chez les intégrateurs américains. Le poste de travail VMS capture la voix de l'opérateur via un microphone USB à 44,1 kHz ou 48 kHz. L'entrée du haut-parleur de la caméra n'accepte que le G.711u à 8 kHz. Si le VMS ne rééchantillonne pas l'audio à 8 kHz avant de l'envoyer, la caméra reçoit des données qu'elle ne peut pas décoder correctement. Le résultat est une voix déformée, dont la hauteur est modifiée, qui sonne robotique.
Certaines plateformes VMS gèrent le rééchantillonnage automatiquement. D'autres non. Si vous entendez une distorsion lors des tests audio bidirectionnels, vérifiez le taux d'échantillonnage d'entrée du microphone côté VMS. Réglez-le manuellement sur 8 kHz si votre VMS le permet. Sinon, utilisez un pilote audio tiers comme Câble audio virtuel8 pour forcer la sortie à 8 kHz avant qu'elle n'atteigne le VMS.
Puis-je ajuster la fréquence d'échantillonnage audio (8 kHz à 48 kHz) pour correspondre aux exigences de mon VMS ?
La plupart des intégrateurs ne touchent jamais au taux d'échantillonnage audio. Ils le laissent à la valeur par défaut d'usine. Ensuite, ils se demandent pourquoi le son est étouffé, ou pourquoi il consomme leur forfait de données 4G.
Oui, les caméras PTZ professionnelles permettent d'ajuster le taux d'échantillonnage audio de 8 kHz à 48 kHz via l'interface web de la caméra. Le réglage approprié dépend des exigences de votre VMS, de la bande passante disponible et de la nécessité d'une capture vocale de base ou d'un son haute fidélité pour l'analyse IA et l'examen médico-légal.

Ce que le taux d'échantillonnage contrôle réellement
Le taux d'échantillonnage détermine le nombre de fois par seconde que le microphone de la caméra capture un instantané de l'onde sonore. Un taux d'échantillonnage plus élevé capture plus de détails. Un taux de 8 kHz capture des fréquences jusqu'à 4 kHz — suffisant pour la parole humaine, mais pas beaucoup plus. Un taux de 48 kHz capture des fréquences jusqu'à 24 kHz — bien au-delà de l'audition humaine et suffisant pour la capture détaillée des sons environnementaux.
Pour la surveillance, la question n'est pas “ qu'est-ce qui sonne le mieux ? ”. La question est “ de quoi mon projet a-t-il réellement besoin ? ”
Adapter le taux à votre cas d'utilisation
Surveillance vocale de base et interphone
Si votre projet a seulement besoin d'entendre des conversations et de prendre en charge la communication bidirectionnelle, 8 kHz G.711u est le bon choix. Il utilise le moins de bande passante. Il a la latence la plus faible. Il fonctionne sur tous les VMS. Il n'y a aucune raison d'aller plus haut.
Analyse audio IA
Si votre VMS ou votre plateforme d'analyse effectue la détection d'événements audio — bris de verre, coups de feu, cris, klaxons de véhicules — vous avez besoin de plus de détails de fréquence. Ces sons contiennent des composantes de haute fréquence que 8 kHz ne peut pas capturer. Réglez le taux d'échantillonnage sur 16 kHz ou 32 kHz avec un encodage AAC. Cela donne au moteur d'analyse suffisamment de données pour classer les sons avec précision sans surcharger votre réseau.
Capture audio de qualité médico-légale
Pour les projets de forces de l'ordre ou d'infrastructures critiques où les enregistrements audio peuvent être utilisés comme preuves légales, AAC 44,1 kHz ou 48 kHz offre la plus haute fidélité. Mais cela n'a de sens que sur les réseaux câblés avec beaucoup de bande passante. N'utilisez pas ce réglage sur les liaisons 4G.
Comment changer le taux d'échantillonnage
Sur la plupart des caméras PTZ professionnelles, y compris les modèles Loyalty-Secu, le réglage se trouve dans l'interface web de la caméra sous Configuration > Audio > Paramètres d'encodage. Vous verrez des options pour :
- Codec : G.711u, G.711a, AAC, G.726
- Taux d'échantillonnage : 8000, 16000, 32000, 44100, 48000
- Débit binaire : Auto, 32 Ko/s, 64 Ko/s, 96 Ko/s, 128 Ko/s
Changez le taux d'échantillonnage. Sauvegardez. Redémarrez la caméra. Puis ré-ajoutez la caméra dans votre VMS pour forcer la renégociation des paramètres du flux audio. Certaines plateformes VMS mettent en cache les paramètres de codec d'origine et ne prendront pas en compte le changement tant que vous n'aurez pas supprimé et ré-ajouté l'appareil.
L'impact sur la bande passante que vous ne pouvez ignorer
Sur un site solaire 4G, chaque kilobit compte. Votre panneau solaire charge une batterie. La batterie alimente la caméra et le modem 4G. Des débits audio plus élevés signifient plus de temps de transmission radio. Plus de temps de transmission signifie une consommation d'énergie plus importante. Plus de consommation d'énergie signifie que votre batterie se décharge plus rapidement la nuit ou par temps nuageux.
Je dis toujours à mes clients : sur un déploiement solaire 4G, réglez l'audio sur G.711u à 8kHz, sauf si vous avez une raison spécifique et documentée de monter plus haut. Économisez votre bande passante et votre batterie pour le flux vidéo. C'est là que réside la vraie valeur.
Si votre VMS nécessite AAC, utilisez 16kHz avec un débit maximal de 64kbps. C'est le juste milieu entre la qualité audio et l'efficacité énergétique pour les sites hors réseau.
Conclusion
La compatibilité des codecs audio est un détail qui peut faire dérailler un projet de surveillance entier. Commencez avec G.711u pour la stabilité. Vérifiez le profil T pour l'audio bidirectionnel. Testez AAC avant de le promettre. Adaptez votre taux d'échantillonnage à votre bande passante et à votre cas d'utilisation — pas au chiffre le plus élevé de la fiche technique.
1. Norme officielle UIT pour le codec audio G.711 μ-law, par défaut pour les systèmes VMS nord-américains. ︎↩︎ 2. Spécification du protocole de streaming en temps réel utilisée pour transporter l'audio/vidéo des caméras vers le VMS. ︎↩︎ 3. Norme IETF pour l'encapsulation RTP sur TCP, qui améliore la fiabilité audio sur les liaisons 4G sujettes aux pertes. ︎↩︎ 4. Service horaire Internet NIST officiel recommandé pour les déploiements de surveillance aux États-Unis. ︎↩︎ 5. Spécification ONVIF Profile S pour le streaming vidéo de base et audio unidirectionnel. ︎↩︎ 6. Spécification ONVIF Profile T pour le streaming avancé, y compris le canal de retour audio. ︎↩︎ 7. Spécification de streaming ONVIF expliquant l'implémentation du canal de retour audio pour l'interphone bidirectionnel. ︎↩︎ 8. Outil logiciel pour rediriger les flux audio, utile pour ajuster les taux d'échantillonnage du microphone dans les configurations VMS. ︎↩︎