Recebo essa pergunta com frequência de integradores de sistemas que precisam de dados de coordenadas ao vivo em seus feeds de vídeo. Isso é importante porque uma configuração incorreta pode arruinar suas evidências ou quebrar seu fluxo de trabalho.
Sim, as coordenadas de rastreamento XY em tempo real podem ser sobrepostas diretamente no fluxo RTSP. Existem dois métodos principais: gravação OSD no nível de hardware, que grava permanentemente as coordenadas em cada quadro de vídeo, e sobreposição de metadados dinâmicos, que envia os dados de coordenadas como uma faixa separada ao lado do vídeo. Cada método atende a diferentes necessidades do projeto.

A escolha certa depende do seu objetivo final. Se você precisa de evidências à prova de violação, você as grava. Se você precisa de dados flexíveis e interativos para seu VMS ou software personalizado, você usa metadados. Abaixo, detalho as perguntas mais comuns que meus clientes fazem sobre este tópico. Também compartilho os desafios do mundo real que resolvemos em nossas implantações PTZ solares 4G.
Índice
As caixas delimitadoras de IA serão gravadas permanentemente nas evidências de vídeo 4K gravadas?
Esta é uma preocupação que ouço de quase todos os gerentes de projeto. Ninguém quer descobrir após uma implantação de seis meses que as filmagens de suas evidências estão faltando dados críticos ou repletas de caixas que não podem remover.
Se você habilitar a opção “Gravar Informações de Eventos Inteligentes” no firmware da câmera, sim, as caixas delimitadoras de IA e as coordenadas XY serão incorporadas permanentemente em cada quadro gravado. Isso significa que os dados se tornam parte do conteúdo do pixel. Ninguém pode removê-los ou alterá-los após a gravação. Isso é ideal para evidências forenses, mas irreversível.

Como funciona a gravação OSD
Deixe-me explicar o que acontece dentro da câmera quando você ativa este recurso. O ISP (Processador de Sinal de Imagem)8 é o chip que processa a imagem bruta do sensor. Antes que o ISP entregue a imagem ao codificador H.265, ele desenha a caixa delimitadora e o texto de coordenadas diretamente nos pixels da imagem. Quando o codificador comprime o quadro, essas caixas são apenas parte da imagem. Elas não são diferentes do carimbo de data/hora no canto.
Isso significa que todos os dispositivos que reproduzem o vídeo verão as caixas. Não importa se você usa VLC5, um DVR barato ou um VMS de ponta como Marco4. Os dados são sempre visíveis.
Quando Usar a Gravação e Quando Evitá-la
Aqui está a questão principal: Quem é o seu utilizador final?
Se o seu cliente for uma agência de aplicação da lei, uma unidade de patrulha de fronteira ou um operador de infraestruturas críticas, estes exigem frequentemente que os eventos de deteção sejam documentados visualmente na própria filmagem. Em tribunal, um advogado pode apontar para o ecrã e dizer: “O sistema detetou um intruso nas coordenadas de pixel (1423, 876) às 02:14:07”. Isso é uma prova poderosa.
Mas se o seu cliente for um operador de cidade inteligente que alimenta vídeo numa plataforma centralizada de IA para análise secundária, as caixas gravadas tornam-se ruído. O sistema de IA secundário pode tentar detetar a própria caixa delimitadora como um objeto. Já vi isto acontecer. Cria falsos positivos.
Integridade da Prova vs. Flexibilidade Analítica
| Fator | OSD Gravado Permanentemente | Vídeo Limpo (Sem Gravação Permanente) |
|---|---|---|
| Admissibilidade em tribunal | Alta — os dados são à prova de adulteração | Requer registo de metadados separado como prova |
| Análise de IA secundária | Baixa — as caixas interferem com a deteção | Excelente — quadros limpos para reprocessamento |
| Impacto no armazenamento | Aumento mínimo (~1-2%) | Sem impacto |
| Controlo do utilizador | Nenhum após a gravação | Controlo total via VMS |
| Compatibilidade de reprodução | Universal | Depende do suporte de metadados do VMS |
Minha recomendação: se o seu projeto tiver dupla finalidade (evidência + análise), grave dois fluxos. Use o fluxo principal com burn-in para armazenamento de evidências. Use o subfluxo limpo para o seu backend de IA. Nosso firmware suporta essa configuração de fluxo duplo "out of the box".
Posso ativar/desativar a sobreposição de coordenadas XY através das configurações OSD da câmera?
Tive um cliente no Texas no ano passado que queria que as coordenadas fossem visíveis durante o monitoramento ao vivo, mas completamente ocultas durante a reprodução para a revisão de privacidade de seu cliente. Ele assumiu que um simples alternador resolveria isso. A realidade é mais sutil.
Sim, você pode ativar ou desativar a sobreposição de coordenadas XY através do menu OSD da câmera, mas apenas se estiver usando o método de sobreposição de metadados. Se você escolheu o método de gravação rígida (hard burn-in), o alternador afeta apenas os quadros futuros. Ele não pode remover as coordenadas de quadros já gravados. Para flexibilidade total de ativação/desativação, a abordagem de metadados é a escolha correta.

Entendendo os Dois Comportamentos do Alternador
Quando você entra nas configurações OSD da câmera e encontra a opção “Smart Overlay” ou “AI Display”, o que acontece quando você a alterna depende inteiramente de qual método de sobreposição seu firmware está usando.
Cenário A — Modo de Gravação Rígida (Hard Burn-In): Você desliga o alternador. A câmera para de desenhar caixas em novos quadros. Mas cada quadro gravado antes desse momento ainda tem as caixas "assadas". Não há como desfazer. Pense nisso como escrever com uma caneta permanente em uma fotografia. Você pode parar de escrever, mas não pode apagar o que já está lá.
Cenário B — Modo de Metadados: Você desliga o alternador. A câmera ainda envia o fluxo de metadados (as coordenadas XY em formato XML ou JSON). Mas a própria pré-visualização da câmera para de renderizar a sobreposição. Seu VMS pode decidir independentemente se exibe ou não as coordenadas. Isso lhe dá controle camada por camada.
Opções do Menu OSD em Nosso Firmware
Nosso Câmeras PTZ7 fornece controle granular sobre o que é exibido. Aqui está o que você pode configurar:
- Exibição da Caixa Delimitadora: Ligado / Desligado
- Texto de Coordenadas (X, Y): Ligado / Desligado
- Rótulo de Classificação do Objeto (Pessoa, Veículo, etc.): Ligado / Desligado
- Pontuação de Confiança: Ligado / Desligado
- Número de ID de Rastreamento: Ligado / Desligado
Cada um destes pode ser ativado/desativado independentemente. Portanto, se o seu cliente quiser ver apenas o ID de rastreamento e a caixa delimitadora, mas não as coordenadas brutas, essa é uma configuração simples de firmware.
Um Erro Comum que Vejo em Campo
Muitos integradores configuram a sobreposição OSD durante os testes de bancada e esquecem-se de ajustá-la antes da implantação. Então o usuário final reclama: “Por que vejo números por toda a tela?” Ou pior, eles desativam tudo durante a configuração e, seis meses depois, perguntam: “Onde estão os meus dados de coordenadas?”
Meu conselho: crie uma lista de verificação de configuração para cada projeto. Documente exatamente quais sobreposições estão ativadas, quais estão desativadas e se você está usando o modo de gravação permanente (burn-in) ou metadados. Salve o arquivo de configuração. Nossas câmeras suportam exportação e importação de configuração, para que você possa clonar configurações em centenas de unidades.
Resumo do Comportamento de Alternância
| Ação | Modo de Gravação Permanente (Hard Burn-In) | Modo de Sobreposição de Metadados |
|---|---|---|
| Desativar no OSD | Para de gravar em novos quadros apenas | Para de renderizar na pré-visualização da câmera; metadados ainda são transmitidos |
| Ativar no OSD | Retoma a gravação em novos quadros | Retoma a renderização na pré-visualização da câmera |
| Efeito em gravações anteriores | Nenhuma alteração — caixas são permanentes | Nenhuma alteração — metadados são sempre armazenados separadamente |
| Controle independente do VMS | Não é possível | Totalmente possível |
Como a sobreposição de coordenadas auxilia minha equipe na coordenação de respostas PTZ manuais?
Em grandes projetos de segurança de perímetro, vejo frequentemente uma desconexão entre o operador que detecta a ameaça e a equipe de campo que responde. O operador diz: “Está no lado esquerdo da tela.” Isso é inútil quando a câmera cobre uma linha de cerca de 2 quilômetros de cerca.
A sobreposição de coordenadas XY dá aos seus operadores uma linguagem numérica precisa para comunicar posições de alvos. Em vez de descrições vagas, sua sala de controle pode se comunicar com a equipe de campo com ângulos de pan e tilt exatos derivados dos dados XY. Isso reduz significativamente o tempo de coordenação de resposta e elimina suposições no controle manual de PTZ.

De Coordenadas de Pixel para Posições no Mundo Real
Veja como o fluxo de trabalho funciona em um sistema bem configurado. A IA da câmera detecta uma pessoa nas coordenadas de pixel $(1423, 576)$ em um quadro $1920 \times 1080$. O firmware sabe que o ângulo de pan atual é de 127,4° e o ângulo de tilt é de -8,2°. Ele também sabe que o campo de visão no nível de zoom atual é de 6,3° horizontal.
Usando matemática simples, o firmware calcula que o alvo está aproximadamente 1,2° à direita do centro do quadro e 0,5° acima do centro. Em seguida, ele emite o rolamento absoluto: Pan 128,6°, Tilt -7,7°. É isso que é exibido na sobreposição ou enviado via metadados.
Por que isso é importante para o controle manual
Em muitos dos nossos Implantações de PTZ solar 4G1, a câmera opera em modo de rastreamento automático na maior parte do tempo. Mas há momentos em que o operador precisa assumir o controle manual. Talvez a IA tenha perdido o alvo atrás de uma árvore. Talvez haja dois alvos e o operador queira focar no segundo.
Sem dados de coordenadas, o operador precisa escanear visualmente a cena, adivinhar para onde o alvo foi e mover manualmente o PTZ. Com dados de coordenadas, o operador vê a última posição conhecida — digamos, Pan 214,3°, Tilt -3,1° — e pode inserir esses números diretamente no controlador PTZ. Algumas plataformas VMS suportam até mesmo “clicar para ir para a coordenada”, o que torna isso instantâneo.
Coordenação entre Múltiplas Câmeras
Isso se torna ainda mais poderoso quando você tem várias câmeras PTZ cobrindo a mesma área de ângulos diferentes. Se a Câmera A relata um alvo com rolamento geográfico de 214°, a Câmera B pode automaticamente girar para o mesmo rolamento. Ou o operador pode comandar manualmente a Câmera B para olhar para 214°. A sobreposição de coordenadas torna essa transferência entre câmeras possível sem que o operador precise memorizar qual câmera cobre qual zona.
Cenário do Mundo Real: Monitoramento de Oleoduto no Oeste do Texas
Um de nossos clientes monitora um corredor de oleoduto de 24 quilômetros com seis unidades PTZ solares. Cada câmera cobre aproximadamente 4 quilômetros. Quando a Câmera 3 detecta um veículo perto do oleoduto em uma coordenada específica, o operador vê os valores de pan/tilt na tela. Ele se comunica por rádio com o caminhão de patrulha: “Alvo na Câmera 3, rolamento 187 graus, aproximadamente 800 metros da junção da estrada de acesso.” A equipe de patrulha sabe exatamente para onde ir. Antes de terem sobreposições de coordenadas, a chamada de rádio era: “A Câmera 3 vê algo no lado direito.” A equipe de patrulha dirigia por 20 minutos tentando encontrá-lo.
Essa é a diferença que os dados de coordenadas fazem. Eles transformam alertas vagos em inteligência acionável.
A sobreposição afeta a eficiência da compressão H.265 do fluxo de vídeo ao vivo?
Esta é a pergunta que separa compradores casuais de engenheiros sérios. Todos os integradores de sistemas com os quais trabalho que gerenciam implantações 4G com largura de banda limitada fazem essa pergunta. E deveriam. Porque em um local com energia solar e um cartão SIM 4G, cada kilobit importa.
O impacto depende do método de sobreposição que você usa. O OSD gravado permanentemente adiciona texto e caixas de alto contraste à imagem, o que reduz ligeiramente a eficiência da compressão H.265 porque o codificador deve preservar essas bordas nítidas. O aumento é tipicamente de 3-8% na taxa de bits. A sobreposição de metadados tem impacto zero na compressão de vídeo porque os dados de coordenadas viajam em um canal separado e leve.

Por que a gravação permanente prejudica a compressão (um pouco)
H.265 (HEVC) é muito bom na compressão de cenas naturais. Grama, céu, árvores, estradas — estes têm gradientes suaves e movimento previsível. O codificador explora essa previsibilidade para atingir altas taxas de compressão.
Mas quando você grava texto nítido de alto contraste e formas geométricas (como caixas delimitadoras) na imagem, você introduz elementos que o codificador não consegue prever bem. Um rótulo branco “X:1423 Y:576” em um fundo escuro cria bordas nítidas que exigem mais bits para codificar com precisão. O codificador tem que gastar bits extras para manter esses caracteres legíveis.
De Quanta Largura de Banda Extra Estamos Falando?
Em nossos testes de laboratório, eis o que medimos em uma cena externa típica a 1080p, 25fps, H.265 Perfil Principal6:
| Configuração de Sobreposição | Taxa de bits média | Aumento vs. Limpo |
|---|---|---|
| Sem sobreposição (vídeo limpo) | 2,8 Mbps | Linha de base |
| Apenas carimbo de data/hora | 2,85 Mbps | +1.8% |
| Carimbo de data/hora + 1 caixa delimitadora + texto XY | 2,92 Mbps | +4.3% |
| Carimbo de data/hora + 5 caixas delimitadoras + texto XY | 3,03 Mbps | +8.2% |
| Sobreposição de metadados (sem gravação) | 2,8 Mbps + 3 kbps de metadados | ~0% no fluxo de vídeo |
Como você pode ver, uma ou duas caixas delimitadoras mal importam. Mas se você estiver monitorando um cruzamento movimentado com mais de 10 detecções simultâneas, o aumento da taxa de bits se acumula. Em uma conexão 4G com um limite de dados mensal, esse aumento de 8% ao longo de 30 dias pode custar dinheiro de verdade ao seu cliente.
O Problema do Orçamento de Largura de Banda 4G
Deixe-me colocar isto em perspetiva. Um plano típico de SIM 4G para um dispositivo IoT industrial nos EUA oferece 50-100 GB por mês. A 2,8 Mbps de streaming contínuo, consome cerca de 900 GB por mês. Obviamente, ninguém faz streaming 24/7 com taxa de bits total em 4G. Utiliza gravação acionada por movimento, taxa de bits adaptativa e janelas de streaming programadas.
Mas mesmo com essas otimizações, um aumento de 8% na taxa de bits significa 8% mais consumo de dados. Numa implementação de 100 câmaras, isso é significativo.
A Nossa Abordagem: Agendamento Inteligente de Sobreposição
É por isso que construímos uma funcionalidade chamada ‘Agendamento Inteligente de Sobreposição’2 no nosso firmware. Funciona assim:
- Durante eventos de alarme, a câmara ativa automaticamente a gravação de coordenadas para que o clipe de prova tenha dados visuais completos.
- Durante vigilância normal (sem alarme), a câmara desativa a gravação e envia as coordenadas apenas através do canal de metadados.
- A transição ocorre dentro de um GOP (Grupo de Imagens)9, que é tipicamente de 2 segundos.
Isto dá-lhe o melhor dos dois mundos. Os seus clipes de prova têm coordenadas gravadas para o tribunal. As suas filmagens de vigilância de rotina permanecem limpas e eficientes em termos de largura de banda. E a sua conta de dados 4G permanece sob controlo.
Sincronização PTS em Redes 4G
Há mais um detalhe técnico que importa para implementações 4G. Quando a câmara envia o fluxo de vídeo e o fluxo de metadados através de uma ligação 4G, o jitter da rede pode fazer com que cheguem ao VMS em momentos diferentes. O quadro de vídeo pode chegar 500 ms atrasado, mas o pequeno pacote de metadados chega a tempo.
Se o seu VMS sobrepor ingenuamente os metadados à medida que chegam, a caixa delimitadora parecerá “liderar” o alvo. A caixa move-se antes da pessoa. Isto parece incorreto.
O nosso firmware resolve isto com sincronização PTS (Presentation Time Stamp)3. Cada pacote de metadados carrega o mesmo timestamp do quadro de vídeo ao qual pertence. O VMS armazena em buffer ambos os fluxos e os alinha por timestamp antes da renderização. O resultado: a caixa delimitadora permanece travada no alvo, mesmo em uma conexão 4G instável em um campo de petróleo remoto no Texas.
Conclusão
A sobreposição de coordenadas XY em fluxos RTSP é totalmente alcançável. Escolha a gravação permanente para evidências à prova de adulteração. Escolha a sobreposição de metadados para flexibilidade e economia de largura de banda. Combine o método com as necessidades reais do seu projeto.
1. Câmeras PTZ alimentadas por energia solar usando redes celulares 4G para vigilância remota. ︎↩︎ 2. Recurso de firmware que permite a gravação permanente apenas durante alarmes para economizar largura de banda. ︎↩︎ 3. Timestamp usado para sincronizar fluxos de vídeo e metadados para manter o alinhamento. ︎↩︎ 4. Plataforma popular de software de gerenciamento de vídeo que suporta sobreposição de metadados. ︎↩︎ 5. Reprodutor de mídia de código aberto que pode exibir fluxos de vídeo com sobreposições. ︎↩︎ 6. Padrão de compressão de vídeo também conhecido como HEVC, usado para streaming de vídeo eficiente. ︎↩︎ 7. Câmera capaz de girar, inclinar e dar zoom, comumente usada em vigilância. ︎↩︎ 8. Chip que processa dados brutos de imagem antes da codificação, onde ocorre a gravação permanente. ︎↩︎ 9. Sequência de quadros em vídeo comprimido usada para eficiência de codificação. ︎↩︎