Unterstützt die KI die Erkennung von "Menschenansammlungen", um abnormale Clusterbildung zu identifizieren? - Professioneller PTZ-Kamera- und Sicherheitsüberwachungshersteller

Ich habe zu viele Sicherheitsteams gesehen, die sich auf grundlegende Bewegungsmeldungen verlassen und dabei die wirkliche Bedrohung übersehen: eine Gruppe, die sich leise in einem toten Winkel bildet, bis es zu spät ist.

Ja, industrielle KI-Kameras unterstützen die Erkennung von “Menschenansammlungen”. Diese Funktion nutzt die Schätzung von Dichtekarten, die Analyse räumlicher Nähe und die Verfolgung der Dauer, um anormale Cluster in Echtzeit zu identifizieren. Sie können benutzerdefinierte Schwellenwerte für die Personenzahl, die Bereichsdichte und die Verweildauer festlegen, um sofortige Benachrichtigungen an Ihr Sicherheitszentrum auszulösen.

KI-Erkennung von Menschenansammlungen für die Sicherheitsüberwachung

Im Folgenden werde ich genau erläutern, wie dies funktioniert, was Sie anpassen können und wie es unter realen Bedingungen wie niedrig aufgelösten Feeds und 4G-Bereitstellungen außerhalb des Netzes funktioniert.

Inhaltsübersicht

Kann ich einen Schwellenwert festlegen (z. B. > 5 Personen), um eine Benachrichtigung auszulösen, wenn sich eine Gruppe in einem eingeschränkten Bereich versammelt?

Früher dachte ich, eine einfache Zählregel würde ausreichen. Aber nach Tests im Feld lernte ich, dass rohe Zahlen ohne Kontext mehr Lärm als Wert erzeugen.

Ja, Sie können einen benutzerdefinierten Schwellenwert für die Personenzahl festlegen. Die meisten professionellen VMS-Plattformen¹ und Kamera-Weboberflächen ermöglichen es Ihnen, eine Zahl (wie 5, 10 oder 15 Personen) innerhalb einer gezeichneten Zone zu definieren. Wenn dieser Zählwert für eine festgelegte Dauer überschritten wird, sendet das System eine Benachrichtigung an Ihre App oder Ihr Sicherheitszentrum.

Einstellungen für Menschendichteschwellenwerte in der VMS-Oberfläche

Wie die Schwellenwertkonfiguration tatsächlich funktioniert

Das Festlegen eines Schwellenwerts klingt einfach. Aber in der Praxis müssen Sie mehrere Parameter kombinieren, um nützliche Benachrichtigungen zu erhalten, ohne in Fehlalarmen zu ertrinken.

Hier ist, was hinter den Kulissen passiert. Die KI zeichnet eine virtuelle Zone im Sichtfeld der Kamera. Sie definieren diese Zone in der Weboberfläche der Kamera oder Ihrer VMS-Software. Innerhalb dieser Zone zählt der Algorithmus Bild für Bild einzelne menschliche Ziele. Wenn die Zählung Ihre festgelegte Zahl überschreitet, beginnt ein Timer. Wenn die Zählung für Ihre definierte Dauer (z. B. 30 Sekunden) über dem Schwellenwert bleibt, bestätigt das System dies als echtes Versammlungsereignis und löst den Alarm aus.

Wichtige Parameter, die Sie anpassen können

Parameter	Typischer Bereich	Zweck
Schwellenwert für die Personenzahl²	3 – 50 (einstellbar)	Definieren Sie, was für Ihre spezifische Zone “anormal” bedeutet
Minimale Verweildauer	10s – 120s	Filtert Personen heraus, die nur durchgehen
Form der Erkennungszone	Polygon (4–8 Punkte)	Passen Sie die genaue Grenze Ihres Sperrbereichs an
Alarm-Cooldown	1 – 10 Minuten	Verhindert wiederholte Alarme während eines einzelnen laufenden Ereignisses
Empfindlichkeitsstufe	Niedrig / Mittel / Hoch	Gleichgewicht zwischen dem Erfassen realer Ereignisse und dem Ignorieren von Rauschen

Warum eine einfache Zahl nicht ausreicht

Lassen Sie mich erklären, warum Sie mehr als nur “5 Personen = Alarm” benötigen. Stellen Sie sich einen Gehweg neben Ihrem Sperrzaun vor. Fünf Arbeiter gehen während des Schichtwechsels alle 3 Minuten vorbei. Eine Rohzählung von 5 würde Dutzende von Fehlalarmen pro Tag auslösen. Deshalb ist der Parameter für die Verweildauer so wichtig. Er sagt dem System: “Alarmieren Sie mich nur, wenn 5 oder mehr Personen länger als 30 Sekunden in dieser Zone bleiben.”

Sie können auch zeitplanbasierte Regeln hinzufügen. Stellen Sie beispielsweise während der Geschäftszeiten (8:00 – 18:00 Uhr) den Schwellenwert auf 10 Personen ein, da etwas Fußgängerverkehr normal ist. Nach Feierabend senken Sie ihn auf 3 Personen, da sich dort überhaupt niemand aufhalten sollte.

Best Practices für die Zonenzeichnung

Die Form Ihrer Erkennungszone ist wichtiger, als die meisten Leute denken. Zeichnen Sie sie zu groß, und Sie erfassen Personen auf angrenzenden Wegen. Zeichnen Sie sie zu klein, und die KI könnte Ziele verfehlen, die sich knapp außerhalb der Grenze befinden. Ich empfehle, einen Puffer von 1 Meter innerhalb Ihres tatsächlichen Sperrperimeters zu lassen. Dies berücksichtigt den leichten Positionsfehler, den alle Videoanalysen beim Umwandeln von 2D-Pixeln in reale Koordinaten aufweisen.

Für Standorte mit mehreren Zugangspunkten erstellen Sie separate Zonen für jeden Zufahrtsweg. Auf diese Weise erfahren Sie nicht nur, dass sich Personen versammelt haben, sondern auch, wo sie sich versammelt haben. Diese Informationen helfen Ihrem Reaktionsteam, schneller einzutreffen.

Wie geht der Algorithmus zur Menschendichteschätzung mit überlappenden Zielen in niedrig aufgelösten 4K-Feeds um?

Ich habe beobachtet, wie die traditionelle Bounding-Box-Erkennung zusammenbrach, sobald zwei Personen dicht beieinander standen. Die Boxen verschmelzen, die Zählung sinkt, und das System glaubt, die Menge sei kleiner, als sie tatsächlich ist.

Der Algorithmus für die Menschendichteschätzung umgeht Bounding Boxes vollständig. Stattdessen verwendet er eine pixelbasierte Schätzung der Dichtekarte. Dieser Ansatz bewältigt starke Verdeckungen und überlappende Ziele weitaus besser als die boxbasierte Zählung, selbst bei komprimierten 4K-Streams.

Dichtekarten-Schätzung vs. Bounding-Box-Erkennung

Warum Bounding Boxes in dichten Menschenmengen versagen

Traditionelle Objekterkennung zeichnet ein Rechteck um jede Person. Wenn sich Personen überschneiden, hat der Algorithmus zwei schlechte Wahlmöglichkeiten: Sie zu einer einzigen Box zusammenzuführen (Unterzählung) oder instabile, flackernde Boxen zu erzeugen (verrauschte Daten). In einer Menge von 20 Personen, die Schulter an Schulter stehen, zählt ein Bounding-Box-System möglicherweise nur 12.

Die Schätzung von Dichtekarten verfolgt einen völlig anderen Ansatz. Sie versucht nicht, jeden Einzelnen zu isolieren. Stattdessen fragt sie: “Wie viel menschliche Präsenz gibt es an jedem Pixel?” Das Ergebnis ist eine Wärmekarte, bei der helle Bereiche hohe Dichte und dunkle Bereiche niedrige Dichte bedeuten. Durch Summieren der Werte in Ihrer Erkennungszone erhält das System eine genaue Gesamtzahl, auch wenn sich Körper stark überschneiden.

Der 4K-Kompressionsfaktor

Hier ist etwas, das viele Integratoren übersehen. Ihre Kamera kann in 4K-Auflösung aufnehmen, aber bis dieses Video über eine 4G-Verbindung übertragen wird, wurde es komprimiert. H.265-Kodierung³ bei einer typischen Bitrate von 4–8 Mbit/s führt zu Artefakten. Feine Details wie der Abstand zwischen zwei eng beieinander stehenden Personen können geglättet werden.

Der Dichtealgorithmus ist darauf ausgelegt, dies zu tolerieren. Da er auf erlernten Merkmalsmustern und nicht auf scharfen Kanten basiert, bricht ihn moderate Kompression nicht. Es gibt jedoch eine Grenze. Wenn Ihre Bitrate unter 2 Mbit/s fällt (häufig in überlasteten 4G-Netzen), verschlechtert sich die Genauigkeit. Deshalb empfehle ich, in Ihren Encoder-Einstellungen einen Mindest-Bitraten-Boden festzulegen.

Auflösungs- vs. Bildraten-Kompromiss

Für die Analyse von Menschenmengen ist die Bildrate wichtiger als die reine Auflösung. Hier ist der Grund. Der Algorithmus benötigt zeitliche Konsistenz. Er verfolgt, wie sich die Dichtekarte im Laufe der Zeit ändert, um eine wachsende Menge von einer vorbeiziehenden Gruppe zu unterscheiden. Bei 5 fps hat das System genügend Datenpunkte. Bei 1 fps (auf die einige Solarkameras zur Stromersparnis zurückfallen) kann der Algorithmus schnelle Versammlungsereignisse verpassen.

Meine Empfehlung: Laufen Sie bei normaler Überwachung mit voller 4K-Auflösung, aber mit 10–15 fps. Wenn die KI frühe Anzeichen einer Versammlung erkennt (Dichte steigt), schalten Sie automatisch auf 25 fps für eine genaue Verfolgung um. Dies gleicht Bandbreite, Stromverbrauch und Erkennungsqualität aus.

Praktische Genauigkeitserwartungen

Szenario	Erwartete Zählgenauigkeit	Anmerkungen
Dünne Menge (< 10 Personen, minimale Überschneidung)	95%+	Bounding Box funktioniert hier auch gut
Mittlere Menge (10–30 Personen, einige Überschneidungen)	85–92 %	Dichtekarte übertrifft die Box-Erkennung deutlich
Dichte Menge (30+ Personen, starke Überschneidungen)	75–85%	Genauigkeit hängt vom Kamerawinkel und der Höhe ab
Komprimierter Stream (< 4 Mbit/s)	70–80%	Artefakte reduzieren die feingranulare Trennung
Optimale Einrichtung (hoher Winkel, 8+ Mbps, 15 fps)	90%+	Best-Case-Szenario für reale Einsätze

Diese Zahlen stammen aus realen Feldtests, nicht aus Laborbedingungen. Ihre tatsächlichen Ergebnisse hängen von der Montagehöhe der Kamera, dem Objektivwinkel, der Beleuchtung und der Netzwerkstabilität ab.

Ist die “Versammlungsdetektion” empfindlich genug, um illegales Herumlungern auf öffentlichen Parkplätzen zu erkennen?

Ich hatte Kunden, die mir genau diese Frage stellten, nachdem sie einfache Kameras installiert hatten und immer noch Gruppen verpassten, die sich nachts auf ihren Parkplätzen aufhielten. Das Problem war nicht die Kamera. Es war die Unfähigkeit des Algorithmus, “Herumlungern” von “Parken” zu unterscheiden.”

Ja, die Erfassungsdetektion kann das Herumlungern auf Parkplätzen identifizieren, erfordert aber eine sorgfältige Abstimmung. Der Schlüssel liegt in der Kombination von räumlichen Zonenregeln mit zeitbasierten Schwellenwerten. Sie definieren, wo sich Personen nicht aufhalten sollten, legen eine Verweildauer fest (z. B. 60 Sekunden) und die KI markiert jeden, der diese Grenze überschreitet.

Erkennung von Herumlungern auf Parkplätzen mit KI-Zonen

Der Unterschied zwischen Versammeln und Herumlungern

Diese beiden Verhaltensweisen sehen für eine Kamera ähnlich aus, sind aber unterschiedliche Probleme. Versammeln bedeutet, dass mehrere Personen an einem Ort zusammenkommen. Herumlungern bedeutet, dass eine oder mehrere Personen länger als erwartet an einem Ort bleiben. Ein gutes KI-System behandelt beides, aber Sie konfigurieren sie unterschiedlich.

Für Parkplätze möchten Sie normalerweise beide Regeln gleichzeitig aktiv haben:

Regel für Herumlungern: Alarm, wenn sich eine Person länger als 90 Sekunden in einer Nicht-Parkzone (z. B. zwischen Autos oder in der Nähe von Ausfahrten) aufhält.
Regel für Versammeln: Alarm, wenn sich 3 oder mehr Personen länger als 30 Sekunden irgendwo auf dem Parkplatz zusammenballen.

Warum Parkplätze für KI schwierig sind

Parkplätze stellen einzigartige Herausforderungen für die Videoanalyse dar. Autos blockieren Sichtlinien. Scheinwerfer erzeugen plötzliche Helligkeitsänderungen. Schatten verschieben sich im Laufe des Tages. Personen gehen legitim zu und von ihren Fahrzeugen, was ständige Bewegung erzeugt.

Die KI muss normales Verhalten (zum Auto gehen, Einkäufe einladen) von abnormalem Verhalten (drei Personen stehen fünf Minuten lang zwischen Autos) trennen. Dies geschieht durch Trajektorienanalyse⁶. Eine Person, die geradeaus auf ein Auto zugeht und dann wegfährt, ist normal. Eine Person, die im Kreis geht oder stillsteht, ist es nicht.

Optimierung für Nachtdetektion

Das meiste illegale Herumlungern findet nachts statt. Das bedeutet, dass die Leistung Ihrer Kamera bei schlechten Lichtverhältnissen die Erkennungsgenauigkeit direkt beeinflusst. Ich empfehle Kameras mit mindestens 1/1,8″ Sensoren und zusätzlicher IR-Beleuchtung. Sternenlichtsensoren⁴ können Farbbildgebung bis zu 0,001 Lux aufrechterhalten, was der KI mehr Merkmalsdaten im Vergleich zum Schwarz-Weiß-IR-Modus zur Verfügung stellt.

Verwenden Sie für solarbetriebene Standorte mit begrenzter Stromversorgung intelligente IR-Zeitplanung⁵. Schalten Sie die IR-LEDs tagsüber aus und aktivieren Sie sie automatisch in der Dämmerung. Dies spart Strom und stellt gleichzeitig sicher, dass die KI über genügend Bildqualität verfügt, um menschliche Formen nachts zu erkennen.

Reduzierung von Fehlalarmen durch Fahrzeuge und Tiere

Auf Parkplätzen ist die größte Quelle für Fehlalarme nicht der Mensch. Es sind Autos im Leerlauf, Tiere, die kreuzen, und Müll, der im Wind weht. Moderne KI bewältigt dies durch Zielklassifizierung. Der Algorithmus identifiziert zuerst, ob ein erkanntes Objekt eine Person, ein Fahrzeug oder ein Tier ist. Nur bestätigte menschliche Ziele zählen für die Schwelle für Ansammlungen oder Herumlungern.

Sie können auch Filter für die minimale Zielgröße festlegen. Dies eliminiert kleine Tiere (Katzen, Vögel), die andernfalls dichte Pixeländerungen auslösen könnten. Stellen Sie die Mindesthöhe in Ihrer Perspektivkalibrierung auf etwa 0,8 Meter ein, und die meisten Fehlalarme durch Tiere verschwinden.

Kann ich die “Versammlungszeit” anpassen, bevor ein Alarm an mein Sicherheitszentrum gesendet wird?

Ich habe früh gelernt, dass sofortige Benachrichtigungen in der Theorie gut klingen, in der Praxis aber zu Alarmmüdigkeit führen. Ihr Sicherheitsteam achtet nach dem 50. Fehlalarm in einer Schicht nicht mehr darauf.

Ja, die Sammelzeit (auch Verweildauer oder Mindestdauer genannt) ist vollständig anpassbar. Sie können sie zwischen 5 Sekunden und mehreren Minuten einstellen. Dieser Parameter teilt der KI mit, wie lange eine Gruppe zusammenbleiben muss, bevor das System sie als echtes Ereignis bestätigt und die Benachrichtigung sendet.

Anpassbare Alarmzeit-Einstellungen für die Erkennung von Menschenansammlungen

Warum die Zeit der wichtigste Parameter ist

Von allen Einstellungen, die Sie anpassen können, hat die Sammelzeit den größten Einfluss auf die tägliche Erfahrung Ihres Teams. Stellen Sie sie zu kurz (unter 10 Sekunden) ein, und jede Gruppe von Kollegen, die sich in einer Rauchpause unterhält, löst einen Alarm aus. Stellen Sie sie zu lang (über 3 Minuten) ein, und eine echte Bedrohung hat Zeit zu handeln, bevor jemand reagiert.

Der richtige Wert hängt vollständig vom Risikoprofil Ihres Standorts ab. Eine Atomanlage könnte 10 Sekunden einstellen, da jede unbefugte Ansammlung kritisch ist. Ein Einzelhandelsparkplatz könnte 90 Sekunden einstellen, da kurze soziale Interaktionen normal sind.

Wie der Timer intern funktioniert

Der Timer ist keine einfache Stoppuhr. Er verwendet ein Modell der “anhaltenden Erkennung”. Hier ist die Sequenz:

Die KI erkennt, dass die Personenzahl in einer Zone den Schwellenwert überschreitet.
Der Timer beginnt zu zählen.
Wenn die Anzahl zu irgendeinem Zeitpunkt unter den Schwellenwert fällt (jemand geht weg), wird der Timer zurückgesetzt.
Erst wenn die Anzahl kontinuierlich über dem Schwellenwert bleibt, löst der Alarm aus.

Dieser “nachhaltige” Ansatz verhindert Fehlalarme durch kurzzeitige Menschenansammlungen, wie z. B. eine Gruppe, die durch einen engen Korridor geht. Sie überschreiten möglicherweise für 5 Sekunden die Zählung, bewegen sich aber weiter, sodass der Timer zurückgesetzt wird.

Alarmzustellungsoptionen

Sobald der Timer ein echtes Versammlungsereignis bestätigt, stehen Ihnen mehrere Zustellkanäle zur Verfügung:

Push-Benachrichtigung an Ihre mobile App (am schnellsten, 2–5 Sekunden Verzögerung)
E-Mail-Alarm mit Schnappschuss-Anhang (gut für Aufzeichnungen, 10–30 Sekunden Verzögerung)
VMS-Popup auf Ihrer Überwachungsstation (sofort, wenn ein Bediener zusieht)
Relaisausgang zum Auslösen von Sirenen, Lichtern oder Toren (festverdrahtet, unter einer Sekunde)
API-Webhook⁷ zu Ihrer benutzerdefinierten Plattform oder PSIM-System⁸ (programmierbar)

Empfohlene Zeitplanung nach Szenario

Standorttyp	Vorgeschlagene Versammlungszeit	Begründung
Kritische Infrastruktur (Kraftwerke, Rechenzentren)	10 – 15 Sekunden	Null Toleranz für unbefugte Gruppen
Baustellen	30 – 60 Sekunden	Arbeiter können sich kurzzeitig ansammeln; normale Aktivität herausfiltern
Einzelhandel-Parkplätze	60 – 120 Sekunden	Soziale Interaktionen sind üblich; Fokus auf längeres Verweilen
Öffentliche Parks / Freiflächen	120 – 180 Sekunden	Hoher Fußgängerverkehr; nur anhaltende anormale Ansammlungen kennzeichnen
Abgelegene Off-Grid-Standorte (Bauernhöfe, Solarfelder)	15 – 30 Sekunden	Jede menschliche Anwesenheit ist ungewöhnlich; schnell reagieren

Zeit mit Eskalationsstufen kombinieren

Für fortgeschrittenere Setups können Sie gestaffelte Antworten erstellen. Zum Beispiel:

30 Sekunden: Das System protokolliert das Ereignis und beginnt mit der Aufzeichnung in voller Auflösung.
60 Sekunden: Push-Benachrichtigung an das Handy des vor Ort befindlichen Wachpersonals gesendet.
120 Sekunden: Alarm eskaliert zum zentralen Sicherheitszentrum mit Live-Video-Feed.
180 Sekunden: Automatische Sprachwarnung wird über den integrierten Lautsprecher der Kamera abgespielt.

Dieser gestaffelte Ansatz gibt Ihrem Team Kontext, bevor es reagiert. Bis der Alarm das Sicherheitszentrum erreicht, hat das System bereits 2 Minuten hochwertiges Beweismaterial aufgenommen.

Schlussfolgerung

Die Erkennung von Menschenansammlungen ist eine bewährte KI-Funktion, die am besten funktioniert, wenn Sie intelligente Schwellenwerteinstellungen, eine ordnungsgemäße Kameraplatzierung und benutzerdefinierte Zeitregeln kombinieren. Wenn Sie Hilfe bei der Konfiguration dieser Parameter für Ihren spezifischen Standort benötigen, kontaktieren Sie mich unter sales05@.com und ich werde Sie durch den Prozess führen.

1. Video Management Software, die üblicherweise zur Konfiguration und Überwachung von KI-Erkennungsregeln verwendet wird. ︎↩︎ 2. Parameter, der festlegt, wie viele Personen sich versammeln müssen, bevor ein Alarm ausgelöst wird. ︎↩︎ 3. Videokomprimierungsstandard, der die Bandbreite reduziert und gleichzeitig die Qualität für die Analyse beibehält. ︎↩︎ 4. Low-Light-Kamerasensor-Technologie, die Farbbildgebung bei fast völliger Dunkelheit für eine bessere KI-Erkennung ermöglicht. ︎↩︎ 5. Funktion, die IR-LEDs nur in der Dämmerung aktiviert, um Strom bei solarbetriebenen Kameras zu sparen. ︎↩︎ 6. Methode, die die KI verwendet, um zu verstehen, ob die Bewegung einer Person normal (zum Auto gehen) oder verdächtig (herumlungern) ist. ︎↩︎ 7. Programmierbare Integration, die es der Kamera ermöglicht, Alarme an eine benutzerdefinierte Plattform oder ein PSIM-System zu senden. ︎↩︎ 8. Physical Security Information Management Software, die mehrere Sicherheitssubsysteme vereinheitlicht. ︎↩︎

Unterstützt die KI die Erkennung von "Menschenansammlungen", um anormale Cluster zu identifizieren?