هل يدعم الذكاء الاصطناعي اكتشاف "تجمع الحشود" لتحديد التكتل غير الطبيعي؟

لقد رأيت فرقًا أمنية كثيرة تعتمد على تنبيهات الحركة الأساسية، فقط لتفويت التهديد الحقيقي: مجموعة تتشكل بهدوء في نقطة عمياء حتى فوات الأوان.

نعم، تدعم كاميرات الذكاء الاصطناعي ذات المستوى الصناعي اكتشاف “تجمع الحشود”. تستخدم هذه الميزة تقدير خريطة الكثافة، وتحليل القرب المكاني، وتتبع المدة لتحديد التكتلات غير الطبيعية في الوقت الفعلي. يمكنك تعيين عتبات مخصصة لعدد الأشخاص، وكثافة المنطقة، ووقت البقاء لتشغيل تنبيهات فورية لمركز الأمان الخاص بك.

اكتشاف تجمع الحشود بالذكاء الاصطناعي للمراقبة الأمنية

أدناه، سأوضح بالضبط كيف يعمل هذا، وما يمكنك تخصيصه، وكيف يؤدي في الظروف الواقعية مثل خلاصات الدقة المنخفضة وعمليات النشر عبر شبكة 4G خارج الشبكة.

جدول المحتويات

هل يمكنني تعيين عتبة (على سبيل المثال، > 5 أشخاص) لتشغيل تنبيه إذا تجمعوا في منطقة محظورة؟

اعتدت أن أعتقد أن قاعدة بسيطة لعد الأشخاص ستكون كافية. ولكن بعد الاختبار في الميدان، تعلمت أن الأرقام الخام بدون سياق تخلق المزيد من الضوضاء أكثر من القيمة.

نعم، يمكنك تعيين عتبة مخصصة لعدد الأشخاص. معظم المحترفين منصات VMS¹ وواجهات الويب للكاميرا تتيح لك تحديد عدد (مثل 5 أو 10 أو 15 شخصًا) داخل منطقة مرسومة. عندما يتم تجاوز هذا العدد لمدة محددة، يرسل النظام تنبيهًا إلى تطبيقك أو مركز الأمان الخاص بك.

إعدادات عتبة الحشود في واجهة VMS

كيف تعمل تهيئة العتبة فعليًا

يبدو تعيين عتبة أمرًا بسيطًا. ولكن في الممارسة العملية، تحتاج إلى الجمع بين معلمات متعددة للحصول على تنبيهات مفيدة دون الغرق في الإيجابيات الكاذبة.

إليك ما يحدث خلف الكواليس. يرسم الذكاء الاصطناعي منطقة افتراضية في مجال رؤية الكاميرا. تقوم بتعريف هذه المنطقة في واجهة الويب للكاميرا أو برنامج VMS الخاص بك. داخل تلك المنطقة، تقوم الخوارزمية بحساب الأهداف البشرية المميزة إطارًا تلو الآخر. عندما يتجاوز العدد الرقم الذي حددته، يبدأ مؤقت. إذا ظل العدد أعلى من العتبة للمدة التي حددتها (على سبيل المثال، 30 ثانية)، يؤكد النظام أنه حدث تجمع حقيقي ويطلق التنبيه.

المعلمات الرئيسية التي يمكنك تعديلها

المعلمة	النطاق النموذجي	الغرض
عتبة عدد الأشخاص²	3 – 50 (قابل للتعديل)	حدد ما يعنيه “غير طبيعي” لمنطقتك المحددة
الحد الأدنى لوقت البقاء	10 ثوانٍ – 120 ثانية	تصفية الأشخاص الذين يمرون فقط
شكل منطقة الكشف	مضلع (4–8 نقاط)	تطابق الحدود الدقيقة لمنطقتك المقيدة
فترة تهدئة التنبيه	1 – 10 دقائق	منع التنبيهات المتكررة أثناء حدث واحد مستمر
مستوى الحساسية	منخفض / متوسط / مرتفع	التوازن بين التقاط الأحداث الحقيقية وتجاهل الضوضاء

لماذا لا يكفي رقم بسيط

دعني أشرح لماذا تحتاج إلى أكثر من مجرد “5 أشخاص = إنذار”. تخيل رصيفًا بجوار سياج منطقتك المقيدة. يمر خمسة عمال كل 3 دقائق أثناء تغيير الوردية. سيؤدي العدد الخام البالغ 5 إلى إطلاق عشرات الإنذارات الكاذبة يوميًا. لهذا السبب يعتبر معامل وقت البقاء مهمًا جدًا. إنه يخبر النظام: “نبّهني فقط إذا بقي 5 أشخاص أو أكثر في هذه المنطقة لأكثر من 30 ثانية”.”

يمكنك أيضًا إضافة قواعد تستند إلى الجدول الزمني. على سبيل المثال، خلال ساعات العمل (8 صباحًا – 6 مساءً)، اضبط الحد عند 10 أشخاص لأن بعض حركة المرور العادية طبيعية. بعد ساعات العمل، قم بخفضه إلى 3 أشخاص لأنه لا ينبغي أن يكون هناك أحد على الإطلاق.

أفضل الممارسات لرسم المناطق

شكل منطقة الكشف الخاصة بك أكثر أهمية مما يعتقد معظم الناس. ارسمها كبيرة جدًا، وستلتقط الأشخاص في المسارات المجاورة. ارسمها صغيرة جدًا، وقد يفوت الذكاء الاصطناعي الأهداف التي تقف خارج الحدود مباشرة. أوصي بترك هامش 1 متر داخل محيطك المقيد الفعلي. هذا يفسر خطأ الموضع الطفيف الذي تمتلكه جميع تحليلات الفيديو عند تحويل وحدات البكسل ثنائية الأبعاد إلى إحداثيات العالم الحقيقي.

بالنسبة للمواقع ذات نقاط الدخول المتعددة، قم بإنشاء مناطق منفصلة لكل مسار اقتراب. بهذه الطريقة، لا يخبرك تنبيهك فقط بتجمع الأشخاص، بل يخبرك بمكان تجمعهم. تساعد هذه المعلومات فريق الاستجابة الخاص بك على الوصول بشكل أسرع.

كيف يتعامل خوارزمية كثافة الحشود مع الأهداف المتداخلة في خلاصات 4K منخفضة الدقة؟

لقد شاهدت تقنية الكشف التقليدية باستخدام الصناديق المحيطة تفشل في اللحظة التي يقف فيها شخصان قريبين من بعضهما البعض. تندمج الصناديق، وينخفض العدد، ويعتقد النظام أن الحشد أصغر مما هو عليه في الواقع.

يتجاوز خوارزمية كثافة الحشد الصناديق المحيطة تمامًا. بدلاً من ذلك، فإنه يستخدم تقدير خريطة الكثافة على مستوى البكسل. هذا النهج يتعامل مع التعتيم الشديد والأهداف المتداخلة بشكل أفضل بكثير من العد القائم على الصناديق، حتى على تدفقات 4K المضغوطة.

تقدير خريطة الكثافة مقابل الكشف بالصناديق المحيطة

لماذا تفشل الصناديق المحيطة في الحشود الكثيفة

يضع الكشف التقليدي عن الأشياء مستطيلاً حول كل شخص. عندما يتداخل الأشخاص، يكون لدى الخوارزمية خياران سيئان: دمجهما في مربع واحد (عد ناقص) أو إنشاء مربعات وامضة غير مستقرة (بيانات مشوشة). في حشد من 20 شخصًا يقفون جنبًا إلى جنب، قد يحسب نظام المربع المحيط 12 فقط.

تقدير خريطة الكثافة يتبع نهجًا مختلفًا تمامًا. لا يحاول عزل كل فرد. بدلاً من ذلك، يسأل: “ما مقدار الوجود البشري الموجود عند كل بكسل؟” الناتج هو خريطة حرارية حيث تعني المناطق الساطعة كثافة عالية والمناطق الداكنة كثافة منخفضة. عن طريق جمع القيم عبر منطقة الكشف الخاصة بك، يحصل النظام على عدد إجمالي دقيق حتى عندما تتداخل الأجسام بشكل كبير.

عامل ضغط 4K

إليك شيء يتجاهله العديد من المدمجين. قد تلتقط الكاميرا بدقة 4K، ولكن بحلول الوقت الذي تنتقل فيه هذه الفيديو عبر رابط 4G، فقد تم ضغطها. ترميز H.265³ بمعدل بت نموذجي يتراوح بين 4-8 ميجابت في الثانية يؤدي إلى ظهور تشوهات. يمكن أن يتم تنعيم التفاصيل الدقيقة مثل الفجوة بين شخصين يقفان بالقرب من بعضهما البعض.

تم تصميم خوارزمية الكثافة لتحمل هذا. نظرًا لأنها تعمل على أنماط الميزات المتعلمة بدلاً من الحواف الحادة، فإن الضغط المعتدل لا يكسرها. ومع ذلك، هناك حد. إذا انخفض معدل البت الخاص بك إلى أقل من 2 ميجابت في الثانية (وهو أمر شائع في شبكات 4G المزدحمة)، فسوف تتدهور الدقة. لهذا السبب أوصي بتعيين حد أدنى لمعدل البت في إعدادات المشفر الخاص بك.

المفاضلة بين الدقة ومعدل الإطارات

لتحليل كثافة الحشود، يعد معدل الإطارات أكثر أهمية من الدقة الخام. إليك السبب. تحتاج الخوارزمية إلى الاتساق الزمني. إنها تتتبع كيفية تغير خريطة الكثافة بمرور الوقت للتمييز بين حشد متزايد ومجموعة عابرة. عند 5 إطارات في الثانية، لدى النظام نقاط بيانات كافية. عند 1 إطار في الثانية (وهو ما تنخفض إليه بعض الكاميرات الشمسية لتوفير الطاقة)، قد تفوت الخوارزمية أحداث التجمع السريعة.

توصيتي: قم بالتشغيل بدقة 4K كاملة ولكن بمعدل 10-15 إطارًا في الثانية أثناء المراقبة العادية. عندما تكتشف الذكاء الاصطناعي علامات مبكرة للتجمع (زيادة الكثافة)، قم بالتبديل تلقائيًا إلى 25 إطارًا في الثانية للتتبع الدقيق. هذا يوازن بين عرض النطاق الترددي والطاقة وجودة الكشف.

توقعات الدقة العملية

السيناريو	دقة العد المتوقعة	الملاحظات
حشد متفرق (أقل من 10 أشخاص، تداخل ضئيل)	95%+	يعمل المربع المحيط بشكل جيد هنا أيضًا
حشد متوسط (10-30 شخصًا، بعض التداخل)	85-92%	تتفوق خريطة الكثافة بوضوح على كشف المربع
حشد كثيف (30+ شخصًا، تداخل كبير)	75-85%	تعتمد الدقة على زاوية الكاميرا وارتفاعها
دفق مضغوط (أقل من 4 ميجابت في الثانية)	70–80%	تقلل التشوهات من الفصل الدقيق
الإعداد الأمثل (زاوية عالية، 8+ ميجابت في الثانية، 15 إطارًا في الثانية)	90%+	أفضل حالة للتطبيقات الفعلية

تأتي هذه الأرقام من اختبارات ميدانية حقيقية، وليس من ظروف معملية. تعتمد نتائجك الفعلية على ارتفاع تثبيت الكاميرا، وزاوية العدسة، والإضاءة، واستقرار الشبكة.

هل اكتشاف التجمع حساس بما يكفي لرصد التجول غير القانوني في مواقف السيارات العامة؟

لقد سألني العملاء هذا السؤال بالضبط بعد أن قاموا بتركيب كاميرات أساسية وما زالوا يفوتون مجموعات تتسكع في مواقف سياراتهم ليلاً. لم تكن المشكلة في الكاميرا. كانت عدم قدرة الخوارزمية على التمييز بين “التسكع” و“الوقوف”.”

نعم، يمكن لـ "اكتشاف التجمعات" تحديد التسكع في مواقف السيارات، ولكنه يتطلب ضبطًا دقيقًا. المفتاح هو الجمع بين قواعد المناطق المكانية والحدود الزمنية. تحدد أين لا ينبغي للناس البقاء، وتضبط وقت البقاء (على سبيل المثال، 60 ثانية)، وتقوم الذكاء الاصطناعي بتمييز أي شخص يبقى بعد هذا الحد.

اكتشاف التسكع في مواقف السيارات باستخدام مناطق الذكاء الاصطناعي

الفرق بين التجمع والتسكع

يبدو هذان السلوكان متشابهين للكاميرا، لكنهما مشكلتان مختلفتان. يعني التجمع قدوم عدة أشخاص إلى مكان واحد. يعني التسكع بقاء شخص واحد أو أكثر في مكان ما لفترة أطول من المتوقع. يتعامل نظام الذكاء الاصطناعي الجيد مع كليهما، ولكنك تقوم بتكوينهما بشكل مختلف.

بالنسبة لمواقف السيارات، فإنك عادةً ما تريد تفعيل كلا القاعدتين في نفس الوقت:

قاعدة التسكع: تنبيه إذا بقي أي شخص في منطقة غير مخصصة للوقوف (مثل بين السيارات أو بالقرب من المخارج) لأكثر من 90 ثانية.
قاعدة التجمع: تنبيه إذا تجمع 3 أشخاص أو أكثر في أي مكان في الموقف لأكثر من 30 ثانية.

لماذا مواقف السيارات صعبة على الذكاء الاصطناعي

تخلق مواقف السيارات تحديات فريدة لتحليلات الفيديو. السيارات تحجب خطوط الرؤية. المصابيح الأمامية تخلق تغيرات مفاجئة في السطوع. الظلال تتحرك على مدار اليوم. يسير الأشخاص بشكل شرعي إلى ومن سياراتهم، مما يخلق حركة مستمرة.

يحتاج الذكاء الاصطناعي إلى فصل السلوك الطبيعي (المشي إلى السيارة، تحميل البقالة) عن السلوك غير الطبيعي (ثلاثة أشخاص يقفون بين السيارات لمدة خمس دقائق). يقوم بذلك من خلال تحليل المسار⁶. الشخص الذي يمشي في خط مستقيم نحو سيارة ثم يقود بعيدًا هو أمر طبيعي. الشخص الذي يمشي في دوائر أو يقف ساكنًا ليس كذلك.

التحسين للكشف الليلي

يحدث معظم التسكع غير القانوني ليلاً. هذا يعني أن أداء الكاميرا في الإضاءة المنخفضة يؤثر بشكل مباشر على دقة الكشف. أوصي بكاميرات تحتوي على مستشعرات 1/1.8 بوصة على الأقل وإضاءة بالأشعة تحت الحمراء إضافية. مستشعرات ضوء النجوم⁴ يمكنها الحفاظ على التصوير الملون حتى 0.001 لوكس، مما يوفر للذكاء الاصطناعي المزيد من بيانات الميزات للعمل بها مقارنةً بوضع الأشعة تحت الحمراء بالأبيض والأسود.

للمواقع التي تعمل بالطاقة الشمسية حيث تكون الطاقة محدودة، استخدم الجدولة الذكية للأشعة تحت الحمراء⁵. أبقِ مصابيح الأشعة تحت الحمراء مطفأة خلال النهار وقم بتنشيطها تلقائيًا عند الغسق. هذا يوفر الطاقة مع ضمان حصول الذكاء الاصطناعي على جودة صورة كافية للكشف عن الأشكال البشرية ليلاً.

تقليل الإنذارات الكاذبة من المركبات والحيوانات

في مواقف السيارات، أكبر مصدر للإنذارات الكاذبة ليس الأشخاص. إنها السيارات المتوقفة، والحيوانات العابرة، والقمامة التي تحملها الرياح. يتعامل الذكاء الاصطناعي الحديث مع هذا من خلال تصنيف الأهداف. يحدد الخوارزمية أولاً ما إذا كان الكائن المكتشف شخصًا أو مركبة أو حيوانًا. فقط الأهداف البشرية المؤكدة تُحتسب ضمن عتبة التجمع أو التسكع.

يمكنك أيضًا تعيين مرشحات الحد الأدنى لحجم الهدف. هذا يلغي الحيوانات الصغيرة (القطط والطيور) التي قد تؤدي بخلاف ذلك إلى تغييرات في كثافة البكسل. قم بتعيين الحد الأدنى للارتفاع إلى حوالي 0.8 متر في معايرة المنظور الخاصة بك، وتختفي معظم الإنذارات الكاذبة المتعلقة بالحيوانات.

هل يمكنني تخصيص “وقت التجمع” قبل إرسال إنذار إلى مركز الأمان الخاص بي؟

تعلمت مبكرًا أن التنبيهات الفورية تبدو جيدة نظريًا ولكنها تخلق إرهاقًا للتنبيهات عمليًا. يتوقف فريق الأمان الخاص بك عن الانتباه بعد الإنذار الكاذب الخمسين في نوبة عمل واحدة.

نعم، وقت التجمع (المعروف أيضًا بوقت البقاء أو الحد الأدنى للمدة) قابل للتخصيص بالكامل. يمكنك تعيينه في أي مكان من 5 ثوانٍ إلى عدة دقائق. تخبر هذه المعلمة الذكاء الاصطناعي المدة التي يجب أن تظل فيها المجموعة متجمعة قبل أن يؤكد النظام أنها حدث حقيقي ويرسل الإشعار.

إعدادات توقيت إنذار قابلة للتخصيص للكشف عن الحشود

لماذا التوقيت هو أهم معلمة

من بين جميع الإعدادات التي يمكنك تعديلها، فإن وقت التجمع له أكبر تأثير على تجربة فريقك اليومية. قم بتعيينه قصيرًا جدًا (أقل من 10 ثوانٍ)، وسيؤدي كل تجمع لزملاء العمل الذين يتحدثون في استراحة تدخين إلى إطلاق إنذار. قم بتعيينه طويلاً جدًا (أكثر من 3 دقائق)، وسيكون لدى تهديد حقيقي وقت للتصرف قبل أن يستجيب أي شخص.

تعتمد القيمة الصحيحة كليًا على ملف تعريف المخاطر الخاص بموقعك. قد تحدد منشأة نووية 10 ثوانٍ لأن أي تجمع غير مصرح به أمر بالغ الأهمية. قد تحدد ساحة انتظار سيارات البيع بالتجزئة 90 ثانية لأن التفاعلات الاجتماعية القصيرة أمر طبيعي.

كيف يعمل المؤقت داخليًا

المؤقت ليس ساعة توقيت بسيطة. يستخدم نموذج “الكشف المستمر”. إليك التسلسل:

يكتشف الذكاء الاصطناعي أن عدد الأشخاص في منطقة ما يتجاوز العتبة.
يبدأ المؤقت في العد.
إذا انخفض العدد عن العتبة في أي نقطة (غادر شخص ما)، يتم إعادة تعيين المؤقت.
فقط عندما يظل العدد فوق العتبة بشكل مستمر طوال المدة الكاملة، يتم إطلاق الإنذار.

يمنع هذا النهج “المستدام” التنبيهات الخاطئة بسبب الازدحام اللحظي، مثل مرور مجموعة عبر ممر ضيق. قد يتجاوزون العدد لمدة 5 ثوانٍ، لكنهم يستمرون في الحركة، لذا يعاد ضبط المؤقت.

خيارات تسليم الإنذار

بمجرد أن يؤكد المؤقت وقوع حدث تجمع حقيقي، لديك قنوات تسليم متعددة:

إشعار دفع إلى تطبيق هاتفك المحمول (الأسرع، تأخير 2-5 ثوانٍ)
تنبيه بريد إلكتروني مع مرفق لقطة شاشة (جيد للسجلات، تأخير 10-30 ثانية)
نافذة منبثقة لنظام إدارة الفيديو (VMS) على محطة المراقبة الخاصة بك (فوري إذا كان المشغل يراقب)
خرج التتابع لتشغيل صفارات الإنذار أو الأضواء أو أقفال البوابات (سلكي، أقل من ثانية)
خطاف استدعاء لواجهة برمجة التطبيقات (API webhook)⁷ إلى منصتك المخصصة أو نظام إدارة معلومات الأمن المادي (PSIM)⁸ (قابل للبرمجة)

التوقيت الموصى به حسب السيناريو

نوع الموقع	وقت التجمع المقترح	المنطق
البنية التحتية الحيوية (محطات الطاقة، مراكز البيانات)	10 – 15 ثانية	لا تسامح على الإطلاق مع المجموعات غير المصرح بها
مواقع البناء	30 – 60 ثانية	قد يتجمع العمال لفترة وجيزة؛ قم بتصفية النشاط الطبيعي
مواقف السيارات في المتاجر	60 – 120 ثانية	التفاعلات الاجتماعية شائعة؛ ركز على التجول المطول
الحدائق العامة / المناطق المفتوحة	120 – 180 ثانية	حركة مرور عالية؛ قم فقط بتحديد التجمعات غير الطبيعية المستمرة
مواقع نائية خارج الشبكة (مزارع، حقول شمسية)	15 – 30 ثانية	أي وجود بشري غير عادي؛ استجب بسرعة

دمج الوقت مع مستويات التصعيد

للإعدادات الأكثر تقدمًا، يمكنك إنشاء استجابات متدرجة. على سبيل المثال:

30 ثانية: يسجل النظام الحدث ويبدأ التسجيل بدقة كاملة.
60 ثانية: يتم إرسال إشعار دفع إلى هاتف الحارس الموجود في الموقع.
120 ثانية: يتصاعد الإنذار إلى مركز الأمن المركزي مع بث فيديو مباشر.
180 ثانية: يتم تشغيل تحذير صوتي آلي عبر مكبر الصوت المدمج في الكاميرا.

يمنح هذا النهج المتدرج فريقك سياقًا قبل الاستجابة. بحلول الوقت الذي يصل فيه الإنذار إلى مركز الأمان، يكون النظام قد التقط بالفعل دقيقتين من لقطات الأدلة عالية الجودة.

الخاتمة

يعد اكتشاف تجمع الحشود قدرة مثبتة للذكاء الاصطناعي تعمل بشكل أفضل عندما تجمع بين إعدادات العتبة الذكية، ووضع الكاميرا المناسب، وقواعد التوقيت المخصصة. إذا كنت بحاجة إلى مساعدة في تكوين هذه المعلمات لموقعك المحدد، فتواصل معي على sales05@.com وسأرشدك خلال العملية.

1. برنامج إدارة الفيديو المستخدم بشكل شائع لتكوين ومراقبة قواعد اكتشاف الذكاء الاصطناعي. ︎↩︎ 2. معلمة تحدد عدد الأشخاص الذين يجب أن يتجمعوا قبل إطلاق تنبيه. ︎↩︎ 3. معيار ضغط الفيديو الذي يقلل من عرض النطاق الترددي مع الحفاظ على الجودة للتحليلات. ︎↩︎ 4. تقنية مستشعر الكاميرا في الإضاءة المنخفضة التي تتيح التصوير بالألوان في الظلام شبه الكامل لتحسين اكتشاف الذكاء الاصطناعي. ︎↩︎ 5. ميزة تقوم بتنشيط مصابيح LED بالأشعة تحت الحمراء فقط عند الغسق لتوفير الطاقة في الكاميرات التي تعمل بالطاقة الشمسية. ︎↩︎ 6. الطريقة التي يستخدمها الذكاء الاصطناعي لفهم ما إذا كانت حركة الشخص طبيعية (المشي إلى السيارة) أو مشبوهة (التسكع). ︎↩︎ 7. تكامل قابل للبرمجة يسمح للكاميرا بإرسال تنبيهات إلى منصة مخصصة أو نظام PSIM. ︎↩︎ 8. برنامج إدارة معلومات الأمن المادي الذي يوحد أنظمة الأمان الفرعية المتعددة. ︎↩︎

هل يدعم الذكاء الاصطناعي اكتشاف "تجمع الحشود" لتحديد التكتلات غير الطبيعية؟