لقد شاهدت أرخص كاميرات PTZ1 تفقد هدفها في اللحظة التي يتقاطع فيها شخصان. إنه أمر محبط ومكلف، وفي تطبيقات الأمان، قد يكون خطيرًا.
يثبت النظام على الهدف الأولي باستخدام نهج رباعي الطبقات: واصفات المظهر العميق (إعادة تحديد الهوية2) تنشئ بصمة مرئية،, مرشح كالمان3 تتنبأ بالحركة أثناء الانسداد،, خوارزمية الهنغارية4 تحل تعيين المعرف من خلال تحسين التكلفة، و الذكاء الاصطناعي الطرفي5 يبقي كل شيء قيد التشغيل محليًا حتى عند انقطاع اتصال 4G.

أدناه، سأفصل كل طبقة من منطق التتبع هذا. سأشرح كيف يعمل في عمليات نشر كاميرات PTZ الشمسية بتقنية 4G في العالم الحقيقي، ولماذا يهم مدمجي الأنظمة الذين لا يستطيعون تحمل فشل “تبديل الهدف” في الميدان.
جدول المحتويات
هل ستقوم الكاميرا “بالتبديل” إلى شخص ثانٍ إذا تقاطع مع الهدف الأصلي؟
لقد رأيت هذا يحدث في مواقع العمل. يمشي عاملان بجانب بعضهما البعض، وفجأة تتبع الكاميرا الرجل الخطأ. يتصل العميل غاضبًا. ترسل شاحنة. هذه أموال ضائعة.
لا، لن تقوم كاميرا PTZ المصممة بشكل صحيح بتبديل الأهداف. يحافظ النظام على بصمة مرئية للهدف الأصلي باستخدام واصفات المظهر العميق. حتى عندما يتداخل شخصان تمامًا في الإطار، تقوم الخوارزمية باستمرار بمقارنة متجهات الميزات المخزنة وإعادة تعيين المعرف الصحيح بمجرد انفصالهما.

لماذا تفشل الكاميرات الرخيصة في هذا
تعتمد معظم كاميرات التتبع التلقائي ذات الميزانية المحدودة على طريقة واحدة: مربع محيط11 الموضع. إنها تتتبع مستطيلاً على الشاشة. عندما يندمج مستطيلان في واحد، يصاب النظام بالذعر. يختار أي مستطيل يظهر أولاً، أو أي مستطيل هو الأقرب إلى وسط الإطار. هذه مسألة حظ. في خمسين بالمائة من الحالات، يتبع الشخص الخطأ.
كيف يمنع Re-ID التبديل
يقوم نظامنا بشيء مختلف جوهريًا. في اللحظة التي تحدد فيها هدفًا، يقوم نظام SoC الموجود على اللوحة بتشغيل ريزنت6 خفيف الوزن. يستخرج ما نسميه ‘بصمة بصرية12.’. وهذا يشمل:
- مخطط الألوان: توزيع الألوان على ملابس الهدف، من الأعلى إلى الأسفل.
- نسبة العرض إلى الارتفاع: نسبة الطول إلى العرض لشكل الجسم.
- اكتشاف الملحقات: حقائب الظهر، القبعات، الحقائب. هذه تضيف نقاط بيانات فريدة.
يتم ضغط كل هذا في متجه ذي 128 بُعدًا. فكر في الأمر كملخص رياضي لمظهر هذا الشخص. عندما يعبر شخصان، لا يرى النظام مجرد “كتلتين تندمجان”. يرى متجهين مميزين. بعد العبور، يقارن كل هدف ناشئ بالمتجه المخزن. أقرب تطابق يحتفظ بالمعرف الأصلي.
ماذا يحدث أثناء الانسداد الكامل
هناك نافذة قصيرة، تتراوح أحيانًا من 5 إلى 15 إطارًا، حيث يكون الهدف الأصلي مخفيًا تمامًا خلف الشخص الثاني. خلال هذا الوقت، تكون البصمة البصرية عديمة الفائدة لأنه لا يوجد شيء لرؤيته. هذا هو المكان الذي يتولى فيه مرشح كالمان زمام الأمور. سأشرح ذلك في القسم التالي.
| طريقة التتبع | خطر تبديل الهدف | مستخدم في |
|---|---|---|
| مربع الإحاطة فقط | مرتفع (فشل 50%+) | كاميرات المستهلكين الاقتصادية |
| إعادة تعريف الهوية + الموضع | منخفض (فشل أقل من 5%) | أنظمة PTZ الصناعية |
| إعادة تعريف الهوية + كالمان + هنغاري | منخفض جدًا (أقل من 1%) | منصتنا PTZ الشمسية 4G |
تأثير حقيقي للمدمجين
بالنسبة لشخص مثل ديفيد الذي ينشر كاميرات في مواقع بناء نائية أو مزارع شمسية، فإن تبديل الهدف ليس مجرد إزعاج. هذا يعني أن الكاميرا موجهة الآن في الاتجاه الخاطئ. المتسلل الفعلي يبتعد دون تسجيل. يرى العميل اللقطات لاحقًا ويسأل لماذا تتبعت الكاميرا سائق توصيل بدلاً من المتسلل. هذا نزاع تعاقدي ينتظر الحدوث.
هل يستخدم الذكاء الاصطناعي “ترميز الهوية المرئية” لضمان تتبع نفس الشخص عبر الحشد؟
أتلقى هذا السؤال كثيرًا من المدمجين الذين يقيمون نظامنا مقابل المنافسين. يريدون معرفة ما إذا كان التتبع مستمرًا حقًا أم مجرد “لزج” حتى يربكه شيء ما.
نعم، يقوم الذكاء الاصطناعي بتعيين علامة تعريف بصرية مستمرة للهدف المقفل. هذه العلامة هي متجه ميزات عالي الأبعاد يتم استخراجه بواسطة شبكة عصبية عميقة. تعمل هذه العلامة كبصمة رقمية تظل مرتبطة بالهدف بغض النظر عن عدد الأشخاص الآخرين الذين يدخلون الإطار.
نظام علامات التعريف البصرية بالذكاء الاصطناعي يحدد الهدف في الحشد
كيف تعمل علامات التعريف البصرية خطوة بخطوة
دعني أشرح التسلسل الدقيق الذي يحدث داخل معالج الكاميرا عندما تبدأ قفل الهدف:
الخطوة 1: القفل الأولي واستخراج الميزات
ينقر المشغل على هدف (أو يختار الذكاء الاصطناعي تلقائيًا بناءً على قواعد منطقة التسلل). في غضون 50 مللي ثانية، يقوم SoC بقص منطقة الهدف وتغذيتها عبر شبكة استخراج ميزات مدربة مسبقًا. الناتج هو متجه 128 عائم. يتم تخزين هذا المتجه في الذاكرة المحلية كـ “هوية مرجعية”.”
الخطوة 2: مقارنة الإطار بالإطار
في كل إطار لاحق، يكتشف النظام جميع الأشخاص المرئيين. لكل شخص مكتشف، يستخرج نفس نوع المتجه. ثم يحسب تشابه جيب التمام7 بين كل متجه مكتشف والمرجع المخزن. أعلى تطابق يسجل فوق عتبة الثقة (عادة 0.75) يحصل على المعرف الأصلي.
الخطوة 3: التحديث التكيفي
إليك شيء يغفل عنه معظم الناس. المتجه المرجعي ليس ثابتًا. مع تغير الإضاءة، ومع دوران الهدف، يقوم النظام بتحديث المرجع ببطء باستخدام متوسط متحرك أسي8. هذا يمنع الانجراف مع التكيف مع التغييرات التدريجية في المظهر مثل قيام شخص بخلع سترة.
| المرحلة | ميزانية الوقت | ما يحدث |
|---|---|---|
| استخراج الميزات | ~50 مللي ثانية | يقوم ResNet بقص وترميز الهدف |
| مقارنة المتجهات | ~10 مللي ثانية لكل هدف | تشابه جيب التمام مقابل جميع الاكتشافات |
| تعيين المعرف | ~5 مللي ثانية | خوارزمية المجرية تحل التعارضات |
| تحديث المرجع | ~2 مللي ثانية | المتوسط المتحرك الأسي يضبط المتجه المخزن |
لماذا هذا مهم على شبكات 4G
في نظام كاميرات PTZ يعمل بالطاقة الشمسية عبر شبكة 4G، قد تقوم ببث الفيديو بمعدل 15 إطارًا في الثانية لتوفير عرض النطاق الترددي. هذا يعني أن كل إطار ثمين. إذا فقد النظام المعرف لمدة إطارين فقط، فهذا يعني 130 مللي ثانية من التتبع الأعمى. يقوم الذكاء الاصطناعي الخاص بنا بمعالجة كل هذا محليًا. يحمل رابط 4G بث الفيديو إلى مسجل الفيديو الشبكي (NVR) أو السحابة، ولكن قرار التتبع لا يغادر الكاميرا أبدًا. حتى لو انقطع اتصال شبكة 4G لمدة 3 ثوانٍ، تستمر كاميرا PTZ في الدوران، والاستمرار في المتابعة، والاستمرار في التثبيت.
حدود كثافة الحشود
سأكون صريحًا بشأن الحدود. في حشد من 30+ شخصًا متكدسين معًا بإحكام، تنخفض دقة إعادة التعريف (Re-ID). تبدأ المتجهات في الظهور متشابهة عندما يرتدي الجميع ملابس متشابهة. في سيناريوهات المراقبة النموذجية، حيث يوجد من 5 إلى 10 أشخاص في الإطار، يحافظ النظام على استمرارية المعرف الصحيح بنسبة تزيد عن 95%. في سيناريوهات الحشود الكثيفة، نوصي بالاقتران بكاميرا ثابتة بزاوية واسعة في تكوين عدسة مزدوجة للوعي البانورامي.
كيف تحل مشكلة “تبديل الهدف” الشائعة في كاميرات التتبع التلقائي الأرخص؟
هذا هو السؤال الذي يفصل بين المدمجين الجادين والمشترين العاديين. إذا كنت قد نشرت ما يكفي من الكاميرات، فقد رأيت خطأ التبديل. أنت تعرف مدى تكلفة شرح ذلك للعميل.
نحل مشكلة تبديل الهدف من خلال دفاع ثلاثي الطبقات: خوارزمية هنغريان تحسب التعيين الأمثل العالمي عبر جميع الأهداف المتعقبة، ومرشح كالمان يحافظ على توقع المسار أثناء الانسداد، و اضمحلال الثقة9 مؤقت يجبر على إعادة الاكتساب إذا انخفضت درجة المطابقة عن الحد الأدنى لفترة طويلة جدًا.
تصور خوارزمية حل تبديل الهدف
السبب الجذري لتبديل الهدف
يحدث تبديل الهدف بسبب اختصار كسول في تصميم الخوارزمية. تستخدم الأنظمة الرخيصة تعيين “أقرب جار”. في كل إطار، ينظرون إلى مكان الهدف في الإطار السابق، ثم يعينون المعرف لأي اكتشاف هو الأقرب إلى هذا الموضع. هذا يعمل بشكل جيد عندما تكون الأهداف متباعدة. في اللحظة التي يقترب فيها هدفان من بعضهما البعض ببضع بكسلات، يصبح أقرب جار لعبة تخمين.
دفاعنا ثلاثي الطبقات
الطبقة 1: خوارزمية هنغريان للتعيين الأمثل العالمي
بدلاً من تعيين المعرفات واحدة تلو الأخرى (نهج جشع)، نحل مشكلة التعيين عالميًا. تبني خوارزمية هنغريان مصفوفة تكلفة حيث:
- تمثل الصفوف المعرفات المتعقبة الحالية
- تمثل الأعمدة الاكتشافات الجديدة في الإطار الحالي
- تحتوي كل خلية على تكلفة مرجحة تجمع بين مسافة المظهر، ومسافة الحركة، والمسافة المكانية
تجد الخوارزمية التعيين الذي يقلل التكلفة الإجمالية عبر جميع الأهداف في وقت واحد. هذا يعني أنه حتى لو كان الهدف "أ" أقرب قليلاً إلى الاكتشاف "2"، فقد يظل النظام يعين الهدف "أ" إلى الاكتشاف "1" إذا أدى ذلك إلى حل عالمي أفضل.
الطبقة 2: مرشح كالمان لاستمرارية الحركة
يحافظ مرشح كالمان على تقدير حالة لكل هدف: الموضع (x, y)، السرعة (vx, vy)، والتسارع. عندما يختفي هدف خلف كائن آخر، يستمر المرشح في التنبؤ بمكانه. بعد انتهاء الانسداد، يصبح الموضع المتوقع أولوية قوية في مصفوفة التكلفة. يحصل الهدف الذي يظهر بالضبط حيث توقع المرشح ظهوره على مكافأة ضخمة في درجة التعيين.
الطبقة 3: اضمحلال الثقة وإعادة الاكتساب
في بعض الأحيان، على الرغم من جميع الاحتياطات، لا يكون النظام متأكدًا. ربما يرتدي كلا الهدفين زيًا موحدًا متطابقًا. ربما استمر الانسداد لفترة طويلة جدًا. في هذه الحالات، تنخفض درجة الثقة إلى أقل من 0.6. يدخل النظام في حالة “مؤقتة”. يستمر في تتبع أفضل مرشح ولكنه يضع علامة على البث بعلامة بيانات وصفية. إذا لم تستعد الثقة في غضون 30 إطارًا، يمكن للنظام إما:
- الاحتفاظ بالموضع والانتظار للمشغل
- إعادة الاكتساب بناءً على آخر متجه حركة معروف
لماذا هذا مهم للنشر الشمسي عن بعد
في موقع يعمل بالطاقة الشمسية بدون موظفين دائمين، لا يوجد أحد لتصحيح التبديل يدويًا. يجب أن تحصل الكاميرا على ذلك بشكل مستقل. تضمن معالجة الحافة لدينا أنه حتى بمعدلات إطارات منخفضة (شائعة عندما تكون البطارية منخفضة)، فإن خوارزميات التنبؤ تملأ الفجوات. لا ترتعش أو تبحث PTZ. تتحرك بسلاسة على طول المسار المتوقع.
| وضع الفشل | استجابة الكاميرا الرخيصة | استجابة نظامنا |
|---|---|---|
| هدفان يعبران بسرعة المشي | 50% فرصة للتبديل | متجه إعادة التعريف يحل في 2-3 إطارات |
| الهدف محجوب بالكامل لمدة ثانية واحدة | يفقد المسار، يبحث عشوائيًا | يتنبأ كالمان بالمسار، تتبع PTZ التنبؤ |
| ينقطع اتصال 4G أثناء حدث العبور | يتجمد أو يعيد التشغيل | يستمر الذكاء الاصطناعي للحافة في التتبع المستقل |
| ثلاثة أهداف أو أكثر تتجمع | يعين المعرفات عشوائيًا | خوارزمية الهنغارية تجد الحل الأمثل العالمي |
هل يمكنني تعيين “منطقة أولوية” حيث ستقوم الكاميرا دائمًا بتثبيت أول شخص تراه؟
هذا سؤال نشر عملي. يريد المكاملون معرفة ما إذا كان بإمكانهم تحديد منطقة تشغيل، مثل خط سياج أو باب، حيث تبدأ الكاميرا تلقائيًا في تتبع أي شخص يدخل أولاً.
نعم، يمكنك تحديد مناطق الأولوية10 (تسمى أيضًا مناطق اكتشاف التسلل) حيث ستقوم الكاميرا تلقائيًا بتثبيت أول هدف يشبه الإنسان يدخل. يستخدم النظام حدود المنطقة كمشغل، ثم يبدأ فورًا خط أنابيب إعادة التعريف والتتبع الكامل عند هذا الاكتشاف الأول.

كيف تعمل مناطق الأولوية عمليًا
منطقة الأولوية هي مضلع ترسمه على واجهة الويب الخاصة بالكاميرا أو من خلال VMS. تحدد الشكل والحساسية والقواعد. عندما يعبر هدف تلك المنطقة، تتعامل الكاميرا معها كأمر قفل. إليك التسلسل:
خيارات التكوين
تحصل على عدة معلمات لضبطها:
- شكل المنطقة: مستطيل، مضلع، أو عبور خط. عبور الخط مفيد لمحيط الأسوار.
- مرشح الهدف: إنسان فقط، مركبة فقط، أو كلاهما. هذا يمنع الكاميرا من التركيز على الحيوانات أو الحطام المتطاير.
- قاعدة الأولوية: أول من يدخل يُقفل عليه أولاً. إذا دخل شخص ثانٍ بينما الكاميرا تتتبع بالفعل، يتجاهلها النظام ما لم يغادر الهدف الأول المشهد بالكامل.
- وقت البقاء: المدة التي تظل فيها الكاميرا مقفلة قبل العودة إلى الدورية. يمكنك ضبط هذا على لا نهائي للتتبع الدائم حتى يخرج الهدف.
منطق “الشخص الأول”
عندما يدخل عدة أشخاص المنطقة في وقت واحد (ضمن نفس الإطار)، يحتاج النظام إلى كاسب تعادل. يستخدم تطبيقنا قاعدة بسيطة: الهدف الأقرب إلى مركز المنطقة يحصل على الأولوية. هذا قابل للتكوين. يفضل بعض المدمجين “أكبر صندوق محيط” (الأقرب للكاميرا) أو “الأسرع حركة” (التهديد الأكثر احتمالاً).
التكامل مع دورية PTZ
تستخدم معظم عمليات النشر الكاميرا في وضع الدورية. تتجول ذهابًا وإيابًا في جولة محددة مسبقًا. عند تشغيل منطقة أولوية، تتوقف الدورية. تقفل كاميرا PTZ على الهدف وتتبعه. بمجرد أن يغادر الهدف حدود التتبع المحددة (منطقة أكبر حول منطقة الأولوية)، تعود الكاميرا إلى موضع دوريتها وتستأنف الجولة.
حالات الحافة والقيود الصادقة
أريد أن أكون صريحًا بشأن الأماكن التي يمكن أن تصبح فيها الأمور معقدة:
- الدخول المتزامن: إذا مشى 5 أشخاص عبر بوابة معًا، يمكن للكاميرا تتبع واحد فقط جسديًا. يتم تسجيل الآخرين بواسطة العدسة واسعة الزاوية إذا كنت تستخدم إعدادًا مزدوج المستشعرات، لكن PTZ تلتزم بهدف واحد.
- ارتباك إعادة الدخول: إذا غادر الهدف المتعقب ودخل المنطقة مرة أخرى بعد 10 دقائق مرتديًا سترة مختلفة، فإن النظام يعامله كهدف جديد. يعمل Re-ID ضمن جلسة تتبع مستمرة، وليس عبر ساعات.
- الأداء الليلي: ليلاً مع إضاءة الأشعة تحت الحمراء، تُفقد معلومات الألوان. يعتمد متجه Re-ID بشكل أكبر على شكل الجسم ونمط الحركة. تنخفض الدقة بحوالي 10-15٪ مقارنة بالنهار.
لماذا توفر هذه الميزة المال للمواقع البعيدة
بالنسبة لنشر ديفيد النموذجي، وهو كاميرا PTZ تعمل بالطاقة الشمسية على محيط موقع بناء، فإن المنطقة ذات الأولوية تلغي التنبيهات الخاطئة. بدونها، قد تركز الكاميرا على سيارة عابرة على الطريق خلف السياج. مع منطقة مرسومة بشكل صحيح تغطي فقط الجزء الداخلي من خط السياج، تتجاهل الكاميرا كل شيء في الخارج. هذا يوفر البطارية (حركات PTZ أقل غير ضرورية)، ويوفر النطاق الترددي (مقاطع إنذار خاطئة أقل يتم تحميلها عبر 4G)، وينقذ العميل من إرهاق التنبيهات.
الخاتمة
قفل الهدف في سيناريوهات التقاطع المتعدد يعتمد على أربعة أشياء تعمل معًا: البصمة المرئية، التنبؤ بالحركة، الرياضيات المثلى للتخصيص، والمعالجة المحلية على الحافة. إذا تم ضبط الأربعة بشكل صحيح، تظل الكاميرا على الهدف حتى عندما لا تفعل الشبكة ذلك.
1. تعلم المبادئ الأساسية وتطبيقات كاميرات Pan-Tilt-Zoom. ︎↩︎ 2. فهم كيف يستخدم إعادة تعريف الشخص المظهر لتتبع الأفراد عبر وجهات نظر الكاميرا. ︎↩︎ 3. استكشاف الخوارزمية الرياضية المستخدمة للتنبؤ بالحركة وتقدير الحالة. ︎↩︎ 4. القراءة عن خوارزمية التحسين التوافقي لحل مشاكل التخصيص. ︎↩︎ 5. تعلم كيف تتم معالجة الذكاء الاصطناعي محليًا على الأجهزة بدلاً من السحابة. ︎↩︎ 6. فهم بنية الشبكة العصبية العميقة المتبقية المستخدمة لاستخراج الميزات. ︎↩︎ 7. تعلم كيف يقيس تشابه جيب التمام الزاوية بين المتجهات لتحديد التشابه. ︎↩︎ 8. رؤية كيف تُستخدم المتوسطات المرجحة أسياً للتحديثات التكيفية. ︎↩︎ 9. فهم كيف تمنع عتبات الثقة ومؤقتات الانحلال التخصيصات الخاطئة. ︎↩︎ 10. اكتشاف كيف تؤدي المناطق المحددة (مناطق اكتشاف التسلل) إلى تتبع تلقائي. ︎↩︎ 11. تعلم عن مربعات الحدود المستطيلة المستخدمة في اكتشاف وتتبع الكائنات. ︎↩︎ 12. فهم كيف تحدد متجهات الميزات (البصمات المرئية) الكائنات المتعقبة بشكل فريد. ︎↩︎