لقد رأيت كاميرات PTZ تفقد الأهداف خلف شجرة واحدة. تلك اللحظة من “أين ذهبوا” تكلف أموالاً حقيقية في مشاريع الأمن.
نعم، خوارزمية PTZ المتطورة لدينا تدعم التنبؤ بالمسار ثلاثي الأبعاد1 بناءً على المسارات التاريخية. إنها تستخدم ترشيح كالمان2 و نماذج سلوك التعلم العميق3 لحساب مكان وجود الهدف في الثواني من 0.5 إلى 3 القادمة. هذا يعني أن الكاميرا تتحرك أمام الهدف، وليس خلفه.
خوارزمية كاميرا PTZ للتنبؤ بالمسار ثلاثي الأبعاد
أدناه، سأوضح بالضبط كيف يعمل هذا التنبؤ في سيناريوهات العالم الحقيقي. سأغطي النقاط العمياء، والتعامل مع العوائق، وتحديد المواقع المسبق للمحرك، وتتبع المركبات غير الخطية. يتضمن كل قسم التفاصيل الفنية التي تهم في نشرك التالي.
جدول المحتويات
كيف يمنع التنبؤ بالمسار ثلاثي الأبعاد فقدان الهدف عند دخوله نقطة عمياء مؤقتة؟
لقد رأيت العديد من أنظمة التتبع تتجمد في اللحظة التي يمشي فيها شخص خلف عمود. تتوقف الكاميرا ببساطة. يصاب المشغل بالذعر. يختفي الهدف.
يحل التنبؤ بالمسار ثلاثي الأبعاد هذه المشكلة عن طريق حساب سرعة الهدف واتجاهه وعمقه قبل دخوله النقطة العمياء. تحافظ الخوارزمية على حركة محرك PTZ على طول المسار المتوقع. عندما يخرج الهدف من الجانب الآخر، تكون الكاميرا في انتظاره بالفعل.
التنبؤ بالمسار لنقطة عمياء في كاميرا PTZ
لماذا يفشل التتبع ثنائي الأبعاد التقليدي في الانسداد
يعمل المتتبع القياسي على البكسلات. ينظر إلى كتلة من اللون أو الشكل في الإطار. عندما تختفي تلك الكتلة خلف كائن، لا يجد المتتبع شيئًا للعمل به. يبلغ عن “فقدان الهدف” وتتوقف الكاميرا.
هذه مشكلة كبيرة في عمليات النشر الفعلية. فكر في موقع بناء به سقالات. أو مزرعة بها صفوف من الأشجار. أو موقف سيارات به مركبات طويلة. تختفي الأهداف وتظهر باستمرار.
كيف يغير التنبؤ ثلاثي الأبعاد قواعد اللعبة
تقوم خوارزميتنا بشيء مختلف. قبل أن يدخل الهدف إلى النقطة العمياء، فقد قامت بالفعل ببناء ملف تعريف للحركة:
| نقطة البيانات | ما يقيسه | كيف يساعد |
|---|---|---|
| متجه السرعة $v$ | ما مدى السرعة وفي أي اتجاه | يتنبأ بمكان وجود الهدف في 500 مللي ثانية - 2000 مللي ثانية |
| التسارع $a$ | هل الهدف يتسارع أم يتباطأ | يضبط التنبؤ لتغيير الوتيرة |
| تقدير العمق $Z$ | مدى بعد الهدف عن الكاميرا | يحول حركة البكسل إلى مسافة في العالم الحقيقي |
| المسار التاريخي | آخر 2-3 ثوانٍ من الحركة | يغذي نموذج RNN للتنبؤ بالسلوك |
يستخدم النظام معادلة الحركة $S = vt + \frac{1}{2}at^2$ لتوقع موقع الهدف المستقبلي في الفضاء ثلاثي الأبعاد. يقوم برسم إحداثيات البكسل ثنائية الأبعاد في نظام إحداثيات جغرافي ثلاثي الأبعاد5 باستخدام ارتفاع تثبيت الكاميرا وزاوية الميل ومستوى التقريب الحالي.
إعداد “نافذة الاستمرارية”
في البرنامج الثابت الخاص بنا، يوجد مُعامل يسمى استمرارية التتبع. يتحكم هذا في المدة التي تحتفظ فيها الخوارزمية بتنبؤها بعد فقدان الاتصال البصري. بالنسبة للبيئات التي تحتوي على العديد من العوائق، مثل موقع ديفيد في تكساس مع الشجيرات الكثيفة، أوصي بضبط هذا على الطرف الأعلى. تمنح القيمة التي تتراوح بين 2-3 ثوانٍ نموذج التنبؤ وقتًا كافيًا من الثقة للحفاظ على دوران المحرك بسلاسة عبر النقطة العمياء.
النتيجة: عندما يخرج الهدف من خلف العائق، تكون الكاميرا موجهة بالفعل نحو منطقة الخروج. وقت إعادة القفل أقل من 200 مللي ثانية. لا حاجة لتدخل المشغل.
هل يمكن للذكاء الاصطناعي حساب السرعة المقدرة ونقطة الخروج لشخص يتحرك خلف عائق؟
في كل مرة أقوم فيها بعرض هذه الميزة لمُدمج أنظمة، يسألون نفس الشيء: “كيف تعرف من أين سيخرج الشخص؟” إنه سؤال عادل.
تحسب الذكاء الاصطناعي كلاً من السرعة ونقطة الخروج من خلال الجمع بين سرعة الهدف قبل الانسداد ونموذج مكاني للمشهد. إنها تعرف العرض التقريبي للعائق من رسم الخرائط العميق، لذلك يمكنها تقدير متى وأين سيظهر الهدف مرة أخرى على الجانب الآخر.

تفصيل الحساب
الرياضيات واضحة بمجرد فهم المدخلات. تحتاج الخوارزمية إلى ثلاثة أشياء:
- سرعة الهدف واتجاهه قبل اختفائهما
- العرض المقدر للعائق بوحدات العالم الحقيقي
- الافتراض بأن الهدف يحافظ على نفس السرعة تقريبًا خلف العائق
من البكسل إلى أمتار العالم الحقيقي
هذا هو المكان الذي يكون فيه الجزء ثلاثي الأبعاد مهمًا. شخص يمشي بسرعة 1.4 متر/ثانية على بعد 50 مترًا من الكاميرا يبدو مختلفًا تمامًا بالبكسل عن نفس الشخص على بعد 200 متر. تأخذ خوارزميتنا هذا في الاعتبار باستخدام مستوى التقريب الحالي وزاوية الميل لتحويل إزاحة البكسل إلى أمتار فعلية في الثانية.
| مستوى التكبير/التصغير | حركة البكسل لكل 1 متر/ثانية على بعد 100 متر | دقة العمق | ثقة التنبؤ |
|---|---|---|---|
| 10X | ~45 بكسل/إطار | ±3 متر | عالية |
| 20X | ~90 بكسل/إطار | ±2 متر | عالية |
| 40X | ~180 بكسل/إطار | ±1.5 متر | عالية جداً |
عند مستويات التكبير الأعلى، يحصل النظام فعليًا على قراءات سرعة أكثر دقة لأن إزاحة البكسل تكون أكبر وأسهل في القياس بدقة.
عملية تقدير نقطة الخروج
إليك كيف يحدد النظام نقطة الخروج خطوة بخطوة:
يسجل الخوارزمية آخر موقع معروف للهدف ومتجه سرعته. ثم يقوم بإسقاط خط مستقيم (أو خط منحني إذا كان الهدف يتحول) للأمام في الفضاء ثلاثي الأبعاد. يقدر حدود العائق باستخدام معرفة المشهد السابقة أو إشارات العمق. تقاطع المسار المسقط مع الحافة البعيدة للعائق يعطي نقطة الخروج المتوقعة.
ماذا يحدث عندما يكون التنبؤ خاطئًا؟
في بعض الأحيان يغير الأشخاص اتجاههم خلف عائق. يتوقفون. يستديرون. يتعامل نظامنا مع هذا من خلال نهج الفرضيات المتعددة. لا يراهن بكل شيء على نقطة خروج واحدة. بدلاً من ذلك، يقوم بتعيين أوزان احتمالية لـ 2-3 مناطق خروج محتملة. يضع PTZ نفسه لتغطية المنطقة الأكثر احتمالاً مع إبقاء المناطق الأخرى ضمن نطاق مسح سريع.
إذا لم يظهر الهدف في نقطة التنبؤ الأولية خلال نافذة الاستمرارية، تقوم الكاميرا بمسح المناطق الثانوية بسرعة. يجلب هذا النهج متعدد الفرضيات معدل نجاح إعادة الاستحواذ الإجمالي إلى أكثر من 92% في اختباراتنا الميدانية.
هل يساعد المسار ثلاثي الأبعاد محرك PTZ على “تحديد الموقع المسبق” لعدسته لتسليم تتبع أكثر سلاسة؟
لقد أمضيت سنوات في مكافحة مشكلة التأخير في تتبع 4G عن بعد. تنتقل الأوامر من معالج الحافة إلى المحرك. يدور المحرك. بحلول الوقت الذي تصل فيه العدسة، يكون الهدف قد تحرك. إنه يطارد دائمًا، ولا يقود أبدًا.
نعم، المسار ثلاثي الأبعاد يمكّن مباشرة من تحديد موضع المحرك مسبقًا. ترسل الخوارزمية محرك PTZ إلى حيث سيكون الهدف، وليس حيث هو الآن. هذا يعوض عن زمن استجابة الشبكة وزمن الاستجابة الميكانيكية، مما ينتج عنه لقطات تتبع أكثر سلاسة بشكل ملحوظ.
تحديد موضع محرك PTZ المسبق لتتبع سلس
مشكلة التأخير في عمليات نشر 4G
في نظام سلكي، قد يكون التأخير بين “رؤية الهدف” و “وصول المحرك” 50-80 مللي ثانية. هذا يمكن التحكم فيه. ولكن في عملية نشر 4G تعمل بالطاقة الشمسية، يمكن أن يصل إجمالي تأخير الحلقة إلى 200-400 مللي ثانية. عند تكبير 40X، يمكن لشخص يمشي بشكل طبيعي أن يتحرك بالكامل خارج الإطار في ذلك الوقت.
كيف يعمل تحديد الموضع المسبق
تحسب خوارزمية التنبؤ مسافة تقدم. فكر في الأمر كأن لاعب الوسط يرمي كرة القدم إلى المكان الذي سيكون فيه المستقبل، وليس إلى مكانه الحالي.
الصيغة بسيطة:
مسافة التقدم = سرعة الهدف × زمن استجابة النظام
إذا مشى شخص بسرعة 1.4 متر/ثانية وكان زمن استجابة النظام 300 مللي ثانية، فإن مسافة التقدم هي 0.42 متر. يقوم أمر المحرك بتوجيه الكاميرا 0.42 متر أمام موضع الهدف الحالي.
طبقات التعويض الثلاث
يعوض نظام التموضع المسبق عن ثلاث تأخيرات منفصلة:
تأخير المعالجة: الوقت الذي تستغرقه شريحة الذكاء الاصطناعي لتحليل الإطار وإنشاء أمر. عادةً ما يكون 30-60 مللي ثانية على وحدة المعالجة العصبية المدمجة لدينا.
تأخير الشبكة: زمن الذهاب والإياب على شبكة 4G. يتراوح هذا من 80 مللي ثانية في التغطية الجيدة إلى 300 مللي ثانية في المناطق الريفية. يقوم الخوارزمي بقياس هذا في الوقت الفعلي ويقوم بالتعديل.
التأخير الميكانيكي: الوقت الذي يستغرقه محرك الخطوات للتسارع والتحرك والاستقرار. تتمتع محركاتنا بزمن استجابة يبلغ حوالي 50 مللي ثانية للتعديلات الصغيرة.
| مصدر التأخير | النطاق النموذجي | تعويض التموضع المسبق |
|---|---|---|
| معالجة الذكاء الاصطناعي | 30-60 مللي ثانية | إزاحة ثابتة في نموذج التنبؤ |
| زمن الذهاب والإياب لشبكة 4G | 80-300 مللي ثانية | ديناميكي، يتم قياسه لكل دورة أمر |
| استجابة المحرك | 40-70 مللي ثانية | تمت معايرته لكل وحدة أثناء مراقبة الجودة في المصنع |
| الإجمالي | 150-430 مللي ثانية | تم تعويضه بالكامل عن طريق حساب الرصاص |
الفرق البصري
بدون تحديد الموضع المسبق، تبدو لقطات التتبع بدقة 40X متقطعة. الكاميرا تلحق دائمًا بالهدف. الهدف يقع على حافة الإطار، وأحيانًا يخرج من الإطار. مع تمكين تحديد الموضع المسبق، يظل الهدف في المنتصف. تبدو الحركة سلسة ومتعمدة. هذا مهم جدًا عندما تُستخدم اللقطات كدليل أو تُعرض على العملاء النهائيين أثناء قبول المشروع.
تكامل التكبير الذكي
أوصي بتمكين وضع “التنبؤ + التكبير التلقائي” مع تحديد الموضع المسبق. عندما يتنبأ الخوارزمي بحركة جانبية سريعة، فإنه يقوم بالتصغير قليلاً تلقائيًا. هذا يزيد من مجال الرؤية كهامش أمان. بمجرد استقرار مسار الهدف، يعود التكبير. هذا المزيج يحسن بشكل كبير معدل نجاح التتبع في المناطق المفتوحة حيث يمكن للأهداف تغيير الاتجاه بسرعة.
هل التنبؤ بالمسار دقيق بما يكفي لمتابعة مركبة تتحرك بسرعات غير خطية؟
المركبات أصعب من الأشخاص. يمشي الشخص بسرعة ثابتة إلى حد ما. تتسارع السيارة، وتكبح، وتنعطف بحدة، وتغير المسارات. لقد اختبرت العديد من الأنظمة التي تتتبع الأشخاص بشكل جيد ولكنها تفشل تمامًا مع المركبات.
يتنبأ مسارنا بالسرعات غير الخطية للمركبات باستخدام شبكة عصبية متكررة (RNN)4 مكدسة فوق مرشح كالمان. يتعامل مرشح كالمان مع التسارع والتباطؤ السلس. تتعرف الشبكة العصبية المتكررة على أنماط مثل الكبح قبل الانعطاف أو التسارع بعد علامة التوقف. معًا، يحافظان على تتبع المركبات التي تغير سرعتها بما يصل إلى 30 كم/ساعة في غضون ثانيتين.

لماذا تكسر المركبات نماذج التنبؤ البسيطة
يفترض التنبؤ الخطي الأساسي سرعة ثابتة. إذا كانت السيارة تسير بسرعة 40 كم/ساعة باتجاه الشرق، فإنه يتنبأ بأن السيارة ستظل تسير بسرعة 40 كم/ساعة باتجاه الشرق بعد ثانية واحدة. لكن المركبات لا تعمل بهذه الطريقة. إنها تكبح عند التقاطعات. تتسارع على الطرق السريعة. تنعطف حول المنحنيات.
يحسن مرشح كالمان البحت هذا عن طريق نمذجة التسارع. يمكنه التعامل مع تغييرات السرعة السلسة. لكنه لا يزال يواجه صعوبة مع الأحداث المفاجئة مثل الكبح الشديد أو الانعطافات الحادة.
النهج الهجين: كالمان + RNN
يستخدم نظامنا كلا النموذجين معًا:
دور مرشح كالمان: يتعامل مع الفيزياء. يتتبع الموضع والسرعة والتسارع في الوقت الفعلي. يقوم بتحديث التنبؤات في كل إطار (33 مللي ثانية عند 30 إطارًا في الثانية). سريع جدًا، فعال جدًا على الأجهزة المدمجة.
دور الشبكات العصبية المتكررة (RNN): يتعامل مع السلوك. تم تدريبه على آلاف الساعات من بيانات حركة المركبات. يتعرف على الأنماط التي لا يمكن للفيزياء البحتة التنبؤ بها. على سبيل المثال:
- من المرجح أن تتوقف مركبة تبطئ بالقرب من تقاطع أو تنعطف
- من المرجح أن تحافظ مركبة على طريق مستقيم بدون عوائق على سرعتها
- من المرجح أن تصل مركبة كانت تتسارع لمدة 3 ثوانٍ قريبًا إلى سرعة الانطلاق
أرقام الأداء في العالم الحقيقي
في اختباراتنا عبر سيناريوهات مختلفة:
مركبة تتسارع من 0 إلى 60 كم/ساعة: يظل التنبؤ ضمن مترين من الموضع الفعلي طوال مرحلة التسارع. يتعرف النظام على نمط التسارع في غضون 500 مللي ثانية ويعدل نموذجه.
مركبة تكبح فجأة: يتجاوز التنبؤ بحوالي 3-4 أمتار في البداية، ولكنه يصحح في غضون 300 مللي ثانية. لا تفقد الكاميرا المركبة أبدًا لأن مجال الرؤية بمستويات تقريب التتبع النموذجية يغطي هامش الخطأ هذا.
مركبة تنعطف عند تقاطع: هذه هي الحالة الأصعب. تكتشف الشبكة العصبية المتكررة نمط التباطؤ الذي يسبق الانعطاف وتبدأ في تعديل المسار المتوقع قبل بدء الانعطاف فعليًا. معدل النجاح في الحفاظ على التتبع عبر انعطاف بزاوية 90 درجة هو حوالي 85%.
نصائح عملية لنشر تتبع المركبات
بالنسبة لـ David والمدمجين الآخرين الذين ينشرون تتبع المركبات: اضبط نموذج التنبؤ على “وضع المركبة” في إعدادات البرنامج الثابت. هذا يحول الشبكة العصبية المتكررة إلى مجموعة أوزان خاصة بالمركبات ويزيد من تحمل التسارع لمرشح كالمان. سيكون النظام أقل حساسية لتغيرات السرعة المفاجئة ولن يفسر الكبح الشديد على أنه “فقدان الهدف”.”
أيضًا، ضع في اعتبارك ارتفاع التركيب. لتتبع المركبات، يوفر التركيب الأعلى (8-12 مترًا) للخوارزمية تقديرًا أفضل للعمق لأن الزاوية بين الكاميرا ومستوى الأرض أكثر ملاءمة للرسم ثلاثي الأبعاد.
الخاتمة
تحول تنبؤات المسار ثلاثي الأبعاد كاميرا PTZ من متابع تفاعلي إلى متتبع استباقي. يتعامل مع النقاط العمياء، ويعوض عن زمن استجابة شبكة 4G، ويخفف حركة المحرك، ويتكيف مع سرعات المركبات غير الخطية. لأي نشر جاد بعيد المدى، هذه هي الميزة التي تفصل النتائج الاحترافية عن الإخفاقات المحبطة.
1. نظرة عامة على طرق التنبؤ بالمسار في الروبوتات وأنظمة التحكم. ︎↩︎ 2. شرح مفصل لخوارزمية مرشح كالمان المستخدمة في تقدير الحالة والتنبؤ. ︎↩︎ 3. نظرة عامة على نمذجة السلوك باستخدام التعلم العميق للتنبؤ بالمسار. ︎↩︎ 4. أساسيات الشبكات العصبية المتكررة وتطبيقها في مهام التنبؤ بالتسلسل. ︎↩︎ 5. نظرة عامة على أنظمة الإحداثيات الجغرافية المستخدمة في رسم الخرائط المكانية. ︎↩︎