هل التتبع التلقائي يعتمد على مركز الثقل المرئي أم إحداثيات النقاط الرئيسية للهيكل العظمي؟ - الشركة المصنعة للكاميرات PTZ الاحترافية ومراقبة الأمان

اعتدت على فقدان النوم بسبب فشل التتبع التلقائي. كانت الكاميرا تقفل على شخص ما، ثم تتأرجح فجأة إلى الجانب لأن الظل أربك الخوارزمية. كلفتني هذه المشكلة أموالاً حقيقية وعملاء حقيقيين.

يعتمد التتبع التلقائي الحديث للكاميرات PTZ على إحداثيات نقاط المفاتيح الهيكلية، وليس مركز الثقل المرئي. يكتشف النظام 17 إلى 18 مفصلًا للجسم مثل الكتفين والوركين والركبتين، ثم يستخدم هذه النقاط الثابتة لتوجيه محرك الإمالة والتحريك. تقاوم هذه الطريقة التداخل والظلال وتداخل الأهداف بشكل أفضل بكثير من الأساليب القديمة القائمة على المركز.

تقنية نقاط المفاتيح الهيكلية للتتبع التلقائي لكاميرات PTZ

أدناه، سأوضح بالتفصيل كيف يعمل تتبع نقاط المفاتيح في عمليات النشر الواقعية، ولماذا يتفوق على الأساليب القديمة، وماذا يعني هذا لمشروعك القادم. دعنا نبدأ.

جدول المحتويات

هل يوفر التتبع الهيكلي قفلًا أكثر استقرارًا أثناء الحركات المعقدة “الشبيهة بالبشر”؟

لقد شاهدت كاميرات تعتمد على المركز تفقد هدفها في اللحظة التي ينحني فيها شخص لربط حذائه. يطير مربع التتبع إلى ظل قريب، وتدور كاميرا PTZ بلا هدف. يمكن لهذا الفشل الوحيد أن يدمر عرضًا تقديميًا لمشروع بأكمله.

نعم. يوفر التتبع الهيكلي قفلًا أكثر استقرارًا لأنه يتبع بنية مفاصل الجسم، وليس كتلة من البكسلات. حتى عندما يجلس الشخص أو يلتوي أو يلوح بذراعيه، تظل طوبولوجيا الهيكل العظمي ثابتة. تحتفظ الكاميرا بقفلها لأنها تتتبع العظام، وليس الأشكال.

قفل مستقر للتتبع الهيكلي أثناء الحركات المعقدة

كيف يفشل تتبع المركز أثناء الحركة

يعمل تتبع مركز الثقل التقليدي على هذا النحو: تقوم الخوارزمية بطرح الخلفية، وتجد كتلة البكسلات المتبقية، وتحسب مركزها الهندسي. يصبح هذا المركز هدفًا لكاميرا PTZ.

تظهر المشكلة بسرعة. عندما يرفع شخص ما كلتا ذراعيه فوق رأسه، تصبح الكتلة أطول. يتحول المركز إلى الأعلى. تميل الكاميرا إلى الأعلى. الآن تغادر أقدام الشخص الإطار. عندما ينحني لأسفل، تتقلص الكتلة وينخفض المركز. تنخفض الكاميرا. يخلق هذا الارتداد العمودي المستمر تغذية فيديو متذبذبة وغير مستقرة تبدو غير احترافية على أي تشغيل VMS¹.

كيف تحل نقاط المفاتيح الهيكلية هذه المشكلة

لا يهتم نظام يعتمد على نقاط المفاتيح بالشكل العام لكتلة البكسلات. يحدد معالم تشريحية محددة. تختار الخوارزمية نقطة مرجعية ثابتة، عادةً نقطة المنتصف بين الكتفين أو مركز الحوض. تتحرك هذه النقاط بسلاسة وبشكل متوقع، حتى أثناء الإجراءات المعقدة.

إليك ما يحدث إطارًا تلو الآخر:

يكتشف نموذج الذكاء الاصطناعي 17 نقطة مفتاحية في جسم الإنسان.
يحدد البرنامج الثابت “مركز الجذع” (متوسط نقاط الكتف والورك الرئيسية) كنقطة ارتكاز للتتبع.
إن وحدة تحكم PID² يحول موضع البكسل لنقطة الارتكاز هذه إلى أوامر زاوية للمحرك.
A متنبئ متجه الحركة³ ينظر إلى آخر 5 إطارات لتوقع مكان نقطة الارتكاز في الإطار السادس.

خطوة التنبؤ هذه بالغة الأهمية. هذا يعني أن المحرك يبدأ في التحرك قبل أن يكمل الشخص حركته. والنتيجة هي تتبع سلس وخالٍ من التأخير.

جدول مقارنة الاستقرار

السيناريو	سلوك تتبع المركز	سلوك تتبع نقاط المفتاح
يرفع الشخص ذراعيه	يقفز المركز للأعلى، ويميل الكاميرا للأعلى كثيرًا	نقطة منتصف الكتف بالكاد تتحرك، تظل الكاميرا مستوية
ينحني الشخص	ينخفض المركز بشكل حاد، تنخفض الكاميرا	تنخفض نقطة مفتاح الورك تدريجيًا، تتبع الكاميرا بسلاسة
يدور الشخص حول نفسه	يتغير شكل البقعة بشكل كبير، يهتز المركز	تظل طوبولوجيا الهيكل العظمي متسقة، ويظل القفل ثابتًا
يحمل الشخص شيئًا كبيرًا	يندمج الجسم مع البقعة، يتحول المركز نحو الجسم	تظل النقاط الرئيسية على الجسم، ويتم تجاهل الكائن

في تجربتي في العمل مع مدمجي الأنظمة في جميع أنحاء الولايات المتحدة وأوروبا، فإن فرق الاستقرار هذا هو ما يغلق الصفقات. عندما يقوم ديفيد بإجراء عرض توضيحي مباشر لعميله النهائي، تحتاج الكاميرا إلى أن تبدو ذكية. الاهتزاز يقتل الثقة. التتبع السلس يبني الثقة.

كيف تمنع نقاط المفاتيح الكاميرا من فقدان المسار عندما ينحني الهدف؟

ذات مرة اتصل بي عميل في تكساس غاضبًا. فقدت كاميرا PTZ التي تعتمد على المركز الخاص به تتبع عامل في كل مرة ينحني فيها الرجل لالتقاط المواد في موقع بناء. انحرفت الكاميرا نحو مركبة قريبة بدلاً من ذلك. هذه تكلفة 200 دولار لإصلاح مشكلة برمجية.

عندما ينحني الشخص، يتغير شكل ظله البكسلي بشكل كبير، لكن نقاطه الهيكلية الرئيسية تظل قابلة للتعريف. لا يزال الخوارزمي يرى الرأس والكتفين والعمود الفقري. يعيد حساب نقطة الارتكاز للتتبع باستخدام المفاصل المرئية ويحافظ على القفل. لا تفقد الكاميرا الهدف أبدًا لأن الهيكل العظمي لا يختفي أبدًا.

تتبع النقاط الرئيسية يمنع فقدان الهدف عند الانحناء

لماذا يؤدي الانحناء إلى كسر تتبع المركز

عندما يقف الشخص بشكل مستقيم، يكون ظله طويلاً وضييقًا. يقع المركز تقريبًا عند ارتفاع الصدر. عندما ينحني للأمام عند الخصر، يصبح الظل قصيرًا وعريضًا. يقفز المركز فجأة إلى الأمام والأسفل. بالنسبة لكاميرا PTZ، يبدو هذا وكأن الهدف قد انتقل فجأة. المحرك يفرط في التصحيح، ويتجاوز الهدف، وغالبًا ما يقفل على شيء آخر تمامًا.

هذه ليست حالة حافة نادرة. في مواقع البناء والمزارع والمستودعات، ينحني الناس باستمرار. إذا لم يتمكن نظام التتبع الخاص بك من التعامل مع هذه الحركة البشرية الأساسية، فهو غير جاهز للنشر.

حل النقاط الرئيسية: حساب نقطة الارتكاز الموزونة

يستخدم برنامج الذكاء الاصطناعي الخاص بنا نظام نقطة ارتكاز موزونة. بدلاً من الاعتماد على نقطة رئيسية واحدة، فإنه يعين درجات ثقة لكل مفصل تم اكتشافه. عندما ينحني الشخص:

تتحرك نقطة ارتكاز الرأس إلى الأسفل ولكنها تظل مرئية.
تدور نقاط ارتكاز الكتف إلى الأمام ولكنها تظل قابلة للاكتشاف.
تصبح نقاط ارتكاز الورك المرجع الأكثر استقرارًا.
تظل نقاط ارتكاز الركبة والكاحل دون تغيير تقريبًا.

يقوم البرنامج تلقائيًا بتحويل وزن نقطة الارتكاز نحو النقاط الرئيسية الأكثر استقرارًا ووضوحًا. إذا كان الجزء العلوي من الجسم مطويًا جزئيًا وغير مرئي، فإن النظام يعتمد بشكل أكبر على نقاط ارتكاز الورك والساق. تتحرك نقطة ارتكاز التتبع ببطء وبشكل يمكن التنبؤ به. تتبع كاميرا PTZ دون دراما.

تحليل الإطارات في العالم الحقيقي

إليك ما تعالجه الخوارزمية في تسلسل “الانحناء” النموذجي:

إطار	النقاط الرئيسية المرئية	حساب نقطة الارتكاز	أمر المحرك
الإطار 1 (واقف)	الكل 17	منتصف الكتف	حافظ على الوضعية
الإطار 2 (بدء الانحناء)	16 (كاحل واحد محجوب بالجسم)	انتقال الوزن نحو الوركين	إمالة لأسفل 2 درجة
الإطار 3 (منحنٍ بالكامل)	12 (الساقان السفليتان خلف الجذع)	مركز الورك كمرساة أساسية	إمالة لأسفل 4 درجات، حافظ على التحريك الأفقي
الإطار 4 (العودة للأعلى)	15	الانتقال مرة أخرى إلى منتصف الكتف	إمالة لأعلى 3 درجات

البصيرة الرئيسية هي أن النظام لا يفقد السيطرة أبدًا. لا يرى أبدًا حدث “فقدان الهدف”. يقوم ببساطة بتعديل نقاط المفتاح التي تحمل أكبر وزن في حساب المرساة. هذا يختلف اختلافًا جوهريًا عن تتبع المركز، حيث يتغير شكل الكتلة بأكملها وليس لدى الخوارزمية نموذج داخلي لما يبدو عليه جسم الإنسان.

أهمية ذلك بالنسبة للمواقع البعيدة

بالنسبة لـ عمليات نشر تعمل بالطاقة الشمسية بتقنية 4G⁴ في أماكن مثل المزارع، أو حقول النفط، أو مناطق البناء النائية، فإن فقدان المسار يعني فقدان الأدلة. لا يمكنك الرجوع وإعادة التتبع. اللحظة تضيع. يضمن نظام نقاط المفتاح الخاص بنا أنه حتى أثناء حركات الإنسان الأكثر شيوعًا، تحافظ الكاميرا على تتبع مستمر وغير منقطع. هذه هي الموثوقية التي تبرر الاستثمار في الأجهزة.

هل يمكن للنظام تتبع شخص بدقة حتى لو كان مرئيًا جزئيًا فقط؟

لقد اختبرت عشرات الكاميرات PTZ خلف أسوار متشابكة، وبجانب حواجز خرسانية، وبالقرب من مركبات متوقفة. تفشل معظم متتبعات المركز في اللحظة التي يختفي فيها نصف الجسم خلف عائق. يتجمد مربع التتبع أو يقفز إلى العائق نفسه.

نعم. يعمل تتبع النقاط الرئيسية حتى عندما يكون الجزء العلوي من الجسم فقط أو جانب واحد فقط من الشخص مرئيًا. يستنتج نموذج الذكاء الاصطناعي الهيكل العظمي الكامل من الملاحظات الجزئية. طالما بقيت 4 إلى 5 نقاط رئيسية قابلة للكشف، يحافظ النظام على قفل واثق على الهدف ويستمر في حركة PTZ السلسة.

تتبع النقاط الرئيسية للرؤية الجزئية من خلال الانسداد

فهم الانسداد الجزئي في الميدان

الرؤية الجزئية ليست حالة هامشية. إنها القاعدة. في عمليات النشر الحقيقية، يسير الأشخاص خلف السيارات، ويميلون حول الزوايا، ويقفون خلف العدادات، أو يتحركون على طول خطوط الأسوار. في أي لحظة معينة، قد يكون 30٪ إلى 60٪ من الجسم مخفيًا عن رؤية الكاميرا.

ينهار تتبع المركز تحت هذه الظروف. عندما يختفي نصف كتلة البكسل خلف جدار، يتحول مركز الكتلة المتبقية بشكل كبير نحو الجانب المرئي. تتجه PTZ بقوة في هذا الاتجاه، وغالبًا ما تفقد الهدف تمامًا عندما يظهرون على الجانب الآخر.

كيف يتعامل تقدير الوضع مع البيانات المفقودة

نماذج تقدير الوضع الحديثة مثل إتش آر نت⁵ و موبايل نت-بوز⁶ تم تدريبها على ملايين الصور التي تتضمن انسدادًا جزئيًا. إنها تتعلم العلاقات المكانية بين المفاصل. إذا رأى النموذج كتفًا أيسر ورأسًا، فيمكنه استنتاج مكان الكتف الأيمن على الأرجح، حتى لو كان مخفيًا.

يحدث هذا الاستنتاج من خلال ما نسميه “إكمال الهيكل العظمي“⁷. ". يخرج النموذج درجات ثقة لكل نقطة رئيسية. تحصل النقاط الرئيسية المرئية على ثقة عالية (0.8 إلى 0.99). تحصل النقاط الرئيسية المستنتجة على ثقة أقل (0.3 إلى 0.6). يستخدم برنامج تتبع النقاط الرئيسية ذات الثقة العالية فقط للتحكم في المحرك، ولكنه يستخدم النقاط المستنتجة للحفاظ على نموذجه الداخلي لمكان وجود الشخص.

سيناريوهات عملية

إليك مواقف الرؤية الجزئية الشائعة وكيف يستجيب النظام:

شخص خلف جدار نصف (حاجز بارتفاع الخصر): يرى النظام الرأس والكتفين والمرفقين، وأحيانًا اليدين. هذه 5 إلى 7 نقاط رئيسية ذات ثقة عالية. أكثر من كافٍ. يبقى المرساة على نقطة منتصف الكتف. التتبع سلس ودون انقطاع.

شخص يخرج من خلف مركبة: عندما يخطو الشخص للخارج، تظهر النقاط الرئيسية واحدة تلو الأخرى. لا ينتظر النظام الرؤية الكاملة. في اللحظة التي يكتشف فيها 4 نقاط رئيسية موثوقة على جانب واحد من الجسم، يبدأ التتبع. بحلول الوقت الذي يكون فيه الشخص مرئيًا بالكامل، تكون PTZ قد تم قفلها بالفعل وتم توسيطها.

شخص يمشي على طول خط سياج (انسداد متقطع): تُنشئ أعمدة السياج انسدادًا سريعًا ومتكررًا. كان متعقب المركز سيتعثر مع كل عمود. يتجاهل نظام النقاط الرئيسية هذه الانقطاعات القصيرة لأن نموذج الهيكل العظمي يستمر بين الإطارات. يستخدم البرنامج الثابت التنعيم الزمني لسد الإطارات من 2 إلى 3 حيث يحجب عمود جزءًا من الجسم.

دور وحدة المعالجة العصبية

يتطلب هذا المستوى من الاستدلال في الوقت الفعلي أجهزة مخصصة. تستخدم كاميراتنا وحدة معالجة عصبية مدمجة وحدة المعالجة العصبية⁸ (NPU) التي تشغل نموذج تقدير الوضع بمعدل 30 إطارًا في الثانية. تتعامل وحدة المعالجة العصبية مع العمليات الحسابية المكثفة لاكتشاف الهيكل العظمي، بينما تدير وحدة المعالجة الرئيسية أوامر التحكم في PID والمحرك. يضمن هذا الفصل بقاء زمن استجابة التتبع أقل من 50 مللي ثانية، حتى أثناء أحداث الانسداد المعقدة.

بالنسبة للمدمجين مثل ديفيد الذين يهتمون ببنية النظام، يعد هذا عامل تمييز رئيسي. تحاول الكاميرات الرخيصة تشغيل الذكاء الاصطناعي على وحدة المعالجة المركزية الرئيسية وتنتهي بمعدلات اكتشاف تتراوح من 5 إلى 10 إطارات في الثانية. هذا بطيء جدًا للتتبع الموثوق. يضمن نهج وحدة المعالجة العصبية المخصص لدينا أداءً ثابتًا بغض النظر عن تعقيد المشهد.

لماذا يعتبر التتبع القائم على نقاط المفاتيح متفوقًا في الحفاظ على التركيز على وجه الهدف؟

أخبرني العملاء أن كاميراتهم القديمة تتعقب الجسم بشكل جيد ولكنها دائمًا ما تؤطر اللقطة بشكل خاطئ. يتم قطع رأس الشخص في الجزء العلوي من الإطار، أو تركز الكاميرا على الجذع ويكون الوجه صغيرًا جدًا بحيث لا يمكن التعرف عليه. بالنسبة لتطبيقات الأمان، يعد هذا فشلاً حرجًا.

يعتبر تتبع النقاط الرئيسية متفوقًا لتركيز الوجه لأنه يعرف بالضبط مكان الرأس. يكتشف الخوارزمية نقاط الأنف والعين والأذن الرئيسية مباشرة. يمكن للبرنامج الثابت تعويض نقطة الارتساع للتتبع لأعلى من مركز الجذع للحفاظ على الوجه في موضع الإطار الأمثل. هذا يضمن لقطات يمكن التعرف عليها في كل مرة.

تتبع قائم على النقاط الرئيسية يحافظ على التركيز على الوجه المستهدف

مشكلة التأطير مع تتبع المركز

يقوم متعقب المركز بتركيز المنتصف الهندسي للفقاعة في الإطار. بالنسبة لشخص واقف، فإن هذه النقطة الوسطى تكون تقريبًا عند الخصر أو أسفل الصدر. تحافظ الكاميرا بجد على توسيط الخصر. النتيجة؟ يجلس الرأس في الربع العلوي من الإطار، وغالبًا ما يكون صغيرًا جدًا للتعرف على الوجوه أو حتى التحديد الأساسي.

والأسوأ من ذلك، عندما يكون الشخص بعيدًا وتقوم الكاميرا بالتقريب، فإن التأطير الذي يتوسطه المركز يقطع الرأس تمامًا. يرى المشغل جذعًا. هذه اللقطات عديمة الفائدة لأغراض التحديد.

كيف يمكّن تتبع النقاط الرئيسية من التأطير الذكي

باستخدام النقاط الرئيسية للهيكل العظمي، يمتلك البرنامج الثابت خريطة كاملة للجسم. يعرف مكان الرأس بالنسبة للجذع. يمكنه تطبيق إزاحة متعمدة لنقطة الارتساع:

تأطير أمني قياسي: يتم تعيين نقطة الارتساع إلى نقطة الرقبة الرئيسية. هذا يضع الوجه في الثلث العلوي من الإطار، متبعًا قاعدة الأثلاث⁹. يظل الجزء العلوي من الجسم مرئيًا بالكامل.
وضع التحديد: تنتقل نقطة الارتساع إلى نقطة الأنف الرئيسية. تقوم الكاميرا بالتقريب بشكل أضيق وتحافظ على تركيز الوجه. يتم تنشيط هذا الوضع تلقائيًا عندما يتوقف الهدف عن الحركة.
وضعية الجسم بالكامل: يبقى المثبت في مركز الورك. تقوم الكاميرا بالتكبير للخارج لالتقاط الشخص بأكمله، وهو مفيد لتحليل المشي أو تحديد الملابس.

اقتران التكبير الديناميكي

تأتي القوة الحقيقية من اقتران بيانات النقاط الرئيسية بمحرك التكبير. يقوم البرنامج الثابت بحساب المسافة بالبكسل بين نقطة الرأس والنقاط الرئيسية للقدمين. هذا يعطيها الحجم الظاهري للشخص في الإطار. ثم تقوم بضبط التقريب البصري 40X¹⁰ للحفاظ على نسبة تأطير متسقة.

وضعية التتبع	نقطة التثبيت	هدف التكبير	حالة الاستخدام
الأمان القياسي	نقطة الرقبة الرئيسية	يملأ الشخص 60% من ارتفاع الإطار	مراقبة عامة
تحديد الوجه	نقطة الأنف الرئيسية	يملأ الرأس 30% من ارتفاع الإطار	التحكم في الوصول، تحديد المشتبه بهم
الجسم بالكامل	مركز الورك	يملأ الشخص 85% من ارتفاع الإطار	تحليل المشي، التقاط الملابس
سياق واسع	مركز الورك	يملأ الشخص ارتفاع الإطار 30%	وعي المشهد، تتبع المسار

كل هذا تلقائي. لا يحتاج المشغل إلى ضبط التكبير أو التأطير يدويًا. يتولى الذكاء الاصطناعي ذلك بناءً على ملف تعريف النشر الذي تم تكوينه أثناء التثبيت.

لماذا هذا مهم لجودة الأدلة

في تطبيقات الأمان، تحدد جودة اللقطات ما إذا كان الحادث سيؤدي إلى إدانة أو قضية باردة. الكاميرا التي تقدم باستمرار لقطات مؤطرة جيدًا ومرئية للوجه تساوي عشر كاميرات تلتقط جذوعًا ضبابية. يضمن نظام التأطير القائم على النقاط الرئيسية لدينا أن كل هدف يتم تتبعه ينتج فيديو بدرجة التعرف، بغض النظر عن المسافة أو سرعة الحركة أو وضع الجسم.

بالنسبة للمتكاملين الذين يبنون عروضًا للعملاء الحكوميين أو المؤسسيين، هذه مواصفات يمكنك كتابتها في العرض. “يجب أن يحافظ النظام على رؤية الوجه أثناء التتبع النشط على مسافات تصل إلى 150 مترًا.” هذا وعد لا يمكن لأنظمة النقاط الرئيسية وحدها الوفاء به.

الخاتمة

لقد حل تتبع النقاط الرئيسية للهيكل العظمي محل الطرق القائمة على المركز كمقياس صناعي للتتبع التلقائي PTZ. يوفر أقفالًا مستقرة أثناء الحركات المعقدة، ويتعامل مع الانسداد برشاقة، ويحافظ على التأطير المناسب للتعرف. إذا كان نظامك الحالي لا يزال يعتمد على مراكز ثقل البكسل، فقد حان الوقت للترقية.

1. تعرف على أنظمة إدارة الفيديو وقدرات التشغيل الخاصة بها. ︎↩︎ 2. تعرف على كيفية استخدام وحدات تحكم PID لتحويل مواضع البكسل إلى أوامر محرك. ︎↩︎ 3. اكتشف كيف يحسن التنبؤ بالحركة سلاسة التتبع. ︎↩︎ 4. استكشف التحديات والحلول لمراقبة المواقع عن بعد. ︎↩︎ 5. HRNet هو نموذج تقدير وضعية متطور يستخدم للكشف الدقيق عن النقاط الرئيسية. ︎↩︎ 6. MobileNet-Pose هو نموذج تقدير وضعية خفيف الوزن مُحسَّن للأداء في الوقت الفعلي. ︎↩︎ 7. ورقة بحثية حول استنتاج النقاط الرئيسية للهيكل العظمي المحجوب من الملاحظات الجزئية. ︎↩︎ 8. وحدات معالجة العصبية هي أجهزة متخصصة لتشغيل نماذج الذكاء الاصطناعي بكفاءة. ︎↩︎ 9. فهم مبدأ تكوين التصوير الفوتوغرافي المستخدم للتأطير الذكي. ︎↩︎ 10. تعرف على كيفية عمل التكبير البصري ومزاياه على التكبير الرقمي. ︎↩︎

هل يتتبع التتبع التلقائي بناءً على مركز الثقل المرئي أم إحداثيات نقاط المفاتيح الهيكلية؟