AutoFlip: ذكية لقطة فيديو من إطار مفتوح المصدر (الرابط المرفق)

الكاتب: ناثان فراي

الترجمة: تشانغ الضامن

التدقيق اللغوي: والصين

هذه المقالة حول 2500 كلمة القراءة الموصى بها 5 دقائق

هذه الورقة أن أعرض لقطة فيديو ذكية أطر مفتوحة المصدر: AutoFlip.

العلامات: الإطار خوارزمية

مقدمة

TV وإنتاج الأفلام وغالبا ما يكون الفيديو رصد عرضية من 16: 9 أو 4: 3 نسبة. ومع ذلك، المزيد والمزيد من المستخدمين البدء في إنشاء ويشاهدون الفيديو على الأجهزة النقالة، ونسبة الارتفاع التقليدية ليست متوافقة تماما. وهذا يتطلب الخياطة للشاشة الفيديو، ينطوي على النهج التقليدي قطع ثابت، على سبيل المثال، منطقة المشاهدة الجيدة المختارة، ثم تقطع كل محتوى خارج المنطقة. للأسف، نظرا للتركيبة الأنواع وحركة الكاميرا مجموعة واسطة، وهذا ثابت خفض الانتاج في كثير من الأحيان النتائج لم تكن مرضية. والممارسات الخاصة الأخرى، وغالبا ما تتطلب من المصور أن يدويا تحديد هدف لكل صورة، وتتبع كل تغيير لهم في الإطارات، ثم قطع الزائدة من الصورة المقابلة. هذه العملية تستغرق وقتا طويلا جدا، مملة وعرضة للخطأ.

الأعضاء:

 https://insights.digitalmediasolutions.com/articles/digital-mobile-dominate

لحل هذه المشكلة، ونحن سعداء جدا لتقديم إطار مفتوح المصدر لقطع الفيديو الذكي: AutoFlip. الإطار القائم على MediaPipe التي تدعم قيد التطوير بيانات السلاسل الزمنية المتعدد الوسائط. إلى ملف فيديو (الهواة أو المحترفين كليب الرماية) والنسبة المستهدفة (أفقيا، مربع، صورة وهلم جرا) كمدخل، AutoFlip يحلل محتوى الفيديو، وتتبع الأمثل تدريجيا وسياسة الخياطة، ثم مخرجات بالتساوي ولكن عندما اخترق أن نسبة الارتفاع طول ملف الفيديو الهدف.

AutoFlip:

https://github.com/google/mediapipe/blob/master/mediapipe/docs/autoflip.md

MediaPipe:

https://github.com/google/mediapipe/blob/master/mediapipe/docs/face_detection_desktop.md

اليسار: الفيديو الأصلي (16: 9). وسيط: التقليدية خفض المركز (09:16). الصحيح: خفض استخدام AutoFlip (09:16). AutoFlip بتتبع محتوى الهدف، وتجنب المشكلة من محتويات هامة لخفض الانتاج.

AutoFlip الملف الشخصي

الاستفادة من تطبيق آلة التعلم الكشف عن الهدف الرائدة في الصناعة والتكنولوجيا والتتبع، AutoFlip يمكن أن نفهم محتوى الفيديو بسهولة، وبالتالي توفير حل مؤتمتة بالكامل لقطة الفيديو الذكية. عن طريق الكشف عن الفرق يمكن أن تشير إلى تغيير المشهد، AutoFlip هو ممكن في عملية فصلها عن كل مشهد. قبل أن يتم اختيار كل قطعة من المشهد وضع الكاميرا وقطع الأمثل المسار المنحنى، وتحديد الأهداف الرئيسية من خلال تحليل الفيديو.

الشاشة (مشهد) التحقيق

مشهد أو صورة هو غير حذف (أو القفز) الفيديو على التوالي. من أجل الكشف عن تغييرات المشهد، AutoFlip احتساب رسوم بيانية اللون من كل إطار والإطار السابق والقيام المقارنة. إذا كان توزيع لون الإطار وقبل سلسلة من الشاشات المختلفة، فإنه يظهر تغير المشهد في الإطار. من أجل تحسين قطع المشهد بأكمله، AutoFlip قبل لقطة الفيديو كله مؤقتا حتى نهاية المشهد.

تحليل محتوى الفيديو

كنا نبحث عن كل إطار في نموذج العنصر المثير للاهتمام، المهم بناء على الكشف عن وجوه عمق التعلم. هذا المحتوى غالبا ما تحتوي على الأرقام والحيوانات، ولكن بالنسبة للجهة نظر الطلب، ويمكن أيضا أن تؤخذ غيرها من الأشياء في الاعتبار، بما في ذلك النص وشعار غطاء الأعمال، أو الرياضة، والكشف عن حركة الكرة.

الوجه ونموذج الكشف عن الهدف من MediaPipe إدماج AutoFlip لهم، وهذا وظيفة يمكن أن يتحقق عن طريق تشغيل TensorFlow لايت على وحدة المعالجة المركزية. هذا الهيكل يسمح AutoFlip الموسعة، يمكن للمطورين بسهولة إضافة خوارزميات جديدة للكشف عن مشاهد مختلفة ومحتوى الفيديو. بالطبع، كل فئة الكائن لديها الثقل النوعي المقابلة، أي الأهمية النسبية للفئة الكائن - ارتفاع نسبة هذه الأجسام في الحساب هي أكثر تأثيرا في مسار الالتقاط صورة.

الوجه:

https://github.com/google/mediapipe/blob/master/mediapipe/docs/face_detection_desktop.md

هدف نموذج الكشف:

https://github.com/google/mediapipe/blob/master/mediapipe/docs/object_detection_desktop.md

TensorFlow لايت:

https://www.tensorflow.org/lite

أعلاه: شخص الكشف عن الحركة. أدناه: اثنان مربع كشف الوجه ( "الأساسية الوجه" و "كامل الوجه"). في الخياطة صورة نسب حالات ضيقة، في كثير من الأحيان قادرة فقط من عرض الوجه الأساسية (حجم كامل الوجه كبير جدا).

قطع

بعد تحديد الهدف من كل إطار، يمكنك أن تقرر كيفية خياط المحتوى إلى شاشة جديدة. اعتمادا على مسار الأجسام المتحركة في المشهد (على سبيل المثال، وجود جسم يركض أو لا يزال قائما)، وAutoFlip تلقائيا تحديد أفضل استراتيجية قطع - ثابت، محمول أو تتبعها. في وضع ثابت، وكاميرا للرؤية بعد التشذيب هو ثابت في موقف معين، يمكنك أن ترى الهدف في معظم المشاهد من هذا الموقع. هذا النموذج يمكن محاكاة كفاءة المهنية تصوير ثابت، على سبيل المثال باستخدام ترايبود الكاميرا ثابتة أو مستقرة بعد المعالجة. في سيناريوهات أخرى، فإن التحركات كاميرا للرؤية بمعدل ثابت مقارنة مع نموذج ثابت لها نتائج أفضل. ووضع تتبع لتوفير المتابعة المستمرة والمستقرة للكائن الهدف في مكان الحادث.

بعد قرار استخدام خوارزمية المذكورة أعلاه والتي استراتيجية قطع، AutoFlip تحديد أفضل قطع لكل إطار النافذة، مع ضمان أن يظهر الهدف في الإطار. عندما إطار تتبع لتتبع المشهد الهدف في كثير من الأحيان القفز بين كل إطار، مما أدى إلى نافذة قطع لم يتم تحديدها بشكل جيد. لذلك نحن عملية التحسين نورم الأوروبي لضبط زاوية من كل إطار النافذة عن طريق الحد من التنعيم (منخفض ترتيب متعدد الحدود) والمتبقي بين الإطار الكاميرا تتبع مسار.

القاعدة الأوروبية:

https://zh.wikipedia.org/wiki/E88C83E695B0

انخفاض النظام متعدد الحدود:

https://en.wikipedia.org/wiki/Degree_of_a_polynomia

أعلاه: تتبع إطار تتبع لكل إطار المستمدة كاميرا مسار. أسفل: استخدام سلس الكاميرا مسار وضع المعايير الأوروبية.

اليسار: ظهر الكائن الهدف والحركة عليها في مكان الحادث، وتحتاج إلى تتبع مسارات الكاميرا. اليمين: الكائن الهدف والمشهد تبقى ثابتة نسبيا، ويمكن أن يكون لا يزال كاميرا للرؤية المشهد تشمل مسارات الكائن الهدف.

تكوين صورة AutoFlip كما شاغرة وملأت قطع اثنين من الإعدادات. عندما لا يحتوي على نافذة كل من المنطقة المحددة (على سبيل المثال فرقت الهدف في جميع أنحاء الشاشة)، عن طريق التحول تلقائيا إلى قطع استراتيجية أكثر اعتدالا، وشغل صورة الحدود السوداء على سبيل المثال لملء الشاشة بأكملها. الصورة هي لهجة لون الخلفية واحد، سيتم تحويل اللون الأسود من على حافة تلقائيا إلى هوى نفسه، من أجل تحقيق تأثير ملء سلس، وفي حالات أخرى، AutoFlip طمس سوف تتخذ نفس الطريق لتحقيق التأثير.

الجانب الأسود:

https://zh.wikipedia.org/wiki/E9BB91E9828A

سيناريوهات الاستخدام AutoFlip

يمكن للمطورين مباشرة والمخرجين استخدام هذه الأداة للحد تعيق خلقهم، فضلا عن مقاطع الفيديو أتمتة يجعلنا نشعر متحمس جدا. التعامل مع أنواع مختلفة من الفيديو وارتفاع الجانب وظيفة نسبة ذات أهمية متزايدة، وخصوصا ان نسب أكثر وأكثر مختلفة من جهاز الفيديو استهلاك المحتوى. ما إذا كان يتم نقل لكم المشهد تطبيق صورة أفقيا، لوحات نقل الجانبية، لا يزال تغييرات صغيرة جدا 4: 3 نقل 16: 9 نسبة الارتفاع، AutoFlip يمكن أن توفر برامج الخياطة ذكية، مؤتمتة وقابلة للتكيف.

وبالنظر إلى المستقبل؟

وخوارزميات تعلم الآلة مماثلة، AutoFlip القدرة على الكشف عن وجوه ويمكن أيضا أن تكون ذات صلة الاستفادة من ارتفاع محتوى الفيديو، مثل الشخصيات الكرتونية أو مقابلة كشف التقاط الوجه. ومع ذلك، وهي مشكلة شائعة عند حافة إدخال الفيديو لبنة هامة (مثل نص أو شعار)، عادة ما يتم قص المحتوى. من خلال دمج النص، والكشف عن الشعار، والتكنولوجيا إصلاح صورة، ونحن نأمل AutoFlip في المستقبل لضمان جودة سطح قلص حين إعادة المعلومات. وأخيرا، واحتياجات القضية المراد شغلها في والتكنولوجيا uncrop عميقة يوفر القدرة على تجاوز المنطقة المرئية من الأصل.

uncrop عميق:

عندما نحسن AutoFlip في جوجل، ونحن نشجع المطورين وصناع السينما يمكن أن تساعدنا في مجتمع المصادر المفتوحة.

شكر وتقدير

ونود أن نشكر زملائي في AutoFlip، الكسندر باناجوبولوس، جيني جين، بريان مولفورد، يوان تشانغ، أليكس تشن شيويه يانغ، ميكي وانغ، جوستين بارا، هارتويغ آدم، جينغ وانغ، وونغ يانغ، فضلا عن توفير مفتوحة المصدر مساعدة MediaPipe فريق، Jiuqiang تانغ، تايلر مولن، موجان Shieh، مينغ غوانغ يونغ، وتشو لينغ تشانغ.

العنوان الأصلي:

AutoFlip: إطار المصدر المفتوح الذكي إعادة صياغة فيديو

الرابط الأصلي:

https://www.googblogs.com/autoflip-an-open-source-framework-for-intelligent-video-reframing-2/

المحرر: وانغ جينغ

تم التعليق بواسطة: لين يي لين

مقدمة المترجم

تشانغ الضامن، الطالب الجامعي في جامعة ماساتشوستس أمهرست، وتخصص في علوم الكمبيوتر وقاصر في الرياضيات التطبيقية. ماجستير في اللغة الطبيعية تجهيز والبحوث، على أمل أن تسهم جهودهم في مجال الذكاء الاصطناعي. حاليا على دراسة آلة تعلم المعرفة، على أمل أن تكون خلاقة في عملية التعلم، مع الحفاظ على نهج علمي دقيق.

- انتهى -

تسينغهوا الانتباه - بيانات أكاديمية تشينغداو للعلوم قناة الصغرى الرسمية منصة الجمهور "  منظمة العفو الدولية لإرسال البيانات  "أيتها الأخوات ولا". إرسال البيانات THU  "لرعاية المزيد من المحاضرات ونوعية المحتوى.

كيفية أقصر وكفاءة وسيلة عملية لتعلم بايثون (الرابط المرفق)

ووهان هيا! جامعة ووهان المرحلة الجامعية ضرب زهر الكرز مع بيثون، الربيع رومانسي جدا كامل الشاشة

هو جين تاو تشينغهوا يفعل الناس تفرج عن أي عمق تقوم على التعلم الفوقية مشغل إطار -Jittor وتجميع الديناميكي

"نشر العلوم والتكنولوجيا المساعدة لتطوير الأعمال" على الانترنت حملة ترويجية العمل - النجاح الكبير جلسة البيانات الصناعية

كيفية استخدام كلمة لاثبات ان كنت تعلم البرمجة اللغوية العصبية؟

وذكر ون علامة فارقة في ما يقرب من عقدين من البيانات في مجال العلوم أو التكنولوجيا انفراجة

استرو بوي ثم والد عمل جديد، من القصة إلى الخطوط العريضة لدور الخلق، عقد AI-اليد!

المقالات الأكثر اكتمالا شبكة قنوات جميع (مجانا)

المجموعة المقدسة المكونة من ثلاث قطع من التعلم الآلي الطوبولوجي: Gudhi و Scikit-Learn و Tensorflow!

يعلمك كيفية رسم الرسم البياني في Python: في الواقع أنه مختلف تمامًا عن الرسم البياني

نأسف "حصانة القطيع"؟ التفسير الرسمي البريطاني: ليس هذا هو الهدف، ولكن هذا المفهوم العلمي!

المواهب نظام المناهج الجامعية التطبيقية المصممة لاحتياجات الأعمال لتكنولوجيا البيانات الكبيرة