تطبيق الصوت فائقة الدقة في الوقت الحقيقي والفيديو على الهاتف المحمول

الكاتب | تشو فو

ذبيان | ليو جينغ

أنتجت | CSDN (ID: CSDNnews)

في RTC 2019 مؤتمر الإنترنت في الوقت الحقيقي، صافي أغورا AI خوارزميات مهندس الصوت دفع تشو، تقاسم فائقة الدقة في الوقت الحقيقي الصوت إلى نهاية المتنقلة مشهد الفيديو التالي، والصعوبات التي واجهتها، الحل الشامل، وحلول.

في السنوات الأخيرة، وذات دقة فائقة (المشار إليها باسم فائقة الفرعية) في تحسين الصورة، وإزالة الضوضاء، وصورة الانتعاش التفاصيل لجوانب تكبير عرض آفاق تطبيق واسع، أصبح موضوعا ساخنا في رؤية الكمبيوتر، من خلال الأوساط الأكاديمية والصناعة اهتمام والاهتمام، لديها صناعة أيضا مسابقات فائقة المنظمة، مثل فائقة الفرعية YOUKU مسابقة الفيديو والصور شبكة صوت مسابقة السوبر الفرعية وشنتشن حكومة نظمته المنافسة AI + 4K HDR تهدف إلى جذب المزيد من الناس على المشاركة في البحوث وتعزيز خوارزمية الهبوط فائقة فائقة الفرعية الخوارزمية. لأن تطبيق على نطاق واسع من الطابق فائقة الفرعية خوارزمية لا تزال هناك بعض المشاكل التي يتعين حلها.

في الوقت الحقيقي نقطة نهاية فائقة متنقلة من صعوبة

حاليا، الصوت والفيديو التطبيقات في الوقت الحقيقي تتحرك نهاية المشكلة القائمة هي انتقال من دقة الفيديو نقطة الألم المنخفضة، وارتفاع القرار من محطة العرض، لا يتطابق مع قرار من مشكلة. نقل في الوقت الحقيقي من دقة الفيديو منخفضة عموما، وذلك بسبب الطلب المحدود وعرض النطاق الترددي انتقال في الوقت الحقيقي. منخفضة الدقة الفيديو لا يمكن أن تظهر بشكل فعال صورة التفاصيل، وبذلك تجربة المستخدم يقتصر. حل مشكلة نقل الفيديو ومحطة لا يتطابق مع دقة الشاشة، وجرت العادة لتضخيم دقة الفيديو منخفض.

ومعظم الطريقة التقليدية شيوعا هو الاستيفاء الموسع، مثل bicubic، أقرب، المترابط، وما إلى ذلك، والاستفادة من سرعة، ولكن العيب هو أيضا واضح، أن يتم تكبير الصورة، وطمس صورة موجودا، ظاهرة فقدان التفاصيل.

مع ظهور عمق التعلم، استنادا إلى عمق فائقة التعلم أصبح الحل الجديد، فإن هذه الطريقة كل من الأوساط الأكاديمية والصناعة في مجال البحوث. فإنه يمكن استرداد فعال تفاصيل الصورة، والحفاظ على وضوح الصورة. ولكن سوبر شبه خوارزمية على أساس عمق التعلم في عملية تطبيق الهبوط، تواجه أيضا تحديات، ويشمل الجدول الرئيسي: (1) نموذج سوبر كبير جدا، (2) العمليات الحسابية المعقدة فائقة.

مقارنة مع فائقة الفرعية Bicubic

حاليا هناك نوعان من الأكاديميين الكلاسيكية SRGAN فائقة نموذج وESRGAN، والجدول أدناه، فإننا قائمة حجم وتعقيد المعلمات الخوارزمية من النموذجين. كمية SRGAN من المعلمات وعلى التوالي ESRGAN 150 و، ومساحة التخزين مليون و 16 مليون على التوالي، المطلوب هو 6MB و63MB. للهواتف النقالة، وهذا النموذج هو كبير جدا، وسوف يستغرق ما يصل الكثير من الذاكرة.

تبدو حساب التعقيد. إلى 360x480 صورة حجم كمدخل، والتضخيم 4 أضعاف، وESRGAN SRGAN التعقيد الحسابي لا يمكن أن يتحقق، على التوالي، و446GFLOPs 3100GFLOPs. والجرافيك القدرة الحاسوبية الحالية من التيار الرئيسي للهاتف المحمول اي فون XR حوالي 500GFLOPs. وهكذا، فإن القدرة الحاسوبية الحالية للهواتف النقالة لا يمكن تشغيل في الوقت الحقيقي نموذج فائقة الفرعية القائمة، والحاجة إلى تقليل حجم وتعقيد خوارزمية يتم تقليل نموذج للنموذج، من أجل جعل الممكنة في الوقت الحقيقي أشواط فائقة نموذج في جهاز الهاتف النقال في الوقت الحقيقي.

نموذج

حجم

GFLOPS

المعلمات

نموذج الحجم

SRGAN

360x480

446

155 4499

6 MB

ESRGAN

360x480

3100

166 9 79 87

63 MB

كيفية الحد من التعقيد من حجم خوارزمية والنموذج؟

يتم تقليل حجم عملية خوارزمية تعقيد ونموذجا انخفاض النموذج، وعادة ما ضغط نموذج ونموذج التسارع. طراز كائن ضغط، ونموذج عن طريق خفض وزن الطاقة الزائدة، وإزالة مساهمة صغيرة في فرع أداء النموذج، وذلك لتحقيق قدر من خفض المعلمات نموذج، نموذج لتقليل كمية من الحساب. ونموذج التسارع، وتركز على خفض تكلفة الإلتواء، وكفاءة عملية الالتواء، وبالتالي زيادة سرعة التشغيل للنموذج. نموذج الضغط وتسارع نموذج، هي مكملة، سرعة معقولة مع الخوارزمية نموذج وضغط نموذج خوارزمية يمكن أن تقلل من فعالية وسرعة التشغيل وزيادة حجم نموذج للنموذج.

ويمكن تقسيم أسلوب ضغط النموذجي في نموذج الوزن الأمثل والتصميم الهيكلي. الوزن الأمثل يمكن تقسيمها إلى تشذيب وكميا.

تشذيب، فإنه لا لزوم لها في الأوزان نموذج إزالتها لتحقيق الغرض من فقدان الوزن نموذج. على سبيل المثال، ديب ضغط ، من خلال تشذيب الأوزان والمكاييل والوزن قيمة الكم الترميز، حجم نموذج يمكن تخفيض 49 مرة.

وزنا من الحق، سيتم تخزين الوزن بمعدل سرعة منخفضة، مما يقلل من حجم النموذج، على سبيل المثال، XNornet مدخلات النموذج، وbinarized featuremaps والأوزان، لتحقيق 58x نموذج الضغط و32 مرة متسارعة.

النموذج التقليدي خفيفة الوزن لديها suqeezenet ، mobilenet وshufflenet . أنها نموذج من وجهة تصميم الهيكلية للعرض، وغالبا ما تستخدم حبات الإلتواء صغيرة استبدال حبات الإلتواء كبيرة، مثل استخدام 5x5،7x73X3 بديل، أو 1X13X3 بديلا. في ظل نفس الظروف، وهذه العملية 5x5،7x73X39 / 25،9 / 49، 09/01 و1X1 هو 3X3.

موديل طريقة التسارع، وعلى أساس من الالتواء، والمستمدة من عمق الحكمة الإلتواء، والالتواء المجموعة الحكيمة نقطة التفاف. في نموذج mobilenett، الاستخدام الواسع النطاق للعمق الحكمة الإلتواء والإلتواء الحكيمة نقطة. في shufflenet النموذج، باستخدام التفاف مجموعة والإلتواء الحكيمة نقطة.

في مؤسسة أبحاث أعلاه، فإن الأبحاث الصوت منذ الشبكة أيضا أن تكون فائقة دون الخوارزمية. شبكة الموجات فوق الصوتية من دون نموذج، أصغر من mobilenet V2. عندما يتم تكبير الصورة 360p 2 مرات، والتعقيد الحسابي هو أقل من 2 GFLOPS - داخل، مما يتيح في الوقت الحقيقي التي تعمل على الجهاز المحمول. تحقيق أفضل فرضية الحوسبة السرعة وفائقة الفرعية في الواقع، هذه الخطوة تحسين فعالية تجربة المستخدم من الصوت في الوقت الحقيقي والفيديو.

مراجع

1. هان S، ماو  H، J W دالي، وآخرون al.Deep الضغط: ضغط ديب الشبكات العصبية مع التقليم، TrainedQuantization وهوفمان الترميز . هارون شي الخامس: رؤية الحاسوب وتمييز الأنماط، 2015.

2. Rastegari M، أوردونيز V، RedmonJ، وآخرون نت XNOR :. ImageNet تصنيف عن طريق ثنائي التلافيف NeuralNetworks . المؤتمر الأوروبي على رؤية الكمبيوتر، 2016: 525-542.

3. Iandola F، هان S، Moskewicz MW، دقة وآخرون SqueezeNet :. AlexNet المستوى مع 50X أقل المعلمات و < نموذج حجم 0.5MB . هارون شي الخامس: رؤية الحاسوب والتعرف على الأنماط، 2017.

4. هوارد A G، وقال تشو M، تشن B، MobileNets ETAL :. كفاءة التلافيف الشبكات العصبية لVisionApplications موبايل . هارون شي الخامس: رؤية الحاسوب والتعرف على الأنماط، 2017.

5. تشانغ X، X تشو لين M، وآخرون al.ShuffleNet: فعال للغاية التلافيف الشبكة العصبية لMobileDevices . هارون شي الخامس: رؤية الحاسوب والتعرف على الأنماط، 2017.

[END]

قفز فجأة على 100 مليار! الأسهم الخاصة صندوق الانفجار! أحدث نتائج مليار الأسهم الخاصة أكثر عشرة التعرض الكبير، والحرائق هذه المؤسسات

طلاب اختيار المهنية، وتذكر لتجنب هذه الأخطاء

كونتيننتال أداس التوظيف شو سائق القديم ليأخذك يعيش لتجربة من التشويق والطيار الآلي

فقط، وانخفضت اسهم هونج كونج! 1200 تراجع ثلاث سنوات ونصف نقطة، تبخرت القيمة السوقية 3000000000000

! مثيرة للاهتمام كنت لا تعرف اللون من الثقافة التايلاندية

قوائم كاذبة وعناوين كاذبة والتقييم كاذبة، وهمية ...... المبيت والإفطار منصة الصورة إعفاء حقا؟

سحابة الحوسبة النظام البيئي البرنامج: لمسة كبير

"الصوف الانسحاب" كويست اللعب: بالإضافة إلى ثغرة التحكيم، ولكن أيضا تحقيق مبيعات كاذبة لا تعد ولا تحصى

العالم كبيرة جدا، لماذا لا يذهب للدراسة في تايلند أن ترى؟

لماذا SQL مبرمج يجب أن يعرف بيثون؟

على استعداد لدراسة ذلك؟ الشعب التايلاندي لدراسة مبلغ كبير

لا تأخذ منشفة على أجهزة التدفئة الكهربائية، وتزويد المستهلكين تشوفو التدفئة النظيفة حول السلامة