صورة تركيب قطعة أثرية MSG-GAN اختيار CVPR2020، وراء معظم GAN المتقدمة

 اليوم، تلقت حصة CVPR 2020 ورقة، ورقة وGAN ذات الصلة توليد المواجهة، بعنوان "MSG-GAN: متعدد مقياس التدرج GAN عن الصورة المستقرة التجميعي" (MSG-GAN: لتخليق متعددة النطاق من صورة مستقرة التدرج GAN).

ملخص

على الرغم من أن الشبكة قد المحرز في مكافحة توليد مهمة تركيب صورة كان نجاحا كبيرا، لكننا نعلم جميعا، فهي من الصعب التكيف مع مجموعات مختلفة من البيانات، ويرجع ذلك جزئيا لعدم الاستقرار في عملية التدريب والحساسية للالمعلمات جدا. وهناك سبب المقبولة عموما لعدم الاستقرار هذا هو أنه عندما يكون توزيع الدعم الصواب والخطأ ليس التداخل كافية، يصبح من غير المعلوماتي من الممي إلى مولد الانحدار. في هذه الورقة، ضد شبكة توليد التدرج متعددة النطاق (MSG-GAN) هذا هو بسيط وتقنية فعالة، وتدفق من الممي إلى مولد تدفق على عدد وافر من جداول لحل هذه المشكلة عن طريق السماح التدرج. توفر هذه التقنية وسيلة لتحقيق الاستقرار في صورة عالية الدقة تصنيعه واستخدامه كبديل للتقنية النمو التدريجي. وأظهرت النتائج أن MSG-GAN مجموعة بيانات الصورة في مجموعة متنوعة من أحجام مختلفة، وقرار والميدان، وفقدان البنية والوظيفة من أنواع مختلفة من التقارب ومستقرة، ولها نفس فائقة مجموعة من المعلمات الثابتة. بالمقارنة مع معظم GAN المتقدمة، في معظم الحالات، نحن نحاول، طرقنا يمكن مقارنة أو يتجاوز أدائها.

النتائج الفنية MSG-GAN: FIG 1

مقدمة: هناك نوعان من عيوب خطيرة التدريب GAN

صيغة المواجهة شبكة (المولدة الخصومة الشبكات، GANS) هو النموذج التوليدي إيان جامعة غودفلوو مونتريال، اقترح في عام 2014، أصبح معيار الصناعة لتخليق صورة ذات جودة عالية.

GAN النجاح يأتي من حقيقة أنها لا تتطلب اليدوية وظيفة فقدان تهدف إلى أن يكون الأمثل، ويمكن أن تولد توزيع البيانات المعقدة وبدون محددة بوضوح. على الرغم من أن النموذج القائم على تدفق يسمح الاستخدام المباشر لأقصى تقدير احتمال تدريب (الصريحة والضمنية) نموذج الجيل، ولكن يترتب على ذلك من الإخلاص صورة غير قادرة على مواكبة أحدث طراز GAN. ومع ذلك، حضور التدريب GAN اثنين من عيوب خطيرة: (1) وضع تحطم و (2) عدم الاستقرار التدريب .

عندما مولد قادرة على التقاط شبكة مجموعة فرعية من التباين توزيع البيانات موجودة فقط، ومشكلة انهيار نمط يحدث. على الرغم من أن تتم مناقشة العديد من المحاولات لحل هذه المشكلة، في الوقت الحاضر هذا لا يزال حقل البحوث المفتوحة. ومع ذلك، في هذه الدراسة، ونحن حل مشكلة عدم الاستقرار التدريب . هذه مسألة أساسية من GAN، فقد كان على نطاق واسع في دراسة الكتابات في الماضي.

درسنا، من دون الاعتماد على الأساليب السابقة (على سبيل المثال، التكنولوجيا نمو التقدمية)، وكيفية استخدام التدرج من توليد عالية الدقة صورة على مختلف المستويات. هذا لا يحل المشكلة من التدريب عدم الاستقرار.

FIG 2: تشمل الهندسة المعمارية لدينا طبقة وسيطة من المولد إلى الممي متصل الطبقة المتوسطة.

MSG-GAN الناتج النهائي ليس فقط يسمح تحديد مولد عرض (أعلى دقة)، ولكن أيضا قد عرض الناتج من الطبقة المتوسطة (FIG 2). ونتيجة لذلك، عدد وافر من الممي هي وظيفة من الناتج تحجيم للمولد، والأهم من ذلك، فإن التدرج تنتقل في وقت واحد لجميع المقاييس.

وعلاوة على ذلك، لدينا وسيلة لفقدان وظيفة مختلفة (وتبين لنا النتائج WGAN-GP وجود عقوبة غير المشبعة فقدان GAN من جانب واحد من التدرج)، ومجموعة البيانات (في البيانات المختلفة لدينا والبيانات المشتركة المقرر إنشاؤها حديثا الهندي المشاهير والنتائج تظهر مجموعة) والهندسة المعمارية (طريقة MSG نحن سوف تدمج مع ProGAN وStyleGAN معا البنية التحتية) هي قوية. والنمو التدريجي، نلاحظ أن، وقد تحسنت متعددة على نطاق وسجل التدرج ااا بالمقارنة مع الهندسة المعمارية DCGAN الأصلي بشكل ملحوظ .

ومع ذلك، نهجنا بالمقارنة مع الطرق القائمة، في حالة تدريب أداء نفس الوقت أفضل على معظم مجموعات البيانات القائمة دون الحاجة إلى المعلمات فرط إضافية (النمو المتزايد يتطلب إدخال المعلمات فرط)، مثل مختلف توليد الجدول الزمني للتدريب ومراحل معدل التعلم. وهذا يجعل من MSG-GAN طريقة قوية يمكن وضعها بسهولة في بيانات جديدة "من خارج منطقة الجزاء." على النقيض من ذلك، إذا كان الأسلوب القائم على النمو التدريجي، ثم مجموعة المعلمة أمام نفس السوبر غير فعالة (انظر الجدول 1 و 2). نحن أيضا تجارب الاجتثاث FFHQ مجموعات البيانات ذات الدقة العالية، مما يدل على أهمية العلاقات متعددة النطاق في جميع القرارات.

جميع في كل شيء، لدينا المساهمات التالية:

1. ونحن نقدم تقنية التدرج متعددة النطاق لتخليق صورة، وتعزيز استقرار تقنية التدريب.

2. نحن يمكن ان تنتج عينة عالية الجودة بقوة في العديد من مجموعات البيانات المستخدمة بشكل شائع.

التجارب: وتستخدم كافة طرازات التدريب RMSprop

وعلى الرغم من التجارب لتقييم GAN لدت جودة الصورة ليست مهمة سهلة، ولكن المؤشر الأكثر شيوعا اليوم هي النتيجة الأولية (IS، الأعلى هو الأفضل) وفريشيه "المسافة الأولية (FID، وخفض أفضل). من أجل مقارنة نتائجنا مع الأعمال السابقة، وسوف نقوم IS لCIFAR10 التجربة، ااا لبقية التجربة، وتقرير "عرض عدد من الصور الحقيقية"، كما هو موضح في الأعمال السابقة.

جديدة مجموعات البيانات المشاهير الهندية

بالإضافة إلى مجموعة البيانات الموجودة، ونحن أيضا جمع مجموعة البيانات جديدا يتألف من المشاهير من الهند. نحصل على الغرض بيانات جديدة هو محاولة لاستخدام حجم صغير جدا (من حيث عدد الصور) مجموعة البيانات لأن المجتمع GAN أظهرت أن حجم مجموعة البيانات مهم لخلق نموذج الجيل جيدة. للقيام بذلك، ونحن نستخدم عملية مماثلة لCelebA-HQ جمع الصور. أولا وقبل كل شيء، لدينا لتحميل الصور من المشاهير في الهند من خلال الزحف الصفحات المتعلقة بطلب البحث. ثم نستخدم الجاهزة وجه كاشف بالكشف عن الوجه، وقطع كل الصور وتكييفه مع حجم 256x256. وأخيرا، نأتي إلى صورة نظيفة يدويا من خلال تصفية ذات جودة منخفضة، صور منخفضة الضوء وأخطاء. وأخيرا، فإن مجموعة البيانات يتكون من عينات فقط 3K، أصغر من حجم CelebA-HQ. وسيتم الكشف عن مجموعة البيانات لأغراض البحث.

تفاصيل التنفيذ

تقييم نهجنا سنقوم القرار، وحجم (عدد الصور) من مختلف، وارتفاع القرار، ومجموعات البيانات المختلفة. (القرار 60X صورة 32x32) CIFAR10، أزهار أكسفورد (8K صورة من القرار 256x256)، LSUN الكنيسة (القرار 126K صورة 256x256)، الهند المشاهير (القرار 3K صورة 256x256)، CelebA-HQ (30000 الصور مع قرار من 1024x1024) وFFHQ (70K صورة، مع دقة 1024x1024).

FIG 3: عشوائية MSG-StyleGAN إنشاؤها على مختلف مجموعة البيانات قرار المتوسط (256x256)، والعينات التي لم تكتمل. نهجنا يمكن أن تركز تحقيق نتائج عالية الجودة في كافة البيانات مع نفس المعلمات فائقة.

الجدول 1: أجريت تجارب على قرار المتوسطة (أي 256x256) مجموعة البيانات. نحن نحاول استخدام الدرجات التي قدمها صاحب البلاغ، أو استخدام رموز المعلمة فائقة والتوصيات الرسمية (يرمز لها "*") نموذج التدريب.

لكل مجموعة البيانات، ونحن نستخدم نفس البعد المحتملين الأولي 512، من التوزيع الطبيعي القياسي N (0، I) تم الحصول عليها، ثم تطبيع كرة-. لجميع التجارب، استخدمنا نفس مجموعة المعلمة فائقة MSG-ProGAN وMSG-StyleGAN (LR = 0.003)، والفرق الوحيد هو عدد طبقات العينة (أقل انخفاض مجموعة البيانات قرار).

الشكل 4: MSG-StyleGAN إنشاؤها على ارتفاع القرار مجموعة (1024x1024) البيانات بشكل عشوائي، والعينات التي لم تكتمل

الجدول 2: أجريت تجارب على دقة عالية (1024x1024) مجموعة البيانات. نحن نحاول استخدام الدرجات التي قدمها صاحب البلاغ، أو استخدام رمز الرسمي وأوصت المعلمة السوبر (يرمز لها "*") نموذج التدريب.

وتستخدم كافة طرازات كان التدريب RMSprop، وتعلم مولد معدل والممي هم 0.003. وفقا لدينا N القياسي العادي (0، I) وزعت المعلمة مولد التهيئة الممي. من أجل مطابقة الأعمال المنشورة سابقا، كانت كل StyleGAN وMSG-StyleGAN نموذج GAN غير المشبعة التدريب مع فقدان GP من جانب واحد، في حين ProGAN وMSGProGAN ديك WGAN-GP فقدان نموذج وظيفة للتدريب.

الشكل 5: نتائج جميع الطبقات ولدت تدريب حل مبكر للMSG-GAN في وقت واحد تقريبا، ثم يولد صورة في جميع القرارات مع زيادة جودة. في جميع مراحل عملية التدريب، ونقطة ثابتة صورة مولد الكامنة سوى الحد الأدنى من تحسن تدريجي.

الشكل 6: استقرار صورة أثناء التدريب. وتشير هذه الأرقام CelebA-HQ في مجموعة البيانات، الشفرة التي تم إنشاؤها من نفس MSE صورة كامنة تحت الحقبة مستمر (36 المحتملين متوسط العينة). MSG-ProGAN التقارب المطرد مع مرور الوقت، في حين ProGANs في كل فترة سوف تختلف اختلافا كبيرا.

نحن أيضا توسيع نطاق التكنولوجيا MinBatchStdDev، والانحراف المعياري للمتوسط عدد نشطة لتغذية الممي لزيادة التنوع من العينة، وذلك لتحقيق إعدادات متعددة النطاق لدينا. تحقيقا لهذه الغاية، ونضيف إلى بداية كل كتلة في طبقة منفصلة MinBatchStdDev المصدق. وهكذا، فإن الممي الحصول على إحصاءات، وتولد دفعة مسار عينة على التوالي على كل تفعيل النطاق، ويمكن الكشف عن المولد إلى حد ما في وضع تحطم.

الجدول 3: معدل التعلم متانة CIFAR-10. ونحن نرى أن في سلسلة من التعلم داخل نطاق CONVERGES أسلوبنا إلى درجة IS مماثلة.

الجدول 4: عالية الدقة (1024x1024) الاجتثاث في مجموعة من اتصالات البيانات التدرج FFHQ متعددة النطاق من درجات مختلفة. يتألف الفقيرة (4X4) ومتصلة (8X8)، تتألف المتوسط (16X16) والاتصال (32x32)؛ ويفضل أن يكون (64x64) و (1024x1024).

الجدول 5: استخدام المشترك لمعادلات مختلفة على دقة عالية (1024x1024) FFHQ التجريبية مجموعة البيانات.

عندما كنا نموذج التدريب الخاصة، ونحن التقرير استخدام وقت التدريب وGPU، ومحاولة استخدام نفس الجهاز إن أمكن، بحيث يمكنك مقارنة مباشرة وقت التدريب (في جميع الحالات باستثناء أكسفورد الزهور ProGAN وMSG-ProGAN ل). عرض العدد الفعلي للصور والتغييرات في وقت التدريب يرجع ذلك إلى حقيقة: كما هو الحال دائما، وذكرت لنا أفضل ااا تم الحصول عليها في عدد محدد من التكرار في النتيجة، والنتيجة والوقت لإنفاقها. نسخ كافة التعليمات البرمجية اللازمة للبحث وتدريب نموذج يمكن أن تستخدم لأغراض البحث في https://github.com/akanimax / جي اس-stylegan-فريق العمل.

مناقشة: لم يتحقق من صحة الصورة الحقيقية

القيود وأعمال المستقبل

نهجنا ليس دون قيود. ونلاحظ أن استخدام التدريب التدريجي، أول مجموعة من التكرارات في دقة أقل أسرع بكثير، وMSG-GAN الوقت نفسه الذي يستغرقه لكل التكرار. ومع ذلك، لاحظنا MSG-GAN عدد أقل مجموع التكرارات المطلوبة لتحقيق نفس ااا، وعادة إلا في هذا الوقت الإجمالي التدريب في ظروف مماثلة.

وأخيرا، نلاحظ أنه في FFHQ الوجه ومجموعة البيانات CelebAHQ، ونحن لا تولد أكثر من نوعية StyleGAN. وأسباب ذلك كثيرة، بما في ذلك المعلمات جدا بشكل صحيح، أو StyleGANs العمارة هو أكثر ملاءمة لهذه مجموعات البيانات. وعلاوة على ذلك، لأننا متعددة النطاقات الثابتة في MSGStyleGAN، لذلك نحن لا يمكن استخدام طريقة مزج تقنيات تنظيم، وتقنيات الاختلاط، وعدد وافر من ناقلات المحتملة كانت مختلطة، والصورة التي حصلت عليها الممي هو الصحيح قسرا. ويتم ذلك للسماح للاختبار مزيج من الأساليب المختلفة في مستويات مختلفة، ولكن أيضا تحسين الجودة الشاملة. ومن المثير للاهتمام، حتى لو كنا لا فرض صراحة تنظيم الهجين، أسلوبنا لا يزال قادرا على توليد نتائج متباينة معقولة. رغم عدم وجود ااا تحسين درجات على FFHQ، ولكن نحن نقترب أعلى الدرجات على مجموعات البيانات الأخرى، وسهلة الاستخدام ويقدم طريقة جديدة لتركيب عالية الدقة، قد يلهم أعمال المتابعة لزيادة تحسين جودة النتائج.

استنتاج

وعلى الرغم من إحراز تقدم كبير في تحقيق واقعية عالية الدقة تكوين صورة، ولكن لم يتحقق الصور الحقيقية للأصالة، وهناك فرق كبير من حيث المجال، خصوصا في المظهر. في هذا العمل، ونحن نقدم هذه التكنولوجيا MSG-GAN، بطريقة بسيطة، وذلك باستخدام متعددة النطاق صورة GAN توليد عالية الدقة.

صبي يبلغ من العمر 13 عاما من الصاعد إلى بطل الروبوت، وخائفة أنا الذي أدلى به لالروبوت!

باستخدام BERT هو بخور ، يمكن أن تعطي نقاط AI أيضًا تعليقات ، من الآن فصاعدًا لم تعد الكتابة باللغة الإنجليزية كابوسًا!

علماء الرياضيات كسر الغموض الرياضي للمشكلة في نهاية المطاف، وكان في الواقع مخبأة السكك الحديدية متحمس؟

نيو جي وون مقابلة: عمق جامعة إطار تعزيز التعلم تسينغهوا "Tianshou" المصدر المفتوح | 900 ستار

جعل AI مسجل صوتها الشهير! اللغة Sogou AI الأساسية مفتاح اختراق المزهرة متعددة

معهد ماساتشوستس للتكنولوجيا أستاذ الصينية اختراع سحر الحبر، طباعة أقطاب الناعمة زرع 3D مخ الفأر

أينشتاين قبل 70 عاما وتوقع اندلاع موجة جديدة من التاج؟ هذه القيامة AI شعبية رديت الفيديو

عزل مساعد: أطلقت جامعة ستانفورد لي Feifei الفريق المضيف نظام AI، في الوقت الحقيقي رصد من المسنين الذين يعيشون بمفردهم

كبير 1-0! الصين الفوز على بطل العالم لكرة القدم، بقيادة قاو هونغ بو فريق لخلق معجزة 106 عاما

كبير 2-0! اورانج التأهل أخيرا بعد انقطاع دام 15 عاما، والاحتفالات 46،000 المشجعين الصينيين البرية

دمر كرة القدم الصينية وخمسة عبقرية! عملت 1 شخص مع وضع حد لكرة القدم ميسي الشهير "من صنع الإنسان"

كرة القدم الصينية الوحيدة النجوم العالم! وسجل سبعة أهداف في كأس العالم، وقال انه تم تقييم أفضل لاعب في القرن 20th