لا ينبغي تفويتها! 2017 سخونة تحليل دقيق للهيكل اسرشتاين GAN

1 جي فاز تجميع جديد

أنا حقا مثل Wassertein GAN (مارتن Arjovsky وآخرون، 2017) هذه الورقة. ومع ذلك، فإن ورقة نظرية مبهمة قد يخيف الكثير من الناس، لذلك اليوم حاولت أن يضع هو فهم بعض.

لماذا هذه الورقة هي مهمة؟ وذلك للأسباب التالية:

تقترح هذه الورقة التدريب خوارزمية GAN جديدة، تكون قادرة على تشغيل جيد جدا على مجموعة بيانات GAN العام؛

هذه الخوارزمية التدريب لديها دعم النظرية. في عمق المجال من الدراسة، وليس فقط من الناحية النظرية أوراق المحتملة يمكن أن يكون لها نتائج تشغيلية جيدة، ولكن هناك نتائج تشغيلية جيدة المادة ممكنة نظريا، سيكون هناك حقيقية جيدة النتائج التشغيل. لهذه الأوراق، فمن المهم أن نفهم نظريتهم، لنظريتهم يمكن أن يفسر لماذا تصرفت بشكل جيد.

لقد سمعت في اسرشتاين GAN، يمكنك (ويجب) التقارب التدريب الممي. إذا كان الأمر كذلك، لا تحتاج إلى تحقيق التوازن بين التحديث التحديث مولد الممي، وهذا واحد مثل تدريب أكبر السحر الأسود GAN؛ و

يظهر الورقة فقدان الممي ارتباط وفهم للجودة. إذا كان الأمر كذلك، يمكن أن يكون لا يصدق. في تجربتي محدودة في GAN، وهي مشكلة كبيرة هي خسارة لا يعني أي شيء - بفضل التدريب المواجهة، سواء كان ذلك يجعل نموذج التمايز في التدريب أصبحت صعبة للغاية. تعزيز التعلم وفقدان وظائف لديهم مشاكل مماثلة، ولكن على الأقل نحصل على عائد على بعض المعنى. حتى عملية التدريب هو قياس الكمي الخام، لالتحسين التلقائي من المعلمات على (مثل النظرية الافتراضية الأمثل) هو ما يكفي قيمة.

وبالإضافة إلى ذلك، وأعتقد أن GAN والممثل والناقد تعزيز التعلم ترتبط ارتباطا وثيقا. (انظر PFAU وVinyals 2017.)

مقدمة

تبدأ أطروحة يدخل نموذج توليد المعرفة الخلفية.

في التعلم نموذج الجيل، ونحن نفترض البيانات لدينا من التوزيع غير معروف العلاقات العامة (يمثل ص الحقيقي). نحن نريد لدراسة توزيع P تقريب العلاقات العامة ( هو توزيع المعلمة).

يمكن ان يخطر لك طريقتين للقيام بذلك.

  • المعلمات يصف بشكل مباشر على كثافة الاحتمال. وسائل P هو إنشاء وظيفة من التحسين لدينا من أقصى تقدير احتمال P.

  • يصف المعلمة التحول بطريقة تقليدية وزعت ZZ. هنا، g بعض اختلاف وظيفة الفرز، Z هو التوزيع المشترك (موحد أو التمويه عموما)، وP = g (Z).

  • أولا، ليشرح لماذا الطريقة الأولى سوف تواجه مشاكل.

    ظيفة معينة P، الهدف هو MLE

    في الحد الأقصى، هذا هو ما يعادل لجعل KL-الاختلاف KL (العلاقات العامة || P) يتم تصغير.

    تفسير: لماذا هل هذا صحيح؟

    التذكير بما مستمرة توزيع P و Q، KL الاختلاف هو

    في ظل الظروف القاسية (مثل م )، وبيانات العينة وفقا الحالي لتوزيع العلاقات العامة، و

    (من أجل إعطاء: الحد يصبح نقطة الجمع التي كتبها مقلوب لنفي قيمة الحد الأدنى قيمة الحد الأقصى، إضافة ثابت لا يعتمد على وKL الاختلاف في تعريف التطبيق.)

    لاحظ أنه إذا Q (س) = 0 في أحد x، حيث P (خ) 0، KL الاختلاف يذهب إلى + . إذا P انخفاض الدعم في مجال الصيانة لMLE سيئة، لأن العلاقات العامة وتقع كلها ضمن الدعم الذي من المستبعد جدا. يقع حتى نقطة بيانات واحدة خارج الدعم سوف P، KL الاختلاف تنفجر.

    لحل هذه المشكلة، يمكننا بطريقة عشوائية الضوضاء أثناء تدريب MLE إلى P. هذا يضمن أن يتم تعريف التوزيع في كل مكان. ولكن الآن ونحن نقدم بعض الأخطاء، والخبرة، والناس بحاجة إلى إضافة الكثير من الضجيج العشوائي، بحيث تدريبية نموذجية. هذا هو القليل من سيئة. وعلاوة على ذلك، حتى لو تعلمنا كثافة جيدة P، تكلفة حسابيا التي قد تكون عينات عالية جدا.

    يحفز هذا الأسلوب الأخير، أي على g التعلم (مولد) لتحويل توزيع معروفة من Z. وهناك سبب آخر هو أنه من السهل لتوليد العينات. تدار من قبل g المدربين، ولكن الضجيج العشوائي أخذ العينات ض ~ Z، وg تقييم (Z) . (وعيب هذه الطريقة هو أننا لا نعرف بالضبط ما P نعم، ولكن في الواقع هذا ليس من المهم جدا).

    من أجل g القطار (ومددت P)، ونحن بحاجة لقياس المسافة بين التوزيعات.

    (ملاحظة: أنا استخدم بالتبادل دالة المسافة متري والاختلاف أعرف أن هذا ليس من الناحية الفنية مقياس دقيق وعلى وجه الخصوص الاختلاف يعني أشياء مختلفة أعتذر مقدما، هذه المفاهيم الثلاثة في ذهني، وبعض منحل ... .)

    مقاييس مختلفة (حددت مسافات مختلفة) الناجمة عن مختلف مجموعات تسلسل التقارب. ونحن نقول أن المسافة د أصغر من المسافة د "، إذا كان كل من د 'التقارب في CONVERGES تسلسل د.

    إعادة تدويرها لنموذج ولدت، يتم التعامل مع وظيفة معين المسافة د، يمكننا أن د (العلاقات العامة، P) كخسارة. وتقليل المتعلقة د (العلاقات العامة، P) سيتم إغلاق بحيث ص [ثيتا] العلاقات العامة، و. هذا هو المبدأ، طالما تعيين P أن يكون مستمرا (إذا كان الشبكة العصبية، هو الحالة).

    مسافات مختلفة

    ونحن نعلم أننا نريد للحد من د، ولكن كيف نحدد د؟ ويقارن هذا القسم مختلف المسافات وممتلكاتهم.

    الآن، لنكون صادقين، نظرية القياس بلدي سيئة للغاية. ورقة حتى على مجموعة من المقاييس المدمجة الحديث، مجموعات فرعية بوريل وهلم جرا. من الناحية النظرية، وهذا هو مثير للإعجاب. ومع ذلك، تعلم الآلة، ونحن عادة استخدام "جيدة بما فيه الكفاية" (التفاضل في كل مكان تقريبا) وظيفة، لذلك يمكنك تجاهل الكثير من تعريف دقيق، لكنها لن تؤثر على الكثير من النقاش. طالما أننا لسنا بالسوء كانتور مجموعة، ونحن جميعا الحق.

    عمل نسخة احتياطية من ما نناقشه.

    هذه ليست متناظرة. ويعرف الاتجاه المعاكس KL الاختلاف كما KL (خريج || العلاقات العامة).

    الوصف: EM تحديد ما هو الخطأ؟

    EM عن التعريف قليلا مبهمة. استغرق الأمر مني بعض الوقت لفهم ذلك، ولكن بعد أن فعلت هذا لا يزال في غاية السعادة.

    أولا، بصرية المسافة EM الهدف. يتم تعريف التوزيع الاحتمالي من الكتلة من أجل كل نقطة. تخيل، ونحن نبدأ مع توزيع العلاقات العامة، والرغبة في تغيير توزيع تحرك كتلة لخريج. كتلة م تتحرك مسافة د لقضاء md الجهد. المسافة المحرك الأرض هي الحد الأدنى ونحن في حاجة إلى إنفاق الجهود.

    لماذا infimum على II (العلاقات العامة، وخريج) يعطي الحد الأدنى من الجهد؟ يمكنك التفكير في كل II هي خطة النقل. من أجل تنفيذ هذه الخطة، فمن لجميع س، ص من س إلى ص تحريك (س، ص) كتلة.

    قد يقول كل سياسة نقل الوزن لذلك. ومع ذلك، هذه الاحتياجات خطة لقاء من أجل تلبية ما خصائص ستتحول إلى العلاقات العامة خريج؟

    ترك كتلة س عدد نعم. هذا يجب أن يكون مساويا لعدد من كتلة الأصلي من العاشر العلاقات العامة (خ).

    عدد ذ كتلة دخول نعم. هذا يجب أن يكون على قدم المساواة وفي نهاية رقم ص كتلة خريج (ص).

    وهذا ما يفسر لماذا II يجب أن يكون هامشيا العلاقات العامة وخريج. لكي تكون فعالة، وتنفق الجهود

    .

    حساب كل infinum النشط، يمكن رسم المسافة المحرك الأرض.

    الآن، ويعرض ورقة مثال بسيط لماذا يجب علينا أن نهتم EM بعد.

    النظر في تعريف التوزيع الاحتمالي جرا. ومن المقرر توزيع البيانات صحيح (0، ذ)، ذ من U عينات بشكل موحد. النظر في توزيع ص الأسرة [ثيتا]، حيث P = (0، ذ)، وأخذ عينات ذ أيضا من U .

    عندما = 1 هو توزيع صحيحة أو خاطئة

    نريد أن نتعلم لنقل خوارزميات التحسين جهدنا ل[ثيتا] 0، أي، 0، ينبغي خفض المسافة د (P0، P). ولكن بالنسبة لكثير من وظيفة عن بعد شيوعا، وهذا لن يحدث.

    يظهر المثال لا JS، KL، وتسلسل التوزيع العكسي في KL التقارب أو التباعد TV، ولكنه يتقاطع في المسافة EM.

    يوضح هذا المثال أيضا الحال بالنسبة لJS، KL، KL وعكس الاختلاف TV هناك دائما التدرج 0.

    هذا هو فعالة بشكل خاص من وجهة نظر الأمثل - التدرج من خلال طريقة أي عمل ستفشل في هذه الحالات.

    وباعتراف الجميع، وهذا هو مثال قيمة، لأنها دعم لا تتقاطع، ولكن نقطة الصحيفة إلى، عندما الدعم مشعب المنخفضة للالأبعاد في الفضاء الأبعاد عالية، وتقاطع هو سهلة لقياس صفر، فإنه يكفي لإعطاء نتائج مماثلة سيئة .

    نظرية التالية من الأدلة على هذا الفهم.

    تحتاج إلى الرجوع إلى ورقة، ونلقي نظرة على وسيلة "جيدة بما فيه الكفاية"، ولكن لأغراضنا، ونعرف أنه يمكن أن تلبي شبكة feedforward غير الخطية القياسية على ما يكفي جيدة. لذلك، بالإضافة إلى JS، KL والمسافة Wassertstein، فقط مسافة اسرشتاين وضمان استمرارية التفاضلية، وكلاهما ما كنت تريد حقا أن تجد شيئا في فقدان وظيفة.

    وتشير النظريات الثانية، اسرشتاين مسافة لا توفر ضمانة أفضل، كما أنها أضعف المجموعة.

    وباختصار، فإن ثبت أن كل زعت بموجب KL، معكوس KL، TV JS الاختلاف والتقارب هي في اسرشتاين التقارب الاختلاف. وثبت أيضا الفرق في توزيع صغيرة المسافة المحرك الأرض المقابلة للصغيرة.

    معا، مما يوحي بأن اسرشتاين يتم إنشاؤها من نموذج لخسارة هائلة في وظيفة.

    Wasserstei ن GAN

    للأسف، وحساب المسافة اسرشتاين هو صعب حقا. دعونا نكرر هذا التعريف.

    ورقة الآن يبين كيف نحسب قيمتها التقريبية.

    نتائج Kantorovich-روبنشتاين عرض ازدواجية يتوافق W

    حيث supremum هو 1-يبشيز تولي جميع الوظائف.

    الوصف: يبشيز المعرض؟

    حدسي، المنحدر للتعريف أوسع، المنحدر K-يبشيز وظيفة لم يتجاوز K.

    إذا استبدلنا supremum على وظيفة 1-يبشيز مع supremum على وظيفة K-يبشيز، ثم supremum تم تغييره KW (العلاقات العامة، P).

    supremum على وظيفة K-يبشيز لا يزال من الصعب جدا، ولكن تقترب الآن أسهل. لنفترض أن لدينا عائلة وظيفة حدودي، حيث ث هو الأوزان، W هو مجموعة من كل الأوزان الممكنة. نفترض أيضا أن بعض هذه الوظائف هي من K K-تامار. لذلك لدينا:

    لأغراض التحسين، ونحن لا نعرف حتى ما هو K! يكفي أن نعرف أنه موجود، وأنه في عملية التدريب برمتها هي نفسها. وبطبيعة الحال، فإن التدرج يكون W K المجهول مقيس، وإنما هي أيضا معدل التعلم تحجيمها، لذلك يتم امتصاصه K إلى المعلمات ضبط الفائقة.

    إذا كان يتضمن supremum الحقيقي K-يبشيز وظيفة، والذي يعطي مجرد المسافة. انها حقا قد لا يكون صحيحا. في هذه الحالة، وتقترب من جودة يعتمد على وظائف K-يبشيز من عداد المفقودين على شيء.

    الآن، دعونا نعود إلى توليد نموذج. نحن نريد لتدريب P = g (Z) من أجل مباراة العلاقات العامة. حدسي، ونظرا لg ثابتة، يمكننا حساب المسافة اسرشتاين الأمثل. وبعد ذلك يمكننا backprop للحصول على الانحدار.

    وتنقسم عملية التدريب الآن في ثلاث خطوات:

    بالنسبة للثابت [ثيتا]، عن طريق التدريب التقارب، W حساب (العلاقات العامة، P) التقريب.

    عندما نجد الأمثل عن طريق أخذ عينات عدة ض ~ Z، ويتم احتساب التدرج.

    تحديث ، وتكرار هذه العملية.

    هناك واحد التفاصيل النهائية. وتتمثل مهمتها الاشتقاق فقط عندما تكون الأسرة هي في وظيفة عمل K-تامار. لضمان هذا هو الصحيح، ونحن نستخدم لقط الوزن. بواسطة w تحديثها بعد كل مقطع ث، والأوزان ث مقيدة الموجود .

    الخوارزمية هي على النحو التالي:

    الوصف: معيار غان المقارنة و

    دعونا نقارن WGAN وGAN خوارزميات القياسية.

    في GAN، مكبر الممي

    ونحن تقييد D (خ) هو دائما احتمال.

    في WGAN لا شيء يتطلب انتاج الاحتمالات. وهذا ما يفسر لماذا المؤلف يفضل دعا النقاد بدلا من الممي - أنها ليست محاولة واضحة للتمييز بين المدخلات غير صحيحة أو خاطئة.

    وتشير الصحيفة GAN الأصلية إلى أنه في الحالات القصوى، وقيمة الحد الأقصى المستهدف من الممي هي جنسون شانون الاختلاف، وهذا يتوقف على عامل الحجم وثابت.

    في WGAN، بدلا من ذلك هو المسافة اسرشتاين.

    وعلى الرغم من المعين GANS باعتباره دقيقة المشكلة القصوى، ولكن في الواقع، لم نكن مدربين D تتقارب. في الواقع، وعادة الفول الممي قوية جدا، ونحن بحاجة إلى تحديث التدرج بالتناوب بين D و G، من أجل الحصول على مولد تحديث معقول.

    لم يتم تحديث نحن عندما جنسون شانون الاختلاف G المواجهة، ولا حتى ضد تقريب عند التحديث الاختلاف جنسون شانون G، نحن تحديث G في مكافحة استهداف الكائنات JS الاختلاف، ولكن ليس دائما. هذا هو فعالة بالتأكيد، ولكن على أساس النتائج التي توصلت إليها هذه الورقة JS الاختلاف في التدرج، الذي يعمل بمثابة إثارة للدهشة بعض الشيء.

    على العكس من ذلك، لأن اسرشتاين المسافة تقريبا للتفاضل في كل مكان، يمكننا (ويجب) تحديث تدريب في كل مرة التقارب مولد، بأكبر قدر ممكن من أجل الحصول على W تقديرات (العلاقات العامة، P). (W (العلاقات العامة، P) أكثر دقة، والتدرج أكثر دقة).

    النتائج الممارسة

    أولا، بنيت على الكتاب تجربة صغيرة لإظهار الفرق بين GAN وWGAN. هناك توزيع جاوس يومين بعد واحد والأزرق صحيح، والأخضر هو زائف. GAN الممي التدريب والنقاد WGAN إلى الحد الأمثل، ومن ثم رسم قيمها في الفضاء. المنحنى الأحمر هو إخراج الممي GAN، منحنى سماوي هو WGAN الناتج النقاد.

    كلاهما صحيح تحديد أي التوزيع التوزيع التي هي كاذبة، ولكن بحيث الممي التدرج عندما GAN لا تختفي على معظم مساحة. في المقابل، يتم إعطاء WGAN الوزن لقط في كافة القضايا جيدة التدرج جميلة.

    بعد ذلك، فقدان اسرشتاين يبدو أن تترافق مع جودة الصورة. هنا، تلفت الكتاب منحنى جنبا إلى جنب مع الوقت من الخسارة، وكذلك عينات التي تم إنشاؤها.

    بعد قراءة هذا المقال، وأنا أفهم أن هذه الظاهرة ليس من المستغرب. لأننا تدريب لمنتقدي التقارب، وينبغي أن تكون منتقدي هذه القيم تقريبية جيدة KW (العلاقات العامة، P)، حيث K هو دائما يبشيز ثابت. كما نوقش سابقا، أدنى KW (العلاقات العامة، P) وص [ثيتا] العلاقات العامة وسائل هي قريبة من بعضها البعض. إذا كانت قيمة النقاد لا تتفق مع التشابه البصري، هو أكثر إثارة للدهشة.

    الصورة تبدو نتائج جيدة. مقارنة مع بيانات خط الأساس DCGAN على مجموعة غرف نوم، وأدائها هي أيضا جيدة جدا.

    الأعلى: WGAN مع تكوين FIG DCGAN مماثلة: DCGAN

    إذا كان لنا أن إزالة دفعة من المولد، WGAN لا يزال توليد عينات صالحة للاستعمال، ولكن DCGAN تفشل تماما.

    الشكل: مع WGAN DCGAN نفس الهيكل، وغير دفعة القواعد والمعايير FIG: DCGAN، لا القاعدة دفعة

    وأخيرا، قدمنا شبكة التغذية إلى الأمام مولد بدلا من الالتواء. هذا يمكن أن تبقي على نفس العدد من المعلمات، ولاستشعار التغيرات بالإضافة إلى نموذج التلافيف. WGAN التفاصيل عينة أكثر، باعتباره نموذجا تحطم خلافا GAN القياسية. في الواقع، فإنها ذكرت أن هذا النموذج لم اجه في جميع حوادث في WGAN.

    الرقم: WGAN MLP مع تكوين FIG: GAN القياسية، نفس التكوين

    "المرشحون"

    للصحفيين بدوام كامل، وقد تم تجميعها والأنشطة التشغيلية

    ترحيب المتدرب

    الترجمة و الاصطناعي متطوعين من المجتمع المحلي المخابرات

    لمزيد من المعلومات، يرجى النقر على دخول عدد الجمهور "المرشحون"

    أو البريد الإلكتروني jobs@aiera.com.cn

    جي الأنفس وظائف جديدة اضغط على "قراءة النص"

    حسن القيادة التقنية، ليست هناك حاجة لتثبيت صورة عكسية؟ برامج التشغيل القديمة: عدم حفظ هذه الاموال

    بعد موافقة الرنمينبي العالمي على النفط، أو الغاز الطبيعي RMB سيخرج، جعلت الأمور تقدما جديدا

    الإصلاح رائدة تشيو Eguo العودة المظفرة!

    74 أعلى الصور الفوتوغرافية، وجاء اليوم، مذهلة تماما!

    "الطبيعة" الدماغ آلة القراءة التعلم المعلومات في الوقت الحقيقي، الخارقة التعادل "العقل خرائط"

    الحرب كافاني الآلهة إرسال C لو المنزل! في الواقع، قبل أن كان حازم يبصقون الملك كعكة إلى الأمام!

    ليشان: ربما كنت مجرد الأميين القراءة والكتابة

    الحقيقة! وجدت الشرق "سفينة الأشباح"، تبين أن ......

    البرسيمون أحمر، الخريف سميكة، وهذا المزاج الجميل 12 قرية القديمة، والأولى على القلب!

    بعد انسحاب 160 طن من الذهب من فنزويلا في الخارج، والدولار أو الذهب ثلاث دول تتحول أخيرا القيود

    ست دول لتنفيذها، والبلد لا يمكن خمسة، أربعة بلدان شراء سيارة؟

    كيفية تحقيق دولة المؤسسات مثالية "للخروج من الصوف في الكلاب والخنازير لدفع"؟