مذكرة لى فنغ الشبكة: هذه المادة هي عبارة عن تجميع للAI Yanxishe بلوق التكنولوجيا، وعنوان الصورة الأصلية السفلية مع الاهتمام
الترجمة | ليو جياو التشطيب | يوهانغ
صورة الوصف النوع من المهام هو إعطاء صورة يتم إنشاء العنوان. إعطاء صورة:
رخصة صور المصدر: المجال العام
هدفنا هو استخدام كلمة لوصف صورة، مثل "سيرفر وركوب الأمواج." يستخدم هذا البرنامج التعليمي نموذج يقوم على الاهتمام، فإنه يجعل لنا ترى بالعين المجردة جدا ما يتم إنشاؤها عند نص نموذج سيتم تشعر بالقلق إزاء.
هذا النموذج هو مماثل لهيكل الرسالة: مشاهدة، حضور وأخبر: الجيل توضيحية العصبية صورة مع Visual الاهتمام.
التعليمات البرمجية في هذا الاستخدام التعليمي لtf.keras وتنفيذ حريصة من هاتين الأداتين، وهناك روابط لمحتويات المفصل يمكن أن تتعلم.
وهذا يدل على نموذج نهاية دفتر الملاحظات. عندما المدى، فإنه سيتم تلقائيا تحميل مجموعة البيانات MS-COCO، وذلك باستخدام نموذج التدريب التأسيس V3 التشفير - فك الترميز، وصورة جديدة مع نموذج موضح في النص.
يمكن تشغيل هذا الرمز في Colab، ولكنها تحتاج نسخة TensorFlow > = 1.9
بعد هذه التجربة، والبيانات من السابق عطلت 30000 صفها بأنها مجموعة التدريب، الموافق 20،000 الصور (قد تحتوي على صور وصف أكثر من واحد). كمية تدريب نموذج بيانات صغير نسبيا، لذلك لم تكن الا P100 GPU، ويأخذ نموذج القطار نحو ساعتين.
بيانات تحميل MS-COCO
MS-COCO بيانات يحتوي على 82،000 الصور، مع كل صورة خمسة على الأقل مختلفة ويرد وصف نصية. التعليمة البرمجية التالية سيتم تحميلها تلقائيا والبيانات فك ضغط في وقت التشغيل.
ملاحظة: مسبقا تحميل بيانات جيدة، حجم ملف البيانات 13GB.
اختيار ما إذا كان ضغط حجم مجموعة التدريب للحد من وقت التدريب
يصف هذا البرنامج التعليمي اختيار 30000 و صور المقابلة لنموذج القطار، ولكن عندما المزيد من البيانات، ونوعية النتائج التجريبية تحسنت بشكل عام.
الإستهلال V3 صورة تجهيزها
هذه الخطوة يتطلب استخدام InceptionV3 (نموذج Imagenet تدريب) لكل صنف الصورة واستخراج ملامح من طبقة التفاف الماضية.
أولا، نحن بحاجة إلى تحويل inceptionV3 ضرورة تنسيق الصور:
حجم ثابت من الصورة إلى (299، 299)؛
استخدام preprocess_input وظيفة لضبط بكسل في مجموعة من -1 إلى 1 (لمطابقة تنسيق إدخال inceptionV3).
الأوزان قبل التدريب التهيئة InceptionV3 وإعادة تحميل Imagenet
عندما InceptionV3 طبقة الماضي بمثابة التفاف طبقة الإخراج، تحتاج إلى إنشاء نموذج keras
يرسل صورة مدخلات المجهزة للشبكة العصبية، واستخراج ناقلات تم الحصول عليها في الطبقة الأخيرة يتم حفظها في شكل القاموس (اسم FIG كميزة صورة - > ناقلات الميزة).
اختيار هدف طبقة الالتواء هو الاستفادة بشكل أفضل من آليات الإنتباه، وحجم البيانات من طبقة الإخراج هو 8x8x2048.
......
تريد مواصلة القراءة، يرجى الانتقال إلى مجتمعنا AI Yanxishe: الشبكي: //club.leiphone.com/page/TextTranslation/628
المزيد من المحتوى المثير لجعل AI Yanxishe.
مختلف المجالات بما في ذلك رؤية الكمبيوتر، ودلالات الكلام، سلسلة كتلة، الطيار الآلي، واستخراج البيانات، التحكم الذكي، لغات البرمجة وغيرها تحديثها يوميا.
إنهاء للهاتف يمكن مسح رمز ثنائي الأبعاد إلى الوصول:
شبكة لى فنغ (عدد الجمهور: لى فنغ شبكة) شبكة لى فنغ