كيفية استخدام انتباه ولدت وصف نموذج الصورة؟

مذكرة لى فنغ الشبكة: هذه المادة هي عبارة عن تجميع للAI Yanxishe بلوق التكنولوجيا، وعنوان الصورة الأصلية السفلية مع الاهتمام

الترجمة | ليو جياو التشطيب | يوهانغ

صورة الوصف النوع من المهام هو إعطاء صورة يتم إنشاء العنوان. إعطاء صورة:

رخصة صور المصدر: المجال العام

هدفنا هو استخدام كلمة لوصف صورة، مثل "سيرفر وركوب الأمواج." يستخدم هذا البرنامج التعليمي نموذج يقوم على الاهتمام، فإنه يجعل لنا ترى بالعين المجردة جدا ما يتم إنشاؤها عند نص نموذج سيتم تشعر بالقلق إزاء.

هذا النموذج هو مماثل لهيكل الرسالة: مشاهدة، حضور وأخبر: الجيل توضيحية العصبية صورة مع Visual الاهتمام.

التعليمات البرمجية في هذا الاستخدام التعليمي لtf.keras وتنفيذ حريصة من هاتين الأداتين، وهناك روابط لمحتويات المفصل يمكن أن تتعلم.

وهذا يدل على نموذج نهاية دفتر الملاحظات. عندما المدى، فإنه سيتم تلقائيا تحميل مجموعة البيانات MS-COCO، وذلك باستخدام نموذج التدريب التأسيس V3 التشفير - فك الترميز، وصورة جديدة مع نموذج موضح في النص.

يمكن تشغيل هذا الرمز في Colab، ولكنها تحتاج نسخة TensorFlow > = 1.9

بعد هذه التجربة، والبيانات من السابق عطلت 30000 صفها بأنها مجموعة التدريب، الموافق 20،000 الصور (قد تحتوي على صور وصف أكثر من واحد). كمية تدريب نموذج بيانات صغير نسبيا، لذلك لم تكن الا P100 GPU، ويأخذ نموذج القطار نحو ساعتين.

بيانات تحميل MS-COCO

MS-COCO بيانات يحتوي على 82،000 الصور، مع كل صورة خمسة على الأقل مختلفة ويرد وصف نصية. التعليمة البرمجية التالية سيتم تحميلها تلقائيا والبيانات فك ضغط في وقت التشغيل.

ملاحظة: مسبقا تحميل بيانات جيدة، حجم ملف البيانات 13GB.

اختيار ما إذا كان ضغط حجم مجموعة التدريب للحد من وقت التدريب

يصف هذا البرنامج التعليمي اختيار 30000 و صور المقابلة لنموذج القطار، ولكن عندما المزيد من البيانات، ونوعية النتائج التجريبية تحسنت بشكل عام.

الإستهلال V3 صورة تجهيزها

هذه الخطوة يتطلب استخدام InceptionV3 (نموذج Imagenet تدريب) لكل صنف الصورة واستخراج ملامح من طبقة التفاف الماضية.

أولا، نحن بحاجة إلى تحويل inceptionV3 ضرورة تنسيق الصور:

حجم ثابت من الصورة إلى (299، 299)؛

استخدام preprocess_input وظيفة لضبط بكسل في مجموعة من -1 إلى 1 (لمطابقة تنسيق إدخال inceptionV3).

الأوزان قبل التدريب التهيئة InceptionV3 وإعادة تحميل Imagenet

عندما InceptionV3 طبقة الماضي بمثابة التفاف طبقة الإخراج، تحتاج إلى إنشاء نموذج keras

يرسل صورة مدخلات المجهزة للشبكة العصبية، واستخراج ناقلات تم الحصول عليها في الطبقة الأخيرة يتم حفظها في شكل القاموس (اسم FIG كميزة صورة - >  ناقلات الميزة).

اختيار هدف طبقة الالتواء هو الاستفادة بشكل أفضل من آليات الإنتباه، وحجم البيانات من طبقة الإخراج هو 8x8x2048.

......

تريد مواصلة القراءة، يرجى الانتقال إلى مجتمعنا AI Yanxishe: الشبكي: //club.leiphone.com/page/TextTranslation/628

المزيد من المحتوى المثير لجعل AI Yanxishe.

مختلف المجالات بما في ذلك رؤية الكمبيوتر، ودلالات الكلام، سلسلة كتلة، الطيار الآلي، واستخراج البيانات، التحكم الذكي، لغات البرمجة وغيرها تحديثها يوميا.

إنهاء للهاتف يمكن مسح رمز ثنائي الأبعاد إلى الوصول:

شبكة لى فنغ (عدد الجمهور: لى فنغ شبكة) شبكة لى فنغ

"الهروب غرفة الأسرار" فتح الجمهور لم يسبق له مثيل وردد متعة الساخنة

ضربت العفاريت ممن لهم R11 اللون طبعة محدودة تألق فاز شارع برشلونة

القرش الأسود 2 لعبة الهاتف المحمول ضد iQOO الجبهة والاكسسوارات من خلال توسيع تجربة اللعب!

النسخة الجديدة من الفرس تأخذ تحويل 10 سرعات الرسمي التلقائي للFIG.

الدليل الموجي البصري AR يمكن أن ينقذ ذلك؟ - يتفق الحوار وميض الرئيس التنفيذي لشركة يو تشنغ

Redmi 7 مجموعة كاملة من مظهر الجماعي، والخوف التكلفة في نهاية المطاف!

"غابة الرومانسية" يجري بقوة موضوع الطابق الجارية الأنشطة

من الإنتاج الضخم للتجربة، 8K العرض إلى أي مدى بعيدا عنا؟

التركيز في الموسم الجديد للدوري الممتاز | تشونغتشينغ سويفت حفل إطلاق عقدت في الموسم الجديد للدوري الممتاز، الفصل فريق JIANG سيكون موقف أكثر تنافسية

العد التنازلي 3 أيام | والدنمارك فخ الأقوى SNAVS زيارة شنغهاي

جد مجموعه 6 نماذج التكوين الجديد، في النهاية ما هو الأكثر شراء قيمتها؟

الأرز الأحمر Note7 تحفظات مسبقة برو، وديعة مستردة لتأكيد لو وى بينغ!