تفكير الباحث في Jingdong وترسيب الرؤية واللغة لعدة سنوات: من الاتساق الذاتي والتفاعل إلى التكافل

ملاحظة المحرر: بالنظر إلى التطور السريع للرؤية واللغة في هذه السنوات الست ، يبدو أنه تصادم ومزج بين ثقافتين مختلفتين (رؤية الكمبيوتر ومعالجة اللغة الطبيعية). التطور الأولي لكل ثقافة هنا الاتساق الذاتي ، أي أن تتطور بشكل مستقل لتشكيل فهم بصري كامل أو نظام نمذجة لغوية ؛ حتى الآن ، ما بشرنا به هو التعددية الثقافية التفاعل منذ ذلك الحين ، لم يعد الفهم البصري ونمذجة اللغة مجرد وحدتين متصلتين في سلسلة ، بل أصبحوا كلهم مدعومين من خلال نقل المعلومات المتبادل ؛ بالنسبة لمستقبل الرؤية واللغة ، يجب أن يركزوا على الاثنين الأكثر أهمية وأغلق تكافل ما تريده هو التحرر من قيود وضع علامات البيانات ، للعثور على العلاقة الأساسية بين الاثنين حول الإشراف الضعيف الضخم وحتى البيانات غير الخاضعة للرقابة ، واستخدامها كأصل ، مثل "Dao Shengyi ، Yisheng two ، two يتم إعطاء "Sansheng و Sanshengwangwu" بشكل عام للنموذج في مختلف المهام البصرية واللغوية.

هذا القرد على ظهر الحصان

صنعت ديزني أفضل كعكة على الإطلاق باستخدام الإسقاط

يتدفق الحبار الصغير حول القاع الصخري لخزان الأسماك

ملاحظة: من أجل تسهيل القراء بشكل أفضل لفهم وتعزيز تطوير مجال اللغة المرئية ، سنفتح مصدر عملنا التمثيلي على الرؤية واللغة (LSTM-A ، GCN-LSTM ، HIP ، X-LAN) في السنوات القليلة الماضية. يتم نشر شفرة المصدر على GitHub واحدًا تلو الآخر ، لذا ترقبوا!

الأصل:

تنتمي الرؤية واللغة ، وهما فهم المحتوى المرئي والتعبير عن اللغة الطبيعية ، في الأصل إلى مجالين مختلفين للبحث في رؤية الكمبيوتر (السيرة الذاتية) ومعالجة اللغة الطبيعية (NLP). ومع ذلك ، في عام 2014 ، كسرت Image Captioning (Image Captioning) فجأة الحاجز بين الاثنين ، مع نموذج التشفير الكلاسيكي في الترجمة الآلية ، تم اختراق التحويل من المحتوى المرئي إلى تعبير اللغة في وقت واحد ، وهو مجال السيرة الذاتية و NLP. وفتح الخلف أيضًا عالمًا جديدًا من الانصهار المتقاطع للأوضاع المختلفة.

على غرار التحويل بين اللغات الطبيعية المختلفة في الترجمة الآلية ، يمكن تحسين مهمة إنشاء وصف الصورة التحويل من لغة بصرية (تعبير ميزة الصورة) إلى لغة طبيعية (جملة وصف) . يمكن تلخيص النماذج الأولية لخوارزميات توليد وصف الصورة السائدة اليوم في وحدتين: التشفير المرئي مع وحدة فك ترميز اللغة . الأول مسؤول عن فهم المحتوى المرئي ويرمز اللغة المرئية إلى تعبير مميز غني بالمعلومات الدلالية ، بينما يقوم الأخير بفك شفرة وصف اللغة المطابقة وفقًا لتعبير الميزة المشفرة.

الاتساق الذاتي:

تبدأ نقطة انطلاق ثقافاتهم الخاصة مع الأطفال الصغار ، وتشكل تدريجياً نظامًا كاملاً ومتسقًا ذاتيًا. وينطبق الشيء نفسه على الرؤية واللغة. في موجة التعلم العميق ، تتقدم كل من الرؤية واللغة باستمرار ، مثل فهم المحتوى المرئي (الفهم البصري) من مواد ذات مستوى منخفض إلى دلالات عالية المستوى ، أو تطور من كلمة واحدة إلى تسلسل الكلمات بالكامل نمذجة اللغة (نمذجة اللغة).

النموذج البصري واللغوي في هذه المرحلة هو في الأساس سلسلة بسيطة من التشفير البصري وفك تشفير اللغة. بأخذ مهمة توليد وصف الصورة كمثال ، غالبًا ما يكون تركيز البحث في هذه المرحلة هو كيفية تحليل المزيد من المعلومات الدلالية عالية المستوى من المحتوى المرئي للصورة ، ودمج هذه المعلومات الدلالية في عملية التشفير المرئي لتحسين الخصائص المرئية لمخرجات التشفير التعبير. هذه الفكرة البحثية هي أيضا سياق سلسلة عملنا في السنوات الثلاث الأولى ، وهي السمات- > علاقة- > الهيكل (التسلسل الهرمي) .

كما هو موضح في الشكل أعلاه ، أولاً وقبل كل شيء ، في عام 2017 ، حاولنا إدخال سمات دلالية عالية المستوى في عملية ترميز المحتوى المرئي. ولا يحتوي فقط على كائنات بارزة في الصورة ، ولكن يحتوي أيضًا على معلومات المشهد في الخلفية. بعد الحصول على السمات الدلالية عالية المستوى ، لا يمكننا فقط دمج ميزات السمات الدلالية في ميزات التشفير (LSTM-A) على مستوى الميزة ، ولكن أيضًا "نسخ" كلمات السمات الدلالية المعترف بها مباشرةً إلى الوصف الذي تم فك ترميزه (LSTM-C ). ثم في عام 2018 ، مستوحاة من استخدام Bottom-Up لكواشف الأجسام للحصول على ميزات منطقة كائن عالية الأداء ، قمنا باستكشاف العلاقة بين الكائنات (GCN-LSTM) لبناء علاقات دلالية ومكانية بين الكائنات الشكل ، وبالتالي تعزيز فهم الصورة. على الرغم من أن الرسم البياني للعلاقة بين الكائنات يقدم المعلومات الدلالية للعلاقة بين الكائنات بشكل فعال ، إلا أنه لا يزال لا يستطيع التعبير بشكل كامل عن الدلالات الغنية الموجودة في الصورة بأكملها. لذلك ، في عام 2019 ، نقترح بنية دلالية متعددة المستويات تشبه الشجرة (HIP) ، والتي تتضمن المعلومات الدلالية من مثيل الكائن بعد التجزئة الدلالية إلى منطقة الكائن المكتشف إلى المستويات المختلفة للصورة بأكملها. من خلال بنية الشجرة هذه ، من الممكن ترميز الصلة الدلالية بين المستويات المختلفة للكائن لفك شفرة نص أكثر دقة.

"" التفاعل:

المرحلة الأولى من التطوير البصري واللغوي متسقة ذاتيًا ، ويمكن اعتبارها تاريخ التطور المستقل لكل ثقافة ، كما أن نماذج الخوارزمية المشتقة هي في الغالب سلسلة بسيطة من برامج التشفير المرئية وفك تشفير اللغة. ومع ذلك ، لا يمكن أن تكون ثقافة بمفردها في التنمية ، والمصالحة والتفاعل أمر لا مفر منه. ولذلك ، فإن رؤية ولغة اليوم تدخلان تدريجياً مرحلة التفاعل ، والغرض من ذلك هو تعزيز تفاعل المعلومات بين المشفر المرئي ومفكك اللغة.

آلية الانتباه هي أكثر الوسائل النمطية لتفاعل المعلومات بين الطرائق المختلفة. يمكن أن يستنتج منطقة الصورة التي تحتاج إلى الاهتمام في التشفير الحالي من خلال الحالة المخفية لمفكك الشفرة في كل لحظة ، وبالتالي مساعدة التشفير على فهم محتوى الصورة بشكل أفضل. كما هو موضح في الشكل التالي ، ستحصل آلية الانتباه المبكر والاهتمام الناعم على وزن الانتباه المقابل للمنطقة وفقًا للانصهار الخطي للميزة الشرطية Q (الحالة المخفية الحالية لمفكك الشفرة) والميزة K لكل صورة منطقة محلية ، ثم كل اهتمام تعمل أوزان القوة على ميزات المنطقة المحلية V لتحقيق تشفير تجميع ميزات الصورة. في العامين الماضيين ، ظهرت مجموعة متنوعة من آليات الانتباه التي تمت ترقيتها ، مثل الاهتمام من أعلى إلى أسفل (من أسفل إلى أعلى) ، والاهتمام متعدد الرؤوس (المحول) الذي يلتقط العديد من الانتباه في نفس الوقت ، واستخدام البوابات. مزيد من تصفية الانتباه على الانتباه (AoANet).

عندما نراجع آلية الانتباه التقليدية ، يمكننا أن نجد أنها غالبًا ما تستخدم الانصهار الخطي لأداء تعلم التفاعل عبر الوسائط المتعددة الوسائط ، لذا فإن جوهرها ينقر فقط على تفاعل الميزة من الدرجة الأولى بين الطرائق المختلفة ، مما يحد بشكل كبير من آلية الانتباه. دور الرؤية واللغة في مهمة التفكير المعقدة للمحتوى عبر الوسائط. استجابة لهذه المشكلة ، في عمل CVPR 2020 الأخير X-LAN ، أنشأنا آلية اهتمام X-Linear يمكن أن تحقق تفاعلًا عاليًا للميزة. يمكنه استخدام تقنية الانصهار الثنائية لفرز معلومات تفاعل الميزة من الدرجة الثانية وحتى الدرجة الأعلى بين الطرائق المختلفة لتحسين فهم المحتوى عبر الوسائط.

في الوقت نفسه ، يمكن استخدام انتباه X-Linear كمكوِّن إضافي مرن للوصول إلى العديد من نماذج إنشاء وصف الصور الشائعة ، مما يحسن إلى حد كبير من إمكانات تفاعل ميزة التشفير وفك التشفير داخل الطرائق وعبرها. لقد اختبرنا أيضًا نظام توليد وصف الصور المصمم على نظام التقييم الأكثر موثوقية عبر الإنترنت COCO ، ووصلنا إلى المستوى الأول في العالم في مؤشرات متعددة (كما هو موضح أدناه).

"" تكافل:

على الرغم من أنه يمكن ترقية فهم المحتوى البصري بشكل مستمر من خلال التصميم والتعمق الدلالي لشبكات عالية الأداء المختلفة ، فقد تطورت أيضًا طريقة التفاعل بين الرؤية واللغة من الاهتمام الناعم التقليدي إلى الاهتمام الخطي الذي يلتقط تفاعل المعلومات عالي المستوى ومع ذلك ، لا يزال التطور التقني للرؤية واللغة لا يمكن أن يفلت من جشع التعلم العميق لبيانات التدريب. إن COCO أكثر من 120،000 صورة وحوالي 600،000 جمل مسماة يدويًا تقيد بشكل طبيعي التطوير الإضافي لتقنية توليد وصف الصور. سواء أكان فهم المزيد من الأشياء ، أو التعبير عن لغة أوسع ، أو المطابقة الدقيقة للغة المرئية والأكثر جوهرية ، هناك حاجة إلى المزيد من بيانات التعليقات المرئية واللغوية الأكثر دقة والأوسع نطاقًا لدعمها. فكيف تكسر حاجز بيانات اللغة المرئية؟ كيفية كسر عنق الزجاجة من الخوارزمية الحالية؟

عندما يفكر الناس في ثقافة معينة وحتى أنهم مرتبكون ، فهذا يعني أن نقطة انطلاق جديدة ستظهر. لذلك ، في الوقت الحاضر ، تحتاج الرؤية واللغة أيضًا إلى الدخول في مرحلة جديدة ، والغرض منها هو استكشاف أهم الصفات التكافلية الأساسية بين الاثنين على نطاق أوسع من البيانات ، وبالتالي تعزيز تحويل أكثر حرية بين الأوضاع المختلفة. على وجه التحديد ، نحتاج إلى معرفة العلاقة الأكثر أهمية بين الاثنين حول الإشراف الضعيف الضخم وحتى بيانات اللغة المرئية غير الخاضعة للرقابة ، ومن ثم إعطاء النموذج حيوية في مختلف المهام البصرية واللغوية.

قد يكون التدريب المسبق للغة الرؤية ، الذي ظهر للتو ، هو المفتاح لكسر اللعبة. يتم التقاط بيانات اللغة المرئية تلقائيًا بمساعدة صفحات الويب الضخمة ، مثل التسميات التوضيحية المفاهيمية (https://ai.google.com/research/ConceptualCaptions/) والتسميات التوضيحية التلقائية على GIF (http: //www.auto-video-captions. أعلى / 2020 /) ، يمكننا تدريب نموذج التشفير - فك التشفير العام مسبقًا. هذا بالضبط بسبب السمات التكافلية للغة المرئية المستفادة من البيانات الضخمة التي يمكن أن يوفرها نموذج التدريب المسبق هذا في جميع الاتجاهات للرؤية واللغة في مختلف المراحل النهائية ، مما يكسر قيود بيانات التدريب المرئي واللغوي في كل مهمة في اتجاه المصب فهم وتحويل بين الوسائط بين رؤية وصورة "الوحدة الكبرى".

في الوقت الحاضر ، تم تطبيق هذه التقنيات من معهد Jingdong AI Research في Jingdong. على سبيل المثال ، تحاول مشاهد مثل البحث عن صورة المنتج ومراجعة الصورة أيضًا دمج تقنية الرؤية واللغة في حوار محسن متعدد الوسائط يحركه المهام لتحسين كفاءة التفاعل بين الإنسان والحاسوب وتجربة المستخدم.

الخلاصة: الفضول هو مصدر إبداع الأفراد أو المؤسسات ، ويبرز الإنجاز في مجموعة تقييم توليد الصور الرسمية COCO المستوى العالمي الرائد لمعهد Jingdong AI Research في مجال الرؤية واللغة. سوف يستخدم JD.com سلسلة التوريد الذكية و "البنية التحتية الجديدة" كنقطة انطلاق لمساعدة الحكومة والمؤسسات والأفراد على تنفيذ التحول الرقمي والشبكي والذكائي ، وأصبح جوهر JD.com مع التجزئة والخدمات اللوجستية والتكنولوجيا الرقمية. تخطيط الأعمال هو القناة الأساسية للتقنية الخارجية وخدمة JD.com. يعتمد أحد الجوانب على استراتيجية تقنية "ABCDE" ويحافظ على أحدث الأبحاث التكنولوجية والفضول ، أي "استخدام الذكاء الاصطناعي (AI) كدماغ ، والبيانات الضخمة (البيانات الكبيرة) كأكسجين ، والسحابة (السحابة) كجذع ، وإنترنت الأشياء ( الجهاز) هو العصب الحسي ، مع الاستكشاف المستمر (الاستكشاف) كفضول ".

نيكون Z6 يأخذك للاستمتاع المهنية تجربة اطلاق النار الجزئي واحد

مجد مجد 30 سلسلة والتي يتوقع أن تنفق IMX700 يلة السوبر أسفل كبير بقاء قوة ضربات الشمس

شينخوا TERRACE: صورة جميلة ضبابية في يوم ربيعي مذهلة

شينخوا TERRACE: صورة جميلة ضبابية في يوم ربيعي مذهلة

"شيانغ هوى كبار المزارعين يعيشون" يأخذك إلى لقاء شيانغشى مياو Baojing الشاي الذهبي

فيديو | رئاسة جياشينغ الوردي: قصة السمك الوردي، وهناك عصا

وجبة لا تنسى في شونان

قواعد التربية الوطنية جولة شو شيا هان البيت: قتل شيا هان، والناس في وقت لاحق

الآن للهاتف حيث لشراء بأسعار معقولة؟ Jingdong تجديد الموسم مفاجأة أكثر

تركز حقا على الرياضة PowerBuds Amazfit سماعات الرياضية مراجعة

المريخ الجديد X5 المطبخ متكاملة: تجعلك يحبونني 10 أسباب

5GHz توربو الذي لا يقهر القوي! الجيل العاشر H عائلة المعالجات إنتل كور لم يولد إلا لعبة