نسخة فيديو ImageNet؟ ماهر المشاركة في مسابقة النمذجة اهتمام المستخدمين | المرفقة أعلى ثلاثة البضائع الجافة

Leigang من الجزء السفلي من راحة غير معبد،

إنتاج و qubit | عدد ملفه QbitAI

ألف الرسم سهلة القراءة، فيديو صعوبة في القراءة.

ربما كنت أفهم إلى حد ما، مما أسفر عن مقتل أربعة في دراسة متعمقة من خوارزميات منظمة العفو الدولية في صلب الجهاز في فهم جوانب الصورة والصوت، وما إلى ذلك حققت تقدما كبيرا، فهم محتوى الفيديو لا يزال هناك شيء صعب للغاية.

التحدي هو شيء أكثر من ثلاثة :

أولا وقبل كل شيء، إعلامي أنها ليست كلمات بسيطة يمكن تلخيص محتوى الفيديو.

صورة تساوي ألف كلمة، صورة واحدة فقط تحتوي على الكثير من المعلومات، فمن الصعب أن تصف في كلمات قليلة، ناهيك عن هذا فيديو قصير أشكال الوسائط الغنية.

ثانيا، متعدد الأبعاد ، الفيديو رؤية والسمع هو المتعدد الوسائط ناقل المعلومات الانصهار.

عمق المتعدد الوسائط آلة فهم الدلالات تسمح أعمق فهم للمعنى وراء شريط فيديو قصير، ولكن أيضا تواجه العديد من التحديات، مثل كيفية توليد صورة بكسل ارتباط الموجي أو الطيفية الكلام.

وأخيرا، وكانت صناعة دائما عدم وجود مجموعات كبيرة من البيانات .

أكبر وأكثر تحديا مجموعة من البيانات، لا بد أن تلعب دورا كبيرا في الأوساط الأكاديمية والصناعة لتشجيع البحث والممارسة الاتجاهات، مثل تصنيف الصور في ImageNet، والكشف عن الهدف في COCO، وللفيديو قصيرة، لم يكن هناك مجموعات كبيرة من البيانات.

ولحل هذه المشاكل، وليس بين عشية وضحاها لاستكمال الجهد، ولكن إذا من الآن فصاعدا لبناء مجموعة مقنعة من البيانات، يمكن توقع المستقبل.

لذلك، عرف ماهر: منازلهم TA منظمة الصحة العالمية. إلى مئات الملايين من مستخدمي منصة فيديو قصيرة، وليس فقط لديها الكثير من البيانات والفيديو ماهر، والبيانات والفيديو لديه سلوك المستخدم واسعة النطاق. من خلال التنبؤ سلوك المستخدم واسع لتحديد مزايا محتوى الفيديو لفهم الخوارزمية، وليس فقط كمية البيانات بما فيه الكفاية كبيرة، ولكن أيضا بما فيه الكفاية موضوعية.

وهذا هو أيضا ماهر الجمعية الوسائط المتعددة المشتركة الصينية، وشارك في تنظيم برعاية العضو مسابقة النمذجة الفائدة الأسباب.

النمذجة اهتمام المستخدمين

وكما يوحي اسمها، لعبة حول المستخدم مهتمة في النمذجة، والأساسي هو للاستفادة الكاملة من الفيديو لفهم المحتوى من مصلحة المستخدم استخراج البيانات AI، بحيث التوصية الفيديو المستخدم هو أكثر دقة، وAUC النهائية أعلى انتصارات النتيجة.

يوفر عددا من الحساسية كراع، بعد ماهر ينقر المستخدم، والتفاعلات الأخرى الثناء والانتباه البيانات، مع توفير ميزة البصرية من هذه الأعمال تغطية وملامح الوجه وملامح النص وصفها، ليصبح مجموع ميزات البيانات 3W + المستعمل، 920w + فيديو، و6000W + البيانات السلوكية .

ومن أجل تحفيز المزيد من المتسابقين، ماهر أنشئت خصيصا 30W + الجائزة . 3 نتائج الفريق لمدة ثلاثة أشهر، وتنقسم الى التصفيات ونصف النهائي، وأخيرا اتخاذ أعلى 10 جوائز، الجائزة الأولى من 200،000 $، الجائزة الثانية 50،000، 30،000 جائزة، بالإضافة إلى اثنين المهوسون جائزة جائزة مليون و 5 الفائز من ثلاثة آلاف دولار، مع مجموع جوائز إجمالية تصل إلى 315،000 يوان.

وبالإضافة إلى ذلك، في المرتبة إعادة النظر في أعلى 30، ولكن الوصول أيضا مباشرة في أي وقت قبل مقابلة التخرج ماهر.

قد يبدو هذا التجديف.

 البيانات تدريب المنافسة المقدمة

مهام محددة، يجب أن تكون على غرار لاعبين من قبل مستخدم المهتمة في الفيديو وتفاعلية مجموعة البيانات سلوك المستخدم، ومن ثم يتوقع أن ينقر المستخدم على مجموعة البيانات فيديو آخر.

ومن الجدير بالذكر أن معرف الفيديو من هذه مجموعتي البيانات تقاطع فارغ.

وهذا ما يجعل هذه المسابقة وفي معظم مسابقة النمذجة اهتمام المستخدمين الماضية هي مختلفة جدا، لاعب يجب أن يفهم تماما النتائج باستخدام الفيديو المقدمة من خوارزميات منظمة العفو الدولية، ومحتوى الفيديو المكرر إلى نقطة ربط مجموعتين من البيانات.

سواء في المجال الأكاديمي أو الصناعة، وهذا هو المشاكل الصعبة والجديدة.

في فهم ماهر من المحتوى

ومع ذلك، يتم حاذق مثل هذه المشاكل في الواقع تم تدريب كل يوم وحلها.

الآن منصة ماهر بأكملها، التي تراكمت لديها بالفعل أكثر من 5 مليارات الفيديو المستخدمين النشطين يوميا أكثر من 120 مليون نسمة، هي شخصية منتجاتها المنطق الأساسي توصيات محتوى الفيديو.

من جهة، وهذا يتطلب فهم محتويات بما فيه الكفاية القصوى للجهاز، من مجموعة متنوعة من الأبعاد، والاستخدام الشامل للمجموعة متنوعة من التقنيات لتحليل فهم من شريط الفيديو القصير، ومن ثم فهم تطبيق النموذج أن يوصي.

من ناحية أخرى، أمن المحتوى معلقة في كل شركة إنترنت رئيس السيف المسلط على رصد حالات الإساءة غير قانوني، وفهم آلة لحماية المحتوى يقلل كثيرا من القوى العاملة المطلوبة للاستعراض الفيديو الأصلي بالعكس . بحث فيديو، يتطلب تسويق أيضا فهم متعمق للجهاز الفيديو.

الأسباب المذكورة أعلاه، هو لماذا ماهر على استعداد لانفاق القوى العاملة، من أجل التوصل إلى البيانات، بشدة السبب الأساسي ممتاز من الإدخالات.

الدماغ المتسابق

ضمن استخدام ماهر AI لفهم فريق الفيديو يسمى محتوى الوسائط المتعددة قسم فهم (التفاهم الوسائط المتعددة) ، يشار إلى أن MMU، وفريق يسعى لخلق "بسرعة الدماغ."

رئيس القسم لى يان، أيضا في هذه المسابقة، وتقاسم فكرة الأساسية لبناء قسم التكنولوجيا.

فيديو من الصعب فهم السبب، لأن الكثير من القدرة على عرض AI الحالي، لا تزال في الصورة والصوت وغيرها من جوانب الإدراك، ومع ذلك، هو تراكب الفيديو من اثنين، ما يسمى متعددة الوسائط، والتي تتجسد معظم تماما في هذا، ولكن في هذه AI بدأت الحقل فقط.

وبالإضافة إلى ذلك، وتحديد الفهم الدلالي رفيع المستوى من منظمة العفو الدولية يمثل مشكلة خطيرة.

تعتبر حلول، يعتقد لى يان أن محتوى الفيديو ينقسم إلى إدراك فهم يفكرون في مرحلتين من جوانب كبيرة.

مرحلة التصور، ماهر أساسا من تحليل رباعي الأبعاد لفهم محتوى الفيديو على التوالي والوجه والصورة والصوت والموسيقى.

من بينها، والمعلومات وجهه تحتل في الفيديو الاجتماعي في هذا المنصب المهم، والحاجة إلى الكشف عن الفيديو الوجه، وتتبع، وتحديد وتحليل سن الناس في الفيديو والجنس وغيرها من الممتلكات، وبنقرة واحدة من المعلومات من 3D الشكل والتعبير وهلم جرا.

صورة ثلاثية الأبعاد، من خلال تصنيف، الكشف عن وجوه خوارزمية تحليل المشهد، وجوه، يتم تنفيذ خوارزمية الصورة على تقييم جودة شخصي، من خلال المعلومات الشخصية OCR المدرجة في الصورة عن طريق تحليل تحليل جودة الصورة.

صوت، وليس فقط إلى التعرف على الصوت، ولكن أيضا الاعتراف اللغة، والمزاج المتحدث والعمر وغيرها من تحليل المعلومات سمة صوت.

الموسيقى، والموسيقى وإجراء تحديد والغناء، ومرافقة منفصلة، والغناء وغيرها من المهام تحليل المناظر الطبيعية التهديف، ويتمحور المعلومات الموسيقى.

بناء على ما سبق أربعة أبعاد، لاستكمال التصور منخفضة من المعلومات الدلالي الفيديو.

بعد الانتهاء من هذه المهام، وآلة التفكير قبل دخول المرحلة. احتياجات الجهاز استنادا إلى مرحلة الانتاج الإدراك، والفيديو ينظر ككل، والتصنيف والوصف والاسترجاع.

وبالإضافة إلى ذلك، مثل المعرفة المكتسبة سوف تبقي إلى الدماغ، مما يعطي الجهاز وتنظيم محتوى الفيديو المخزنة في الرسم البياني المعرفي، النهج الرئيسي هو حاليا ماهر، بحيث التكامل ومحتوى علم المعرفة ورسم الخرائط، بحيث فهم والعواطف تصبح رفيعة المستوى الفيديو الدلالي ممكن.

ومن الجدير بالذكر أنه من أجل تحقيق فهم محتوى الفيديو، وكذلك حجر عثرة في التغلب عليها.

التحديات والمستقبل

مباشرة جدا وواقعية، والتكنولوجيا AI الحالية لا تزال في اعتمادها الكبير على خشبة المسرح الشرح اليدوية.

وهذا يتطلب إنسان يجلس أمام الكمبيوتر، وإطار واحد وضع علامات للمساعدة في فهم أفضل للآلة. هذا النهج ليس فقط التكلفة العالية، وانخفاض الكفاءة، ولكن أيضا لأعضاء علامة ممل جدا. مستقبل الحد من الشرح الإنسان، أو السماح الجهاز لأكثر ذكاء لفهم محتوى جديد، هو واحد من الاتجاه الأساسية للتطور AI الخوارزميات.

هذه هي أيضا واحدة من الأسباب الأساسية لإطلاق ماهر مسابقة النمذجة اهتمام المستخدمين، أملا في التدريب، وجذب المزيد من القوة الشباب، وأضاف في طليعة هذا التغيير المستقبل AI.

في السنوات القليلة الماضية، فهم ماهر الوسائط المتعددة فريق خوارزمية المحتوى ديها ما يقرب من 100 من كبار الباحثين والمهندسين R & D، والغالبية العظمى من أفراد R & D دينا العديد من سنوات الخبرة في العمل BAT، الباحث الخوارزمية الأساسية مع أكثر من عشر سنوات من البحث والتطوير الخبرة.

جامعة تسينغهوا هناك، والأكاديمية الصينية للعلوم، HKUST، جامعة نانجينغ، وتدفع، جامعة كيوتو وغيرها من طلاب الجامعات في الداخل والخارج للانضمام ماهر، والبحوث لتحقيق التكامل، لإنشاء آلية تدريب أفراد النسق.

ولكن لى يان أكد أن كل شيء ليس كافيا.

ماهر نريد أيضا أن تجد أكثر اهتماما في رؤية الكمبيوتر، والتعرف على الكلام، فهم محتوى الفيديو، الأفراد ذوي الصلة الاعتراف الحقول الوجه وإعادة الإعمار 3D.

لى يان يعتقد ماهر حاليا لديها موارد البيانات، فضلا عن كونها حاولت التصدي، سوف يكون وزن مهم في جذب المواهب.

أكثر شيء واحد

وأخيرا، أيضا إرفاق هذه المسابقة النمذجة الفائدة الدفاع الجاف .

مسابقة نداء الحلول لاعب TOP10، قائلا: الإطار، نوعين من التفكير.

إطار

هنا ليس هذا هو الإطار خوارزمية الإطار، ولكن في التعامل مع مثل هذه القضايا من خلال استخدام التعليمات البرمجية. يتيح هذا الإطار خوارزمية بسيطة يمكن التحقق منها بسرعة عند معالجة البيانات المختلفة.

الفكرة العامة هي لتصميم إطار متلازمة فصل وفصل إلى أنواع بيانات مختلفة. متلازمة معزولة يشير أساسا إلى مصادر بيانات مختلفة.

تصنيف ميزات المستخرج، مثل متلازمة سلوك المستخدم، مجموعة ميزة البصرية وما شابه ذلك. حيث كل مجموعة يمكن تقسيمها إلى الميزات منفصلة متتالية أو الخصائص، مثل مجموعة مميزة البصرية قد يشكلون المستمر تخفيض المميز بعدا وخصائص تجميع، وما إلى ذلك من الفيديو منفصلة.

وهذا له ثلاث مزايا:

  • للميزات المكتشفة حديثا يمكن أن تعرف بسرعة أي جانب من نموذج تطبيق لتسهيل خصائص التوسع.
  • ويضم مجموعة ميزات مستقلة والتي يمكن تحديد موقع خط لتحقيق مكاسب تأثير الحد الأقصى بسرعة. حيث فصل رمز، وإطار التنمية، وتخفيض تكلفة إلى حد كبير ملامح وأضاف في وقت لاحق.
  • ويوضح الشكل التالي تصميم إطار نموذجي:

    عموما، وتنقسم اللعبة إلى الميزات: الميزات الأصلية، ميزة تضمين، وبلغ ميزات. هذه الميزات أيضا تقسيمها إلى الميزات منفصلة والميزات مستمرة. لذلك إطارا جيدا، ابتداء من التصميم يمكن النظر تماما هذه البيانات أن يكون التوسع جيدة من هذه الميزات في مرحلة لاحقة.

    معظم اللاعبين مسابقة للبيانات المقدمة من السمات المميزة تنقسم الى عدة مجموعات، حيث كل مجموعة يتوافق مع مجموعة كبيرة من البيانات المدخلة، واستخراج ميزة ثم بشكل منفصل لكل مجموعة الميزة.

    متى سيتم تقسيم ميزات تصميم الإطار وفقا لفئات مختلفة. القيام مجمع ذلك باستخدام إطار كود وقت ممكن.

    نوعين من التفكير

    آلة التقليدية تعلم الخوارزميات لاعب الأفكار يمكن تقسيمها إلى فئتين، استنادا إلى خصائص المشروع بالإضافة إلى نموذج تعديل المعلمة ممثلة.

    ويستند عمق خوارزمية التعلم على البنية الطبقية بالإضافة إلى نموذج آخر آلية الاهتمام .

    ويستند الميزة الرئيسية لهذا المشروع على الفريق الأول، ممثلة فولدمورت، هو النموذج الرئيسي الثاني، وثلاثة فرق.

    بالطبع، هناك بعض اثنين من خوارزميات تتقاطع عملية محددة للتنفيذ، ولكن التركيز لديه تنفيذ مختلف.

    الاسم الأول "فريق فولدمورت" يضم أعمال

     هيكل الشبكة من الثانية، ثلاثة

    وعموما، فإن ملامح الهندسة تتطلب بيانات حساسة للغاية، ولكنها تحتاج أيضا لديها فهم أفضل من ماهر التطبيقات نفسها، لمعرفة عادات المستخدم، مع وجود رائحة قوية من البيانات.

    تصميم نموذج الأكبر من العمل هو لضبط معلمات الشبكة اللازمة لطبقات مختلفة من النموذج، قدرة عالية بين الشبكات المختلفة. قد نموذج عمق ضمنا استخراج البيانات ميزة، مع التجريد بيانات جيدة.

    بالطبع، إذا كنت ترغب أيضا في معرفة المزيد من المعلومات لعبة وسائط متعددة فهم المحتوى، وأرحب مكان عام وأرقام تجنيد ماهر.

    كما أننا نأمل أن يكون مجموعات بيانات أكثر مماثلة فتح، عقدت مسابقة مماثلة، سواء كان لهذه الصناعة ليحل المشكلة، أو تحقيق وتدريب الموظفين، وفي نهاية المطاف يمكن أن تعزز التقدم الشامل للبحوث إلى الأمام.

    آه، أيضا، ينبغي تشجيع -

    - كامل  -

    التوظيف الصادق

    المكدسة تقوم بتجنيد محرر / مراسل، ومقرها في تشونغ قوان تسون في بكين. نتوقع الموهوبين والطلاب المتحمسين للانضمام إلينا! مزيد من التفاصيل، يرجى و qubit عدد الجمهور (QbitAI) واجهة الحوار والرد "تجنيد" كلمة.

    و qubit QbitAI عناوين على التوقيع

    ' " تتبع تقنيات AI دينامية جديدة والمنتجات

    بنز GLK أيام محرك الأقراص الثاني 4 ثانية، وخطوة على الغضب الكلمة أكثر من 1 متر النفط الطريق الاسمنت، قد يفاجأ نتائج

    "أنا أكره جوجل مركبة غير مأهولة"

    خسر 17 مباريات التصفيات 13 مباراة! الصاعد عقلية الحصول على النار، أو الغضب من أربع نساء Shenlei!

    زانج زيه، ميمة إيتو تهيمن على بطولة جميع اليابان

    سور الصين العظيم احد آخر، لديك لبيع 50000 انقرضت، WEY هارفارد بيع في الله يمكن حفظه

    ماسي الشهر الماضي للمشاركة في كأس العالم بقدر فحص المنشطات الناس!

    كبير B-الله الحديث: صغيرة سرا نقل الهاتف، ونتيجة لخطأ تحويل 3000 $ إلى المالك

    انتهى "شنغ Shizhi كأس مكتبة" تنس الطاولة، والتبرعات الثناء الموقع وون

    أطلقت في تشنغدو معرض السيارات مجموعة متنوعة من السيارات الجديدة وهيونداي وكيا تحولت حقا حتى الآن؟

    أسنان عين لمذيع طفل ثان أيضا فاكر الذهب اليد اليسرى فارس؟ اللاعبين: أحياء تلعب سكين الذكور!

    المجر فتح: فان تشن دونغ أول جولة سوي في يينغ "حرب أهلية"، وشبه يانغ تشانغ تشيانغ التأهل الخروج

    ميتسوبيشي سيارات الدفع الرباعي هو موطئ قدم قوي في الصين، "بطل"، وسعر الملفوف تباع لمدة 15 عاما!