استرجاع فك ميتو بيانات الوسائط المتعددة ضخمة DeepHash

لى فنغ شبكة AI تقنية الصحافة، المقدمة هنا لجمال سحابة تكنولوجيا الرؤية فريق المشروع قطاع التجزئة لAI تقنية مراجعة المواد الحصرية، ولا يجوز استنساخها دون إذن.

"ميتو فيديو قصير في تصنيف في الوقت الحقيقي التحدي MTSVRC" أيضا مؤخرا رسميا في التحدي من خلال رؤية الحاسوب الصين والمؤتمر الاعتراف نمط، من قبل شركة ميتو، الأكاديمية الصينية للعلوم في معهد التشغيل الآلي وشارك في تنظيمها المنظمة. قناة شبكة لى فنغ AI تقنية الاستعراضي منتجات قواعد البيانات الأكاديمية "AI عامل التأثير"، وقطاع تكنولوجيا الرؤية ميتو سحابة مع AAAI 2018 أوراق الفم وتنظيم الأحداث ذات الصلة بعمل جيد، وهذا التفسير مع التكنولوجيا الحصرية أيضا الحصول على نقاط المقابلة.

ميتو هي شركة مع كميات هائلة من البيانات والوسائط المتعددة، وكيفية تحليل وفهم محتوى البيانات للخروج من المعلومات المفيدة، وضعنا قدما تحديا كبيرا. في هذه الورقة، للفوز على الولايات المتحدة العمل، على سبيل المثال، أن نقدم محتوى فيديو قصير على تحليل البيانات الضخمة وفهم التنقيب على نطاق واسع والممارسة الاتجاه استرجاع.

التشابه بحث الوسائط المتعددة البيانات يمكن أن يفهم ببساطة وسائل الإعلام المختلفة للتعبير عن ميزة الإبداعية وبعد ذلك بحث ويتميز النوع في الفضاء المقابلة. التعبير المميزة بطريقتين: يتم استخراج واحدا تلو للطريقة التقليدية من الميزات البصرية، مفتاح ميزات مثل الرسم البياني اللون، والآخر هو لاستخراج معالمه مستوى الأساسي الدلالي أو ميزة (عمق ميزة) استنادا إلى دراسة متعمقة. ميتو DeepHash على نطاق واسع بيانات الوسائط المتعددة نظام استرجاع استنادا إلى تقنيات عمق التجزئة. ويعتمد هذا النظام على الوسائط المتعددة الهائلة البيانات، الخوارزميات والخدمات وتنقسم إلى وحدتين.

/ DeepHash الفيديو خوارزمية التجزئة /

نحن أطلق النار على محتوى الفيديو القصير للعقارات الولايات المتحدة، من تسميات لتطوير معالجة البيانات خوارزميات لتصميم الشبكات والجوانب الأخرى وضعت سلسلة من تخصيص استراتيجية خوارزمية الأمثل للمضي قدما.

قبل مناقشة حلول تقنية محددة، دعونا نفكر في مشكلة: كيف لوصف الفيديو؟ قبل استخدام تقنية الفيديو التجزئة، ونحن نستخدم التسمية لوصف نظام الفيديو. يبين الشكل (1) التي تتخذ من الولايات المتحدة أكثر العلامات شيوعا النظام، والموسيقى، والحيوانات الأليفة، والرقص، والدروس، وأشرطة الفيديو مع خلل العلامة نظام الوصف: العلامة أساسا لكلمات محتوى الفيديو باختصار، صفية، مقارنة مع كمية المعلومات الواردة أقل من ذلك، لا ينعكس المعلومات في بعض التفاصيل، والعلامة هي وصف منفصلة. الإنسان هو شريط فيديو يصف كيف ذلك؟ غادر العليا ركن من أركان قطات فيديو، على سبيل المثال، سوف القراء الإنسان يقول: إنه اثنين يرتدون ثوب أزرق شاحب فتاة صغيرة كان يلعب الغناء الغيتار. وبالتالي فإنه يمكن العثور عليها يتم استخدام البشر لوصف الخصائص البصرية للفيديو ومعلومات غنية الواردة في أبعاد مختلفة، فمن وصف المستمر، من الواضح أن هذا هو وسيلة أكثر معقولية وصفها.

الشكل (1)

وعلاوة على ذلك، مع تسميات لوصف المشاكل الفيديو التالية.

1. معلومات مهارات ضعيفة، لا يمكن أن تعكس معلومات أكثر الحبيبية. التقاط الفيديو هو مبين في الشكل 2، فتاة ترتدي الملابس الصينية الخضراء الرقص في الحديقة. في تسمية المحتوى هو الرقص، فمن الصعب قراءة المعلومات الأخرى من خلال التسمية. إذا حاولت تسمية نظام أكثر تعقيدا، مثل إضافة مشاهد، وكائنات ونوع الجنس وأبعاد أخرى، قد تجد أنه من الصعب شاملة من جميع الظروف، حتى لو كانت تسمية التكلفة هي أيضا كبيرة جدا.

الشكل 2

2. من الصعب مقارنة التشابه بين المعلومات، والمعلومات من الصعب قياس. كما هو مبين في الشكل (3) العلامة ثلاثة الفيديو هو "الكلب"، فإنه من الصعب أن نميز أي من التسميات اثنين من خلال الفيديو أكثر مماثلة، إذا الميزات المرئية هي من السهل العثور على أعلى الزاوية اليمنى من شريط الفيديو والفيديو على اليسار هي أكثر مماثلة. بالطبع، يمكننا استخدام نوع وعدد من الكلاب لحساب التشابه بين الرقمين، ولكن عندما يكون محتوى الصورة أكثر تعقيدا، وأكثر الأشياء الوقت، وهذا النهج هو صعب التطبيق.

الشكل (3)

التعبير باستخدام ميزات الفيديو

خوارزمية التجزئة فيديو يستخدم لوصف الخصائص البصرية الفيديو، والذي يحتوي على الخصائص التالية:

1. البيولوجي. وتتميز في تتألف من المعلومات حول الأبعاد، أكثر كمية من المعلومات والمحتوى التعبير عنه متنوع.

2. متانة. إذا كان شريط الفيديو اثنين مماثل، وتتميز في أنها تعبير مشابه نسبيا وينبغي أيضا أن تكون مستقرة السمة المستخرجة.

3. المسافة يمكن حساب. ويمكن حساب المسافات بين ميزة، وصفت صفة مسافة اثنين من التشابه، أصغر المسافة، وأكثر شبها محتوى الفيديو.

واستنادا إلى المشهد التطبيق الواسع النطاق من السمات استرجاع الفيديو، مثل توصية مماثلة بصريا الفيديو، واسترجاع فيديو معين، مراجعة الفيديو، والفيديو، وما إلى ذلك الوزن، كما يمكن تجميع الميزات باستخدام التعدين محتوى الفيديو واستخراج ميزة، حيث حفر محتوى الساخن واكتشاف فئات جديدة.

خصائص التعبير

الخصائص المشتركة أعربت بطريقتين: ثنائي ميزات الفاصلة العائمة وخصائصها.

هناك سمتين من حيث تخزين ثنائي، سرعة استرجاع مزايا هامة: استخدام التخزين ثنائي، هي ذات كفاءة عالية، حساب مسافة باستخدام المسافة المبالغة، وأسرع استرجاع. يستخدم تعويم عموما حيث المسافة حساب المسافة الإقليدية أو المسافة جيب التمام، وارتفاع التعقيد الحسابي، وسرعة البحث بطيئة؛ وإضافة الفاصلة العائمة تتميز في مزيد من مشكلة تدخل extremum تؤثر على حساب المسافة. 1 و 0 هي ميزات الثنائية، وخصائص أكثر استقرارا. بناء على ما سبق، ونحن نأخذ يتميز الأعمال التعبير استنادا إلى النموذج ثنائي.

استخراج ميزة هاش

الشكل (4)

يتميز الإجراء استخراج العام عن طريق تجزئة الفيديو: التلافيف الشبكة العصبية استخراج ميزة الفيديو، ميزة تعيينها إلى طول ثابت العائمة خصائص نقطة، حيث طبقة الاتصال الفاصلة العائمة السيني تعيينها إلى القسم مجموعة وراء، الكم في شكل ثنائي من العتبة.

تدريب لاستخراج ملامح نموذج شبكة التجزئة يمكن تقسيمها إلى أشرف وغير خاضعة للرقابة في شكلين. أشرف التعلم القائم على تدريب البيانات مع التسمية، لتكون وظيفة فقدان محددة لتعزيز ملامح القوة التعبيرية. ويتميز هذا التعبير المميزة يخضع للرقابة، يمكن أن أقول لكم ما يتميز هذه الشبكة تركز على التعلم من خلال التسمية، والبيانات التدريبية تحمل اسما غير خاضعة للرقابة التعلم القائم، يعبر عنه عادة من خلال القدرة على تحويل خصائص الصورة نفسها التعلم، وبالتالي فإن الميزة غير التعبير المميزة السيطرة، وهو أمر صعب للتدخل يجب أن خصائص الشبكة التعلم. التعلم غير خاضعة للرقابة لا تزال في مرحلة البحث العلمي، والأعمال التجارية من الصعب استخدام. ولذلك، الخطة الحالية لدينا اعتمدت يشرف خوارزمية البعثرة الفيديو.

الرقم 5

ينقسم تبادل لاطلاق النار عملية تجزئة الفيديو الولايات المتحدة إلى خمس وحدات: العلامات والبيانات والشبكات والتدريب والتنبؤ. لكل وحدة، وحققنا بعض استراتيجية تحسين مخصص بناء على خصائص البيانات ومنطق الأعمال جمال رصاصة واحدة. فيما يلي وصف الأعمال ذات الصلة من هذه الوحدات الخمس.

بطاقة

وقد أطلق النار على الولايات المتحدة مئات من الطبقة نظام وضع العلامات لعمليات المحتوى، وتغطي الولايات المتحدة أطلق النار على شريط فيديو قصير من المحتوى والفئات شيوعا. ولكن هذه التسميات ليست مناسبة للعمل المباشر تستخدم الآن للقيام خوارزمية التدريب، والقضايا الرئيسية التالية:

1. بيانات متفاوتة

الشكل 6 هي لقطة الجمال التسمية توزيع الفيديو الشعبية، يمكنك معرفة حجم كل فئة من البيانات غير متكافئ للغاية. في وقت التدريب خوارزمية إذا كان هناك أقل من عدد من فئات البيانات، ثم الشبكة من الصعب معرفة خصائص هذه الأنواع من مهارات التعلم.

2. لا يمكن فصله البصرية

لا ينبغي تقسيم نظام العلامة التجارية الخصائص البصرية، مما أدى إلى فئات مختلفة من الفيديو لا يتجزأ بصريا. العلامات تأخذ القطار المباشر سوف يسبب الكثير من الخطأ في التصنيف، فإنه من الصعب معرفة خصائص شبكة الاتصال بين مختلف الفئات.

الرقم 7

3. بعد واحد

نظام للعمل وصفها منقسمة بشأن المحتوى الدلالي الأكثر أهمية، لا يمكن أن تنعكس على المعلومات في أبعاد أخرى. مثل الملابس ومشهد والجنس والأبعاد الأخرى لنظام التسمية لا يمكن أن تنعكس. من خلال هذا النظام شبكة قطارات تسمية صريحة لا يمكن معرفة أبعاد أخرى من الميزات.

لهذه القضايا الثلاث المذكورة أعلاه رفعنا علامات متعددة الأبعاد متعددة المستويات. "متعدد الأبعاد" يشير إلى نظام البطاقات يمكن أن تزيد من الأبعاد وفقا لاحتياجات العمل، وينعكس "متعددة المراحل" في تصنيفها، وإنشاء المستوى الأول ليكون فصل بصريا، مثل التطريز، والجمال، وهذه الأصابع الرقص وبمقارنة فئة الصور الشخصية هي مشابهة بصريا، والتي سيتم تقسيمها إلى فئات على أساس المستوى الأول، لضمان انفصال البصرية.

ومع ذلك، فإن متعدد الأبعاد متعددة المستويات نظام وضع العلامات جلب بعض مشاكل جديدة. أولا، كميات هائلة من البيانات متعددة الأبعاد علامات وتكلفة وضع العلامات هي عالية جدا. ثانيا، نحن نأخذ نموذج هيكل الشبكة هو وسيلة شلال، كل من فئة المستوى الأول لديها المقابلة نموذج المستوى الثاني لاستخراج ميزة، ورقم الموديل الكثير من التعقيد الحسابي تكون مرتفعة. من أجل حل هاتين المشكلتين، الذي شهد الأمثل تصميم شبكة البيانات وبطريقتين.

معطيات

اعتمدنا البيانات طريقة العلامات التلقائي، وخفض التكاليف وصفها. كما اتسمت لعدد من التسمية محتوى بيانات الفيديو، نحن بحاجة إلى أن علامات البعد الملابس لها. ثم عملية وضع علامات التلقائي هو:

1. كمية صغيرة من البيانات المسمى.

2. وهناك كمية صغيرة من البيانات مع المصنف منفصل تدريب، عن طريق ضبط درجة من الثقة أن دقة وضع تصنيف للا يقل عن 99، أي إخراج المصنف معين عتبة الثقة عالية فإن النتيجة يمكن الوثوق بها.

3. البيانات المسمى تلقائيا مع هذا التصنيف، وجزء ثقة عالية تحتفظ به ملابسهم. هذا الجزء من ثقة منخفضة لأنك لست متأكدا ما إذا كان تسمية الملابس دقيقة، والتسمية الملابس المشار ذلك بشكل جماعي إلى -1. عندما يكون هذا جزءا من شبكة محدث فقدان البيانات يتم تحديث فقط تسميات المحتوى، لا يتم تحديث تسميات الملابس الخسارة.

شبكة

تتميز لجعل المعلومات الفيديو قد تشكل متعددة الأبعاد، وطريقة متعددة التسمية التي تستخدم للتدريب المشترك التدريب، والحد من تعقيد نموذج متعدد الأبعاد.

الرقم 8

التعقيد الحسابي عالية من نموذج لمشكلة اثنين المذكورة أعلاه، ونحن نستخدم طريقة لتحسين ميزة مشاركة. أن استخراج ميزة مشاركة الفيديو القائمة على تقاسم الخصائص في الفئة الأولى نموذج تصنيف استخراج ميزة، وندعو الفئتين مناسبة وفقا للميزة نموذج نتيجة نموذج استخراج تصنيف الفئة. MobileNet باستخدام كأساس شبكة، استخراج كل البيانات إطار الفيديو الخمسة، نموذجين الاستدلال، في سرعة المعالجة يمكن أن تصل إلى تيتان X 100 فيديو / ثانية.

تدريب

خذ خسارة ثلاثية بطريقة مميزة لتعزيز المهارات في مرحلة التدريب للشبكة. وفقدان ميزات ثلاثية مماثلة تضييق المسافة بين الفيديو، مثل المسافة بين الفيديو سحب بكثير.

الرقم 9

ما مدى فعالية التدريب خسارة ثلاثية عند اختيار الإيجابية والسلبية أزواج عينة هي قضية أكثر أهمية. نختار عن طريق عينات إيجابية استخراج إطار الفيديو الفاصل، على افتراض مستخرج الفيديو 10، حيث 1،3،5،7 و 9 قطع إطار الفيديو الهدف، الإطار الأول هو 2،4،6،8،10 إيجابية قطع عينة إطار الفيديو والفيديو والعينات السلبية قطع من إطارات الفيديو وغيرها من أنواع مختلفة. الاستفادة من هذا هي ذات شقين: 1 الإيجابي عينة الفيديو والفيديو الهدف هو يشبه إلى حد كبير، والتقارب سهلة؛ 2 ضرورة عدم ملحوظ، انخفاض ملحوظ في التكاليف.

توقعات

بعد الحصول على ميزة رمز التجزئة، علينا تحسين استرجاع دقة التعامل مع قناع حسب الفئة. وتلاشى قناع الطبقة الوظيفية مساهمة منخفضة العلم، والإبقاء على العلم المهم.

كما هو مبين في الشكل 10، ونحن نعتقد أن وجود خصائص مختلفة بين مواقف الانقسام. معلومات للعثور سمة هامة من البتات المطلوبة موقف المحفوظة في الطبقة الأخيرة من حق الشبكة الوزن المعلمة.

11 يبين الشكل وسيلة لاستخراج قناع الفئة، وجزء طبقة وسيطة هو ترجيح المعلمة شبكة سرية. شكله هو مساو لعدد مضروبا في فئات طول مميزة، يمثل كل عمود وزن الطبقة المقابلة. عندما نحصل على إدخال الفيديو إلى شبكة أن تجد هذه الفئة بعد الفئة المقابلة لوزن، وزن هذه القيم في عمود القيمة المطلقة الحق، وخفض الطلب، ونحن نجد أن القيمة المطلقة لهذا الوزن الكبير نسبيا الموقف هو خصائص التجزئة موقف أكثر أهمية.

تفاصيل وصف أقنعة فئة تشير إلى ورقة "ديب الثرم مع الفئة قناع سريعة لاسترجاع فيديو"

عنوان ورقة: الشبكي: //arxiv.org/pdf/1712.08315.pdf

يبين الشكل 12 التدفق العام للشبكة. موضوع الموسومة-أساليب التدريب النقابة، بالإضافة إلى خسارة ثلاثية لتعزيز المهارات، وهيكل الشبكة وطريقة استخدام نموذج سلسلة من الخصائص المشتركة. وأخيرا، تخفي فئة لتحسين دقة الاسترجاع.

تأثير

13 يبين الشكل استرجاع النتائج ودقة نموذج FIG. حيث نتائج الاسترجاع في الزاوية اليسرى العليا من الفيديو الهدف FIG هي الفيديو، تليها نتيجة البحث.

/ DeepHash الوسائط المتعددة الخدمات استرجاع /

ويتكون النظام DeepHash المذكور من وحدتين: الخوارزميات والخدمات. أمام الولايات المتحدة لتصوير الفيديو على سبيل المثال، لدينا ميزة الفيديو استخراج خوارزمية التجزئة. التالي نقدم الجزء نظام DeepHash الخدمة.

المهام DeepHash غير متوافر وتنقسم الخدمات عبر الإنترنت إلى المهام. حاليا ولاية بيانات الفيديو الضخمة لتوليد رمز التجزئة كمكتبة ميزة الهدف. وتشمل ميزات محددة تدريبية نموذجية وتوليد وحدتين. UGC البيانات فيديو قصير لديه الوقت المناسب قوي، مختلفة مسألة فيديو الموضوع في فترات زمنية مختلفة، لذلك يحتاج أحدث البيانات على الأعمال التجارية التدريب المنتظم وتحديث النموذج. بعد الحصول على نموذج الشبكة الجديدة، ونحن بحاجة لتوليد الفيديو دفعة معالجة رمز التاريخ تجزئة جديدة، وتحديثات إلى المكتبة ميزة الهدف.

على الانترنت مهمة التجهيز في الوقت الحقيقي هي المسؤولة عن طلبات الاسترجاع، ويتم إرجاع نتائج مماثلة إلى الطالب. عندما طلب البحث على وحدة الاستعلام سوف تذهب إلى ميزة الهدف استعلام قاعدة بيانات ضخمة ما إذا كانت التجزئة الحالية الفيديو المطلوب هو الحاضر، وإذا كان موجودا، ورمز التجزئة باستخدام رمز التجزئة، ويحسب ميزة الهدف من قاعدة البيانات، على غرار العودة أعلى النتائج، وإذا لم يكن كذلك، ثم الخدمة سوف استدعاء نموذج تنبؤي لاستخراج كود تجزئة الفيديو باستخدام رمز التجزئة لاسترداد مكتبة الهدف، في حين أن رمز التجزئة الهدف المتوقع بإضافة مكتبة الميزة.

تطور العمارة

وقد ذهب DeepHash خدمات الدعم من الأولية مكتبة وحيدة الخلية الشعبية الفيديو إلى أحدث إصدار يمكن أن تدعم المبلغ الكامل من البحث عن الفيديو من خلال ثلاث مراحل من النسخة التكرارية والتحسين.

تشغيل نسخة V1.0 الأصلي على عقدة واحدة، فقط من أجل تفتيت قاعدة بيانات التوقيع، وتحسين مواز تبحث عنه، هذا الإصدار يدعم الميزات الأساسية من البحث في قواعد البيانات داخل الملايين.

نسخة تدعم V2.0 المزيد من أشكال وسائل الإعلام استرجاع البيانات، في هذا الإصدار تمكنا من الوصول الصوتية خوارزمية استخراج الميزة. وهو يدعم كل من الفيديو والصوت مماثلة لاسترداد شكلين. لدعم أنواع متعددة من وسائل الاعلام المعالم، تتم فهرسة موحدة V2.0، مجموعة مجزأة (مجموعة: تصنيف أول التنقل إلى فئة، ثم شريحة الاستعلام البيانات) مكتبة لالسمات الأساسية، وتحسين الاستقرار استرجاع. قص إطار الفيديو باستخدام غير المتزامن IO يدعو سيلة للحد من الازدحام.

V3.0 حاليا على تطوير الإصدار الذي يعمل على مجموعة من الحاويات، في حين الأمثل مجموعة استرجاع، والهدف هو دعم استرجاع الوقت الحقيقي من الميزات الهائلة مكتبة مائة مليون القاعدة.

FIG 15 هو التسلسل الهرمي منطق الأعمال لاسترداد الكتلة. حيث الوكيل هو المسؤول عن طلب طبقة التوزيع قد يكون عديم الجنسية التوسع المتزامن عالية، طبقة رجال الأعمال تجهيزها من حزمة البيانات، استدعاء خدمة البيانات لاسترداد طبقة، والنتائج تعبئتها في النموذج الذي يمكن قراءته؛ طبقة البيانات المدى استرجاع الخوارزميات، ونقاط ورقة تحميل البيانات مكتبة ميزة استرجاع في موازاة ذلك، لضمان الاستقرار استرجاع الوقت المناسب.

أداء

التالي نقدم لك مجموعة من أداء نظام استرجاع DeepHash. على الأداء التخزين، وذلك باستخدام تمثيل رمز التجزئة 128 بت من الفيديو، ومتجر للفيديو 100 مليون، ومساحة التخزين المطلوبة أقل من 1.5 GB. على سرعة استرجاع، تشغيل ثمانية الحالات، 1000000 من المبلغ الكامل لاسترجاع قاعدة بيانات ميزة القاعدة، يتطلب 0.35 S؛ مثال 50 باستخدام بقيمة 300 مليون المبلغ الإجمالي من الميزات الأساسية استرجاع المكتبة، سوى 3 ثوان.

الشكل 16: DeepHash في الوقت الحقيقي حل محرك البحث

توقعات

DeepHash هو نظام استرجاع الوسائط المتعددة العالمية، بالإضافة إلى الفيديو والصوت البحث التشابه دعمت بالفعل، فإن وصول المقبل سيكون أكثر من أنواع البيانات سائل الإعلام، مثل زيادة الدعم لاسترجاع الصور والبيانات النصية.

/ الأعمال التطبيق /

حاليا DeepHash نظام خدمة مشابهة لعمليات الأعمال الموصى بها في استرجاع الفيديو والفيديو دي التركيز. وسيكون الاستعراض المقبل الوصول إلى الأعمال التجارية.

طريق الحرير

استرجاع فك ميتو بيانات الوسائط المتعددة ضخمة DeepHash