عندما بدأت منظمة العفو الدولية للفن الدراسة، ونحن يجب أن تشعر بالقلق حيال ذلك؟

ورغم أن هذه النماذج هي الخوارزميات بشكل مثير للدهشة الإنجازات الفنية، ولكن الناس لديهم AI أو تعلم الآلة يمكن أن يكون حقا مثل إذا كان لدى البشر أي شك حول الإبداع الفني. يعتقد بعض الناس أن تراكم شظايا أو تحديد بكسل الحركة التي كتبها النمذجة الرياضية مترابطة لا الإبداع الحقيقي. عيونهم، AI مفقود الشخص نقطة الذوق. ولكن من يستطيع أن يقول بشكل واضح، الدماغ البشري في النهاية هو كيفية تحقيق هذه الإبداعات، حقا أفضل من الآلات؟ كيف يمكننا التأكد من أن رساما أو موسيقيا أو عدم استخدام نموذج رياضي على الطريق - على غرار خوارزمية الشبكة العصبية أنه من خلال تمارين متعددة، وتدريب يعمل لتحقيق ذلك؟

على غرار الهجرة

كلمة قد يبدو مألوفا جدا، ومعترف بها مثل التطبيق الأكثر شهرة من نتائج الفنون AI. هنا هو مثال شائع جدا:

هذه الصورة هي ماذا يعني هذا؟ يمكن أن نفكر في الصورة تتكون من جزأين: المحتوى والاسلوب. يمكن فهم المحتوى كما هو موضح في اللوحة اليسرى: جامعة ستانفورد الرئيسية؛ نمط قد يشير إلى لوحة المتوسطة: ممثل فان جوخ، دوامات، ملونة سماء الليل. الهجرة هي أسلوب في أسلوب صورة نقل إلى أخرى وإنشاء الصورة.

الافتراضات، وهناك صور ج والصورة، ج، نحن استخراج من محتويات صورة جديدة، المستخرجة من النمط في الصورة. يتم إنشاء ذ افترض الصور. ثم ج ذ وجود المحتوى، في حين وجود الصورة الاسلوب. من منظور التعلم الآلي للنظر في هذه المسألة، ثم مجردة وظيفتين، ونأمل أن تقليل ذ محتوى الخطأ وج، مع التقليل من ذ أسلوب الخطأ والصورة.

لذا، وكيفية استخلاص وتوليد الخطأ المحتوى والأخطاء أسلوب (فقدان المحتوى وفقدان نمط) هذه الوظيفتين ذلك؟ لحل هذه المشكلة، تحتاج أولا إلى استخدام وسيلة الرياضية للمحتوى وأسلوب (المحتوى ونمط) يتم تعريفها. Gatys، إيكر، Bethge في أسلوبهم مبدع تم الرد على الهجرة ورقات عن هذه المسألة، وباستخدام الشبكة العصبية التلافيف (CNNs) تعرف هذه الوظائف.

إلى نموذج VGG19 على سبيل المثال، الصورة المدخلة لديها شبكة CNN المصنف المدربين. منذ الشبكة قد انقضت التدريب مهيأ، وارتفاع طبقة الشبكة، ويمكن استخراج ملامح الصورة أكثر تعقيدا. وأشارت المادة من الكتاب إلى أن محتويات يمكن أن يمثله صورة للشبكة ميزة طوبولوجيا. وفي الوقت نفسه، وأسلوب يمكن وصفها من قبل طوبولوجيا الميزة المرتبطة بها. يتم تخزين هذه الجمعيات في مجموعة مصفوفة تسمى غرام (غرام ماتريكس) في.

وبناء على هذا التمثيل، وجمع من المسافة الإقليدية بين صورة خريطة ميزة ولدت من المحتوى، المحتوى لتمثيل الخطأ. ثم، وحساب مجموع مصفوفة غرام من المسافة الإقليدية من كل ميزة خرائط لحساب أسلوب خطأ. من خلال تحديد تكوين والخطأ المحتوى أسلوب خطأ أوزان مختلفة، للحصول على صورة أفضل تأثيرات بصرية.

مجموعة

لتوليد الصورة،

ومن المدخلات

خرائط ميزة طبقة ي-ث، ثم يمكن التعبير عن محتويات الخطأ على النحو التالي:

فرضية

نعم غرام المصفوفة، ثم أسلوب خطأ يمكن كنسبة (حيث

فروبينوس هو ثابت):

وأخيرا، فإن الخطأ الكلي لجميع طبقات L باستخدام الأوزان والوزن مختلفة

الجمع للحصول على وظيفة:

وهكذا، فإن وظيفة خطأ عمومية الشبكة هي مجموع مع محتوى وأسلوب الأخطاء الخطأ مع الأوزان. هنا، وفرط المعلمات، حيث التعبير عن كل طبقة الشبكة، وتجديد صورة الهدف لديها محتوى الهدف أو نمط من خلال تعديل قيمة المعلمة انتهت. في كل خطوة من التدريب، وفقا للوظيفة الخطأ لضبط بكسل المدخلات، وهكذا دواليك، حتى يولد آلة الصورة المستهدفة على غرار صورة مماثلة.

الهجرة أسلوب تغذية إلى الأمام

مهام الهجرة نمط كل صورة هي عملية التحسين المختلفة، وسوف تتطلب الكثير من الوقت، لأن بدءا من الضجيج العشوائي، وتقترب تدريجيا الصورة النهائية المثالية المطلوبة. في الواقع، الخوارزمية الأصلي لتوليد صورة من ورقة لانفاق ما يقرب من ساعتين، بدأ الناس لجعل الطلب على سرعة الخوارزمية. لحسن الحظ، جونسون، Alahi، ولى في عام 2016 نشرت ورقة متابعة يصف طريقة لفي الوقت الحقيقي تحويل أسلوب التنفيذ.

وخلافا ليتم إنشاء 0 من الصورة وتقليل دالة الخطأ، وتستخدم جونسون وآخرون طريقة التغذية إلى الأمام لنقل مباشرة إلى الصور نمط معين من قبل الشبكة العصبية المدربين. نموذجهم من عنصرين - شبكة وصورة تحويل خطأ في الشبكة. شبكة تحويل الصورة باستخدام صورة طبيعية، والإخراج نفس النمط الرسوم البيانية. والفرق هو أن هذا النموذج الجديد يستخدم خطأ في شبكة المدربين قبل. هذا الخطأ مميزة الحوسبة شبكة إعادة صياغة، أي خطأ في حساب المحتوى ميزة في حين أن يحسب خطأ تقسيم إعادة صياغة (باستخدام مصفوفة غرام) في الاسلوب.

جونسون، الذي يستخدم Microsoft COCO مجموعة البيانات صورة شبكة التحول للتدريب، ونمط مختلف الصورة الإخراج (مثل فان جوخ "ستار"). الصور التي تم إنشاؤها بواسطة هذه الشبكة تتفق تقريبا مع النتائج السابقة للأوراق، ولكن في ولدت 500256 * 256 بكسل ولاية صورة لتعزيز سرعة تصل إلى 1060 مرة. يولد لكل صورة يأخذ 50ms فقط:

في المستقبل، ويمكن تمديد تحويل النمط إلى وسائل الإعلام الأخرى، مثل الموسيقى أو الشعر. على سبيل المثال، وهو موسيقي يمكن إعادة تخيل-أغاني البوب، مثل إد شيران "الشكل الخاص بك"، والأصوات مثل موسيقى الجاز. أو يمكن تحويلها إلى SLAM الشعر الحديث التفاعيل أسلوب الخماسي شبكة شكسبير. حاليا، ليس لدينا بيانات كافية في هذه المناطق إلى نموذج المدربين، ولكن هذه ليست سوى مسألة وقت.

الموسيقى النمذجة

النمذجة الموسيقى ولدت مسألة صعبة، ولكن يتعين علينا استكشاف لفترة طويلة.

عندما بدأ مشروع مفتوح المصدر الموسيقى AI أرجواني جوجل فقط، يمكن أن تنتج إلا لحن بسيط. ومع ذلك، وبحلول صيف عام 2017، والأداء RNN، وLSTM مقرها المتكررة الشبكات العصبية (RNN) ولدت، فإنه يمكن أن تعدد الأصوات تقليد، في حين الانتهاء من توقيت وديناميكية.

لأن الأغنية يمكن أن ينظر إليها على أنها سلسلة من الملاحظات، لذلك تم تصميم الموسيقى لتكون مثالية RNN تعلم أنماط متتابعة من حالات الاستخدام. يمكننا تدريب شبكة RNN (أي سلسلة من تمثيل متجه مذكرات) من خلال سلسلة من الموسيقى، ومن RNN تدريب أخذ عينات اللحن. يمكنك عرض بعض النماذج التجريبية وما قبل المدربين على الصفحة جيثب أرجواني و. (Https://github.com/tensorflow/magenta)

بحلول أوائل أرجواني والمصنفات الموسيقية الأخرى يمكن أن تنتج عن طريق توليد أحادية اللحن لهجة أو التعبير عن أطوال مختلفة من الزمن، على الأقل في بعد واحد هو قابل للتعديل. هذه النماذج ونموذج اللغة لتوليد نص مماثل: في توليد النص، ونموذج تنتج ممثل ناقلات للكلمة، كما في الموسيقى، ونموذج تنتج المقابلة ممثل متجه من المذكرة.

A متجه يمكن أن تتوافق مع الكثير من المعلومات والملاحظات، كيفية بناء اللحن من خلال واحدة من ناقلات؟ لنفترض أننا نريد أن نبني بعض

الملاحظات التأليف الموسيقي - يعني الملاحظات و

فترة زمنية ممكنة، لذلك هناك

مجموعة ممكنة من متواليات الموسيقى.

هذا المزيج وإمكانيات كبيرة جدا، لذلك هنا لا تزال تنظر لهجة من الموسيقى، وهذا هو مقياس واحد فقط في نفس الوقت. معظمنا الآن الاستماع إلى الموسيقى هو تعدد الأصوات. ويعرف الموسيقى الألحان التي كتبها تعدد المقاييس تتكون في نفس الفترة الزمنية، وتر المقابلة كما نعرفها، أو أدوات أكثر الموسيقية في الوقت نفسه. في هذه الحالة، وعدد من متواليات ممكنة من الموسيقى يمكن استخدام

المحسوبة. وهذا يعني أنه عندما حساب الحاجة إلى استخدام أكثر تعقيدا من النص تركيب شبكة RNN: نص مختلف، قد تكون لعبت أكثر على نطاق وفي نفس الوقت.

وبالإضافة إلى ذلك، هناك مشكلة. إذا كنت قد لاحظت من أي وقت مضى جهاز كمبيوتر لتشغيل الموسيقى - حتى الإنسان فشلت - لا يزال يبدو الميكانيكية جدا (الروبوتية). وعندما لاعب الإنسان الحقيقي، وهذا يتوقف على مشاعر، لاعب سيتم تمديد أو قطع اللعب الصحيح لكل طول مذكرة (أي سرعة أو شدة الصوت) متى. ولتحقيق ذلك، يحتاج الباحثون أيضا إلى الأجهزة تعليم كيفية ضبط معدل وحجم. شبكة أداء RNN يمكن بعد ذلك أن تكون على غرار على الطريق البشر ضبط حجم تشغيل سرعتهم.

كذلك، فكيف من خلال التدريب لجعله آلة تعلم العزف الموسيقى مع "المزاج"؟ في الواقع، هناك متخصصون مجموعات البيانات المستخدمة للتدريب في هذا المجال. تحتوي ياماها ياماها قاعدة المنافسة البيانو الالكتروني للبيانات MIDI العروض الحية: كل أغنية على طول الطريق لتسجيل النطاق، وأنه يحتوي على معلومات حول المعلومات معدل ومدتها. لذلك، بالإضافة إلى ما على نطاق وتعلم العزف على أي نقطة الوقت، الأداء RNN يمكن أيضا معرفة الطريقة البشرية اللعب اللعب معقول. يمكن العثور على بعض الأمثلة في العالم الحقيقي في https://magenta.tensorflow.org/performance-rnn في.

البحث القائمة بالمقارنة مع مستوى قياسا الإنسان الحقيقي يمكن أن تجعل طفل يبلغ ست سنوات للتمييز بين اللعب عازف البيانو وعزف الموسيقى مع التعقيد العاطفي مع إصبع واحد. هناك حاجة إلى مزيد من الأبحاث أيضا: في الوقت الراهن، وكثير الناتجة عن الموسيقى الأداء RNN لا يزال الميكانيكية للغاية، لأنها لا تحب هذا التعبير باستخدام حركة أو الحبال المتكررة الإنسان. بحث مستقبل يمكن استكشاف عينات طبل أو غيرها من الصكوك.

ومع ذلك، إلا أن الإنجازات الحالية، تم تدريب هذه النماذج بنجاح بما فيه الكفاية لمساعدة الناس إلى الموسيقى.

المستقبل AI الإبداع الفني

بحث عبر الحدود وآلة تعلم فن التطور السريع في السنوات القليلة الماضية، وهذا هو حتى موضوع جامعة نيويورك (NYU) في دورة تدريبية. كانت دراسة متعمقة من الارتفاع في العديد من المجالات تأثير هائل، بما في ذلك: الصور والموسيقى والنص. يقدم المادة AI تقنية مراجعة العام الماضي أيضا إنشاء أعمال الفن التجريدي مع منظمة العفو الدولية (وأثار بعض الجدل بين القراء) هو.

هنا نناقش فقط مخطط AI الإبداع الفني. في المستقبل، يمكننا أن نتوقع تعلم الآلة لتكون أداة إبداعية للفنان، كما تم تلوين في رسم أو صورة "الإكمال التلقائي"، توليد مخطط أو إطار مثل الشعر أو الرواية.

مع قدرات حوسبة قوية على نحو متزايد للآلة، يمكننا تدريب أكثر وأكثر مختلفة من البيانات وسائل الإعلام، بما في ذلك الصوت والفيديو، أو أشكال أخرى عديدة وهلم جرا. لدينا الآن عدد من الحالات التي تم إنشاؤها بواسطة نموذج والنصوص وتزامن الصوت والفيديو. مور وآخرون "ترجمة شبكة الموسيقى" قد يكون الزهر على غرار الصوتية (https://www.youtube.com/watch؟v=vdxCqNWTpUs) بين الصك والنوع. ولوان، الذي حقق أيضا تحويل أسلوب واقعي ينطبق على صور عالية الدقة. لا يمكن أن يتحقق التطبيقات المحتملة في هذه الطريقة من قبل الآلة الإعلامية هو هائل.

وعلى الرغم من الإبداع الفني على ما إذا كان AI هو الفن الحقيقي من هذا الموضوع هو لا تنتهي أبدا. ولكن ربما يمكننا أن ننظر إلى هذه المسألة من زاوية أخرى. بواسطة عملية حسابية من خلق الإنسان، ونحن قد تكون خطوة واحدة أقرب إلى فهم السبب الحقيقي لخلق الإنسان هو ذلك بعيدة المدى لأعلى طويلة.

thegradient.pub عبر، AI مترجم تقنية مراجعة

تريد أن تعرف كيف الهجرة مع نمط

IPhoneX من الصورة في الفن الفن؟

أهلا وسهلا بك إلى الضغط على "قراءة النص"

أو مكان المجتمع AI Yanxishe ~

قاو شياو سونغ يغفر "المغني" انتهاك والمدافعين عن لطيف يجعل المتعدي أي شيء للخوف؟

2018 أودي Q7 مدرجة رسميا للبيع 75،38-104،88 وان

يجعل دريك دريك يشعر بعد ذلك؟ OVO لندن المشهد الافتتاحي مخزن للبيع نايك سرقة الأضواء! ؟

مع شاشة كبيرة، حزب الاستفادة الفيديو في العالم! هواوي استمتع بتجربة للبدء MAX

وحدث كبير! قتل شبكة حول سائق سيارة في وقت متأخر من الليل، عانى السفر T3 آخر الحصار، ديدي خطيرة حقا؟

مدير ونغ جينغ أربعة أعمال "مفتاح منخفضة"، وكان آخر واحد جيمي لين لا تزال تلعب دورا صغيرا!

الجاف | طريقة بارعة لتحديد شبكة ثلاثية الأبعاد

سيتم اطلاق سراح نسخة الانتاج AMG GT مفهوم مارس العام المقبل

الحرير المواد على قيد الحياة؟ ! الرعد تزدهر sacai مع الأمتعة القديمة العلامة التجارية PORTER مشتركة لفتح!

جديدة "الحوسبة فائقة غير متجانسة" سرية إنتل: تجرؤ "السوبر" في أين؟

ملخص | ييب تشي هو: تقديم تعزيز التعلم وتطبيقاتها في البرمجة اللغوية العصبية

الدخن 9 القمة الثالث دوكس في العالم، أول تبادل لاطلاق النار الفيديو في العالم، وضرب قسم الكاميرا الدخن وقت كبير