الرقم مشروع قاعدة البيانات مفتوحة المصدر DGraph الماضي والحاضر | عناوين تقنية

لماذا جوجل تريد بناء خريطة نظام خدمة البيانات؟ كيف يتم Dgraph بنيت خطوة خطوة للخروج منه؟ هذا الكلام مقالة عن حياة الماضي الخريطة قاعدة بيانات Dgraph معك.

الكاتب | ManishRai جاين

ذبيان | وو Xingling

كلما أنا أقدم نفسي للآخرين، وشرح ما يمكن أن نبني، في Dgraph مختبرات، وأنا كثيرا ما تساءل عما إذا كان يعمل في الفيسبوك، أو ما إذا أنا أحاول الآن للقيام فيسبوك وحي. كثير من الناس على بينة من جهود لقاعدة بيانات فيسبوك الرسم البياني الاجتماعي فعلت، لأنها تنشر الكثير من المقالات حول البنية التحتية خريطة قاعدة البيانات.

كلمة من خرائط جوجل اقتصر على توفير المعرفة، ولكن قبل هذا المشروع، لا أحد تقريبا يعتقد البنية التحتية الداخلية يمكن تنفيذ هذه الخدمة. توفر Google نظام خاص لتقديم الخدمة خريطة المعرفة. في الواقع، والعمل جوجل، وأنا وزملائي في الفريق لتعيين نظام خدمة قاعدة البيانات تحت الكثير من الرهانات. الأقصى في عام 2010، وأنا نفسي قد قدمت اثنين على الأقل من محاولات أكثر جذرية لدراسة نظرية خريطة قاعدة بيانات جديدة، لنرى ما يمكننا خلق.

جوجل يحتاج إلى بناء نظام خدمة الخرائط قاعدة بيانات جديدة، وليس فقط يمكن التعامل مع العلاقة المعقدة بين خريطة المعرفة البيانات، يمكن لخدمة البحث أيضا التعامل مع جميع الوصول إلى البيانات المهيكلة (OneBoxes). يجب أن يكون نظام الخدمة القدرة على اجتياز جميع البيانات، ولكن أيضا إنتاجية عالية بما فيه الكفاية والكمون المنخفض بما فيه الكفاية، بحيث يمكن تطبيقها على سيل من الاستفسارات البحث على الشبكة العالمية. في ذلك الوقت تقريبا أي نظام أو قاعدة بيانات المتاحة يمكن أن تلبي ثلاثة شروط أعلاه.

الآن أنا قد أجبت لماذا خريطة جوجل خدمة البيانات بناء نظام، والباقي من الفضاء وسوف أعرض لكم، نحن خطوة بخطوة كيفية بناء أنظمة خريطة قاعدة البيانات لتلبية متطلبات خرائط المعرفة الخدمة ومحركات البحث.

أنا أعرف كيف يمكن لهذه؟

2006-2013، عملت في جوجل. بدأت معظم كمتدرب، لاحقا في بحث الويب العمل الجماعي البنية التحتية كمهندس برمجيات. وفي عام 2010، استحوذت شركة جوجل Metaweb، فريقي فقط أطلقت الكافيين. أردت أن تفعل الأشياء بشكل مختلف، وبدأت العمل مع الناس Metaweb، في رحلات مكوكية بين سان فرانسيسكو وماونتن فيو. كان هدفي هو معرفة كيفية استخدام المعرفة لتحسين البحث خريطة الويب.

قبل أن تلتزم قاعدة بيانات الخريطة التنمية، جوجل لديها عدد من المشاريع. ومن الجدير بالذكر أن جوجل قد خلق مشروع يسمى مكتب تربيع في نيويورك، وكان هناك بعض النقاش حول معرفة البطاقة. هذه الجهود الأفراد متفرقة وفرق صغيرة. ولكن هذا الوقت ليس بعد سلسلة اتخاذ القرارات المعمول بها، التي في النهاية تركت جوجل. نحن نتحدث عن ذلك لاحقا.

قصة Metaweb

كما ذكر أعلاه، في عام 2010، استحوذت شركة جوجل Metaweb. Metaweb باستخدام مجموعة متنوعة من التقنيات لبناء خريطة ذات جودة عالية المعرفة، بما في ذلك الزحف وتحليل ويكيبيديا، واستخدام التعهيد الجماعي استراتيجية مماثلة لويكيبيديا عن عملية فريبيس. تم بناء كل هذه من الرسومات الداخلية قاعدة بيانات يحركها، يدعى قاعدة البيانات هذه Graphd، وهو برنامج خريطة قاعدة البيانات (الآن تم الافراج عن جيثب).

Graphd هناك بعض الخصائص النموذجية للغاية. مثل الخفي، فإنه يعمل على خادم واحد، وجميع البيانات في الذاكرة. كامل الموقع فريبيس مع Graphd. بعد الاستحواذ، واحدة من التحديات التي تواجه جوجل هو الاستمرار في تشغيل فريبيس.

جوجل بنيت SSTable، ثم جداول كبيرة، والتي يمكن أن تمتد أفقيا لمئات أو آلاف من الآلات، خدمات البيانات المشتركة في عدد من PB. ويستخدمون برج (أداة إدارة المجموعة، سلف K8s ل) الاستغناء عن آلات، واستخدام قصير و(gRPC الخروج) للتواصل، إلى حل عنوان IP (BNS، خبز في K8s) الخدمات اسم برج، ومخازن جوجل البيانات في نظام الملفات ( GFS، على غرار Hadoop FS). قد يموت العملية، الجهاز قد تعطل، ولكن النظام لا تزال تبقي على التوالي.

ولهذه البيئة، أن يجري هذا Graphd إلى الأمام لخدمة فكرة تشغيل قاعدة بيانات المواقع كلها على خادم واحد مع جوجل (وأنا منهم) الفكرة الأصلية تختلف على نطاق واسع. الحاجة Graphd 64GB أو أكثر من الذاكرة لتشغيل. إذا كنت تضحك في ذلك الذاكرة، يرجى ملاحظة ذلك الوقت، كان في عام 2010. القدرة القصوى للأغلبية من خادم Google هي 32GB. في الواقع، يجب أن جوجل شراء آلة خاصة لديها RAM كافية لدعم Graphd كبيرة.

استبدال GraphD

وقد اقترحت والأفكار إعادة الكتابة بشأن كيفية المضي العمل GraphD بطريقة توزيعها، لكنهم لا يتم تخزينها في قاعدة البيانات الرئيسية، والناس بحاجة فقط للحصول على قطعة من البيانات، نقله إلى خدمة أخرى عند وصول رئيسي المقابلة ، ونحن يمكن أن توفر هذه الخدمة. تحتاج قاعدة بيانات الرقم لضمان الاتصال الفعال واجتياز، الأمر الذي يتطلب منا استخدام طريقة خاصة لبناء البرمجيات.

في هذه الأفكار، واحد هو لاستخدام مشروع يسمى MindMeld (IIRC) هو. ذاكرة البرنامج يمكن الوصول إليها من ملقم آخر من خلال شبكة أسرع الأجهزة. وتشير التقديرات إلى أن الطريقة المعتادة للوصول إلى هذا RPC أسرع، وبسرعة كافية لنسخ الزائفة نسخ الوصول المباشر للذاكرة المطلوبة لقاعدة بيانات الذاكرة. لم تكن الفكرة يذهب بعيدا.

آخر اعتمد حقا والفكرة هي لبناء الخريطة الحقيقية نظام خدمة قاعدة البيانات. ليس فقط يمكن أن يحل محل Graphd لفريبيس، ولكن أيضا أن العمل مستقبل كل خدمة على خريطة المعرفة. سميت Dgraph، نظام خريطة خدمة قواعد البيانات الموزعة، وهو نسخة مطورة من Graphd.

ولا عجب، فإن الجواب هو نعم. داخل جوجل، ويدعى شركة Dgraph مختبرات ومشروع مفتوح المصدر Dgraph، لذلك.

وبالنسبة لمعظم من هذه المادة، عندما ذكرت Dgraph، أعني مشاريع جوجل الداخلية بدلا من المشاريع مفتوحة المصدر نبني. بالطبع، سيكون هناك المزيد من وراء وصف مفتوحة المصدر المشروع.

قصة الدماغية: محرك خريطة المعرفة

على الرغم من أن الوقت أدركت Dgraph على الطريق في محاولة لاستبدال Graphd، لكني لم اكن الهدف هو تحسين تجربة البحث على الشبكة العالمية. لقد وجدت المهندس البحث والتطوير في DH Metaweb، وهو أيضا مؤسس مكعبة.

كما ذكرت سابقا، وضعت بعض من مهندسي غوغل في نيويورك جوجل تربيع. وضع DH حتى مكعبة مشروع مماثل. على الرغم من أن المشروع تربيع فشلت في نهاية المطاف أن تتحقق، ولكن مكعبة مؤثرة جدا. بدأت النظر في كيفية بنائه على جوجل. تقدم Google عددا من الخصائص صغيرة، ساعدني أكثر سهولة الحصول على عملية بناء كاملة.

الأول هو بحث ، توفر Google طريقة لتحديد درجة عالية بدقة الكلمات التي ترتبط فهم. على سبيل المثال، عندما ترى مثل عندما تكون هذه العبارة لذلك، يمكن أن أقول لكم و يجب وضعها معا. أيضا، انظر المعرفة و معا للتعبير عن المعنى. بالنسبة للبشر، وهذه هي الأمور واضحة، ولكن للجهاز، فإنه من الصعب القيام بذلك.

الميزة الثانية هي فهم بناء الجملة عندما مماثلة عندما يتم إنشاء طلب البحث، ومن المفهوم الجهاز ليكون الكتابة (أي جنسية قانون مكتوب في الكتاب). ولكن هذه العبارة يمكن أيضا أن يفهم كما هو مكتوب من أن الكتب من الكتاب الفرنسيين. لقد استخدمت كلمة ستانفورد (POS) بلغة لفهم أفضل للتركيب ويبني شجرة بناء الجملة.

الميزة الثالثة هي فهم الكيان ، كلمة يمكن أن تمثل العديد من الكيانات. ويمكن أن تمثل الدولة (المنطقة) والجنسية (تشير إلى الفرنسية)، والأطباق (الرجوع إلى الطعام الفرنسي) أو الفرنسية. هنا يمكنني استخدام برنامج آخر للحصول على قائمة كيان من الكلمات أو العبارات التي قد تتوافق.

الجزء الرابع هو أن نفهم العلاقات بين الكيانات . الآن أعرف مسبقا كيفية الاتصال عبارة في الكلمات، وينبغي أن تكون العبارات بأي شكل من التنظيم (أي القواعد)، والكيانات التي قد تتوافق، وأنا بحاجة إلى وسيلة للعثور على العلاقة بين هذه الكيانات لخلق تفسير آلة . على سبيل المثال، يقول استعلام ثم يقول لنا أنه يمثل POS الكتابة . لدينا العديد من الكيانات، العديد من الكيانات، ثم تحتاج خوارزمية لتحديد كيفية توصيلها. ويمكن أن الاتصال بهم عن طريق مكان الولادة، إلى أن مقدم البلاغ ولدت في فرنسا (ولكن قد يكون في الكتابة باللغة الإنجليزية)، أو هو مؤلف كتاب فرنسيين، أو التحدث أو الكتابة الفرنسية (ولكن قد لا تكون مرتبطة مع الفرنسيين في هذا البلد) للمؤلف، أو مجرد مثل الكتاب المطبخ الفرنسي.

الشكل قاعدة البيانات على فهرس البحث نظام

من أجل تحديد ما إذا كان وكيف الكيان متصلا، وأنا بحاجة إلى نظام خريطة قاعدة البيانات. Graphd لا يصل إلى المستوى Google بالكامل، وأنا جيدة في هو البحث على الشبكة العالمية. رسم خرائط المعرفة يتضاعف ثلاث مرات شكل الفوقية، أي يمثله حقيقة أن كل جزء من الأجزاء الثلاثة، المتعلقة S (كيان)، وP الأصلية (علاقة) وO كائن (كيان آخر). استعلامات يجب أن تنبع من من

في بعض الأحيان من

.

أنا استخدم نظام فهرس البحث جوجل ، كل الثلاثي تعيين معرف، وبناء المؤشرات الثلاثة، على التوالي، لS، P وO. وعلاوة على ذلك، فإن مؤشر يسمح مرفقات، ولذا فإنني المغلقة نوع المعلومات لكل كيان (أي الفاعل، والكتب، الناس، وما إلى ذلك).

لقد بنيت هذه الخريطة نظام خدمة البيانات، ولكن كنت أعلم أنه كان هناك عمق اتصال من المشكلة (كما هو موضح أدناه)، وليس مناسبة للأي استفسار خريطة البيانات المعقدة. في الواقع، عندما فريق شخص Metaweb اسمحوا لي أن فتح النظام للوصول إلى الفريق الآخر، ويصر رفض.

من أجل تحديد العلاقة بين الكيانات، وسوف تجتاز كل الاحتمالات بين الاستعلام الكيانات. على سبيل المثال، و وجاءت جميع العلاقات بين المنتجات من الجزء المحدد من نتيجة خروج، القاضي أي صلة بينها وبين النتائج المنتجة، وخصم ذلك باستمرار. هذا يسبب فإن العبارة نفسها لديها العديد من التفسيرات، مثل هذه العبارة، فإنه سوف ينتج ك ، ، مثل هذا التفسير، وتلقائيا مرشح مثل تفسير.

لكل التفسيرات المحتملة، يولد نظام قاعدة بيانات FIG قائمة النتائج، تتألف من شخصيات كيان فعالة، وأيضا يعود إلى نوعها (موجودة في المرفق). استخدم قوية جدا، لأنه من نوع النتائج يسمح تصفية وفرز أو مزيد من الوظائف التوسع. على سبيل المثال، لنتائج البحث الفيلم، يمكنك أن تكون سرية وفقا للسنة إطلاق الفيلم، وطول الفيلم (الأفلام القصيرة، الأفلام الروائية)، واللغة، وهلم جرا الفوز.

هذا يبدو المشروع في كثير من الأحيان الاستخبارات، ونحن (DH خريطة المعرفة كما الخبراء المشاركين في جزء منه) ليطلق عليه الدماغية، بعد العاشر من الرجال الفيلم الذي يحمل نفس الاسم ظهر في الجهاز (موجات الدماغ الزناد).

الدماغية تشغيل غالبا ما تكشف عن حقيقة أن الناس لم بحثت في البداية مثيرة جدا للاهتمام. عند تشغيل استعلام هذا النوع من مثل ، الدماغية سيفهم الرئيس هو الإنسان، والبشر لديهم ارتفاع. ولذلك، فإنه يسمح لك لتصنيف وفقا لارتفاع من الرئيس، وتبين أن أبراهام لنكولن كان أطول رئيس الولايات المتحدة. كما يسمح الناس عن طريق رئيس التحقيق الجنسية، في هذه الحالة، فإنه يعرض أيضا على قائمة الولايات المتحدة ورئيس والمملكة المتحدة والولايات المتحدة بسبب وجود رئيس الجنسية البريطانية: جورج واشنطن. (تنويه: استند KG على نتائج للدولة لا يمكن أن تضمن دقة هذه النتائج.)

وصلات مباراة خريطة المعرفة

الدماغية هي فرصة لفهم حقا معنى الاستعلام المستخدم. آلة قاعدة البيانات FIG في قاعدة البيانات، ونحن يمكن أن تولد تفسير الاستعلام، يتم إنشاء قائمة النتائج وفهم النتائج تدعم مزيد من الاستكشاف. كما هو موضح سابقا، يمكنك البدء مرشح معين، وعمليات الفرز على النتائج، ويمكن أيضا أن اجتاز الاتصال لعرض البيانات علاقة اتصال. من إلى أو . أظهرت DH القدرة على القفز من قائمة واحدة إلى نتائج آخر في القائمة نتيجة لمشروع آخر وصفه في المنظر.

الدماغية وهي مؤثرة جدا، Metaweb دعم القيادة ذلك. حتى الخدمة في جزء من، له الدماغية أيضا أداء مرضيا وظيفة، I محرك دعوة المعرفة (ترقية من محرك البحث). ولكن جوجل لا تقود المعرفة ورسم الخرائط في المجالات ذات الصلة. لا تهتم مدير أعمالي في هذا، بعد التواصل معه، وأنا حصلت على فرصة لإظهار أن متقدمة جدا ورؤساء الأقسام البحث.

ومع ذلك، واستجابة لهذا المعرض بعد محبطة. ل مظاهرة، زعيم أراني نتائج استعلامات البحث جوجل، مما يدل على عشرة وصلات ذات الصلة، وقال انه يعتقد غوغل يمكن أن تفعل الشيء نفسه. وبالإضافة إلى ذلك، فإنها لا تريد أن تأخذ بعيدا على الكثير من المعلومات من الموقع، قد تشكل انتهاكا للخصوصية الباحثين.

إذا كنت تعتقد قال التنفيذيين المنطقي، ونحن قد فكر مرة أخرى: عندما بحث الويب من Google، فإنه لا يفهمون حقا الاستعلام. وسوف تكون في موقف النسبي الصحيح، رتبة صفحة للعثور على كلمات الحق، وكل شيء من هذا القبيل. وهو نظام معقد للغاية ومعقدة للغاية، ولكن لا نفهم حقا أو نتائج الاستعلام. يحتاج المستخدمون إلى قراءة من نتائجها الخاصة، تحليل واستخراج المعلومات التي يحتاجونها، ومزيد من البحث لتشكيل قائمة كاملة من النتائج.

على سبيل المثال، ل، تحتاج أولا إلى وضع قائمة مفصلة من محتويات ما قد يكون تناسب صفحة واحدة. ثم اضغط كان سنة نشر هذه الكتب فرز أو تصفية حسب دور النشر، كل هذه العمليات تتطلب الكثير من تعقب الارتباط، واليدوي تجميع النتائج مزيدا من البحث. الدماغية جميع المستخدمين لديها القدرة على معلومات فلتر بالإضافة إلى خطوات للمحافظة، تفاعل الناس كمبيوتر بسيط والكمال.

ومع ذلك، كان هذا الأسلوب النموذجي لمعرفة رسم الخرائط. إدارة المرافق خريطة المعرفة مؤكدة غوغل، ولست متأكدا كيف ينبغي الجمع بين محركات البحث مع خريطة المعرفة. النجاح الكبير التي تم الحصول عليها عن طريق توفير رابط موقع لمنظمات المستخدمين، وطرق جديدة لمعالجة هذا النوع من المعرفة هو أكثر صعوبة الهضم بسهولة.

بعد عام من المواجهة مع إدارة جوجل، لقد فقدت ما يقرب من الثقة للاستمرار. عند هذه النقطة، وصلت إلى مكتب مدير جوجل شنغهاي بالنسبة لي، وأنا في يونيو 2011 وسيتم تسليم المشروع خلال له. وبتشكيل فريق من 15 مهندسا. قضيت أسبوعا في شنغهاي، وبناء وتعلمت نقل إلى مهندس. تشارك DH أيضا، كان هنا فريق التوجيه على المدى الطويل.

عمق اتصال المشكلة

أنا بنيت نظام الدماغية خريطة خدمة قاعدة البيانات، هناك مشكلة اتصال عميقة. عندما يحتاج السابق مجموعة النتائج الجزئية للاستعلام لأداء جزء لاحقا، يتم تأسيس اتصال. ينطوي اتصال نموذجي بعض العمليات SELECT، أي تصفية النتائج من بعض مجموعة البيانات المشتركة، ومن ثم استخدام النتائج إلى جزء آخر من مجموعة البيانات التي تمت تصفيتها. وسوف يكون مثالا لتوضيح.

على سبيل المثال، كنت تريد أن تعرف (أنا أعيش في سان فرانسيسكو وأكل السوشي شخص). تم تقسيم البيانات إلى فئتين: الناس ويعيش في SF هذين النوعين من الناس تناول المعلومات السوشي.

الاستعلام أعلاه هو اتصال من مرحلة واحدة. إذا كان التطبيق قاعدة بيانات خارجية يتم تنفيذ هذه العملية، فإنه سيتم تنفيذ استعلام لتنفيذ الخطوة الأولى. ثم تنفيذ استعلامات متعددة (كل نتيجة استعلام) لمعرفة ما أكل الجميع، مجرد اختيار الناس للأكل السوشي.

والخطوة الثانية هي ظهور مشاكل المروحة. إذا كان هناك مليون النتائج الخطوة الأولى (جميع سكان سان فرانسيسكو)، ثم الخطوة الثانية هي اللازمة لوضع نتائج كل الاستعلام استرداد عادات الأكل الخاصة بهم، ثم تخرج شخص مؤهل من خلال التصفية.

توزيع المهندسين الأنظمة في كثير من الأحيان حل هذه المشكلة عن طريق البث. وسوف يؤدي إلى العديد من فرص العمل دفعة، وذلك باستخدام تجزئة التجزئة والاستعلام المهام الموكلة إلى كل ملقم في الكتلة. وسوف تستخدم وزعت إتمام الاتصال، ولكن سوف يسبب الاستعلام التأخير.

بث النظم الموزعة سيئة للغاية. جيف دين جوجل في كتابه "تحقيق الاستجابة السريعة مرة في خدمات كبيرة الآن" خطاب إلى أفضل شرح المشكلة. مجموع الاستعلام التأخير هو دائما أكبر من أبطأ من التأخير الجهاز. ومشكلة صغيرة على جهاز واحد يسبب التأخير، كل الاستعلام المتعلقة كتلة الجهاز سوف تزيد بشكل كبير من احتمال التأخير.

النظر في الخادم الذي 50 من التخلف 1MS، ولكن 99 LS تأخير (أي تأخير تساوي إلى أقل من 99 في المئة من 1S). إذا كانت عملية الاستعلام فقط على ملقم، 1 فقط من طلبات سوف يستغرق أكثر من ثانية واحدة. ومع ذلك، إذا ضرب الاستعلام أحد الملقمات 100، و63 من الطلبات تستغرق أكثر من ثانية واحدة.

ولذلك، فإن تنفيذ استعلام البث إلى الاستعلام الكمون غير موات. تنظر الآن في حاجة لمدة سنتين، ثلاث مرات أو أكثر الاتصال. لسيناريوهات OLTP الوقت الحقيقي، ويصبح بطيئا للغاية، والتأخر خارج نطاق قبول الناس.

توجد معظم خريطة قاعدة البيانات غير الأصلية مثل عالية مروحة من البث، بما في ذلك يانوس الشكل، تويتر والفيسبوك FlockDB من TAO.

اتصال الموزعة مشكلة. سوف القائمة قاعدة بيانات الرسوم البيانية واحدة تحتفظ بها مجموعة مشتركة من البيانات في جهاز واحد (قاعدة بيانات منفصلة)، ولا تلمس حالة من خوادم أخرى تكون المشكلة أن كل عملية ربط يمكن تجنبها، مثل Neo4j.

أدخل Dgraph: أي محرك اتصال عمق

بعد نهاية الدماغية، ولدي خبرة لبناء نظام خدمة الرسوم البيانية، والمشاركة Dgraph في المشروع، وأصبحت واحدة من ثلاث المدير الفني للمشروع. مفهوم المشاركة Dgraph في التصميم هو الرواية، وعمق اتصال يحل المشكلة.

Dgraph بطريقة خاصة البيانات نمط تجزئة، حيث كل اتصال يمكن القيام بها تماما من قبل الجهاز، ومفهوم المتعلقة العودة إلى وقال قبل - المسند - كائن (وهي SPO)، في كل حالة يتم حفظ وDgraph في هذا المثال كل المسند الموافق جميع المواد والأشياء. يتم تخزين تعدد المثال المسندات على كل مجملها المسندات التخزين.

وهذا يسمح فعال الاستعلام لتنفيذ عمق التعسفي للاتصال، مع تجنب مشكلة البث مروحة بها. على سبيل المثال، الاستعلام وسوف تؤدي إلى إجراء ما يصل الى المكالمات شبكة اثنين داخل قاعدة البيانات، بغض النظر عن حجم الكتلة. سوف المكالمة الأولى أن يكون للعثور على جميع الناس الذين يعيشون في سان فرانسيسكو. والدعوة الثانية بإرسال قائمة الأشخاص وجميع أولئك الذين يسعون إلى أكل السوشي ومجموعة. يمكننا أيضا إضافة المزيد من القيود أو ملحقات، فإن كل خطوة لا تزال تنطوي على ما يصل الى المكالمات الشبكة.

هذا يدخل يقع المشكلة في المسند كبير جدا على خادم واحد، ولكن يمكن حل هذه المشكلة عن طريق زيادة أخرى مع حجم الانقسام بين اثنين أو أكثر من حالات المسند. وحتى مع ذلك، انقسام المسند واحد عبر الكتلة ليست سوى في معظم السلوك المتطرف في أسوأ حال، حيث تقابل كل البيانات إلى المسند واحد فقط. وفي حالات أخرى، فإن البيانات الأصلية جيدا من الأداء الفني للتجزئة لا يمكن أن يتحقق بشكل أسرع الاستعلام التأخير في النظام الفعلي.

الإنقسام ليس الابتكار الوحيد من Dgraph. Dgraph لجميع الكائنات تعيين عدد صحيح ID، وفرزها وتخزينها في بنية قائمة منشورات لسرعة الافراج عن احتساب هذه الطلب عبر من القائمة. وستكون هذه الابتكارات تسريع معدل الترشيح خلال الاتصال، فإنه يمكن أن تستخدم أيضا للعثور على المراجع المشتركة وهلم جرا. وتتعلق الفكرة لنظام خدمات جوجل على الانترنت.

كل مشروع موحد OneBox من قبل البلازما

جوجل Dgraph يست قاعدة بيانات، ولكن نظام الخدمة، أي ما يعادل نظام خدمة البحث جوجل على الانترنت. استخدام Dgraph يمكن أيضا الرد على التحديثات في الوقت الحقيقي. كنظام خدمة التحديث في الوقت الحقيقي، فإنه يتطلب في الوقت الحقيقي الرسومات نظام فهرسة. لقد تراكمت لديها الكثير من الخبرة في مجال أنظمة الفهرسة الإضافية في الوقت الحقيقي في المشروع الكافيين.

I مشروعا لتوحيد كافة البيانات خريطة جوجل OneBox من خلال فهرسة النظام، بما في ذلك الطقس، والطيران، والأخبار الحدث. OneBox للقد لا تعرف كلمة، ولكنك بالتأكيد لم أر ذلك. وخلافا ليتم عرض نتائج بحث OneBox أخرى في مربع منفصل عندما يعرض تشغيل أنواع معينة من الاستفسارات، يمكن أن جوجل العودة ثراء المعلومات OneBox لل. أود أن أعرف OneBox لل، حاول البحث .

قبل الشروع في هذا المشروع، كل من قبل فريق آخر من OneBox للتحتفظ بها عملية الخلفية المستقلة. وهناك مجموعة معقدة من البيانات المهيكلة، ولكن لا تبادل البيانات بين كل OneBox لل. هذا يحتفظ ليس فقط قدرا كبيرا من الازدواجية في العمل على الطرف الخلفي من العملية، وعدم وجود تبادل المعرفة بين كل صندوق يحد أيضا من أنواع الاستعلامات التي قد ترد Google.

على سبيل المثال، سان فرانسيسكو يمكن عرض الأحداث الإخبارية، يمكنك عرض الطقس في سان فرانسيسكو. ولكن إذا كان وOneBox للعلم الطقس الممطر والمستخدم الذي تريد أن تعرف هذا الحدث هو في الداخل أو في الهواء الطلق، اعتمادا على الطقس يمكن أن تصفية (أو على الأقل هذا النوع) أحداث (في هطول امطار غزيرة، أنشطة داخلية محتملة مثل فيلم أو سيمفونية هو الخيار الافضل) .

بمساعدة فريق Metaweb، بدأنا في تحويل جميع هذه الأشكال البيانات لمكتب التخطيط الاستراتيجي ومؤشره في النظام. نظام بلدي يدعى البلازما، وهو مؤشر Dgraph القائم على خريطة نظام خدمة البيانات من أنظمة الرسومات في الوقت الحقيقي.

ارتباك الإدارة

مثل الدماغية، مثل عدم وجود تمويل المشاريع البلازما، ولكن لا يزال مستمرا. وأخيرا، عندما أدركت إدارة فريق OneBox من هو على وشك الانتقال إلى هذا المشروع، فإنها تحتاج إلى أن تكون مسؤولة عن "حق شخص" خريطة المعرفة. في هذا "لعبة الصحيحة"، وذهبت من خلال ثلاثة تغييرات في الإدارة، ولكن في كل مرة فشل لأشخاص من ذوي الخبرة للانضمام إلى خريطة المعرفة.

خلال هذا التعديل الإدارة، وتعتقد إدارة الدعم المفك في Dgraph معقدة للغاية، المفك هي قاعدة بيانات SQL موزعة عالميا، تحتاج مدار الساعة GPS لضمان الاتساق العالمي. ومن المفارقات أن هذا لا يزال لا يصدق.

وأخيرا، إلغاء Dgraph، نجا البلازما، ولكن من قبل قيادة جديدة وفريق جديد ليكون مسؤولا عن العمليات المستمرة ويقدم تقاريره مباشرة إلى الرئيس التنفيذي. عدم وجود فريق جديد لفهم خريطة المعرفة، وقرروا إنشاء نظام الخدمة على أساس فهرس البحث Google الحالية (كما فعلت لالدماغية القيام به). أوصي باستخدام نظام خلقت لالدماغية، لكن طلبها قوبل بالرفض. وأود أن البلازما تتحول إلى الزحف ويمكن تمديدها تخضع لنظام المعرفة من عدة طبقات، لذلك نتائج البحث Google الحالية يمكن التعامل معها بوصفها وثيقة الويب. ودعوا TS (اختصار).

هذا التحول يعني أيضا أن الخدمة الجديدة لن تكون قادرا على الاتصال أي عمق. في العديد من الشركات، ولقد رأيت "قرار لعنة" على خريطة المعرفة، لأن مهندسي غالبا ما يعتقدون خطأ أن "خدمة بيانات الخريطة هي مسألة بسيطة، يمكنك بناء طبقة فوق النظم القائمة آخر حل ".

وبعد بضعة أشهر، مايو 2013، غادرت جوجل، وهذه المرة لقد عملت لمدة سنتين اعتبارا Dgraph / البلازما.

حاشية

  • وبعد سنوات قليلة، تم تغيير اسمها بحث الويب البنية التحتية فريق لبحث الويب والرسوم البيانية فريق البنية التحتية المعرفة، واضطررت الى اعادة العمل خريطة المعرفة القيادة قيادتها لبدء عرض الدماغية، والحديث مطولا عن الكيفية التي تنوي استبدال وصلات مع خريطة المعرفة وكما العديد من المستخدمين كرد مباشر على استفسار.
  • عندما يكون الخط على وشك أن يكون على الدماغية مشروع شنغهاي R & D فريق، تم سحب المشروع مباشرة من مكتب شنغهاي جوجل نيويورك. في نهاية المطاف، هو شكل من أشكال الخط قطاع المعرفة. إذا كنت تبحث عن ، سترى في الجزء العلوي من نتائج البحث. منذ إصداره الأول، لديه بعض التحسن متكررة، ولكن لا يزال لا يدعم تصفية وفرز مستوى الدماغية العرض.
  • كل ثلاثة المدير الفني العاملة في Dgraph (وأنا من بينهم) في نهاية المطاف ترك جوجل.
  • عندما غادرت جوجل بصفته أحد كبار مهندس البرمجيات، وأنا لم يحصل اثنين من الترقية، ويستعد حاليا للمرة الثالثة.
  • شجرة العنب، والإصدار الحالي من TS هو في الواقع قريبة جدا من الدماغية تصميم النظام الرسومية، الموضوع، أصلية وجوه لديه مؤشر. وبالتالي، فإنه سيستمر تعاني من إضافة عمق مشكلات الاتصال.
  • ومنذ ذلك الحين، تم إعادة كتابة البلازما وإعادة تسمية، ولكن لا يزال يواصل القيام بدور الرسومات في الوقت الحقيقي نظام فهرسة التي تدعم TS. معا أنها لا تزال المضيفة وتوفير كافة البيانات جوجل منظم، بما في ذلك خريطة المعرفة.
  • كما يمكن أن يرى من العديد من الأماكن، ويمكن أن جوجل لا تكون العلاقة العميقة. أولا وقبل كل شيء، نحن ما زلنا لا نرى مجموعة من ردود الفعل المختلفة البيانات OneBoxes: على الرغم من الطقس والبيانات KG متاحة بسهولة،  (المطر الآسيوية معظم المدينة) لا يتم إنشاء قائمة مدينة كيانات (على العكس من ذلك، والنتيجة هي اقتباس من صفحة الويب)؛ لا يمكن أن تتم تصفيته وفقا للطقس. نتائج لا يمكن مواصلة فرز، تصفية أو توسيع نطاقها لأبنائهم أو أنهم يذهبون إلى المدرسة. وأظن أن هذا هو واحد من الأسباب لوقف استخدام فريبيس.

بعد مغادرة جوجل عامين، قررت لبناء Dgraph. وليس في أيام، ولقد شهد جوجل الكثير من التردد في نظام بيانات الخرائط R & D الداخلي. هناك الكثير من الحلول مساحة الرسم خبز نصف، وخاصة الكثير من الحلول المخصصة، ونظام قذرة بنيت على أعلى من قواعد البيانات العلائقية أو NoSQL، أو واحدة من طراز العديد من متعدد الوظائف من قاعدة البيانات. إذا كان هناك حل المحلي إلى فوق، وسوف تواجه مشكلات تطويره.

قضى فريق Dgraph ثلاث سنوات، واستيعابها ليس فقط تجربة بلدي من قبل، ولكن أيضا على نظام تصميم الكثير من النوع الأصلي من الدراسة، أسست قاعدة بيانات رسومية لا مثيل لها في السوق. ولذلك، فإن الشركة لديها قوية وقابلة للقياس، والحل عالية الأداء، لتحل محل تلك الحلول خبز نصف.

الكاتب: ManishRai جاين، مؤسس Dgraph مختبرات

تنويه: يتم ترجمة هذا المقال من قبل تينسنت سحابة صفحة الفريق المنتج قاعدة بيانات المحتوى الأصلي من ديسيبل الموقع الرسمي الأسبوعي الإنجليزية.

هذا تقديم ورقة كتبها سحابة تينسنت، لطبع الرجاء الاتصال ب تينسنت سحابة.

طائرات التغيير خنزير؟ لماذا AI حتى غبي!

تكوين كامل لتفيض! الجديد كيا KX5 قائمة الأسعار 15،48-18،18 وان

سوبر 47 العناصر الاختيارية! وي ES6 التعرض ليتم الافراج الاسبوع المقبل

لماذا عصر الآلات الذكية لمعدل الهاتف المحمول عالية جدا؟ الحياة الهاتف متى؟

الراتب لا جيدة مثل جافا، C، BAT طلب كبير، استقال المبرمجين سر بيثون الوضع الراهن!

مدينة الأمور تشجيانغ | بعد الارض الاولى هانغتشو فوز ياو هاو: ثلاثة لمتوسط قسط أكثر من 40 من سعر الأرض إلى مستويات قياسية جديدة

انتهى 2019 التنين الصيني قارب سباق الخيل لعب مزدوج المحطة الاولى للملك لمسافات قصيرة

لماذا يكون معروفا مكان؟ لذلك خيانة هاتفك

لديك فقط لفتح الجيل العاشر هوندا أكورد، لم لا أحد يقول لك فتح السيارة والدك للخروج

هذا لا يكلفك فلسا واحدا الدعائم، وجعل جديدة ارتفاع الصورة الولايات المتحدة

قطاع التنقيب شفروليه المفيد لشراء؟ اعترافات نظرة على المالكين الحقيقيين!

هواوي مشتركة Jingdong، راش الدخن النظام البيئي!