المؤلف الأصلي لهذا المقال هو المؤسس المشارك وخدمات تكنولوجيا الأعمال التجارية والدو، الرئيس التنفيذي للتكنولوجيا جريج مصباح. قد ارتكبت الشركة ليحصل أنت إلى الخلف المال عندما تنخفض الأسعار. ربما هذه المادة يمكن أن تفعل بعض البحوث أو الأعمال التجارية الأفكار بالنسبة لك.
المصدر: pexels.com/@belart84
وفيما يلي نص المقال:
والدو يمكن جمعها يوميا من البائعين المفضلة لديك هناك لمزيد من المعلومات
بعد بيع أول شركة البيانات العلمية، قررت إنشاء شركة جديدة، لمساعدة الناس بسهولة توفير المال على الأشياء التي تم شراؤها مؤخرا من قبل.
نحن اسم الشركة والدو (https://www.getwaldo.com/)، مخصصة لتضيع يعود المال لمساعدة لك مزهر كثيرة. إذا كنت قد اشتريت مؤخرا أسعار السلع الأساسية أو الترقيات، ويمكن الدو تلقائيا ضبط أسعار السلع من حيث نافذة حماية الأسعار.
بناء على التخطيط الشامل
في الواقع، والدو "الدماغ الاصطناعي" هو البنية التحتية لتكنولوجيا التي يمكن أن تتبع سعر 1500 مليون أنواع البضائع على الانترنت كل يوم. في الوقت الراهن، لمسنا أكثر من 70 المنتجات التجارية، والعدد يتزايد.
يجب علينا أن التحديق في كل سعر
من جهة نظر هندسية، ونحن نعلم أنه نظرا لحجم كبير من السلع التي تباع عبر الإنترنت، وبعض المجالات يكون من الصعب الحفاظ عليها. لذلك، ونحن ننظر في المبيعات بنسبة تقسيم نتاج توزيع التجزئة - الغالبية العظمى من حقول تم العثور على لتعقبها سوى كمية صغيرة من المنتج.
مقسوما على مبيعات المنتجات من تجار التجزئة توزيع الذيل طويل
وفقا لذلك، وحجم الأصلي للسلع ليست مشكلة، فإن التحدي الحقيقي هو كيفية الحفاظ على هذا العدد الكبير من مختلف المجالات.
طريقة تحقيق هذه الفكرة المجنونة
ولذلك، من أجل تتبع أسعار أكثر من 1500 نوعا من السلع، ويمكن تقسيم المشكلة إلى الفئتين التاليتين:
1. اتساع - أكثر من 70 حقول لتتبع أسعار السلع وتكاليف الصيانة وليس ارتفاعا حادا.
2. تردد - وارتفاع الأسعار وتيرة التحديثات، والمزيد من تعزيز استطعنا العثور عليها، ومعالجة أسرع رد.
بناء على ما سبق قضيتين، قررنا لتحقيق الكفاءة التشغيلية وتحسين وتخصيص وقت التنفيذ، إعادة استخدام ووقت الصيانة.
والدو مجهزة ل"الدماغ الاصطناعي"
نبدأ في إنشاء الزاحف (مقشط) في كل الدعم والدو المجال. في حين HTML (HTML) قد يكون المجال تحديدا، ولكن النهج هو نفسه:
1. الحصول على قائمة من جميع الفئات في كل مجال
2. الحصول على جميع المنتجات في كل فئة
وهذا يعني خلق الزواحف متشابهة جدا في الاسلوب. يمكننا تحقيق إعادة استخدام التعليمات البرمجية، وهذا يعني أيضا أن الفريق المعرفي مشحونا الدولة هو انخفاض.
Navs يسمح لنا بسرعة لإيجاد أكثر جميع الفئات في مجال معين
الثعبان
وبما أن لغة البرمجة بايثون والدو كومة الزواحف، وهناك اعتبارين أساسيين:
1. "الأعلى إلى الأسفل، من اليسار إلى اليمين" من جميع النواحي صالح
اعتقدنا في البداية لنود.جي إس استخدام (هذه هي لغة التطبيق على شبكة الانترنت المستخدمة). في حين أن الشركة يمكن أن يكون لها لغة برمجة موحد هو شيء جيد، ولكن عند التعامل مع الاسترجاعات والعمليات غير المتزامنة، نود.جي إس مرهقة وعرضة للخطأ. لذلك بدأنا في محاولة لاستخدام بيثون، أشعر تناسب جدا.
2. مكتبة
الثعبان لديها مذهلة الزواحف النظام البيئي، والتي تغطي الكثير من المكتبات، مثل طلبات (https://2.python-requests.org/en/master/)، BeautifulSoup (https://www.crummy.com/software/BeautifulSoup/ BS4 / وثيقة /) وScrapy (https://scrapy.org/).
عندما يتعلق الأمر إعادة استخدام التعليمات البرمجية، Scrapy حقا مفيدة جدا. Scrapy لديها عدد كبير من التخلف عن السداد ومجموعة غنية من الأدوات لجعل يمكن للمطورين معظم صغار خلق الزواحف فعالة في وقت قصير.
المدمج في Scrapy أيضا مسارات XPath دعم (https://www.w3schools.com/xml/xml_xpath.asp)، ونحن استخدامه لتحليل واستخراج البيانات لكل صفحة المنتج.
Scrapinghub
فائدة أخرى هي أن Scrapy ديك Scrapinghub (https://scrapinghub.com/) الدعم الفني. فريق Scrapinghub ليس فقط يوفر ميزات جديدة لScrapy مشاريع مفتوحة المصدر، ولكن أيضا على Scrapy إدارة وتشغيل ادارة العلاقات مع عروضها الخاصة.
يوفر Scrapinghub الزواحف تمتد كل إدارة البنية التحتية من جدولة للمرونة التي تمكن الفريق إلى التركيز على تطبيقات الأعمال الزواحف، ولكن لا تقتصر على "الرعاية" العمل.
XPathHelper
الأداة الأخيرة هي كسباث مساعد (https://chrome.google.com/webstore/detail/xpath-helper/hgimnogjllphhhkhlmebbmlgjoejdpjl؟hl=en)، فإنه يمكن استخدامها لاختبار مسارات XPath كروم المكونات في.
قد تكون مسارات XPath خارج نطاق السيطرة، لذلك، لديك أداة رمل / وحدة تساعد حقا التصحيح مكشطة.
مربع كسباث النص، اكتب في الزاوية اليمنى العليا، وعرض النتائج في الوقت الحقيقي
إدارة الجودة
إذا لم تتمكن من رصد انخفاض الزواحف في جودة أن لديهم أي شيء ذي قيمة. وجدنا أن المجال في بعض الأحيان تغيير تخطيط، بحيث الزواحف يمكن الكشف عن أسعار المنتجات. أكثر مشكلتين شيوعا هي:
1. البيانات مشكلة سلامة (أي القيم المكررة، السعر، الخ مفقود)
2. فقدان البيانات (أي أن المنتج هو بالفعل في المجال، ولكن ليس في قاعدة البيانات الخاصة بنا)
سلامة البيانات
من أجل قضايا النزاهة عنوان البيانات، كان لدينا الكثير من الاختبارات و. الاختبار والتفتيش هو شكل بسيط، يمكنك الاستعلام وتحديد تلك الاختبار لا يبدو العد الصحيح. على سبيل المثال، إذا كان هناك وحدة المخزون المكررة (SKU) للتحقق من قاعدة البيانات.
لدينا مجموعة تعمل في كل ساعة والتحقق للتأكد من أن جميع البيانات أمر طبيعي.
البيانات الناقصة
لا يسعنا إلا أن نقدر كيف العديد من المنتجات كل مجال، لذلك أنا لا أعرف ما إذا أمسك الدليل بالكامل. لذلك، وأحيانا في عداد المفقودين المنتجات.
عادة، وهذه المنتجات قد تم مخبأة في بعض الزواحف لدينا لا تحتاج إلى النظر في إشراك فئة غامض. ومن الأمثلة على ذلك الترقيات تصنيف الموقع من المنتجات. على افتراض أن محفظة المدرب وتقدم خصم. تم نقل قد يؤدي في هذه الحزمة هذا من قطع غيار التصنيف فئات الترويجية، وفئة إزالة حتى أصعب (نعم، تعزيز وإزالة عادة فئتين منفصلتين).
لحل هذه المشكلة، فقد وضعنا لضمان الجودة العمليات اليدوية، وعينات المنتجات المستخلصة من المجال، وتحقق من أنها وضعت في المخازن. نعم، هذا النموذج. وعلى الرغم من بدائية جدا، ولكن فعالة جدا. سوف يفاجأ لك لاكتشاف أن البشر هم جيدة في ما وجدت المنتجات الزواحف قد غاب.
انتباه رسالة الابهام
معا نحن نشارك في التعلم وتطوير AI الجاف
ترحب منظمة العفو الدولية انتباه منصة الشنق كله من الطبقة سائل الإعلام "قراءة التقنية الأساسية"