أكثر من 1500 نوعا من أسعار السلع رؤية بانورامية كل يوم، كيف أفعل ذلك؟

أطروحة 2148 الكلمات، وعندما يكون التعلم مدى المتوقع 4 دقيقة

المؤلف الأصلي لهذا المقال هو المؤسس المشارك وخدمات تكنولوجيا الأعمال التجارية والدو، الرئيس التنفيذي للتكنولوجيا جريج مصباح. قد ارتكبت الشركة ليحصل أنت إلى الخلف المال عندما تنخفض الأسعار. ربما هذه المادة يمكن أن تفعل بعض البحوث أو الأعمال التجارية الأفكار بالنسبة لك.

المصدر: pexels.com/@belart84

وفيما يلي نص المقال:

والدو يمكن جمعها يوميا من البائعين المفضلة لديك هناك لمزيد من المعلومات

بعد بيع أول شركة البيانات العلمية، قررت إنشاء شركة جديدة، لمساعدة الناس بسهولة توفير المال على الأشياء التي تم شراؤها مؤخرا من قبل.

نحن اسم الشركة والدو (https://www.getwaldo.com/)، مخصصة لتضيع يعود المال لمساعدة لك مزهر كثيرة. إذا كنت قد اشتريت مؤخرا أسعار السلع الأساسية أو الترقيات، ويمكن الدو تلقائيا ضبط أسعار السلع من حيث نافذة حماية الأسعار.

بناء على التخطيط الشامل

في الواقع، والدو "الدماغ الاصطناعي" هو البنية التحتية لتكنولوجيا التي يمكن أن تتبع سعر 1500 مليون أنواع البضائع على الانترنت كل يوم. في الوقت الراهن، لمسنا أكثر من 70 المنتجات التجارية، والعدد يتزايد.

يجب علينا أن التحديق في كل سعر

من جهة نظر هندسية، ونحن نعلم أنه نظرا لحجم كبير من السلع التي تباع عبر الإنترنت، وبعض المجالات يكون من الصعب الحفاظ عليها. لذلك، ونحن ننظر في المبيعات بنسبة تقسيم نتاج توزيع التجزئة - الغالبية العظمى من حقول تم العثور على لتعقبها سوى كمية صغيرة من المنتج.

مقسوما على مبيعات المنتجات من تجار التجزئة توزيع الذيل طويل

وفقا لذلك، وحجم الأصلي للسلع ليست مشكلة، فإن التحدي الحقيقي هو كيفية الحفاظ على هذا العدد الكبير من مختلف المجالات.

طريقة تحقيق هذه الفكرة المجنونة

ولذلك، من أجل تتبع أسعار أكثر من 1500 نوعا من السلع، ويمكن تقسيم المشكلة إلى الفئتين التاليتين:

1. اتساع - أكثر من 70 حقول لتتبع أسعار السلع وتكاليف الصيانة وليس ارتفاعا حادا.

2. تردد - وارتفاع الأسعار وتيرة التحديثات، والمزيد من تعزيز استطعنا العثور عليها، ومعالجة أسرع رد.

بناء على ما سبق قضيتين، قررنا لتحقيق الكفاءة التشغيلية وتحسين وتخصيص وقت التنفيذ، إعادة استخدام ووقت الصيانة.

والدو مجهزة ل"الدماغ الاصطناعي"

نبدأ في إنشاء الزاحف (مقشط) في كل الدعم والدو المجال. في حين HTML (HTML) قد يكون المجال تحديدا، ولكن النهج هو نفسه:

1. الحصول على قائمة من جميع الفئات في كل مجال

2. الحصول على جميع المنتجات في كل فئة

وهذا يعني خلق الزواحف متشابهة جدا في الاسلوب. يمكننا تحقيق إعادة استخدام التعليمات البرمجية، وهذا يعني أيضا أن الفريق المعرفي مشحونا الدولة هو انخفاض.

Navs يسمح لنا بسرعة لإيجاد أكثر جميع الفئات في مجال معين

الثعبان

وبما أن لغة البرمجة بايثون والدو كومة الزواحف، وهناك اعتبارين أساسيين:

1. "الأعلى إلى الأسفل، من اليسار إلى اليمين" من جميع النواحي صالح

اعتقدنا في البداية لنود.جي إس استخدام (هذه هي لغة التطبيق على شبكة الانترنت المستخدمة). في حين أن الشركة يمكن أن يكون لها لغة برمجة موحد هو شيء جيد، ولكن عند التعامل مع الاسترجاعات والعمليات غير المتزامنة، نود.جي إس مرهقة وعرضة للخطأ. لذلك بدأنا في محاولة لاستخدام بيثون، أشعر تناسب جدا.

https://media.giphy.com/media/BZhvKu7MT0n2voRhtf/giphy.gif

2. مكتبة

الثعبان لديها مذهلة الزواحف النظام البيئي، والتي تغطي الكثير من المكتبات، مثل طلبات (https://2.python-requests.org/en/master/)، BeautifulSoup (https://www.crummy.com/software/BeautifulSoup/ BS4 / وثيقة /) وScrapy (https://scrapy.org/).

عندما يتعلق الأمر إعادة استخدام التعليمات البرمجية، Scrapy حقا مفيدة جدا. Scrapy لديها عدد كبير من التخلف عن السداد ومجموعة غنية من الأدوات لجعل يمكن للمطورين معظم صغار خلق الزواحف فعالة في وقت قصير.

المدمج في Scrapy أيضا مسارات XPath دعم (https://www.w3schools.com/xml/xml_xpath.asp)، ونحن استخدامه لتحليل واستخراج البيانات لكل صفحة المنتج.

Scrapinghub

فائدة أخرى هي أن Scrapy ديك Scrapinghub (https://scrapinghub.com/) الدعم الفني. فريق Scrapinghub ليس فقط يوفر ميزات جديدة لScrapy مشاريع مفتوحة المصدر، ولكن أيضا على Scrapy إدارة وتشغيل ادارة العلاقات مع عروضها الخاصة.

يوفر Scrapinghub الزواحف تمتد كل إدارة البنية التحتية من جدولة للمرونة التي تمكن الفريق إلى التركيز على تطبيقات الأعمال الزواحف، ولكن لا تقتصر على "الرعاية" العمل.

XPathHelper

الأداة الأخيرة هي كسباث مساعد (https://chrome.google.com/webstore/detail/xpath-helper/hgimnogjllphhhkhlmebbmlgjoejdpjl؟hl=en)، فإنه يمكن استخدامها لاختبار مسارات XPath كروم المكونات في.

قد تكون مسارات XPath خارج نطاق السيطرة، لذلك، لديك أداة رمل / وحدة تساعد حقا التصحيح مكشطة.

مربع كسباث النص، اكتب في الزاوية اليمنى العليا، وعرض النتائج في الوقت الحقيقي

إدارة الجودة

إذا لم تتمكن من رصد انخفاض الزواحف في جودة أن لديهم أي شيء ذي قيمة. وجدنا أن المجال في بعض الأحيان تغيير تخطيط، بحيث الزواحف يمكن الكشف عن أسعار المنتجات. أكثر مشكلتين شيوعا هي:

1. البيانات مشكلة سلامة (أي القيم المكررة، السعر، الخ مفقود)

2. فقدان البيانات (أي أن المنتج هو بالفعل في المجال، ولكن ليس في قاعدة البيانات الخاصة بنا)

سلامة البيانات

من أجل قضايا النزاهة عنوان البيانات، كان لدينا الكثير من الاختبارات و. الاختبار والتفتيش هو شكل بسيط، يمكنك الاستعلام وتحديد تلك الاختبار لا يبدو العد الصحيح. على سبيل المثال، إذا كان هناك وحدة المخزون المكررة (SKU) للتحقق من قاعدة البيانات.

لدينا مجموعة تعمل في كل ساعة والتحقق للتأكد من أن جميع البيانات أمر طبيعي.

يمكنك ان ترى في هذا المثال، anopolgie.com تفتقر إلى تغيرات الأسعار

البيانات الناقصة

لا يسعنا إلا أن نقدر كيف العديد من المنتجات كل مجال، لذلك أنا لا أعرف ما إذا أمسك الدليل بالكامل. لذلك، وأحيانا في عداد المفقودين المنتجات.

عادة، وهذه المنتجات قد تم مخبأة في بعض الزواحف لدينا لا تحتاج إلى النظر في إشراك فئة غامض. ومن الأمثلة على ذلك الترقيات تصنيف الموقع من المنتجات. على افتراض أن محفظة المدرب وتقدم خصم. تم نقل قد يؤدي في هذه الحزمة هذا من قطع غيار التصنيف فئات الترويجية، وفئة إزالة حتى أصعب (نعم، تعزيز وإزالة عادة فئتين منفصلتين).

في المثال أعلاه، "صفقة الصيف" هي فئة منفصلة تماما

لحل هذه المشكلة، فقد وضعنا لضمان الجودة العمليات اليدوية، وعينات المنتجات المستخلصة من المجال، وتحقق من أنها وضعت في المخازن. نعم، هذا النموذج. وعلى الرغم من بدائية جدا، ولكن فعالة جدا. سوف يفاجأ لك لاكتشاف أن البشر هم جيدة في ما وجدت المنتجات الزواحف قد غاب.

انتباه رسالة الابهام

معا نحن نشارك في التعلم وتطوير AI الجاف

ترحب منظمة العفو الدولية انتباه منصة الشنق كله من الطبقة سائل الإعلام "قراءة التقنية الأساسية"

190623 Dilly ريبا "التحدي الأكبر" وفقا لسجل اجتاحت الأسواق الفتوة

WalkingPad مفرغة A1 برو مراجعة: قامة قصيرة سهولة التخزين، من السهل أن "السير" للخروج من الصحة

190623 النحل تدمير مجموعة من المشجعين لا العشب يمكن أن تمتص فقط وضع المتواضع قدمت مجموعة المنشورة

صدر سوني الرائد كامل الإطار الصغير واحد A7R4: 6100000000 بكسل في 3500 $

"رؤية موازية" يأتي: هواوي قرص M6 مفتوحة الروبوت قرص رؤية التنمية

هوايان: جسر قناة هوايان افتتح رسميا

التقنية رد: كيف أحصل على جوجل، الفيسبوك والأمازون عرض؟

شين قو كايوان K1 حالة التقييم: عهدا جديدا من ATX مفتوحة 3.0

جيدة إلى الأعلى، طريقك من العلماء بيانات قصيرة من مهارات 13

اليوم صوت الأساسية | الجبن مزدوجة والقيام بشيء ما؟ أعيد فيديكس العضو الشحن هواوي الهاتف الخليوي

500000 الجائزة الكبرى! دانتشو مكافأة القبض على 93 الاحتيال الهاربين الاتصالات السلكية واللاسلكية، يرجى الاطلاع على الشرطة

اكتشف هواوي عملية باولو! 2799 يوان الجهاز الجديد، لمساعدتك على الجراحة التجميلية والساقين رقيقة وسحبها