حصريا | قراءة الزاحف رقة على شبكة الإنترنت

مقدمة

في عهد اندلاع البيانات الحالية وتحليل البيانات كانت صناعة قوية، والمزيد والمزيد من الناس المشاركة في تحليل البيانات. الأكثر دخول مجال تريده هو أن تحصل على كمية كبيرة من البيانات لدعم تحليلهم، ولكن كيف للحصول على المعلومات في الإنترنت؟ هذا الترويج التطور السريع للتكنولوجيا "الزاحف".

الزاحف على شبكة الإنترنت (المعروف أيضا باسم العنكبوت، الروبوت على شبكة الإنترنت، في وسط المجتمع FOAF، في كثير من الأحيان يسمى الويب المطارد)، هو نوع من متابعة بعض القواعد تلقائيا المعلومات الاستيلاء على برنامج الشبكة العالمية أو النصي.

الزواحف URL التقليدية من واحد أو عدة صفحات من بداية الأولي، والحصول على URL من الصفحة الأصلية، في عملية الزحف صفحات الويب، والاستمرار في استخراج URL الجديد من الصفحة الحالية في قائمة الانتظار حتى نظام يجب أن تستوفي شرط توقف. سير العمل الزاحف تركيزا أكثر تعقيدا ويتطلب خوارزميات تحليل مرشح خارج الموضوع وصلات بناء على صفحات معينة، والحفاظ على الروابط المفيدة ووضعها في طابور الانتظار للزحف على URL. ثم اختيارها وفقا لاستراتيجية البحث معينة من قائمة الانتظار وURL صفحة القادم إلى أن يتم الزحف، وتكرار هذه العملية حتى تصل إلى إيقاف حالة معينة للنظام.

وبالإضافة إلى ذلك، زحف كل الزواحف وسيتم تخزين الصفحات في النظام، بعض التحليلات، وتصفية، وفهرسة للبحث في وقت لاحق واسترجاعها؛ لالزاحف المركز، ويمكن الحصول أيضا على تحليل نتائج هذه العملية بعد عملية الزحف ردود الفعل العطاء والتوجيه.

وكانت الزواحف مبتدئين، من خلال هذا الاستعراض لتسجيل مشاعرك والخبرات.

ما يلي هو المحتوى الرئيسي من هذه المادة:

1. علامات المعروض الزواحف

طلبات لاستخدام بيثون في المكتبات طرف ثالث. طلبات في الطرق الرئيسية السبعة، والأكثر شيوعا هي طريقة الحصول على ()، طلب إلى طلب الكائن موارد الخادم عن طريق هذا الأسلوب التكوين، والنتيجة بإرجاع كائن الاستجابة يحتوي على كمية من موارد الخادم. يمكن الحصول على الكائن استجابة من حالة العودة للطلب، ومحتوى الصفحة الترميز في سلسلة أحرف شكل ثنائي المقابلة لURL للاستجابة HTTP أي صفحة ومحتوى الصفحة.

قبل النظر في طريقة الحصول على () ونحن أول اطلالة له على بروتوكول HTTP، وهو في النهاية قد نفذوا هذا العمل بواسطة بروتوكول HTTP للوصول إلى صفحة الويب نفهم هذه العملية.

على HTTP بروتوكول 1.1

بروتوكول نقل النص التشعبي (HTTP، بروتوكول نقل النص التشعبي) هو الأكثر استخداما بروتوكول شبكة الإنترنت. يجب على شبكة الاتصالات العالمية جميع الوثائق يتوافق مع هذا المعيار. بروتوكول HTTP أساسا له الخصائص التالية:

  • العميل الدعم / نموذج الخادم

  • بسيطة وسريعة: طلب خدمة إلى الخادم، إلا أن طلب التحويل، والمسار. طلب الطريقة المستخدمة عادة GET، الرأس، POST. يوفر كل أسلوب نوع مختلف من الاتصالات العميل الخادم. نظرا لبروتوكول HTTP بسيط، برنامج الملقم HTTP صغير جدا، لذلك سرعة الاتصال.

  • المرونة: HTTP يسمح للانتقال من أي نوع الكائن البيانات.

  • لا يوجد اتصال: فمن للحد من معنى كل طلب اتصال بدون اتصال معالجة طلب واحد فقط. عمليات الملقم طلبات العميل، وردت بعد الاستجابة قطع العملاء، ويمكن هذا النهج توفيرا للوقت الإرسال.

  • عديمي الجنسية: بروتوكول HTTP هو بروتوكول عديمي الجنسية. أي دولة ليست بروتوكول لمعالجة المعاملات والذاكرة. إذا زاد نقص وسائل الدولة أن المعالجة اللاحقة المطلوبة أمام المعلومات، ويجب إعادة إرسال، والذي قد يؤدي إلى كمية نقل البيانات لكل اتصال، من ناحية أخرى، عندما لا تتطلب المعلومات السابقة الخادم على الاستجابة السريعة.

باتباع خريطة ننظر إلى عملية الوصول إلى صفحة ويب على ما حدث:

1. بعد أول موقع ويب للحصول على تحليل اسم المضيف الأول من المتصفح. كما سيتم حل اسم المضيف www.baidu.com بها.

2. البحث الملكية الفكرية، واسم المضيف، والملكية الفكرية سوف ننظر أولا، أولا مراجعة ملف المضيفين، يتم إرجاع نجاح عنوان بروتوكول الإنترنت المقابل، إذا لا يمكن العثور على أي، ثم انتقل إلى الاستعلامات الخادم DNS العودة بنجاح الملكية الفكرية، وإلا فإنه سوف يقدم تقريرا خطأ اتصال.

3. إرسال طلب المتشعب، فإن المتصفح تملك المعلومات ذات الصلة المرتبطة بالمعلومات طلب في رسالة طلب HTTP إلى الملقم.

4. عمليات الملقم طلب الملقم يقرأ محتويات HTTP الطلب، بعد حل المضيف، لحسم اسم الموقع، والوصول إلى تحليل للموارد، والعثور على موارد ذات الصلة، إذا كان البحث ناجحا، تقوم بإرجاع رمز الحالة 200، فإن الفشل يعود الشهير 404 بعد لم يتم رصد طلب من موارد الخادم، يمكنك الانتقال إلى صفحات أخرى في إعدادات مبرمج. لذلك هناك مجموعة متنوعة من شخصية صفحة الخطأ 404.

5. HTTP استجابة إرجاعها من قبل الملقم، متصفح بإرجاع البيانات التي تم الحصول عليها بعد ويمكن استخراج البيانات، ومن ثم استدعاء يوزع نواة الترجمة، ومشاركة الصفحة المعرض. بعد متصفح سوف ملف المراجع مثل الصور، المغلق، شبيبة وغيرها من الوثائق مواصلة تنفيذ الإجراء حتى بعد أن تم تحميل جميع الملفات، سيتم عرض الصفحة.

HTTP الطلب، طلب HTTP يتكون من ثلاثة أجزاء، وهي: خط الطلب، رسالة الرأس والجسد الطلب. طريقة الطلب (جميع طرق كافة الأحرف الكبيرة) وهناك طرق مختلفة لتفسير كل على النحو التالي:

  • GET  طلب الموارد التي حددها طلب-URI

  • وظيفة  إضافة بيانات جديدة بعد الموارد التي حددها طلب-URI

  • الرأس  رسالة طلب ردا على الموارد التي حددها طلب-URI رأس

  • PUT  يطلب خادم التخزين مورد، واستخدام هويتها بوصفها طلب-URI

  • DELETE  يطلب أن خادم حذف الموارد التي حددها طلب-URI

  • TRACE  يطلب إلى معلومات طلب صدى ملقم المتلقاة، وتستخدم أساسا لاختبار أو التشخيص

  • CONNECT  محجوزة للاستخدام مستقبلا

  • OPTIONS طلب الخادم أداء الاستعلام، أو غيرها من الاحتياجات والخيارات الموارد ذات الصلة

الحصول على أمثلة طريقة التطبيق: عندما وضع إدخال شريط عنوان URL من المتصفح الوصول إلى متصفح الويب باستخدام طريقة GET للحصول على الموارد إلى الخادم، على سبيل المثال: GET /form.html HTTP / 1.1 (CRLF)

يتكون استجابة HTTP من ثلاثة أجزاء، وهي: خط الوضع، رأس الرسالة، الجسم استجابة.

شكل سطر الحالة هو كما يلي: HTTP-الإصدار الحالة، رمز سبب، العبارة CRLF، حيث، HTTP-النسخة يشير إلى وجود نسخة من بروتوكول الخادم HTTP، وضع رمز يشير إلى أن الخادم يرسل إلى الخلف رمز حالة الاستجابة؛ السبب-العبارة تمثل حالة النص الوصف رمز.

رمز الحالة من ثلاثة أرقام، الرقم الأول ردا على فئات محددة، وهناك خمسة القيم الممكنة:

  • 1XX: معلومات اشارة - يشير تم استلام الطلب، يستمر معالجة

  • 2xx: نجاح - يشير إلى أن الطلب تم استلام بنجاح، يفهم، قبلت

  • 3xx: إعادة توجيه - لتلبية الطلب يجب أن تذهب إلى أبعد من ذلك

  • 4XX: خطأ العميل - طلب لديه خطأ في بناء الجملة أو لا يمكن أن يتحقق طلب

  • 5XX: خطأ من جانب الخادم - فشل الخادم في تحقيق طلب شرعي

رموز الحالة الشائعة، ووصف الدولة، والوصف:

كان طلب العميل // 200 OK ناجحة

400 طلب غير صحيح يطلب // العميل خطأ في بناء الجملة، فإنه لا يمكن أن يكون مفهوما من قبل الملقم

401 غير مصرح به // طلب غير المصرح به، يجب استخدام رمز الحالة مع حقل رأس WWW مصادقة

يتلقى 403 المحرمة // الخادم الطلب، لكنه رفض تقديم الخدمات

لا وجود 404 لم يتم العثور على مورد // المطلوبة، على سبيل المثال: إدخال URL غير صحيح

يحدث خطأ غير متوقع 500 ملقم داخلي خطأ // الخادم

503 الخادم // غير متوفر غير قادر حاليا على معالجة طلب العميل، قد يعود إلى طبيعته بعد فترة من الزمن.

على سبيل المثال: HTTP / 1.1200 OK (CRLF)

تفاصيل بروتوكول HTTP يمكن الرجوع إلى هذا المقال:

علمنا في وقت سابق عن بروتوكول HTTP، ثم عملية زرنا، حتى الصفحات تبدو مثل. زحف الويب العينين هو ما يبدو.

شبكة غير ثابتة، ولكن الزواحف هو دينامية، وبالتالي فإن الفكرة الأساسية هي أن الزواحف الزحف على طول وصلات المعلومات المفيدة على صفحة (نسيج العنكبوت من العقد). وبطبيعة الحال، لديه الموقع أيضا ديناميكية (استخدام العام مثل PHP أو ASP لغات، مثل واجهة تسجيل دخول المستخدم هو صفحات ديناميكية)، ولكن إذا كان بيت العنكبوت تنهار، والعناكب يشعر أقل أمنا، وبالتالي فإن الأولوية ستكون عادة يتم تصنيف صفحات ديناميكية في محركات البحث وراء صفحات ثابتة.

تعرف الفكرة الأساسية من الزواحف، ثم على وجه التحديد، وكيف يعمل؟ وكان من المفهوم الأساسي للصفحة. صفحة على شبكة الإنترنت من ثلاثة عناصر، وهي ملفات HTML وملفات CSS وملفات جافا سكريبت. إذا شهد موقع على شبكة الانترنت كدار، أي ما يعادل أتش تي أم أل قذيفة المنزل، المغلق البلاط تعادل ترسم وتجميل مظهر من المنزل الداخلية، جافا سكريبت هي الحمامات تعادل وغيرها من الأثاث والأجهزة الكهربائية، وزيادة ميزات المنزل. وكما يتبين من هذا التشبيه أعلاه، هو صفحة HTML الأساسية، بعد كل البلاط الصباغ في السوق هناك، والأثاث، والأجهزة هي عرض في الهواء الطلق، في حين أن قذيفة منزل فريدة من نوعها.

هنا هو مثال بسيط من صفحة ويب:

في عيون التماسيح، هذه الصفحة هو:

لذا كانت الصفحة هي أساسا النص التشعبي (النص التشعبي)، كل المحتوى على صفحة في شكل " < > ... < / > "إذا كنا نريد لجمع كافة الارتباطات التشعبية على الصفحة، ببساطة ننظر للتسمية أمام كل هذا في التسمية هو" أ href = "سلسلة، ومعرفة ما إذا كانت سلسلة استخراج" HTTP "(النص التشعبي بروتوكول التحويل، HTTPS تشير بروتوكول HTTP الآمن) لتبدأ. إذا لم يبدأ الارتباط التشعبي ب "http"، ثم وصلة من المرجح أن يكون ملف محلي أو صفحة على شبكة الإنترنت حيث بروتوكول نقل الملفات أو بروتوكول نقل البريد الإلكتروني (البريد الإلكتروني أو بروتوكول نقل الملفات)، يجب تصفية .

في بيثون نستخدم طلبات المكتبة لمساعدتنا على تحقيق طلبنا لصفحة ويب، وذلك لتحقيق عملية تنفيذ الزواحف.

7 طريقة الرئيسي 1.2 الطلبات المكتبة:

الطريقة الأكثر شيوعا لتنفيذ بسيطة الحصول على الزواحف الصغيرة، عن طريق البرامج رمز المثال:

2. الاتفاق الروبوتات

اتفاق الروبوتات (وتسمى أيضا اتفاق الزواحف، بروتوكول الروبوتات، الخ) واسمه الكامل هو "شبكة معايير الاستبعاد الزاحف" (الروبوتات استبعاد البروتوكول)، موقع يحكي محركات البحث الصفحات التي يمكن الزحف بالاتفاق الروبوتات، التي لا يمكن الزحف الصفحة. لتفسير ما محتوى ملف robots.txt من خلال عدة أمثلة صغيرة، وضعت صغير ملف robots.txt الافتراضي في الدليل الجذر للموقع، وليس موقع للملف ملف robots.txt، الافتراضي هو السماح للجميع الزواحف الحصول على محتوى مواقع الويب الخاصة بهم.

فهمنا للبروتوكول الروبوتات، إذا كانت المصالح التجارية لدينا على الالتزام الروبوتات اتفاق، وإلا فإنه سوف تتحمل المسؤولية القانونية المقابلة. المتعة عند مجرد صفحة الويب الشخصية، بل هو الامتثال الممارسة الموصى بها، وتعزيز الزواحف الود الكتابة نفسها.

3. التحليل على شبكة الإنترنت

BeautifulSoup محاولة لسحر عادي، مهيأ من المواقع HTML العلامات وتنظيم شبكة المعلومات المعقدة، وسهلة الاستخدام بيثون عرض الكائن معلومات بنية XML بالنسبة لنا.

يتم حل BeautifulSoup، تعبر، صيانة "علامة شجرة" مكتبة وظيفة.

3.1 محلل BeautifulSoup

BeautifulSoup تحليل محتوى صفحة الويب التي تم الحصول عليها بواسطة محلل أربعة أعلاه. أمثلة على استخدام الرسمي نظرة الموقع على نتيجة التحليل:

أولا، الحصول على محتوى HTML، بعد أن تمرير قرار BeautifulSoup، وإخراج تحليل للمقارنة:

عن طريق تحليل محتوى الويب، يمكننا استخدام BeautifulSoup طريقة الحصول على المعلومات بسهولة على صفحة الويب الرئيسية:

العناصر الأساسية للفئة 3.2 BeautifulSoup

3.3 BeautifulSoup وظيفة اجتياز

تعبر تقسيم اجتياز تصل، الهابطة اجتياز بالتوازي اجتياز ثلاثة.

  • اجتياز التنازلي:

  • اجتياز الأعلى:

  • اجتياز متوازي:

 4. التعبير العادية

التعابير العادية، المعروف أيضا باسم التعابير العادية. (بالإنكليزية: التعبير منتظم، وغالبا ما يتم اختصار الكود كما التعابير المنطقية، التعبير العادي أو RE)، وهو مفهوم في علم الحاسوب. وعادة ما تستخدم جدول منتظم لاسترداد أو استبدال النص بما يتماشى مع تلك التي من طراز (القاعدة) هو.

والمؤلف هو تعبير مبتدئين منتظم، وقال انه لا يمكن أن يشعر واضحة وموجزة حول التعابير العادية، والرجوع إلى البرنامج التعليمي على الانترنت هو موصى بها ( الرسوم التوضيحية، وشرح بالتفصيل التعبير العادي .

من خلال السيطرة على التعبير منتظمة يمكن أن تساعدنا على صفحة المعلومات الرئيسية.

5. الإطار الزاحف Scrapy

الثعبان هو Scrapy وضعت شاشة سريع، ومستوى عال تجريف والإنترنت الزحف إطار لالزحف المواقع على شبكة الإنترنت واستخراج البيانات المنظمة من الصفحة. Scrapy مجموعة واسعة من الاستخدامات، ويمكن استخدامها لاستخراج البيانات والمراقبة والاختبار الآلي.

Scrapy جاذبية هو أنه هو الإطار أن أي شخص يمكن تعديلها بسهولة كما هو مطلوب. كما يقدم مجموعة متنوعة من أنواع الزواحف الطبقة الأساسية، مثل BaseSpider، خريطة والزواحف الأخرى، أحدث نسخة يوفر أيضا الدعم الزواحف web2.0.

5.1 Scrapy هيكل الإطار الزاحف

المحرك: السيطرة على تدفق البيانات بين جميع وحدات والمناسبات الزناد على أساس الظروف.

تنزيل: وفقا لطلب صفحة التحميل

جدولة: إدارة جدولة جميع الطلبات التسلق

العنكبوت: تحميل استجابة قرار توليد البند عاد الزحف والتسلق تولد طلبات إضافية.

خطوط الأنابيب السلعة: العنكبوت المنتجة في البند بطريقة خط انابيب الزحف، والتي قد تشمل تنظيف والتفتيش وإعادة الزحف بيانات البحث HTML جلب العناصر، البيانات المخزنة في قاعدة البيانات.

5.2 تدفق البيانات

1. محرك يفتح موقع على شبكة الانترنت (فتح المجال)، والعثور على العنكبوت معالجة الموقع إلى URL طلب العنكبوت (الصورة) أول من الزحف.

2. حصلت العنكبوت من المحرك إلى URL الأول ويتم الزحف إلى طلب جدولة في جدولة (جدولة).

3. محرك URL رجات اتخذت بجانب الصعود إلى جدولة.

4. جدولة بإرجاع URL إلى أن يتم الزحف إلى المحرك، الذي الأمام وURL إلى (تنزيل) تحميل عن طريق وسيط (الاتجاه الطلب (طلب)) تحميل.

5. وبمجرد أن الصفحة يتم تحميلها، والاستجابة تحميل يولد صفحة، وتحميل الوسيطة (العودة (الاستجابة) الاتجاه) إلى المحرك.

6. وردت من المحرك إلى تحميل العنكبوت الاستجابة ويرسل عملية وسيطة التي كتبها العنكبوت (الاتجاه المدخلات).

7. البند العنكبوت الاستجابة تجهيز والعودة إلى الزحف و (متابعة) لطلب جديد إلى المحرك.

8. المحرك (عاد العنكبوت) إلى الزحف إلى السلعة خطوط الأنابيب، و(العنكبوت) إعادة طلب جدولة.

9. (من الخطوة الثانية) ويتكرر حتى لا تكون أكثر طلب جدولة، اغلاق محرك أسفل الموقع.

6. الزواحف الموزعة

أكثر من 6.1 المواضيع الزواحف

 في حالة الزحف كمية صغيرة من البيانات، ونحن نستخدم صفحة التحميل المسلسل، ثم مرة واحدة اكتمال التحميل، فقط أول سيبدأ تحميل جديد. لا يزال بوسعنا التعامل مع كمية صغيرة من البيانات على الوضع. ولكن في مواجهة المواقع الكبيرة ستكون كافية الأداء، ما اذا كنا نستطيع تحميل صفحات ويب متعددة في نفس الوقت، وقت التحميل سوف تتحسن بشكل ملحوظ.

سنقوم بتوسيع مسلسل لالموازية حمل الزواحف. لاحظ أنه إذا إساءة استخدام هذه الميزة، متعددة الخيوط محتوى طلبات الزاحف بسرعة كبيرة جدا، قد يتسبب في خادم الزائد، أو حظرت عنوان IP. لتجنب هذه المشكلة، لدينا لوضع تأخير شعار الزواحف، والحد الأدنى وقت طلب تحديد الفاصل الزمني لنفس اسم النطاق.

تنفيذها في بيثون خاصية تعدد بسيط نسبيا، بيثون موضوع وحدة من الجزء السفلي من وحدة هو أكثر من ذلك، وحدة خيوط بيثون هو بذل موضوع بعض التعبئة والتغليف، يمكن بسهولة أن تستخدم.

نظرة سريعة على وحدة موضوع يحتوي على وظائف والثوابت:

كاتب الموضوع ظائف والأشياء التي يشيع استخدامها:

بشكل عام، واستخدام الخيوط، هناك نوعان من وسائط، واحد هو خلق ترابط لتنفيذ وظيفة، وظيفة تمريرها إلى كائن الموضوع حيث يتم تنفيذ ذلك. يورث الآخر مباشرة من الموضوع، وخلق طبقة جديدة، خيط تنفيذ التعليمات البرمجية في داخل فئة جديدة.

رمز عملية متعددة والمرجعية الأمثلة على ذلك:

أكثر من 6.2 الزواحف عملية

خاصية تعدد في بيثون هو في الواقع ليس صحيحا متعددة الخيوط، وعدم الاستفادة الكاملة من موارد وحدة المعالجة المركزية متعددة النوى.

إذا كنت ترغب في الاستفادة منها، في معظم الحالات تتطلب استخدام عمليات متعددة في بيثون، ومن ثم دعا هذه الحزمة متعدد المعالجة.

مع ذلك، يمكنك إكمال بسهولة التحويل من عملية واحدة ليتم تنفيذها بشكل متزامن. متعدد المعالجة دعم الطفل والتواصل وتبادل البيانات وتزامن أشكال مختلفة، وتوفر عملية، انتظار، الأنابيب، قفل والمكونات الأخرى.

معالجة استخدام الأساسية:

في المعالجة المتعددة، كل عملية يمكن أن يمثله الفئة عملية. أول اطلالة له على API وهي:

  • الهدف فإنه يشير إلى أن الكائن المكالمة، يمكنك تمرير اسم الأسلوب

  • وسائط يدل على موضع الكائن يسمى معلمة الصفوف (tuple)، مثل وظيفة الهدف هو، فقد معلمتين م، ن، وسائط ثم يتم تمرير (م، ن) ل

  • kwargs يشير إلى أن القاموس الكائن الدعوة

  • اسم وهو اسم مستعار، وهو ما يعادل اسم عملية

  • مجموعة تجمع، في الواقع، لا تستخدم

دعونا نستخدم هذا المثال أن يشعر:

أبسط عملية عملية الخلق كما هو مبين أعلاه، مرت الهدف في اسم وظيفة، وسائط المعلمة هي وظيفة، في شكل الصفوف، إذا معلمة واحدة فقط، وهذا هو، وطول الصفوف (tuple) 1.

ثم استدعاء الأسلوب البدء () لبدء عمليات متعددة.

وبالإضافة إلى ذلك يمكنك أيضا الحصول على العدد الحالي من الآلات النوى وحدة المعالجة المركزية التي cpu_count () الأسلوب أيضا active_children طريقة () والحصول على جميع العمليات الجارية الحالية.

من خلال مثال ليشعر بها:

النتيجة:

الزواحف من خلال فتح عدة عمليات تحقق، سوف يقلل كثيرا من سرعة الزحف المعلومات. التفاصيل يرجى الرجوع إلى:

7. مواقع جمع البيانات غير متزامن

عند جمع المعلومات التي نواجهها الصفحات، ومن تحميل الصفحة شكل سلسلة نموذج، لم يتغير URL صفحة، ولكن لا يزال يمكن تحميل المحتوى. هذه المرة نحن بحاجة لتحليل بعض الصفحات في شفرة جافا سكريبت يمكن من خلالها الحصول على البيانات التي تحتاج إليها.

تواجه تقديم الصفحة باستخدام JS أوصى PhantomJS، أي واجهة، ومتصفح البرمجة بكت. إشارة:

السيلينيوم أداة اختبار الآلي. ويمكن أن تنفذ بسهولة اختبار اجهة ويب. استخدام PhantomJS الأبعاد تم تحليل JS، السيلينيوم والكتابة لدفع الالتحام مع بيثون، وبيثون لمرحلة ما بعد المعالجة. إشارة:

8. الزواحف التخزين

 الاتصال مع الزواحف في البداية، اعتدنا أن يكون الناتج الزواحف الصغيرة من سطر الأوامر، ونظرت إلى البيانات على سطر الأوامر، سطرا سطرا يبدو الى حد بعيد الشعور بالإنجاز، ولكن مع انتشار البيانات، والحاجة لتحليل البيانات، بيانات الطباعة إلى سطر الأوامر ليست حلا. لتكون قادرة على استخدام برامج زحف الويب النائية، ما زلنا بحاجة إلى البيانات المخزنة جمع.

8.1 ملفات الوسائط

هناك نوعان من تخزين ملفات الوسائط شيوعا: فقط الحصول على رابط URL، أو مباشرة تحميل الملفات المصدر. ولكن من المستحسن استخدام الأسلوب الأول. بعد المزايا:

  • الزواحف تشغيل أسرع، وتستهلك أقل حركة المرور، لأن الروابط الوحيدة المخازن دون الحاجة إلى تحميل الملف.

  • توفير مساحة التخزين، ليست هناك حاجة لتخزين ملفات الوسائط.

  • كود المخزنة URL هو أسهل للكتابة، لا تحتاج لتحميل رمز لملف

  • عدم تحميل الملفات يقلل من الحمل على الخادم المضيف الهدف.

بالطبع، هذا أيضا بعض العيوب:

  • جزءا لا يتجزأ من صفحاتنا في الارتباط خارج الموقع يسمى روابط مفيدة، واستخدام هذا الرابط لإعلامنا في ورطة، وكل موقع تنفيذ سلسلة تدابير أمنية.

  • لأن الملفات المرتبطة بك في خادم شخص آخر، لذلك سيتم تشغيل التطبيق لدينا مع إيقاع الآخرين.

  • روابط مفيدة وسهلة التغيير، إذا روابط مفيدة وأماكن أخرى على بلوق، يمكن العثور على بعضها البعض ومن المرجح أن يكون محاكاة ساخرة. أو هو التخزين الاحتياطي URL، حتى انتهت اكتشاف ارتباط.

  • في الواقع، لا يمكن إلا أن متصفح الإنترنت الوصول إلى صفحة HTML والتبديل صفحات، سيكون لديهم إمكانية الوصول إلى كافة الموارد على صفحة التحميل. تحميل ملف يجعلنا تبدو أكثر مثل الزواحف الذين يتصفحون صفحات.

يتم تخزين 8.2 البيانات إلى CSV

CSV هو تنسيق ملف مشترك لتخزين البيانات جدولي. كل سطر مفصولة السطر مفصولة بفواصل عمود إلى عمود. مكتبة بيثون CSV يمكن أن تكون بسيطة جدا لتعديل ملف CSV، يمكنك أيضا إنشاء ملف CSV من الصفر:

يمكننا استخدام وظيفة CSV وحدة الإرادة الزواحف الحصول على المعلومات المخزنة في ملف CSV.

8.3 الخلية

بالنسبة لعدد كبير من البيانات الزواحف، وبعد ذلك نحن بحاجة إلى استخدامها مرارا وتكرارا لتصفية تحليل البيانات، واخترنا تخزينها في قاعدة البيانات.

الخلية هو الأكثر شعبية نظام مفتوح المصدر لإدارة قواعد البيانات العلائقية، بل هو مرن جدا ومستقرة، DBMS تعمل بكامل طاقتها، وكثير من أعلى المواقع تستخدم ذلك، يوتيوب، تويتر، الفيسبوك وهلم جرا.

وقد الثعبان لا المدمج في أدوات دعم الخلية، ومع ذلك، هناك الكثير من المكتبات مفتوحة المصدر يمكن استخدامها لجعل التفاعل مع الخلية، والأكثر شهرة هو PyMySQL.

اتصال الزاحف مع العملية المذكورة أعلاه والبيانات التي حصل عليها في قاعدة البيانات.

التقنيات الشائعة 9. الزواحف

9.1 التناظرية الدخول

الموقع الحالي هو استخدام معلومات ملف تعريف الارتباط متعددة تتبع إذا قام المستخدم بتسجيل الدخول. مرة واحدة يتم التحقق من الموقع مذكرات تسجيل الدخول الخاصة بك، فإنه سيتم حفظها في ملف تعريف الارتباط المستعرض الخاص بك، والذي يحتوي عادة لدت خادم قيادة رخصة، معلومات تسجيل الدخول تتبع حالة محددة زمنيا وفعالة. وهذه الكعكة الموقع التحقق من المعلومات كدليل، تقديمه إلى خادم عندما كنا زيارة كل صفحة من صفحات الموقع.

من خلال المتصفح الذي يأتي مع أدوات المطورين كروم، الخ، وحصلنا على الرأس ونموذج لطلب صفحة الويب من شبكة، رأس، يمكننا أن عرض معلومات تسجيل الدخول المخزنة في ملف تعريف الارتباط، قد نطلب رأس صفحة المعلومات عن طريق وضع Scrapy والكعكة تخزينها محليا، لتحقيق تأثير الهبوط المحاكاة. يمكن الاطلاع على عملية مفصلة بلوق: HTTP: //www.jianshu.com / ع / b7f41df6202d

كود 9.2 الصفحة

ببساطة، هذا الرمز هو صورة، هناك سلاسل على الصورة. كيف هي الموقع لتحقيق ذلك؟ هناك أناس على أساس WEB قد تعرف، كل متصفح له ارتباط الأساسية، ويحدد فريد أن هذا هو الجواب. في كل مرة تقوم فيها بزيارة الموقع، والمتصفح يرسل ملف تعريف الارتباط إلى الخادم. كود ملزم والكعكة معا. كيف نفهم ذلك؟ على سبيل المثال، هناك الآن مواقع W، A و B لديهم شخصين لW Access نفس الوقت عودة W إلى رمز A التحقق هو X، والعودة إلى B رمز التحقق وY، وكلاهما رمز التحقق صحيحة، ولكن إذا كانت المدخلات من رموز B، لا يتم تمرير التحقق الإيجابي. هذا الخادم هو كيفية التمييز بين ألف وباء، وهذا هو ملف تعريف الارتباط المستخدمة. وكمثال آخر، بعض المواقع تقوم فيها بتسجيل الدخول مرة واحدة، في المرة القادمة لمواصلة الحصول الهبوط التلقائي ويمكن أيضا استخدام الكعكة للاحتفال هوية فريدة من نوعها، إذا قمت بإلغاء فإن الكوكي لا يكون تلقائيا سقط.

لبعض رمز بسيط يمكننا التعرف على الجهاز، ولكن بالنسبة للعين البشرية من الصعب التعرف على بعض من قانون يمكن أن ننظر فقط لتكنولوجيا أكثر تطورا. بسيطة عملية تحديد الهوية رمز التحقق هي عملية صورة رمز التحقق.

  • تحويل الرمادي، ويمكن الجمع في طريقة imread مكتبة برمجية مفتوحة للرؤية الحاسوبية.

  • صورة تقليل الضوضاء (فلتر المتوسط، وهو مرشح جاوس، وما إلى ذلك).

  • وbinarization صورة (سلسلة رمز التحقق العملية أصبحت سوداء، خلفية بيضاء).

  • باستخدام طريقة التعرف على الصور، المعترف بها سلسلة الأحرف في الرسم لأغراض تحديد الهوية رمز التحقق.

القراءة الموصى بها:

(الجزء الأول)

(الجزء الثاني)

تجمع كيل 9.3 الزاحف

منذ أن كنت قد الزواحف مبتدئين عدم استخدام مثل هذه التكنولوجيا المعقدة، ولكن في عملية اقدر الزواحف في عناوين IP منعت والألم. لذلك أنصح لديك الطاقة للتعلم ويمكن إكمال.

القراءة الموصى بها:

https://www.zhihu.com/question/47464143

10. الزواحف المضادة

كخادم الموقع الزواحف العنف سوف تولد الكثير من الضغط، لذلك أن كل موقع له حد من الزواحف، فإن معظم المواقع تحديد ملف robots.txt. الملفات يمكن أن تسمح الزواحف لفهم القيود المفروضة على الموقع. وتعطى الحد كاقتراح. ولكن تحقق الملف قبل قد حظرت الزاحف يمكن أن تقلل برامج الزحف لدينا.

مقال حول مكافحة الزواحف: https://segmentfault.com/a/ 1190000005840672 (من مركز تكنولوجيا كتريب)

11. المواد التعليمية

الكتب الموصى بها:

  • "جمع البيانات بيثون شبكة" تاو جونجي والترجمة شياو لى تشن

  • "كتب في بيثون الزاحف على شبكة الإنترنت" ترجمة لى بن

بلوق الموصى بها:

  • وكان كوي تشينغ بلوق الشخصية جدا، وهناك الكثير من المقالات حول الزواحف، وشرح أكثر تفصيلا.

  • تعدين البيانات والدخول القتالية رقم القناة الصغيرة الجمهور لتبادل مقال، "المفتوحة المصدر بيثون رمز المشروع الزواحف: الاستيلاء على تاوباو، Jingdong، QQ، HowNet البيانات"، تسعة عشر مشاريع مفتوحة المصدر الزواحف، يمكن أن توفر مرجعا للجميع. https://github.com/hlpassion/blog/issues/6

الفيديو الدعائي:

  • نيتياس الفصول الدراسية سحابة، مثال واضح، ويمكن القيام به الآن.

  • بيثون الزاحف على شبكة الإنترنت واستخراج المعلومات

  • أكثر إثارة يرجى الانتباه إلى جامعة تسينغهوا - معهد العلوم وبيانات القناة الصغيرة تشينغداو منصة الرسمية العامة "THU فصيل البيانات"

ضرب ترامب تقنية صفقة الضرائب TSMC، ستقوم إنتل مساعدة تأخذ مسبك قوي؟

لى وى، نائب رئيس تينسنت سحابة: كيفية التعامل مع الانفجار البيانات والحفاظ على أمن المعلومات؟

"مزدوجة 11" مطار تيانخه تسعين في المئة من تسليم جزء من الوقت من الطائرات، وأكثر من 500 طلعة

+7 تقاليد الفريق السابق خمسة أهداف! لعب بالوتيلي مهلا، نظرة المدرب السابق لإحراج على هامش

حصريا | تكنولوجيا AI وتطبيقات البيانات الكبيرة في التكنولوجيا المالية

2 H-3 الحقل هو موجة الرقم القياسي العالمي! قلل حارس مرمى مانشستر يونايتد إلى لوحة خلفية، وأشار بشكل حاد الحقيقة أسطورة

واسعة Yuanqing سيتشوان 36 قرى وبلدات لتحقيق التغطية الكاملة لمرافق النار

حصريا | أثار التفكير التعرف على الوجه أمن البيانات فون X

غوغل والحرس الذكاء الاصطناعي، مصممة خصيصا لالنصف الآخر الخاص

سيد GIF-! قدم انيستا البالغ من العمر 34 عاما ثلاثة أهداف فقط في اليابان، التي تمر فترة طويلة لمعرفة حالة سكر

حصري | مقال واحد لفهم خوارزمية التحسين

تسريع تغيير جيل، المستعملة النقالة الروابط التجارية الهاتف تحليل | 36 البحوث الكريبتون