استخراج اطلاعات وب سایت‌ها با تکنیک Web Scraping

برای استخراج اطلاعات یک سایت چند راه وجود داره

اولین راه استفاده از کتابخانه‌های قدیمی مثل Html_simple_dom یا تابع cURL خود PHP است. راهکاری ساده ولی تقریبا برای سایت‌های امروزی، بلا استفاده.

از جمله نقاط ضعف این راهکار این که اگر محتویات صفحه توسط Ajax فراخوانی شوند، قابل خواندن نیست.

راهکار دوم استفاده از مرورگرهای Head-less است. در این روش یک مروگر بصورت اتوماتیک اجرا شده و پس از اتمام لود سایت، همانند یک کاربر توانایی کلیک بر روی المان‌های موجود در صفحه یا گرفتن هر یک را دارا هستند. این تکنیک با عبارت کلیدی WebDriver قابل جستجوی تخصصی در وب است.

چند کتابخانه معروف در نت وجود دارد که SeleniumHQ بیشترین همخوانی را با PHP و ویندوز دارد. WebDriverIO در NodeJS و WebDriver در پایتون نیز از همین کتابخانه برای وب اسکرچینگ استفاده می‌کنند.

فیس بوک نیز این کتابخانه را برای PHP توسعه داده و در گیت هاب منتشر کرده است.

هشدار : استفاده از Selenium توسط Php علاوه بر استفاده از رم بسیار زیاد، پایداری مناسب نداشته و امکان ارور هندیلنگ در آن بنا به دلایلی وجود ندارد. به عنوان مثال سیستم به هیچ عنوان به مدیریت خطای StaleElements پاسخ نداده و صرفا برنامه کرش می کند.

کلاسور

ویترین کوچک دانسته ها و ندانسته های من ...

استخراج اطلاعات وب سایت‌ها با تکنیک Web Scraping

Mysql Restart Comannd in Centos

javascript

python

پایتون

نظرات (۰)

Git

PHP

آموزش لاراول

آموزش CodeIgniter

کلاس ها و توابع بدرد بخور

MySQL

Java Scripts

مدیریت سرور

دایرکت ادمین

سرور لینوکس

سامانه های مدیریت محتوا (CMS)

جوملا

وردپرس

اندروید

Python

گرافیک

آموزش نرم افزارها

نرم افزارهای مفید

یادداشت