برای استخراج اطلاعات یک سایت چند راه وجود داره

اولین راه استفاده از کتابخانه‌های قدیمی مثل Html_simple_dom یا تابع cURL خود PHP است. راهکاری ساده ولی تقریبا برای سایت‌های امروزی، بلا استفاده.

از جمله نقاط ضعف این راهکار این که اگر محتویات صفحه توسط Ajax فراخوانی شوند، قابل خواندن نیست.

 

 

راهکار دوم استفاده از مرورگرهای Head-less است. در این روش یک مروگر بصورت اتوماتیک اجرا شده و پس از اتمام لود سایت، همانند یک کاربر توانایی کلیک بر روی المان‌های موجود در صفحه یا گرفتن هر یک را دارا هستند. این تکنیک با عبارت کلیدی WebDriver قابل جستجوی تخصصی در وب است.

چند کتابخانه معروف در نت وجود دارد که SeleniumHQ بیشترین همخوانی را با PHP و ویندوز دارد. WebDriverIO در NodeJS و WebDriver در پایتون نیز از همین کتابخانه برای وب اسکرچینگ استفاده می‌کنند.

فیس بوک نیز این کتابخانه را برای PHP توسعه داده و در گیت هاب منتشر کرده است.

 

هشدار : استفاده از Selenium توسط Php علاوه بر استفاده از رم بسیار زیاد، پایداری مناسب نداشته و امکان ارور هندیلنگ در آن بنا به دلایلی وجود ندارد. به عنوان مثال سیستم به هیچ عنوان به مدیریت خطای StaleElements پاسخ نداده و صرفا برنامه کرش می کند.