برای استخراج اطلاعات یک سایت چند راه وجود داره
اولین راه استفاده از کتابخانههای قدیمی مثل Html_simple_dom یا تابع cURL خود PHP است. راهکاری ساده ولی تقریبا برای سایتهای امروزی، بلا استفاده.
از جمله نقاط ضعف این راهکار این که اگر محتویات صفحه توسط Ajax فراخوانی شوند، قابل خواندن نیست.
راهکار دوم استفاده از مرورگرهای Head-less است. در این روش یک مروگر بصورت اتوماتیک اجرا شده و پس از اتمام لود سایت، همانند یک کاربر توانایی کلیک بر روی المانهای موجود در صفحه یا گرفتن هر یک را دارا هستند. این تکنیک با عبارت کلیدی WebDriver قابل جستجوی تخصصی در وب است.
چند کتابخانه معروف در نت وجود دارد که SeleniumHQ بیشترین همخوانی را با PHP و ویندوز دارد. WebDriverIO در NodeJS و WebDriver در پایتون نیز از همین کتابخانه برای وب اسکرچینگ استفاده میکنند.
فیس بوک نیز این کتابخانه را برای PHP توسعه داده و در گیت هاب منتشر کرده است.