Web Scraper 4: chromium server-side

Опробовал затащить всю связку agent + selenium-standalone + chromium-driver + headless chromium на сервер.

  • Тесты поначалу были оптимистичными. Словил капчу.
  • Научился обмениваться User-Agent и кукисами между разными браузерами (chromium и w3m). 
  • Научился распознавать и вводить капчу через w3m.
  • Но не только я учился. Целевой ресурс хорошо стал работать с ботами и browser foot-print-ми.
  • Раз уж «умею» из консоли читать картинки, w3m становится более не нужен. Запиливаю интерактивный режим ввода капчи.
  • GDPR внедряют. Причем вроде скрипт-то простой, который ставит куки и рефрешит страницу, а вешает намертво безголовый хром. Блокер. Потому что с сохранением кук проблем нет вообще. А с загрузкой.. В общем, обойти GDPR заглушку я не могу уже не первый день.
  • Напоследок, хромиум стал падать. Всё сводится к тому, что недостаточно памяти на сервере. Приехали. Переезжать на более мощное окружение из-за Google? Нет!
  • В довершении всего выхватываю OOM на сервере.

Ещё одна гипотеза — мимо. Берусь за следующую. Там же целая бездна вариантов. Какой-то да должен выстрелить.


Error

default userpic

Your IP address will be recorded 

When you submit the form an invisible reCAPTCHA check will be performed.
You must follow the Privacy Policy and Google Terms of use.