July 12th, 2018

Web Scraper 4: chromium server-side

Опробовал затащить всю связку agent + selenium-standalone + chromium-driver + headless chromium на сервер.

  • Тесты поначалу были оптимистичными. Словил капчу.
  • Научился обмениваться User-Agent и кукисами между разными браузерами (chromium и w3m). 
  • Научился распознавать и вводить капчу через w3m.
  • Но не только я учился. Целевой ресурс хорошо стал работать с ботами и browser foot-print-ми.
  • Раз уж «умею» из консоли читать картинки, w3m становится более не нужен. Запиливаю интерактивный режим ввода капчи.
  • GDPR внедряют. Причем вроде скрипт-то простой, который ставит куки и рефрешит страницу, а вешает намертво безголовый хром. Блокер. Потому что с сохранением кук проблем нет вообще. А с загрузкой.. В общем, обойти GDPR заглушку я не могу уже не первый день.
  • Напоследок, хромиум стал падать. Всё сводится к тому, что недостаточно памяти на сервере. Приехали. Переезжать на более мощное окружение из-за Google? Нет!
  • В довершении всего выхватываю OOM на сервере.

Ещё одна гипотеза — мимо. Берусь за следующую. Там же целая бездна вариантов. Какой-то да должен выстрелить.