August 3rd, 2018

Web Scraper 5: performance

Вообще webdriver + selenium в связке очень хорошо себя показывают, но offline и долго. К примеру опрос одного таргета занимает 161 минуту и высасывает 2 ГБ трафика, из которого мне надо лишь 2 МБ (максимум, на самом деле ещё меньше). 

Сие очень опечалило настолько, что поставил приложеньку на смартфон, воткнул mitmproxy и прослушал API, удалось восстановить, но есть нюансы. Например, ограничение на 10 тысяч запросов в день. Мне надо больше. Надо запиливать ещё одного клиента, на сей раз под API. 

Собрал таким образом (через селениум) только два таргета (всего около сотни). Добавил сравнение с предыдущим анализом, ну чтобы не делать лишнюю работу в случае расхождений. Думаю, всё же клиент существенно упростит мне задачу, и я смогу собирать более 1 таргета за ночь, а скажем 2 или 3.

Динамический ввод капчи — отдельная вещь. Осталось лишь пульнуть уведомление на смартфон, чтобы не киснуть возле компа всё время.