Как стать автором
Обновить

Комментарии 4

Аплодирую стоя.

Хотелось бы узнать больше о вашей реализации.

1. В какой области применяется?
В т.н. промышленном парсинге, когда заказчик получает готовую БД, рационально использовать селениум-подобные решения по причине удобства поддержки в процессе ротации поддерживальщиков (общераспространенный стек, специалистов море). Когда заказчик сам нажимает кнопку запуска парсинга и поддержка работает удаленно, применяются решения разной степени облачности (которых море).
Какая ниша у вашего решения?

  1. Антиботная повестка актуальна как никогда (Твитер). Поэтому все решения для парсинга оцениваются через призму этого противостояния. Вы используете безголовый режим для экономии на спичках. Данные давно стали дороже этих крох. Хедлес это красный флаг для защиты.
    Каков потенциал решения для подделки отпечатка?

  2. Хромиум торт для многих задач, но ведь желательно не тратиться на рутинные задачи типа обновления версий. Как часто обновляется CEF? Насколько он поспевает за Хромом? Edge WebView2 дает возможность evergreen, что существенно снижает издержки поддержки, увеличивает срок жизни приложения до очередного апдейта.
    Так почему Хромиум?

  1. В какой области применяется?
    Какая ниша у вашего решения?
    Прежде всего, показанное решение ни в коем случае не является неким коммерческим универсальным продуктом, а представляет собой лишь часть функционала (хоть и важную) небольшого проекта, которая в основном отвечает за извлечение цен — каждые сутки (автоматически, по расписанию) выполняется обход где-то десятка одних и тех же магазинов, что выливается в посещение примерно 40 000 ссылок; более того, большинство сайтов простые, нединамические, поэтому с ними не нужен браузер — достаточно просто HTTP-запросов.

    Таким образом, речи о промышленном уровне — когда всё сразу гибко, универсально и настраиваемо — не идёт.
  2. Поэтому все решения для парсинга оцениваются через призму этого противостояния.
    Представленный вариант без проблем, что логично, обходит простейшие защиты, когда, например, проверяется всего лишь факт исполнения скриптов «посетителем» сайта. Преодолевать более сложные способы проверки надобности не возникало, поэтому предполагаю, что некие доработки под них скорее всего потребуются.
    Хедлес это красный флаг для защиты.
    Возможно я не очень понял, но каким образом отрисовка в буфер может быть отслежена? Навскидку, с ней даже не должно быть технических препятствий для добавления имитации действий человека (движение мыши, ввод с клавиатуры), если такое вдруг потребуется.
    Каков потенциал решения для подделки отпечатка?
    С данной темой совершенно не сталкивался в практическом плане, поэтому могу разве что сослаться на предыдущий абзац — любая имитация человека скорее всего возможна (в том числе со случайными отклонениями, а не по одному и тому же шаблону).
  3. Как часто обновляется CEF? Насколько он поспевает за Хромом?
    Если сравнить даты соответствующих сборок CEF и Chromium, то в среднем задержка в несколько дней.
    Так почему Хромиум?
    Из-за большей всеядности CEF в плане ОС — в дальнейшем может потребоваться поддержка Линукс.

каким образом отрисовка в буфер может быть отслежена

Несколько возможностей.

Ваш парсер живет в службе, о которой вы писали в прошлый раз?

Ваш парсер живет в службе, о которой вы писали в прошлый раз?
Нет (хотя это и планировалось, но руки так и не дошли).
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории