Отображение важных данных в виде изображенй

Бан по IP адресу

Самый простой и распространенный способ определения попыток парсинга сайта - является анализ частоты и периодичности запросов к серверу. Если с какого-то IP адреса запросы идут слишком часто или их слишком много, то этот адрес блокируется и чтобы его разблокировать, часто предлагается ввести каптчу. Следует учесть, что IP-адрес пользователя также может быть изменен, к примеру, при помощи прокси-сервера или же с помощью переподключения, в случае, если IP-адрес у пользователя динамический, однако, такая операция может занять довольно много времени, что в свою очередь сведет на нет все старания злоумышленниках[1,4]. Google,

Обход этой защиты осуществляется посредством использования нескольких прокси-серверов, скрывающих реальный IP-адрес парсера. Например сервисы типа BestProxyAndVPN, SwitchProxy.

Использование учетных записей

В этом способе защиты доступ к данным осуществляется только авторизованным пользователям. Это позволяет легче контролировать поведение пользователей и блокировать подозрительные аккаунты вне зависимости от того, с какого IP адреса работает клиент. Facebook, Эта защита обходится путем создания множества учетных записей. Существенным усложнением автоматического создания учетных записей может являться необходимость верификации аккаунта посредством телефона с проверкой его уникальности. Но, в принципе, это тоже обходится путем покупки множества одноразовых SIM-карт.

Использование CAPTCHA

Это тоже распространенный метод защиты данных от парсинга. Здесь пользователю для доступа к данным сайта предлагается ввести капчу (CAPTCHA). Существенным недостатком этого способа можно считать неудобство пользователя в необходимости ввода капчи. Поэтому этот метод лучше всего применим в системах, где доступ к данным осуществляется отдельными запросами и не очень не часто.

Примером использования каптчи для защиты от автоматического создания запросов могут служить сервисы проверки позиции сайта в поисковой выдаче.

Использование сложной JavaScript логики

В этом методе в запросе к серверу браузер отсылает специальный код (или несколько кодов), которые сформированы сложной логикой написанной на JavsScript. При этом, часто код этой логики размещен в одном или нескольких подгружаемых JavaScript-файлах.

Типичными примерами использования данного метода защиты от парсинга являются социальные сети Facebook и Vk.

Простейшая реализация данного метода заключается в следующем: на страницу достаточно добавить скрытое поле с символом кодированным в HTML сущность (например & © € и т. д.). Так как, браузер найдя такой символ преобразует его перед отправкой в обычный, робот использующий форму считает его закодированным. Далее при проверке формы достаточно следует посмотреть длину строки в этом поле. Если отправлял человек то она будет равна числу символов в строке, а если нет значительно больше. Такое решение не обеспечивает серьезной защиты, но вполне может применяться в тех случаях если что-то более сложное использовать нельзя.

Динамическое изменение структуры страницы

Один из эффективных способов защиты от автоматического парсинга — это частое изменение структуры страницы. Это может касаться не только изменение названий идентификаторов и классов, но и иерархии элементов. Это сильно усложняет написание парсера, но с другой стороны усложняет и код самой системы. Не стоит забывать, что эти изменения могут делаться в ручном режиме[3,5].

Чтобы обойти такую защиту требуется создание более гибкого и «умного» парсера или же (если изменения делаются не часто) просто ручное исправление парсера, когда эти изменения произошли.

Ограничение частоты запросов и объемов загружаемых данных

Этот способ позволяет сделать парсинг большого количества данных очень медленным и поэтому нецелесообразным. При этом, ограничения необходимо выбирать исходя из нужд типичного пользователя, что бы не снизить общее удобство пользования сайтом.

Обходится это посредством доступа к сайту с разных IP адресов или учетных записей.

Отображение важных данных в виде изображенй

Данный способ защиты контента позволяет усложнить автоматический сбор данных, при этом сохранив визуальный доступ к ним со стороны обычного пользователя. Часто на изображения заменяются адреса электронной почты и телефоны, так же на некоторых сайтах реализована замена картинками случайных букв в тексте.

Минусы этого способа заключаются в том, что не весь контент будет индексироваться поисковиками, исключается возможность пользователю скопировать данные в буфер обмена, а так же увеличивается время загрузки страниц.

Результаты. Были изучены существующие методы обнаружения веб-роботов, рассмотрены основные средства парсинга информации и смоделировано их поведение на веб-ресурсе. Создан прототип веб-ресурса, включающий в себя систему противодействия парсингу, содержащую совокупность методов от учетных записей до динамического изменения структуры страницы и включения ловушек в содержимое веб-ресурса. Данная система протестирована на обычных пользователях и нескольких веб-роботах.

Выводы. Разработанный прототип системы противодействия автоматизированному сбору информации с веб-ресурсов показал отличные результаты, сделан вывод о применимости использования включенных в него методов, которые позволили полностью исключить деятельность веб-роботов на ресурсе. Далее планируется исследование работы с использованием более продвинутых ботов и производительности данной системы на крупных веб-ресурсах.

Отображение важных данных в виде изображенй

Поиск по сайту