Ця сторінка доступна рідною мовою. Перейти на українську

Парсинг: от теории до судебной практики

Освещает этот вопрос Михаил Процайло, младший юрист Юридической группы LCF

Безусловно, кто владеет информацией - владеет миром. Но что делать, если объем информации настолько большой, что требует слишком много усилий для сбора и анализа? С этой проблемой помогает справляться парсинг - процесс сбора информации с сайтов. Хотя сам парсинг существует уже достаточно давно и активно применяется, его правомерность все ещё не определена (во всяком случае, на территории Украины и стран ближнего зарубежья). Ниже - краткая попытка с этим разобраться, а также несколько зарубежных судебных кейсов.

Немного теории

Если очень упростить, парсинг - это процесс сбора данных со страниц сайтов. Он проходит в три этапа:

1. Программе-парсеру задается, что (какие данные) и откуда (ссылка на сайт) нужно обработать.

2. Поиск данных

3. Сохранение найденных данных

Во время парсинга программа анализирует код страницы сайта и по тегам "выдергивает" нужную информацию.

Сфер применения парсинга масса: от анализа цен конкурентов, сбора объявлений или новостей с определенных сайтов до получения баз данных пользователей. Цели применения ограничиваются лишь вашей креативностью. А вот способы и масштабы - совсем другое дело, тут вступает в силу закон.

Правовое регулирование

Законодательного определения понятия парсинга нет, равно как нет его и для смежных понятий краулинг (обход ограничений сайта) и скрайпинг (объединенный в одну программу краулинг и парсинг).

Так как парсинг - это один из способов сбора информации, то этот процесс подчиняется правилам, установленным для обращения с информацией, в частности, Закону Украины "Об информации".

Этот закон делит информацию по двум критериям: по содержанию и по режиму доступа. Причем режим доступа определяется, в том числе, по содержанию.

Любая информация является открытой, кроме той, которая отнесена к информации с ограниченным доступом. Соответственно, можно использовать любую информацию, которая не ограничена в доступе.

В свою очередь информация с ограниченным доступом делится на конфиденциальную, тайную и служебную. Определения каждого вида содержатся в Законе Украины "О доступе к публичной информации". Нас интересует в первую очередь определение конфиденциальной информации, потому что, вероятнее всего, спор о правомерности парсинга будет сводиться к тому, была ли "спарсенная информация" конфиденциальной. К тому же тайная или служебная информация точно не будет находиться в открытом доступе на сайте.

Михаил Процайло

Примеры и кейсы

Сбор баз данных пользователей

Существует множество сервисов, которые собирают базы данных пользователей. Например, сбор подписчиков определенного сообщества в соцсети. Начнем с того, что почти вся информация про физическое лицо является конфиденциальной и может быть использована только по его согласию. Пользователь предоставляет такое согласие, когда регистрируется на сайте. Сайт становится распорядителем персональной информации. Такой информацией являются сведения или совокупность сведений, по которым лицо может быть идентифицировано. Частичное исключение составляет информация про госслужащих и других публичных лиц (музыкантов, актеров, спортсменов).

Распорядитель персональной информации также должен предоставить согласие на использование персональных данных.

Если кратко, чтобы парсинг был законным, парсить нужно либо деперсонифицированные данные, либо получать согласие распорядителя информации.

В 2010 году хакер Эндрю Ауэрнхаймер нашел брешь в системе безопасности на веб-сайте AT&T и извлек адреса электронной почты пользователей, которые посещали сайт со своих iPad. Воспользовавшись недостатком системы безопасности и парсингом, Ауэрнхаймер смог получить доступ к тысячам электронных адресов с сайта AT&T. Ауэрнхаймер был признан виновным в несанкционированном доступе к серверу AT&T и присвоении чужих данных.

Если речь идет об информации, не являющейся персональной, она может считаться конфиденциальной, только если ее владелец определил ее как таковую. Обычно сайты пишут политики конфиденциальности, с которыми пользователь ознакамливается и которые соглашается соблюдать при регистрации. Информация, доступ к которой можно получить только пройдя процесс авторизации, почти наверняка будет конфиденциальной и не может быть использована без согласия владельца.

Но даже если информация доступна без авторизации, это не означает, что информация находится в свободном доступе. Перед парсингом следует проверить, не запрещено ли Правилами использования сайта (если таковы имеются) использование данных сайта.

Ryanair подали в суд на PR Aviation за то, что они собирали информацию про цены на авиабилеты, что было запрещено Правилами пользования Ryanair. Сайт Ryanair требует ознакомиться и согласиться с Правилами пользования путем постановки галочки в соответствующем поле перед поиском авиабилетов. Лицо автоматически обязуется соблюдать правила пользования сайтом при поиске. Одно из правил пользования гласит, что "запрещается использовать этот сайт...базы данных, функции или содержимое с любой целью, кроме личной некоммерческой цели". Соответственно, PR Aviation нарушили правила пользования.

Более того, сайт может выразить несогласие на использование его информации и другими способами. Например, путем блокировки IP адресов парсера или же шифрования данных. Обход подобных блокировок будет незаконным, даже если они были установлены уже после начала парсинга.

Craigslist - сервис для публикации различных объявлений. 3Taps парсил данные с сайта Craigslist для создания аналитики big data. Craigslist через некоторое время заблокировал IP адреса 3Taps, но последние использовали прокси для продолжения доступа к сайту. Craigslist обратились в суд по поводу нарушения их прав и выиграли дело. Ключевым моментом стал именно факт обхода блокировок. 3Taps выплатили Craigslist 1 миллион долларов.

Авторское право

Отдельно стоит упомянуть парсинг информации, которая содержит данные, охраняемые авторским правом. Такую информацию парсить нужно крайне осмотрительно, так как использование такой информации в своем проекте, вероятнее всего (зависит от вида лицензии), будет нарушением авторских прав.

Associated Press подали в суд на Meltwater (разработчик программы для сбора новостей) за парсинг статей, часть из которых были защищены авторским правом. Хотя факты, то есть новости, не подлежат охране авторским правом, суд решил, что копировать авторское изложение статей незаконно.

Нарушение работы сайта

Даже при условии правомерности парсинга, его осуществление не должно подрывать нормальную работу сайта, который парсят.

QVC (телевизионный ритейлер) подали в суд на Resultly (приложение-магазин) из-за того, что поисковые боты Resultly перегрузили серверы QVC с отключением электричества, что привело к ущербу в 2 миллиона долларов. Суд оправдал Resultly, на том основании, что они не намеревались нанести ущерб. Тем не менее, в схожих ситуациях риск понести ответственность за нарушение работы сайта все же остается.

Так как легально парсить и как от этого защититься?

Полностью предупредить судебные тяжбы из-за парсинга невозможно, поскольку эта сфера не урегулирована. Тем не менее, возможно свести их вероятность к минимуму. Достаточно соблюдать эти простые правила:

1. Не парсить информацию с ограниченным доступом или защищенную авторским правом.

2. Проверить, не запрещен ли парсинг правилами пользования сайта.

3. Если есть возможность получить согласие на парсинг, лучше это сделать. Кстати, таким согласием может быть API сайта.

4. Если после начала парсинга сайт принял меры к ограничению или остановке парсинга, их не следует игнорировать или обходить.

5. Не нарушать работу сайта.

Если соблюсти все эти правила, ваши позиции в суде будут довольно убедительны.

Если же ваш сайт стал объектом парсинга, а вы того не желаете, предпримите следующие действия:

1. Заблокируйте соответствующие IP адреса.

2. Направьте автору парсера (если вы можете установить его) требование прекратить парсинг.

3. Обращайтесь в суд с требованием прекратить нарушение прав.

Рекомендуется прописать детальные Правила пользования и Политики конфиденциальности для вашего сайта.

Михаил Процайло,

младший юрист Юридической группы LCF

Читайте также:

Эффективная диджитализация юридического бизнеса: Новые приемы = новые клиенты

Следите за новостями вашей отрасли? Попробуйте создать свое собственное инфопространство в экосистеме LIGA360. Собственная лента новостей и мониторинг 1835 медиа, 20 телеканалов, 15 радиостанций, 1800 интернет и оффлайн-СМИ. Выбирайте, что читать именно вам. Попробовать LIGA360

Подпишитесь на рассылку
Главные новости и аналитика для вас по будням
Оставьте комментарий
Войдите, чтобы оставить комментарий
Войти
На эту тему