Ця сторінка доступна рідною мовою. Перейти на українську

Парсинг: від теорії до судової практики

Висвітлює це питання Михайло Процайло, молодший юрист Юридичної групи LCF

Безумовно, хто володіє інформацією - володіє світом. Але що робити, якщо обсяг інформації настільки великий, що потребує занадто багато зусиль для збору та аналізу? З цією проблемою допомагає впоратися парсинг - процес збору інформації з сайтів. Хоча сам парсинг існує вже досить давно і активно застосовується, його правомірність все ще не визначена (у всякому разі, на території України і країн ближнього зарубіжжя). Нижче - коротка спроба з цим розібратися, а також декілька зарубіжних судових кейсів.

Трохи теорії

Якщо максимально спростити, парсинг - це процес збору даних зі сторінок сайтів. Він проходить в три етапи:

1. Програмі-парсеру задається, що (які дані) і звідки (посилання на сайт) потрібно обробити.

2. Пошук даних

3. Збереження знайдених даних

Під час парсингу програма аналізує код сторінки сайту і за тегами «висмикує» потрібну інформацію.

Сфер застосування парсингу маса: від аналізу цін конкурентів, збору оголошень або новин з певних сайтів до отримання баз даних користувачів. Цілі застосування обмежуються лише вашою креативністю. А ось способи і масштаби - зовсім інша справа, тут вступає в силу закон.

Правове регулювання

Законодавчого визначення поняття парсингу немає, так само як немає його і для суміжних понять краулінг (обхід обмежень сайту) і скрайпінг (об'єднані в одну програму краулінг і парсинг).

Оскільки парсинг - це один із способів збору інформації, то цей процес підпорядковується правилам, встановленим для поводження з інформацією, зокрема, Закону України «Про інформацію».

Цей закон ділить інформацію за двома критеріями: за змістом і за режимом доступу. Причому режим доступу визначається, в тому числі, за змістом.

Будь-яка інформація є відкритою, крім тієї, що віднесена до інформації з обмеженим доступом. Відповідно, можна використовувати будь-яку інформацію, яка не обмежена в доступі.

У свою чергу інформація з обмеженим доступом поділяється на конфіденційну, таємну та службову. Визначення кожного виду містяться в Законі України «Про доступ до публічної інформації». Нас цікавить в першу чергу визначення конфіденційної інформації, тому що, найімовірніше, спори про правомірність парсингу будуть зводитися до того, чи була «зпарсена інформація» конфіденційною. До того ж таємна або службова інформація точно не буде перебувати у відкритому доступі на сайті.

Михайло Процайло

Приклади і кейси

Збір баз даних користувачів

Існує безліч сервісів, які збирають бази даних користувачів. Наприклад, збір передплатників певної спільноти в соцмережі. Почнемо з того, що майже вся інформація про фізичну особу є конфіденційною і може бути використана тільки за її згодою. Користувач надає таку згоду, коли реєструється на сайті. Сайт стає розпорядником персональної інформації. Такою інформацією є відомості чи сукупність відомостей, за якими особа може бути ідентифікована. Частковий виняток становить інформація про держслужбовців та інших публічних осіб (музикантів, акторів, спортсменів).

Розпорядник персональної інформації також повинен надати згоду на використання персональних даних.

Якщо коротко, щоб парсинг був законним, парсити потрібно або деперсоніфіковані дані, або отримувати згоду розпорядника інформації.

У 2010 році хакер Ендрю Ауернхаймер знайшов пролом в системі безпеки на веб-сайті AT&T і витягнув адреси електронної пошти користувачів, які відвідували сайт зі своїх iPad. Скориставшись недоліком системи безпеки і парсингом, Ауернхаймер зміг отримати доступ до тисяч електронних адрес з сайту AT&T. Ауернхаймер був визнаний винним у несанкціонованому доступі до сервера AT&T і присвоєнні чужих даних.

Якщо мова йде про інформацію, яка не є персональною, вона може вважатися конфіденційною, тільки якщо її власник визначив її як таку. Зазвичай сайти пишуть політики конфіденційності, з якими користувач ознайомлюється і які погоджується дотримуватися при реєстрації. Інформація, доступ до якої можна отримати тільки пройшовши процес авторизації, майже напевно буде конфіденційною і не може бути використана без згоди власника.

Але навіть якщо інформація доступна без авторизації, це не означає, що інформація знаходиться у вільному доступі. Перед парсингом слід перевірити, чи не заборонено Правилами використання сайту (якщо такі є) використання даних сайту.

Ryanair подали в суд на PR Aviation за те, що вони збирали інформацію про ціни на авіаквитки, що було заборонено Правилами користування Ryanair. Сайт Ryanair вимагає ознайомитися і погодитися з Правилами користування шляхом постановки галочки у відповідному полі перед пошуком авіаквитків. Особа автоматично зобов'язується дотримуватися правил користування сайтом при пошуку. Одне з правил користування говорить, що «забороняється використовувати цей сайт ... бази даних, функції або вміст з будь-якою метою, крім особистої некомерційної мети». Відповідно, PR Aviation порушили правила користування.

Більш того, сайт може висловити незгоду на використання його інформації й іншими способами. Наприклад, шляхом блокування IP адрес парсеру або ж шифрування даних. Обхід подібних блокувань буде незаконним, навіть якщо вони були встановлені вже після початку парсингу.

Craigslist - сервіс для публікації різних оголошень. 3Taps парсив дані з сайту Craigslist для створення аналітики big data. Craigslist через деякий час заблокував IP адреси 3Taps, але останні використовували проксі для продовження доступу до сайту. Craigslist звернулися до суду з приводу порушення їх прав і виграли справу. Ключовим моментом став саме факт обходу блокувань. 3Taps виплатили Craigslist 1 мільйон доларів.

Авторське право

Окремо варто згадати парсинг інформації, яка містить дані, що охороняються авторським правом. Таку інформацію парсити потрібно вкрай обачно, оскільки використання такої інформації в своєму проекті, найімовірніше (залежить від виду ліцензії), буде порушенням авторських прав.

Associated Press подали в суд на Meltwater (розробник програми для збору новин) за парсинг статей, частина з яких були захищені авторським правом. Хоча факти, тобто новини, не підлягають охороні авторським правом, суд вирішив, що копіювати авторський виклад статей незаконно.

Порушення роботи сайту

Навіть за умови правомірності парсингу, його здійснення не повинно підривати нормальну роботу сайту, який парсять.

QVC (телевізійний рітейлер) подали в суд на Resultly (додаток-магазин) через те, що пошукові боти Resultly перевантажили сервери QVC з відключенням електроенергії, що призвело до збитків у 2 мільйони доларів. Суд виправдав Resultly, на тій підставі, що вони не мали наміру завдати шкоди. Проте, в схожих ситуаціях ризик понести відповідальність за порушення роботи сайту все ж залишається.

Так як легально парсити і як від цього захиститися?

Повністю попередити судові тяжби через парсинг неможливо, оскільки ця сфера не врегульована. Проте, можливо звести їх ймовірність до мінімуму. Досить дотримуватися цих простих правил:

1. Не парсити інформацію з обмеженим доступом або захищену авторським правом.

2. Перевірити, чи не заборонений парсинг правилами користування сайту.

3. Якщо є можливість отримати згоду на парсинг, краще це зробити. До речі, такою згодою може бути API сайту.

4. Якщо після початку парсингу сайт вжив заходів до обмеження або зупинення парсингу, їх не слід ігнорувати або обходити.

5. Не порушувати роботу сайту.

Якщо дотриматися всіх цих правил, ваші позиції в суді будуть досить переконливі.

Якщо ж ваш сайт став об'єктом парсингу, а ви того не бажаєте, вчиніть наступні дії:

1. Заблокуйте відповідні IP адреси.

2. Направте автору парсеру (якщо ви можете встановити його) вимогу припинити парсинг.

3. Звертайтеся до суду з вимогою припинити порушення прав.

Рекомендується прописати детальні Правила користування і Політики конфіденційності для вашого сайту.

Михайло Процайло,

молодший юрист Юридичної групи LCF

Читайте також:

Ефективна діджіталізація юридичного бізнесу: Нові прийоми = нові клієнти

Стежите за новинами вашої галузі? Спробуйте створити свій власний інфорпростір в екосистемі LIGA360. Власна стрічка новин і моніторинг з понад 1835 медіа, 20 телеканалів, 15 радіостанцій, 1 800 інтернет та друкованих ЗМІ. Обирайте що читати саме вам! Спробувати LIGA360

Підпишіться на розсилку
Головні новини і аналітика для вас по буднях
Залиште коментар
Увійдіть, щоб залишити коментар
Увійти
На цю ж тему