Czym jest web srapping?

Czym jest web srapping?

Web scrapping to proces pozyskiwania danych z witryn internetowych. Niektóre dane dostępne w sieci są prezentowane w formacie ułatwiającym ich gromadzenie i wykorzystywanie, na przykład w formacie CSV. Takie dane można pobrać, a następnie zaimportować do arkusza kalkulacyjnego lub załadować do skryptu analizy danych.

Web scrapping to proces pozyskiwania danych z witryn internetowych. Niektóre dane dostępne w sieci są prezentowane w formacie ułatwiającym ich gromadzenie i wykorzystywanie, na przykład w formacie CSV. Takie dane można pobrać, a następnie zaimportować do arkusza kalkulacyjnego lub załadować do skryptu analizy danych.

Istnieją liczne sposoby korzystania z narzędzia web scrappingu i ponownego wykorzystywania uzyskanych w ten sposób informacji. W swojej najprostszej formie proces ten sprowadza się do kopiowania konkretnych fragmentów stron internetowych. Metoda ta związana jest jednak z licznymi, przede wszystkim technicznymi ograniczeniami, dlatego coraz bardziej popularne stają się zautomatyzowane metody „scrapowania” danych.

Legalność „scrapowania” w celach komercyjnych

Głównym filarem, na którym opiera się problematyka legalności web scrappingu jest kwestia prawnoautorskiej ochrony danych znajdujących się na „scrapowanych” stronach internetowych. Dane te mogą bowiem podlegać ochronie jako samodzielne utwory (np. w sytuacji, gdy web scrapping polegał będzie na tworzeniu zbioru artykułów prasowych w ramach przeglądu prasowego) lub jako bazy danych na podstawie art. 3 Ustawy o prawach autorskich. Zgodnie z przepisem tym tworzone w wyniku web srappingu bazy danych stanowią przedmiot prawa autorskiego pod warunkiem, że przyjęty w nich dobór, układ lub zestawienie materiałów ma charakter twórczy.

Najczęściej pozyskiwane za pomocą web scrappingu dane obejmują jednak zestawienia liczbowe w tym np. ceny lub inne szczegóły oferty sprzedaży danego produktu lub usługi, które następnie są porównywane bez zawarcia w nich elementu twórczego. Takie zbiory podlegać mogą ochronie sui generis przyznanej na podstawie Ustawy o ochronie baz danych stanowiącej implementację Dyrektywy 96/9/WE w sprawie ochrony prawnej baz danych1.

Wspomniana ochrona sui generis przyznana została bazom, których producenci są obywatelami lub rezydentami UE2. Co więcej, w rozumieniu przepisów, za bazy danych podlegające ochronie uważane są wyłącznie te zbiory, które wymagają istotnego nakładu inwestycyjnego w celu sporządzenia, weryfikacji lub prezentacji ich zawartości3. Producenci baz, którzy spełniają powyższe warunki korzystać mogą z wyłącznego prawa do pobierania danych oraz ich wtórnego wykorzystania. Użytkownicy posiadają wyłącznie prawo do pobierania i wykorzystywanie tych elementów bazy, które nie stanowią jej istotnej części. Katalog nielicznych wyjątków od tej zasady obejmujący m.in. korzystanie z istotnych części nieelektronicznej bazy danych na własny użytek osobisty zawarty został w art. 8 Ustawy o ochronie baz danych.

Wielu właścicieli witryn internetowych decyduje się również na uregulowanie zakresu dopuszczalnego użytku zamieszczonych na nich danych w treści regulaminu korzystania z serwisu. Odpowiednie postanowienia uniemożliwiające zautomatyzowane „scrapowanie” znalazły się m.in. w treści regulaminu serwisu Facebook, czy OLX.

W regulaminie serwisu Ryanair znalazły się postanowienia zabraniające korzystania ze strony w celach innych niż cele osobiste i niekomercyjne. Linie lotnicze wyszczególniły również odrębny zapis, zgodnie z którym zabronione jest „korzystanie z jakiegokolwiek systemu lub oprogramowania zautomatyzowanego, w celu uzyskania danych z tej strony [ryanair.com] w celach komercyjnych („screen scraping”, dosł. „zeskrobywanie z ekranu”)”. Postanowienia te stały się przedmiotem sporu przed Trybunałem Sprawiedliwości UE w sprawie, którą Ryanair wniósł przeciwko PR Aviation – internetowej porównywarce cen lotów. Trybunał orzekł w tej sprawie, iż serwis Ryanair.com stanowi bazę danych niepodlegającą ochronie prawnoautorskiej oraz ochronie sui generis przyznanej przez Dyrektywę 96/9/WE. Zdaniem Trybunału nie ma jednak przeszkody, aby – tak jak miało to miejsce w omawianej sprawie – twórca ograniczył korzystanie z serwisu przez osoby trzecie w drodze umowy (w przypadku serwisu Ryanair dostęp do informacji dotyczących cen, lotów i rozkładów może zostać uzyskany przez zawarcie umowy licencyjnej).

Web scrapping a ochrona danych osobowych

Kwestią, która nabiera znaczenia w decyzjach odpowiednich organów jest również problematyka ochrony danych osobowych w przypadku, gdy zbiór „scrapowanych” danych zawiera informacje o osobach fizycznych. Głośna decyzja została w poprzednim miesiącu wydana przez brytyjski urząd ochrony danych osobowych (The Information Commissioner’s Office – ICO), który nałożył karę w wysokości ponad 7,5 mln funtów na Clearview AI – amerykańską spółkę tworzącą bazę obrazów twarzy umożliwiającą identyfikację osób. Jak ustalił brytyjski urząd, w toku prowadzenia swojej działalności spółka pozyskała ponad 20 miliardów obrazów twarzy zebranych z publicznie dostępnych źródeł takich jak strony internetowe, czy platformy społecznościowe. Zbieranie obrazów odbywało się bez uprzedniego poinformowania oraz zgody osób, których dane zostały przez spółkę pozyskane.

W ramach świadczenia usług Clearview AI umożliwia swoim klientom, do których należy również policja, przesłanie zdjęć osoby do stworzonej przez spółkę aplikacji. Zdjęcie to jest następnie porównywane ze zbiorem dostępnym w bazie, w wyniku czego klient uzyskuje od Clerview listę zdjęć osób o podobnych cechach wraz z linkiem do strony, na której zostały one zamieszczone.

Uznanie przez ICO działalności serwisu za niezgodne z obowiązującymi przepisami o ochronie danych osobowych nie jest decyzją odosobnioną. Włoski organ ochrony danych osobowych nałożył na Clearview AI w marcu tego roku karę za dokonane naruszenia w wysokości 20 mln euro. Skargi w przedmiocie działalności kontrowersyjnej spółki złożone zostały również przed odpowiednie organy we Francji, Austrii oraz Grecji, jako przedmiot skoordynowanych działań organizacji NOYB austriackiego aktywisty w zakresie ochrony danych osobowych – Maxa Schremsa.

Chcesz dowiedzieć się więcej a może masz pytania dotyczące wykorzystania Twoich danych osobowych? Zapraszamy do lektury naszego bloga oraz kontaktu.

1 Ustawa z dnia 27 lipca 2001 r. o ochronie baz danych (t.j. Dz.U z 2021 poz. 386)

2 Art. 5 Ustawy o ochronie baz danych

3 Art. 2 ust. 1 pkt 1 Ustawy o ochronie baz danych

0 0 votes
Ocena artykułu:

Czytelniku pamiętaj:
Niniejszy artykuł ma wyłącznie charakter informacyjny i nie stanowi poradnika w rozumieniu prawa. Zawarte w nim treści mają na celu dostarczenie ogólnych informacji i nie mogą być traktowane jako fachowe porady lub opinie. Każdorazowo przed podejmowaniem jakichkolwiek działań na podstawie informacji zawartych w artykule, skonsultuj się ze specjalistami lub osobami posiadającymi odpowiednie uprawnienia. Autor artykułu oraz wydawca strony nie ponosi żadnej odpowiedzialności za ewentualne działania podejmowane na podstawie informacji zawartych w artykule.

Subscribe
Powiadom o
guest
0 komentarzy
Inline Feedbacks
View all comments

Informacja o ciasteczkach

Zgodnie z Art. 173, pkt. 1 Ustawy z dn. 16.11.2012 r. (Dz.U. poz. nr 1445) Informujemy, że ta strona korzysta z plików cookies.

Odwiedzając naszą stronę bez dokonania zmian ustawień swojej przeglądarki, wyrażasz zgodę na wykorzystanie przez nas plików cookies w celu ułatwienia korzystania z serwisu.