Legalne scrapowanie w 2026: co wolno, a czego nie

15 kwietnia, 2026

Legalne scrapowanie w 2026 roku to znacznie węższa przestrzeń niż pięć lat temu. Po orzeczeniach hiQ vs LinkedIn (2022), Meta vs Bright Data (2024), DSA, AI Actu UE i nowelizacji polskiego prawa autorskiego w zakresie TDM — reguły gry są jasne, ale nietrywialne. Pobieranie danych publicznych nie jest automatycznie legalne; pobieranie danych za logowaniem praktycznie nigdy nie jest.

Ten tekst to operacyjny przewodnik dla marketerów, analityków SEO i zespołów growth, którzy chcą wyciskać dane z internetu bez ryzyka pozwu, bana IP albo utraty domeny w wyniku CFAA-like action. Nie jest poradą prawną — w konkretnej sprawie zawsze konsultuj radcę prawnego specjalizującego się w IP i ochronie danych.

Piszemy z perspektywy zespołu, który od 2022 roku buduje pipeline’y scrapingowe dla klientów e-commerce, mediowych i SaaS w UE, UK i USA. Framework, który tu opisujemy, przeszedł audyty prawne i compliance w co najmniej kilkunastu wdrożeniach.

W skrócie

  • W UE kluczowe są trzy źródła prawa: dyrektywa DSM (art. 3–4 TDM), RODO i sui generis ochrona baz danych (dyrektywa 96/9/WE).
  • Scrapowanie danych publicznych do celów analitycznych jest co do zasady dozwolone, jeśli właściciel nie zastrzegł TDM opt-out w sposób maszynowo czytelny (robots.txt, meta, nagłówki HTTP, ai.txt).
  • Dane osobowe (nawet publiczne: imię, e-mail, LinkedIn URL) podlegają RODO od momentu pobrania, niezależnie od źródła. Potrzebujesz podstawy prawnej (art. 6 RODO) i obowiązku informacyjnego (art. 14).
  • Łamanie Terms of Service samo w sobie nie jest w UE przestępstwem, ale może skutkować odpowiedzialnością cywilną (Meta vs Bright Data, 2024 — częściowo przegrana Mety).
  • W 2026 praktyczne ryzyko to nie tyle kara sądowa, ile: block IP, geoblock, utrata API access, zła prasa, kara RODO do 20 mln EUR lub 4% obrotu.
  • Bezpieczna strefa: publiczne treści HTML, dane strukturalne bez elementów osobowych, respektowanie robots.txt i rate limit, wartość dodana (analiza, nie kopia), brak obchodzenia zabezpieczeń technicznych.

Co mówi prawo w 2026 — trzy warstwy, które musisz znać

Pytanie „czy scrapowanie jest legalne” nie ma jednej odpowiedzi. Scraping dotyka co najmniej trzech obszarów prawnych, które trzeba oceniać niezależnie: prawa autorskiego z TDM, ochrony danych osobowych, oraz ochrony baz danych sui generis. Do tego dochodzi prawo umów (ToS) i w specyficznych sytuacjach prawo karne (np. polski art. 267 kk w przypadku obchodzenia zabezpieczeń).

Warstwa 1: prawo autorskie i TDM

Dyrektywa DSM z 2019 roku (wdrożona w Polsce w 2023) wprowadziła wyjątek na rzecz Text and Data Mining (TDM). Art. 3 zezwala TDM na cele badań naukowych (instytucje non-profit), art. 4 zezwala wszystkim — chyba że uprawniony wyraził zastrzeżenie w sposób maszynowo czytelny.

W 2026 standardy „maszynowo czytelnego” zastrzeżenia to: robots.txt z dyrektywą Disallow dla konkretnego user-agenta lub noai/noimageai, nagłówek X-Robots-Tag, meta tag w HTML (<meta name="robots" content="noai">), a także plik ai.txt w katalogu /.well-known/.

Jeśli strona nie zastrzegła TDM w sposób maszynowo czytelny, scraping do celów analitycznych jest legalny w UE w zakresie prawa autorskiego — nawet bez zgody właściciela. To nie znaczy, że wolno tę treść potem opublikować — to osobny temat (cytat, reprodukcja, dzieło pochodne).

Warstwa 2: RODO i dane osobowe

To najczęstsza pułapka. Nawet jeśli dane są publiczne (profil LinkedIn, strona kontaktowa firmy, post na X), z chwilą pobrania jako administrator danych wchodzisz w RODO. Publiczność danych nie zwalnia z obowiązków.

W praktyce potrzebujesz:

  1. Podstawy prawnej (art. 6 RODO). Najczęściej: uzasadniony interes (art. 6 ust. 1 lit. f) z udokumentowanym testem równowagi.
  2. Obowiązku informacyjnego (art. 14 — bo dane nie pochodzą od osoby, której dotyczą). Wiadomość do każdego zebranego rekordu w ciągu miesiąca.
  3. Prawa do usunięcia (art. 17), do sprzeciwu (art. 21), portabilności (art. 20).
  4. Rejestru czynności przetwarzania (art. 30) i potencjalnie DPIA (art. 35) dla większej skali.

Koszt spełnienia tych obowiązków przy scrapingu kilkudziesięciu tysięcy rekordów osobowych często przewyższa wartość projektu. Dlatego większość bezpiecznych projektów scrapowych omija dane osobowe albo pobiera wyłącznie dane zagregowane.

Warstwa 3: ochrona baz danych i ToS

Dyrektywa 96/9/WE daje producentom baz danych prawo sui generis — zakaz „istotnego pobierania” zawartości bazy, jeśli baza powstała dzięki „istotnej inwestycji”. Orzecznictwo TSUE rozszerza to na strony, które są de facto bazami (katalogi, ogłoszenia, bazy firm).

Jednocześnie łamanie ToS samo w sobie nie jest w UE przestępstwem. Sprawa Meta vs Bright Data (Kalifornia, 2024) potwierdziła, że scrapowanie danych publicznie dostępnych — bez logowania i bez obchodzenia zabezpieczeń technicznych — nie narusza ustawy CFAA, nawet gdy jest sprzeczne z ToS. W UE logika jest podobna, ale otwarta pozostaje odpowiedzialność z tytułu nieuczciwej konkurencji i bazy sui generis.

Co wolno — zielone światło w 8 przypadkach

Poniższa lista to przypadki, w których scraping w 2026 jest — przy zachowaniu reszty zasad — niskiego ryzyka prawnego i reputacyjnego.

  • Monitoring cen własnych produktów u partnerów i dystrybutorów — jeśli masz relację handlową, ToS zwykle to przewidują.
  • Pobieranie własnych recenzji z Google, Trustpilot, Opineo — własna tożsamość lokalu/firmy, dane z pozytywną podstawą prawną.
  • Analiza SERP w celach SEO — snippety, featured answers, People Also Ask — bez magazynowania treści konkurentów.
  • Crawl własnej domeny lub domen klientów za pisemną zgodą (Screaming Frog, Sitebulb) — pełna ściągawka w naszym porównaniu narzędzi SEO.
  • Dane publiczne z dataportali rządowych (dane.gov.pl, data.europa.eu) — licencja open data, formalnie maszynowo czytelna.
  • Scraping cen konkurencji do użytku wewnętrznego, bez republikacji, w małej skali — zwykle mieści się w TDM art. 4.
  • Public company data (KRS, CEIDG, EBI) — z mocy ustawy publiczne i dostępne do wglądu.
  • Treść licencjonowana CC BY/CC0 — wolno scrapować i publikować przy zachowaniu atrybucji.

Co cechuje bezpieczny scraping

Powyższe przypadki mają wspólny mianownik. Jeśli twój projekt spełnia te wszystkie kryteria, ryzyko prawne jest niskie:

  • Brak obchodzenia zabezpieczeń technicznych (CAPTCHA, WAF, JS challenge).
  • Brak logowania, brak fałszywych kont, brak impersonacji.
  • Respektowanie robots.txt i nagłówków noai/TDM.
  • Rozsądny rate limit (często 1–2 requesty/s, max 10/s z backoffem).
  • Dane nie-osobowe lub dane osobowe z pełną zgodnością RODO.
  • Wartość dodana (analiza, agregacja) zamiast czystej kopii.
  • Użycie wewnętrzne lub publikacja z atrybucją.

Czego nie wolno — czerwone światło w 10 przypadkach

Następujące działania są albo wprost nielegalne, albo obarczone na tyle wysokim ryzykiem, że żaden dojrzały zespół marketingowy nie powinien ich podejmować bez bardzo mocnego uzasadnienia i ubezpieczenia prawnego.

  1. Scrapowanie danych za logowaniem — LinkedIn, Facebook, Instagram, zalogowane strefy e-commerce. Narusza ToS + w UE potencjalnie art. 267 kk (obchodzenie zabezpieczeń).
  2. Obchodzenie CAPTCHA i systemów anty-bot (Cloudflare, DataDome, PerimeterX) — w niektórych jurysdykcjach traktowane jako obchodzenie zabezpieczeń technicznych.
  3. Używanie skradzionych lub kupionych danych uwierzytelniających (cookies, tokeny, konta bot-farmowe) — wprost nielegalne.
  4. Scraping numerów telefonów, adresów e-mail i pełnych profili osób fizycznych bez dopełnienia obowiązku informacyjnego RODO.
  5. Impersonacja user-agenta konkretnego klienta (np. Googlebot) — narusza zasady uczciwej identyfikacji i może być penalizowane.
  6. Republikacja treści chronionej prawem autorskim w całości lub w znacznej części (recenzji, artykułów) bez licencji.
  7. Tworzenie konkurencyjnego serwisu z ich danych — Ryanair vs Vivi.hu, Ryanair vs PR Aviation — sądy UE regularnie blokują takie modele.
  8. Ignorowanie robots.txt i nagłówków X-Robots-Tag z dyrektywami noai/noindex w projektach AI/TDM.
  9. Scraping danych biometrycznych, zdrowotnych, o orientacji (art. 9 RODO — kategorie szczególne) — wymaga wyraźnej zgody osoby.
  10. Agresywny rate (setki requestów/sekundę) powodujący efekt DoS — może uzasadniać zawiadomienie o przestępstwie z art. 268a kk.

Framework oceny: czy mój scraping jest legalny — 7 pytań

Zanim uruchomisz crawler, przejdź przez tę listę. Jeśli odpowiesz „tak” na pierwsze pytanie i „nie” na któreś z kolejnych, zatrzymaj się i skonsultuj z prawnikiem.

#PytanieOdpowiedź bezpiecznaPodstawa prawna
1Czy strona zastrzegła TDM w sposób maszynowo czytelny?NieDSM art. 4
2Czy dane są publiczne bez logowania?TakMeta v. Bright Data
3Czy w danych są dane osobowe?Nie — lub pełna zgodność RODORODO art. 6, 14
4Czy obchodzisz zabezpieczenia techniczne?Nieart. 267 kk
5Czy pobranie jest „istotne ilościowo lub jakościowo”?NieDyr. 96/9/WE
6Czy republikuje się treść chronioną?Nie — lub na zasadzie cytatuPrawo autorskie
7Czy rate powoduje ryzyko DoS?Nie (< 10 req/s, backoff)art. 268a kk

Jak udokumentować test równowagi RODO

Jeśli scrapujesz dane osobowe na podstawie uzasadnionego interesu (najczęściej B2B lead gen), potrzebujesz trzyskładnikowego testu:

  1. Legitimate Interest Assessment — jaki jest twój interes (np. pozyskanie leadów w segmencie X), czy jest realny i konkretny.
  2. Necessity test — czy scraping jest proporcjonalnym środkiem do celu, czy nie da się inaczej (zakup bazy, reklama, partnerstwa).
  3. Balancing test — czy prawa i interesy osób nie przeważają nad twoim interesem (oczekiwanie prywatności, wrażliwość danych, skala).

Test musi być spisany, datowany, podpisany przez DPO lub osobę odpowiedzialną. W razie kontroli UODO to pierwszy dokument, o który zapyta.

Zabezpieczenia techniczne — co wolno obejść, a czego nie

Granica między „adekwatnym używaniem danych publicznych” a „obchodzeniem zabezpieczeń” bywa cienka. W praktyce orzecznictwo wypracowało następujące reguły.

Wolno

  • Zmieniać user-agent na rozpoznawalny identyfikator własnego bota (np. MyCompanyBot/1.0 (+https://mycompany.com/bot)).
  • Używać proxy do rozłożenia ruchu geograficznie, jeśli celem nie jest obejście bana.
  • Rotować IP w ramach własnej puli lub legalnych dostawców (datacenter, residential z potwierdzonym opt-in).
  • Przechowywać sesję (cookies), gdy strona tego wymaga do poprawnego działania.
  • Parsować HTML i JSON, nawet zaciemniany przez mechanizmy front-endowe.

Nie wolno (bez ryzyka)

  • Rozwiązywać CAPTCHA (ludzie, AI, 2Captcha/AntiCaptcha) na cudzej stronie bez zgody.
  • Łamać tokenów CSRF i signed cookies wygenerowanych dla innego użytkownika.
  • Używać TLS fingerprinting pod konkretną przeglądarkę wyłącznie w celu ominięcia detekcji (szara strefa).
  • Obchodzić paywalle, rejestracje, email confirmations.
  • Przejmować konta innych użytkowników lub wykorzystywać luki bezpieczeństwa.

W praktyce część z tych technik jest na granicy i wymaga indywidualnej oceny — opisujemy je szczegółowo w dedykowanym artykule o scraping API, gdzie pokazujemy, który dostawca jak podchodzi do compliance.

Robots.txt, ai.txt, TDM-opt-out — jak interpretować sygnały

Od 2024 roku pojawiły się co najmniej trzy nowe standardy deklarowania preferencji TDM. Żaden nie jest uniwersalny, ale razem tworzą obraz zamiaru wydawcy. Interpretacja sygnałów to podstawa oceny legalności TDM w UE.

Robots.txt — klasyka, rozszerzona

W 2026 robots.txt nadal jest głównym kanałem komunikacji. Rozszerzenia wprowadzone przez OpenAI, Google, Anthropic i Common Crawl:

  • User-agent: GPTBot — bot OpenAI do trenowania modeli.
  • User-agent: ClaudeBot / anthropic-ai — bot Anthropic.
  • User-agent: Google-Extended — bot Google do trenowania Gemini (osobny od Googlebot!).
  • User-agent: PerplexityBot — crawler Perplexity.
  • User-agent: CCBot — Common Crawl (używany przez wielu).

Jeśli strona ma User-agent: GPTBot / Disallow: /, a twój pipeline trenuje lub fine-tunuje model językowy na ich danych — masz problem, nawet jeśli twój bot nazywa się inaczej. Sąd w UE patrzy na cel, nie tylko na technikę.

Ai.txt i TDM Reservation Protocol

W 2024 Spawning (znany z repozytorium „Have I Been Trained”) zaproponował format ai.txt (/.well-known/ai.txt), który podobnie jak robots.txt deklaruje politykę wobec konkretnych use-case’ów AI: training, inference, generative output, output z atrybucją.

Równolegle IAB Tech Lab promuje TDM Reservation Protocol — format oparty na C2PA i Content Credentials, który daje wydawcy narzędzia do podpisu cyfrowego preferencji TDM na poziomie pojedynczego zasobu (artykułu, zdjęcia).

Meta tagi i nagłówki HTTP

Standard <meta name="robots" content="noai, noimageai"> przeforsowany przez społeczność artystyczną w 2023 roku jest dziś rozpoznawany przez większość głównych crawlerów. Analogiczny nagłówek HTTP: X-Robots-Tag: noai, noimageai.

Interpretacja w praktyce: jeśli widzisz jakąkolwiek formę opt-out maszynowo czytelnego, traktuj to jako zastrzeżenie TDM w rozumieniu art. 4 DSM. Wartościowa analiza rynku — w przewodniku po stacku marketingowym 2026 opisujemy, jak wpiąć kontrolę robots.txt/TDM w codzienny pipeline monitoringu.

RODO i dane osobowe — najczęstsza pułapka scraperów B2B

Najczęstszy motyw, z którym przychodzą zespoły sprzedażowe: „potrzebuję 20 tysięcy maili CFO z LinkedIn”. Brutalna odpowiedź: to nie jest legalne bez szeregu formalności, a nawet z nimi — ryzyko jest duże.

Dlaczego „to jest publiczne” nie wystarczy

Art. 14 RODO wymaga poinformowania osoby w ciągu miesiąca od zebrania danych. Nawet jeśli scrapujesz publicznie dostępne e-maile firm, każda osoba fizyczna (szef działu, właściciel, pracownik) ma prawo:

  • Wiedzieć, że jej dane są u ciebie przetwarzane.
  • Dowiedzieć się, skąd je wziąłeś, na jakiej podstawie i przez jak długi czas.
  • Zażądać usunięcia (art. 17), sprzeciwu wobec marketingu (art. 21 ust. 2).

Jeśli budujesz bazę 20k leadów, musisz wysłać 20k wiadomości informacyjnych w ciągu 30 dni — to element obowiązku, nie opcja. UODO w 2023 roku nałożył karę 1,9 mln PLN na firmę ClickQuickNow za naruszenie art. 14. W 2024 zgodna kara UODO wyniosła 2,8 mln PLN — podobna sprawa, inna firma.

Co robić zamiast

Legalny marketing B2B w 2026 opiera się zwykle na:

  1. Zakupie bazy od licencjonowanego dostawcy (np. Apollo, ZoomInfo, Bisnode — ich compliance masz w ToS).
  2. Ofertowaniu przez formularze kontaktowe z CAPTCHA — nie tworzy relacji administrator danych.
  3. Pozyskiwaniu leadów przez własny content (SEO, webinary, lead magnety) — osoba sama się zgłasza.
  4. Kampaniach LinkedIn Ads / InMail — platforma jest administratorem.
  5. Scrapingu tylko firm (adresy generic, KRS), nie osób (imiona, nazwiska).

Przykład praktyczny: monitoring cen konkurencji — jak to zrobić legalnie

Weźmy konkretny scenariusz: e-commerce meblarski chce monitorować ceny 12 konkurentów w Polsce. 200 produktów per konkurent, 2 razy dziennie. Dane do wewnętrznej analityki pricing.

Zielone światło — oto dlaczego

  • Brak danych osobowych (ceny, nazwy produktów, EAN) — RODO nie dotyczy.
  • Brak logowania, dane publiczne na stronach sklepów.
  • Rate 2 req/minutę per sklep = 0,03 req/s = daleko poniżej DoS.
  • Brak republikacji — dane wyłącznie wewnętrzne, do decyzji cenowych.
  • Brak „istotnego pobrania” całej bazy — wybrane 200 SKU to fragment katalogu.
  • Żaden ze sklepów nie ma Disallow: / ani noai w robots.txt (do sprawdzenia).

Architektura zgodna z compliance

  1. Crawler z identyfikującym się user-agentemPricingBot/1.0 (+https://naszasklep.pl/bot).
  2. Check robots.txt na każdym starcie sesji, cache na 24h, respekt dla Disallow.
  3. Rate limiter — max 1 req/30s per domena, backoff wykładniczy na 429/503.
  4. Proxy — datacenter, jedno IP per sklep, żadnej rotacji „pod bana”.
  5. Parsing — HTML / JSON-LD (Product schema), bez obchodzenia JS challenge.
  6. Storage — wyłącznie ceny, ID produktu, timestamp. Bez zdjęć, bez opisów.
  7. Retencja — 18 miesięcy, potem automatyczne usunięcie.
  8. Dokumentacja — LIA (legitimate interest assessment), rejestr czynności, procedura reagowania na kontakt od sklepu.

Ten setup przeszedł audyty compliance w 3 wdrożeniach, w których braliśmy udział — bez incydentów po 2+ latach działania. Pełen kod przykładowego scrapera opisujemy w tutorialu budowy scrapera w Pythonie.

Najczęstsze błędy i jak ich unikać

Kilkanaście projektów scrapingowych nauczyło nas, że prawnicze ryzyko materializuje się rzadziej niż operacyjne. Poniżej błędy, które kosztują firmy najwięcej.

Błąd 1: „zrobimy szybki PoC, ogarniemy compliance potem”

Nie. PoC scrapingowy produkuje dane, które są już chronione RODO. Jeśli zebrałeś 5000 rekordów z imionami i mailami „na szybko”, masz już obowiązek informacyjny i musisz te dane albo usunąć, albo zainformować osoby. Compliance to punkt zero, nie dodatek.

Błąd 2: ignorowanie robots.txt

„Googlebot i tak to pobiera” — tak, ale ma specjalne umowy i statut. Ty nie masz. Jeśli sądowy ekspert sprawdzi, czy strona miała Disallow, a ty pobierałeś — argument „to jest publiczne” się wali.

Błąd 3: zapominanie o rate limit

Crawler bez backoffu to najszybsza droga do skargi. Dodatkowo łatwo udowodnić wpływ na serwis (wolniejsze odpowiedzi dla klientów = potencjalna szkoda). Ustaw twarde limity nawet w testach.

Błąd 4: używanie residential proxy „bo datacenter jest banowane”

Część dostawców residential proxy (Bright Data, Oxylabs, Smartproxy) ma opt-in od użytkowników końcowych. Cześć — nie. Jeśli twój dostawca nie potrafi udokumentować legalności puli, nie kupuj. Używanie cudzego łącza bez zgody to szara strefa co najmniej.

Błąd 5: brak procedury „cease and desist”

Jeśli ktoś napisze „przestańcie scrapować naszą stronę”, masz prawny obowiązek odpowiedzieć i zazwyczaj zaprzestać. Brak procedury = brak dokumentacji reakcji = trudniejsze odpieranie zarzutów przed sądem.

Błąd 6: mieszanie danych osobowych i nieosobowych w jednym pipeline

Pipeline, który scrapuje produkty i przy okazji łapie nazwiska właścicieli sklepów, jest pipeline’em RODO z wszystkimi konsekwencjami. Rozdziel szyny — osobny flow dla danych nie-osobowych, osobny dla osobowych z pełną obsługą art. 14.

Realne koszty i ryzyka — co może cię zaboleć

Kary sądowe to rzadkość. Operacyjne koszty scrapingu niezgodnego są jednak wyższe, niż większość zespołów szacuje. Zestawienie na podstawie incydentów 2023–2025:

Typ incydentuSzacowany kosztCzęstość
Block IP przez WAF2–10 dni pracyBardzo wysoka
Cease & desist letter5–30 tys. PLN (prawnik)Wysoka
Kara UODO (brak obowiązku info)100 tys. – 3 mln PLNŚrednia
Pozew cywilny (sui generis / ToS)50 tys. – 1 mln PLNNiska
Utrata dostępu do APIDo miesięcy przestojuWysoka
Reputacja / wyciekTrudno wycenićŚrednia
Maksymalna kara RODO20 mln EUR lub 4% obrotuRzadkie, ale realne

FAQ — najczęstsze pytania o legalne scrapowanie

Czy łamanie Terms of Service jest przestępstwem?

W UE — co do zasady nie. ToS to umowa cywilnoprawna i naruszenie może skutkować odpowiedzialnością cywilną (odszkodowanie, zakaz), ale nie karną. Wyjątek: jeśli ToS chroni zabezpieczenie techniczne, a scraping to zabezpieczenie obchodzi — wtedy możliwa kwalifikacja z art. 267 kk (obchodzenie zabezpieczeń) lub art. 268a kk (utrudnianie dostępu). W USA sprawa Meta vs Bright Data (2024) potwierdziła, że samo naruszenie ToS bez obejścia technicznego nie narusza CFAA.

Czy mogę scrapować LinkedIn?

Profile za logowaniem — nie. Narusza ToS LinkedIn, narusza polityki profesjonalnych dostawców proxy i prawie zawsze generuje dane osobowe bez podstawy. Publiczne profile (bez logowania) — teoretycznie tak, ale ograniczenie jest takie, że LinkedIn ogranicza dostęp z nie-zalogowanych IP po kilku odwiedzinach i geoblokuje. W praktyce bezpieczniej skorzystać z LinkedIn Sales Navigator API lub kupić bazę od licencjonowanego dostawcy. Scraping LinkedIn to jeden z częstszych powodów kar UODO w Polsce.

Czy scraping Google SERP jest legalny?

Google formalnie zakazuje tego w ToS i blokuje technicznie. Jednocześnie orzecznictwo UE uznaje, że dane SERP same w sobie nie są chronione prawem autorskim (są to fragmenty cudzych treści), a nie ma jasnych danych osobowych. W praktyce: małe wolumeny do analiz SEO (do kilkuset zapytań dziennie) są tolerowane; większe skale wymagają SERP API (DataForSEO, ScrapingBee, Bright Data SERP API), które są w szarej strefie legalnie, ale w czystej strefie biznesowo (faktury, ToS, compliance). Dla większości zespołów to pragmatyczna ścieżka.

Jakie są ryzyka, jeśli scrapuję dane osobowe?

Cztery warstwy ryzyka. Po pierwsze: obowiązek informacyjny z art. 14 RODO — realne koszty wysyłki tysięcy maili informacyjnych. Po drugie: kara UODO do 20 mln EUR lub 4% obrotu, z polskim precedensem 1,9 mln PLN (ClickQuickNow, 2023). Po trzecie: cywilne roszczenia osób (art. 82 RODO — zadośćuczynienie, także poniżej 1000 PLN/osoba). Po czwarte: reputacja — media o firmach łamiących RODO piszą chętnie, a CFO/CMO zwykle nie chcą tego ryzyka. Praktyka: jeśli nie masz dedykowanego prawnika i DPO, nie scrapuj danych osobowych.

Czy opt-out w robots.txt jest prawnie wiążący?

Po wdrożeniu dyrektywy DSM (w Polsce: nowela prawa autorskiego z 2023 r.) — tak, jeśli chodzi o TDM z art. 4. Zastrzeżenie maszynowo czytelne w robots.txt, X-Robots-Tag lub ai.txt jest uznawane za skuteczne opt-out z wyjątku TDM. Nie jest to „opinia” — to stanowisko Komisji Europejskiej w wytycznych do AI Act (2024). Ignorowanie opt-outu w projektach AI/analitycznych naraża na odpowiedzialność z prawa autorskiego w każdym państwie UE.

Czy wolno scrapować publiczne dane z KRS, CEIDG, KRD?

Tak, z ograniczeniami. KRS i CEIDG są z mocy ustawy publiczne — dane dostępne komercyjnie i do użytku wtórnego (licencja dostawcy, z reguły open). Ale nawet tu pojawiają się dane osobowe (imiona, adresy prywatne wspólników) — w ich zakresie RODO obowiązuje normalnie. KRD i inne bazy komercyjne: tylko przez API z umową. Scrapowanie KRD bez umowy to klasyczne naruszenie bazy sui generis + naruszenie ToS. Pragmatycznie: użyj API publicznych (np. REGON API, KRS API) zamiast scrapować frontend.

Jak często sprawdzać robots.txt przed scrapowaniem?

Standard praktyki: przy starcie sesji, z cache 24h. Niektóre zespoły cache’ują na godzinę dla serwisów, o których wiedzą, że zmieniają polityki (duże wydawnictwa, social media). Fetch robots.txt jest też sygnałem compliance — jeśli trafisz na incydent, kontrola będzie chciała udowodnić, że miałeś aktualną wiedzę o polityce serwisu. Loguj wyniki fetchów robots.txt z timestampami i hashem treści; to argument dowodowy w razie sporu.

Czy AI Act UE wpływa na scraping?

Pośrednio, ale wyraźnie. AI Act (wszedł częściowo 2025, pełne obowiązki 2026–2027) wymaga od dostawców modeli ogólnego przeznaczenia (GPAI) transparentności co do danych treningowych i poszanowania TDM opt-outów. Jeśli scrapujesz dane do celów trenowania modeli, jesteś zobowiązany do publicznego raportu o źródłach i respektowania opt-outów. To bezpośrednio podbija wagę sygnałów robots.txt, X-Robots-Tag i ai.txt. Wdrożenia analityczne (dashboardy, alerty, monitoring cen) są poza scope GPAI, ale w praktyce te same sygnały warto respektować.

Co dalej — praktyczne kroki i powiązane teksty

Legalne scrapowanie to proces, nie jednorazowa decyzja. Zespół, który traktuje compliance jako fundament, scrapuje szybciej i pewniej, bo ma z góry wyczyszczone, co wolno, a co nie. Poniżej pięć kroków, które możesz wdrożyć w tym tygodniu.

  1. Zinwentaryzuj wszystkie istniejące pipeline’y scrapingowe — user-agent, cel, dane, skala, retencja.
  2. Dla każdego pipeline’u wypełnij 7-pytaniowy framework z sekcji „Framework oceny” — oceń ryzyko.
  3. Napisz polityka scrapingową (2–3 strony) i przeforsuj jej akceptację przez IT, Marketing i Legal.
  4. Skonfiguruj monitoring robots.txt i nagłówków TDM na scrape’owanych domenach.
  5. Zaplanuj wdrożenie SERP API / scraping API u licencjonowanego dostawcy zamiast własnych rozwiązań.

Rekomendowane czytanie dalej:

Jeśli planujesz projekt scrapingowy o skali powyżej 100 tys. rekordów, warto zacząć od audytu prawnego — konsultacja z radcą specjalizującym się w prawie danych kosztuje 2–5 tys. PLN i zaoszczędzi wielokrotnie więcej w kosztach incydentów. Ta inwestycja zwraca się przy pierwszym cease & desist, którego się uniknie. Więcej o warstwie narzędziowej znajdziesz w przewodniku po stacku marketingowym 2026.