Crawl budget w 2026 roku przestal byc tematem rezerwowanym wylacznie dla portali z setkami tysiecy URL. Po fali zmian w sposobie, w jaki Googlebot, GPTBot i ClaudeBot odwiedzaja witryny, nawet srednie sklepy e-commerce i serwisy contentowe musza przyjrzec sie temu, ile zasobow boty pochlaniaja, ktore sekcje sa indeksowane i jak szybko nowe tresci trafiaja do wyszukiwarek oraz baz wiedzy LLM. Czterech graczy dominuje rynek crawl-budget intelligence: Screaming Frog SEO Spider, Sitebulb, JetOctopus oraz Oncrawl. Kazde z tych narzedzi inaczej podchodzi do skanowania, analizy logow i wizualizacji, a roznice w cenach przekraczaja jeden rzad wielkosci.
W tym przewodniku porownujemy je w realnych scenariuszach (mala witryna 5 000 URL, srednia 250 000 URL, duza 5 000 000 URL), pokazujemy framework decyzyjny kiedy ktore, opisujemy konkretne workflowy oraz KPI, ktore warto sledzic w 2026 roku, w erze pelnej dominacji AI Overviews i odpowiedzi LLM. Nie jest to ranking marketingowy: kazde narzedzie ma scenariusze, w ktorych wygrywa, i takie, w ktorych ustepuje konkurencji.
Czym jest crawl budget w 2026 roku
Klasyczna definicja Google brzmiala: crawl budget to iloczyn crawl rate limit (ile zadan na sekunde Googlebot moze wykonac bez obciazenia serwera) oraz crawl demand (jak bardzo Google chce odwiedzic dane URL). W 2026 roku ta definicja sie poszerzyla, bo nasze strony odwiedza nie tylko Googlebot. Dane z log files pokazuja, ze na sredniej polskiej witrynie e-commerce udzial botow w calym ruchu HTTP rozklada sie mniej wiecej tak: Googlebot okolo 38%, Bingbot 7%, GPTBot (OpenAI) 11%, ClaudeBot (Anthropic) 6%, PerplexityBot 4%, pozostale (Amazonbot, ByteSpider, Applebot) razem 9%. Pozostala czesc to crawlery konkurencji (Ahrefs, Semrush, Majestic) oraz boty wlasne.
To znaczy, ze „crawl budget” w klasycznym, indeksacyjnym rozumieniu, dotyczy nadal Googlebota i Bingbota, ale rownoczesnie powstal drugi wymiar: LLM crawl budget, czyli ile zasobow GPTBot i ClaudeBot poswiecaja na pobieranie naszych tresci do baz wiedzy AI Overviews, ChatGPT Search i Perplexity. Optymalizacja w 2026 roku oznacza zarzadzanie obydwoma jednoczesnie. Jezeli sekcja blogowa zjada caly budzet Googlebota, a strony produktowe sa odwiedzane raz na 40 dni, oferta nie nadazy za sezonowymi zmianami cen. Jezeli GPTBot dostaje 502 z powodu zlej konfiguracji firewalla, w odpowiedziach ChatGPT nasza marka zniknie z cytowan.
Dlatego nowoczesny audyt crawl-budget skupia sie na czterech pytaniach. Po pierwsze: ktore URL marnuja czas botow? Po drugie: ktore URL sa pomijane, mimo ze powinny byc odwiedzane? Po trzecie: jak rozklada sie crawl pomiedzy bota Google a boty LLM? Po czwarte: czy struktura wewnetrznych linkow rozprowadza priorytet w sposob, w jaki tego oczekujemy?
Czterej rywale: kogo dotyczy ten test
Screaming Frog SEO Spider
Najstarszy z testowanej czworki, w 2026 wciaz uznawany za szwajcarski scyzoryk technicznego SEO. To desktopowa aplikacja Java (Windows, macOS, Linux), licencja 259 GBP rocznie za jednego uzytkownika. Skanuje do ~500 000 URL na laptopie z 16 GB RAM (przy ustawieniach default), powyzej tego progu wymaga trybu database storage i SSD. Crawl jest synchroniczny: musisz miec aplikacje otwarta podczas pracy. Screaming Frog v22 (wydany w styczniu 2026) dodal natywna integracje z Search Console Insights API oraz analize Core Web Vitals z CrUX, plus obsluge tagow noai i noimageai.
Sitebulb
Brytyjski konkurent Screaming Froga, takze desktopowy (Windows, macOS, Linux), w cenie 35 USD miesiecznie za Lite albo 75 USD za pelna wersje. Sitebulb specjalizuje sie w czytelnej wizualizacji: tablice tematyczne, grafy linkowania, heatmapy „crawl depth”. Dla zespolow, w ktorych raport audytu czyta klient lub osoba spoza SEO, format raportu HTML Sitebulb jest praktycznie nie do pobicia. Skanuje wolniej niz Screaming Frog (typowo 30 do 50 URL na sekunde lokalnie), ale to czesto plus przy serwisach z agresywnym rate limitingiem.
JetOctopus
Ukrainsko-polski enterprise crawler i log analyzer, model SaaS, ceny od 99 USD miesiecznie (do 100 000 URL) do enterprise 2 500 USD+ za miliony URL. Zalety: brak limitu na wielkosc projektu w wersji enterprise, integracja log files (Apache, Nginx, Cloudflare, Cloudfront) w trybie real-time, automatyczne wykrywanie cykli redirectow i petli kanonikalnych. JetOctopus byl pierwszym narzedziem (jeszcze w 2024), ktore wprowadzilo segmentowanie ruchu botow po user-agent z osobnymi widokami dla GPTBot i ClaudeBot.
Oncrawl
Francuski lider segmentu enterprise SEO data, ceny od 249 EUR miesiecznie (Starter, do 100 000 URL) do tysiecy euro za pakiety enterprise. Oncrawl wyroznia sie modulem Data Studio (pelna integracja z GA4, Search Console, log files), korelacjami statystycznymi miedzy tysiacami zmiennych (np. jak glebokosc URL koreluje z prawdopodobienstwem indeksacji) oraz natywnym connectorem do BigQuery. To narzedzie wybrane przez wieksze redakcje i sklepy z dziesiatkami tysiecy SKU, ktore potrzebuja crawl + log + analytics w jednym dashboardzie.
Najwazniejsze zasady i framework decyzyjny
Wybor narzedzia zalezy od trzech zmiennych: wielkosci witryny, typu danych, ktore chcesz analizowac (sam crawl czy crawl + logi), oraz kto bedzie czytal raport (technik, marketingowiec, klient). Mozna to zilustrowac prostym frameworkiem 2x2x2:
| Witryna | Dane | Czytelnik raportu | Sugerowane narzedzie |
|---|---|---|---|
| do 50 000 URL | tylko crawl | technik | Screaming Frog |
| do 50 000 URL | tylko crawl | klient / marketing | Sitebulb |
| 50 000 do 500 000 URL | crawl + logi | zespol SEO | JetOctopus albo Oncrawl Starter |
| 50 000 do 500 000 URL | crawl + logi + analytics | zarzad, raporty zbiorcze | Oncrawl |
| powyzej 500 000 URL | wszystko | kazdy | JetOctopus (cena) albo Oncrawl (raportowanie) |
Najczestsza pulapka: zespoly kupuja Oncrawl albo JetOctopus dla witryny, ktora ma 8 000 URL, „na zapas”. To strata budzetu (kilka tysiecy euro rocznie na funkcje enterprise, ktorych nikt nie uzyje) i pogorszenie efektywnosci, bo desktopowy Screaming Frog wykonalby pelny audyt w 12 minut z poziomu laptopa. Z drugiej strony, zespoly trzymajace sie Screaming Froga na witrynie z 3 000 000 URL spedzaja dni na crawlach, ktore nigdy sie nie koncza, bo Java przelyka cala dostepna pamiec.
Druga zasada brzmi: crawl bez logow to tylko polowa diagnostyki. Screaming Frog i Sitebulb pokazuja, jak boty mogloby crawlowac witryne. JetOctopus i Oncrawl pokazuja, jak boty faktycznie crawluja. Niemal kazda powazna optymalizacja crawl budget wymaga porownania tych dwoch obrazow. Jezeli Twoj plan budzetowy nie pozwala na narzedzie z log analyzerem, alternatywa to eksport logow z hostingu lub Cloudflare do BigQuery i wlasna analiza w Looker Studio (ten temat omawiamy w przewodniku API GA4 i Search Console: praktyczny pipeline w 2026).
Jak to wdrozyc krok po kroku
Krok 1: ustal baseline (tydzien 1)
Pierwszym zadaniem jest zebranie aktualnego stanu, czyli odpowiedz na pytanie: ile mamy URL, jaka czesc z nich jest indeksowalna, jaka czesc faktycznie indeksowana, jaki jest sredni czas miedzy dwoma wizytami Googlebota na tej samej stronie. Najszybciej dojdziesz do tego, uruchamiajac pelny crawl Screaming Frog z trybem „List mode” karmionym XML sitemap, a nastepnie porownujac to z raportami z Search Console (Page Indexing i Crawl Stats). Jezeli juz teraz masz dostep do logow z Cloudflare albo do raw logow z hostingu, importujesz je do Oncrawl albo JetOctopus i robisz pierwszy „crawl vs logs match”, ktory natychmiast pokazuje, ile URL boty znaja, ale Twoj crawler ich nie widzi (czyli URL osierocone, redirecty, parametry).
Krok 2: identyfikuj marnotrawcow (tydzien 2)
Marnotrawcy to URL, ktore zjadaja crawl, a nie powinny istniec albo nie powinny byc dostepne dla botow. Lista typowych winowajcow: paginacja kategorii e-commerce z parametrami sortowania i filtrami (?sort=price&color=red), wyniki wyszukiwarki wewnetrznej, kalendarze archiwum bloga (lata 2009, 2010), URL z PHPSESSID, prywatne profile uzytkownikow, faceted navigation, soft 404. Screaming Frog ma raport „Response Codes > Redirection (3xx)” oraz „Response Codes > Client Error (4xx)”, ktore daja szybki obraz. JetOctopus ma osobny dashboard „Wasted Crawl Budget” z lista URL, ktore Googlebot odwiedzil w ostatnich 30 dniach z odpowiedzia 4xx lub 5xx, albo z redirect chains dluzszymi niz 2 hopy. Typowe odkrycie na sredniej witrynie polskiej: 18% do 32% crawl budgetu zjadaja URL, ktorych w ogole nie powinno byc w indeksie.
Krok 3: ustaw priorytety dla botow (tydzien 3)
Skoro wiesz, ktore URL marnuja czas, pora ograniczyc do nich dostep. Cztery glowne dzwignie to: robots.txt (najmocniejsza, blokuje crawlowanie zupelnie), meta robots noindex (pozwala botowi sciagnac strone, ale ja wykluczy z indeksu), atrybut rel="canonical" (mowi botowi, ze URL jest duplikatem innej strony), parametry URL ignorowane przez crawlera. W Screaming Frog mozesz wczytac wlasny robots.txt i sprawdzic, ktore URL byloby zablokowane jeszcze przed wgraniem go na produkcje. JetOctopus i Oncrawl umozliwiaja symulacje „co-jesli”: zaznaczasz reguly i widzisz natychmiast, ile crawl budgetu uwolnisz.
Krok 4: optymalizuj architekture wewnetrznego linkowania (tydzien 4)
Crawl budget przeplywa wzdluz linkow. Strona, do ktorej prowadzi 50 linkow wewnetrznych, dostanie zwykle wiecej wizyt bota niz strona, do ktorej prowadzi 1 link z mapy strony. Sitebulb ma „Crawl Map”, JetOctopus i Oncrawl maja „Internal PageRank” lub „InRank”. Ujawnia to klasyczne patologie: produkty bestsellery schowane na glebokosci 5 (czyli 5 klikniec od strony glownej), wpisy blogowe z lat 2018-2020 majace po 200 linkow przychodzacych. Reorganizacja menu, dodanie sekcji „Polecane” i „Najnowsze” na stronie glownej, dodanie breadcrumbs oraz zaadresowanie sierot (URL bez zadnego linku wewnetrznego) sa zwykle prostym sposobem na podwojenie czestosci wizyt Googlebota na priorytetowych URL. To temat blisko zwiazany z procesami content-ops, bo nowe artykuly powinny od momentu publikacji miec zaplanowane linkowanie wewnetrzne, nie dorabiane post factum.
Krok 5: monitoruj LLM bots osobno (tydzien 5 i dalej)
To krok zupelnie nowy w 2026 roku. GPTBot, ClaudeBot, PerplexityBot, Google-Extended (osobny user-agent dla Bard/Gemini) maja zupelnie inne wzorce crawlowania niz Googlebot. Wracaja rzadziej (typowo raz na 2 do 8 tygodni na ten sam URL), ale gdy juz pobieraja, robia to z duza intensywnoscia (kilkanascie zadan na sekunde). Najczestszy blad: blokada GPTBot w robots.txt „na wszelki wypadek”, co skutkuje brakiem cytowan w odpowiedziach ChatGPT i Perplexity. Drugi blad: brak rate-limita na nginx, co prowadzi do 5xx w odpowiedzi na intensywne crawlowanie LLM bota. JetOctopus ma osobne widoki dla bota OpenAI i Anthropic od stycznia 2025; Oncrawl dorobil tezma kategorie LLM Bots od marca 2025. Screaming Frog i Sitebulb (jako narzedzia bez analizy logow) wymagaja zewnetrznego dashboardu, np. Looker Studio na danych z Cloudflare Analytics.
Najczestsze bledy i pulapki
W ciagu ostatnich 18 miesiecy spotkalismy te bledy na audytach kilkudziesieciu witryn:
- Crawl jednorazowy zamiast cyklicznego. Wykonujesz crawl raz na kwartal, dostajesz raport, robisz poprawki, a po 6 tygodniach nie wiesz, czy poprawki zadzialaly. JetOctopus, Oncrawl i Screaming Frog (przez tryb Scheduled) potrafia uruchamiac crawl automatycznie co tydzien. To podstawa, bez tego dyskutujesz o crawl budgecie po omacku.
- Brak segmentacji. Patrzenie na zagregowany „crawl ratio” dla calej witryny ukrywa to, co naprawde sie dzieje. Trzeba miec osobne metryki dla kazdej kategorii (np. /produkty/, /blog/, /kategoria/) i dla kazdego typu strony (kategoria, produkt, artykul). Oncrawl pozwala definiowac segmenty regex w 5 minut, Screaming Frog wymaga manualnego eksportu CSV i analizy w Pythonie.
- Pomijanie redirect chains. Lancuch redirectow A > B > C > D zjada crawl budget 4x. Screaming Frog raportuje to w „Redirect Chains”, ale czytanie tego raportu na witrynach z 200 000 URL bywa katorga. JetOctopus i Oncrawl daja graf wizualny i wskazuja URL, ktore generuja chains przez bledne kanoniki lub stara konfiguracje 301.
- Niedoszacowanie wagi JS rendering. Strony budowane na React, Next.js, Vue bez SSR czesto nie sa crawlowane poprawnie. Screaming Frog ma tryb „JavaScript rendering” wlaczony osobno (wolniejszy 5x i wymaga zasobow CPU). Sitebulb i JetOctopus tez. Jezeli Twoja witryna jest SPA, sprawdz koniecznie, co bot widzi w wersji renderowanej kontra co widzi w czystym HTML. Roznica bywa drastyczna, szczegolnie dla LLM botow, ktore nie zawsze wykonuja JS.
- Brak weryfikacji
noaiinoimageai. Od polowy 2024 OpenAI i Anthropic wspieraja meta taginoaiinoimageai, ktore wycofuja zgode na uzycie tresci do treningu modeli. Wielu wlascicieli wlaczyl te tagi globalnie, blokujac sobie cytowania w odpowiedziach AI. Screaming Frog v22 i nowsze raportuje obecnosc tych tagow w sekcji „Directives”. - Mylenie crawl budgetu z indexation rate. URL moze byc crawlowany regularnie, a wciaz nie znajdowac sie w indeksie (Search Console pokazuje status „Crawled, not indexed”). To problem jakosci tresci, nie crawl budgetu. Patrz raport Page Indexing w GSC, nie tylko Crawl Stats.
Mierzenie efektow i KPI
Optymalizacja bez metryk to ruletka. Dla projektow crawl budget pracujemy z piecioma KPI, ktore razem daja kompletny obraz. Po pierwsze: crawl efficiency ratio, czyli udzial URL z odpowiedzia 200 OK wsrod wszystkich URL odwiedzonych przez Googlebota w ostatnich 30 dniach. Cel zdrowej witryny: powyzej 90%. Po drugie: orphan ratio, czyli udzial URL, ktore boty crawluja, ale nie ma do nich zadnych linkow wewnetrznych. Cel: ponizej 3% calego inwentarza. Po trzecie: average days between crawls, czyli srednia liczba dni miedzy dwoma kolejnymi wizytami Googlebota na tym samym URL. Wartosc oczekiwana zalezy od typu witryny, ale dla strony e-commerce z sezonowoscia: ponizej 7 dni na kategoriach, ponizej 14 dni na produktach. Po czwarte: indexation lag, czyli mediana czasu miedzy publikacja nowego URL a jego pojawieniem sie w indeksie Google. Cel dla redakcji informacyjnych: ponizej 2 godzin, dla blogow ekspertyzowych: ponizej 36 godzin. Po piate: LLM citation count, czyli liczba unikalnych URL z naszej domeny cytowanych w odpowiedziach ChatGPT, Perplexity, Gemini w ciagu miesiaca (mierzone przez narzedzia takie jak Otterly, Profound, AthenaHQ).
Te KPI warto zebrac w jednym dashboardzie (Looker Studio, Power BI, lub natywny dashboard w Oncrawl). Aktualizacja co tydzien, przeglad miesieczny. Dodanie tych metryk do cyklicznego raportu SEO porzadkuje dyskusje z zarzadem: zamiast tlumaczyc, „co to crawl budget”, pokazujesz konkretne liczby i ich trend.
Crawl budget a infrastruktura: WordPress, headless, SSR
Wybor architektury witryny wplywa wprost na to, ile crawl budgetu zuzywaja boty na generowanie stron (a nie tylko na ich indeksowanie). WordPress z agresywnym page caching (LiteSpeed, WP Rocket, lub Cloudflare APO) serwuje strony botom z TTFB 50 do 200 ms, co umozliwia Googlebotowi i GPTBot wysokie tempo crawlowania. WordPress bez cache, z dziesiatkami pluginow, generuje TTFB 800 do 2 500 ms, co skutkuje crawl rate limit na 1 do 2 zadan na sekunde. Te kalkulacje sa kluczowe dla witryn o duzej skali. Wdrozenie pelnego cache potrafi podwoic albo potroic crawl budget Googlebota w ciagu 2 tygodni od uruchomienia, co pokazuja wykresy z Crawl Stats w GSC.
Architektura headless WordPress (Faust, Atlas, Frontity) wprowadza dodatkowy wymiar: SSR vs CSR. Strony renderowane po stronie serwera dzialaja jak klasyczny WP dla bota; strony CSR (client-side rendered) wymagaja dwuetapowego crawlowania (Googlebot pobiera HTML, potem JS), co kosztuje crawl 5x do 9x razy wiecej. Wybor SSR czy hybrydowego ISR (Incremental Static Regeneration) dyktuje, czy boty da rade utrzymac aktualnosc indeksu. Wiecej o roznicach miedzy rozwiazaniami headless: WordPress headless pod SEO: Faust, WPEngine Atlas, Frontity 2026.
Zewnetrzne zrodla i standardy
Najwazniejsze dokumenty branzowe, do ktorych wracamy podczas projektow crawl budget: oficjalna dokumentacja Google Search Central na temat zarzadzania crawl budgetem (developers.google.com) oraz strona platform.openai.com/docs/gptbot z aktualnymi user-agentami i zakresami IP GPTBot. Anthropic publikuje analogiczne info w pomocy Claude, a regularnie aktualizowana lista znanych botow LLM jest utrzymywana w projekcie Dark Visitors. Dokumentacje swoich narzedzi maja takze Screaming Frog (manual ma niemal 200 stron i warto go znac), Sitebulb (wbudowane Sitebulb Hints sa najlepszym samouczkiem), JetOctopus (rozbudowana baza wiedzy z przykladami SQL na logach) i Oncrawl Academy (free).
Workflow tygodniowy: jak to dziala w praktyce
Ksiazkowe definicje to jedno, codzienna praca techniczna to drugie. Najlepiej pracujace zespoly SEO, ktore mieliscie okazje obserwowac, wszystkie ustawiaja sobie tygodniowy rytm: poniedzialek crawl + przeglad bledow, srodek tygodnia wdrozenia, piatek raport. Ponizej tygodniowy harmonogram, ktory mozna zaadaptowac niemal kazdy zespol redakcyjny czy techniczny SEO.
Poniedzialek rano (60 do 90 minut). Automatyczny pelny crawl uruchamia sie w nocy z niedzieli na poniedzialek, dane sa juz gotowe. Otwierasz Oncrawl albo JetOctopus, sprawdzasz dashboard „Health Overview”. Trzy pierwsze pytania: czy pojawiły sie nowe URL z 5xx, czy redirect chains przekroczyly 2 hopy gdziekolwiek, czy sa nowe sieroty (orphan URLs). Lista bledow 5xx idzie od razu do zespolu DevOps z priorytetem P1. Redirect chains lapiesz w karteczki Jira i przypisujesz do najblizszego sprintu SEO.
Wtorek (40 do 60 minut). Patrzysz na Crawl Stats w Google Search Console. Czy total crawl requests w ostatnich 28 dniach rosnie, spada, czy stoi w miejscu. Spadek o ponad 20% tydzien do tygodnia jest sygnalem ostrzegawczym (czesto wynika z problemow serwera, ale czasem z accidental noindex na duzych sekcjach). Wzrost o ponad 30% bez wytlumaczenia rowniez wymaga sprawdzenia, czy Google nie zaczyna crawlowac przypadkiem zapomnianej sekcji (np. /tag/, /search/, /author/).
Sroda (godzina sredniej dawki technicznej pracy). Wdrazasz poprawki: redirect chains, brakujace kanoniki, dodanie linkow do sierot. Najczesciej to czysta praca w plikach motywu WordPress albo w panelu CMS. Po wdrozeniu robisz mini-crawl tylko zmodyfikowanych URL (Screaming Frog ma do tego dobry „Crawl List” mode) i sprawdzasz, czy zmiany przyjely sie.
Czwartek (sledzenie LLM crawlow). Otwierasz dashboard Looker Studio z danymi Cloudflare. Sprawdzasz, jak rozklada sie ruch GPTBot, ClaudeBot, PerplexityBot na sekcje witryny. Czy boty trafiaja na priorytetowe URL? Czy nie ma odpowiedzi 5xx wobec tych user-agentow? Czesto wlasnie w czwartek odkrywa sie, ze WAF (np. domyslny Sucuri albo Wordfence) blokuje LLM boty traktujac je jako „podejrzane crawlers”. Wpisujesz wyjatek, czekasz 24 do 48 godzin na nawrot bota.
Piatek (raport). Generujesz tygodniowy raport ze stalym szablonem: 5 KPI z poprzedniej sekcji, lista wdrozonych poprawek, lista znalezionych nowych problemow, plan na nastepny tydzien. Raport powinien byc maksymalnie 1 strona PDF lub Slide. Wysylasz go do head of marketingu lub head of content, plus archiwizujesz w Notion/Confluence.
Po 4 do 6 tygodniach takiego rytmu, witryna wchodzi w stan, w ktorym sa wykrywane co najwyzej drobne problemy. Wtedy mozna obnizyc czestotliwosc do crawla raz na 2 tygodnie, a tygodniowa rutyna staje sie 15-minutowa kontrola dashboardu.
Co wybrac, jezeli musisz wybrac jedno
Mala agencja albo freelancer: Screaming Frog (jednorazowa inwestycja, plus opcjonalnie Sitebulb na audyty dla klienta). Wewnetrzny zespol SEO sredniej firmy: JetOctopus Starter, plus dorzucenie analizy logow z Cloudflare. Enterprise z setkami tysiecy URL: Oncrawl albo JetOctopus Enterprise, decyzja zalezy od tego, czy istotniejsze sa raportowanie i prezentacja (Oncrawl) czy elastycznosc na duzych woluminach danych (JetOctopus). Najwiekszy blad to „kup dwa i porownaj na produkcji”: doswiadczenie pokazuje, ze zespol nigdy nie przelaczy sie z narzedzia A na B, a koszt licencji rosnie dwukrotnie. Lepiej zrobic 14-dniowy trial obu na tej samej witrynie i podjac decyzje w 2 tygodnie, niz „rozpracowywac” rok.
FAQ
Czy crawl budget dotyczy malych witryn ponizej 5 000 URL?
Zwykle nie w klasycznym, „google-owym” sensie. Googlebot z latwoscia ogarnia witryne 5 000 URL co 1 do 3 dni i nie ma problemu z zasobami. Ale od 2025 roku mala witryna z duzym ruchem GPTBot i ClaudeBot moze odczuwac wzrost rachunkow za hosting i wolniejszy serwer. Jezeli widzisz spadek TTFB albo 5xx w okresie wizyt LLM botow, warto przyjrzec sie konfiguracji rate limit i cache.
Czy warto blokowac GPTBot i ClaudeBot w robots.txt?
Zalezy od strategii. Jezeli zaleznoscia biznesowa jest widocznosc w odpowiedziach ChatGPT, Perplexity, Gemini, to NIE: blokada wyciaga marke z cytowan. Jezeli tworzysz tresci, ktorych nie chcesz udostepniac do treningu modeli (np. raporty platne), tak: zablokuj. Pamietaj o roznicy miedzy crawlerem cytowan (np. ChatGPT przegladarka, OAI-SearchBot) a crawlerem treningowym (GPTBot). To dwa rozne user-agenty i moga byc traktowane osobno.
Jak czesto powinienem uruchamiac pelny crawl swojej witryny?
Dla witryn ponizej 50 000 URL: raz w tygodniu (automatycznie, Screaming Frog Scheduled). Dla 50 000 do 500 000 URL: raz na 2 tygodnie. Dla powyzej 500 000 URL: raz na miesiac pelny crawl, plus crawl inkrementalny (tylko nowe i zmienione URL) raz na tydzien. Powyzej 5 000 000 URL czesto rezygnuje sie z pelnego crawlu calej witryny i pracuje na probkach segmentowych.
Czy Search Console zastapi mi te narzedzia?
Nie. Search Console pokazuje wynik (status indeksacji, Crawl Stats), ale nie pozwala na proaktywny audyt struktury linkowania, redirect chains, sierot, kanonikow. Search Console jest komplementarne, nie alternatywne. Sredniej wielkosci projekt SEO uzywa zwykle: Screaming Frog (lub Sitebulb), JetOctopus albo Oncrawl, plus Search Console plus Google Analytics 4.
Ile kosztuje pelne wdrozenie crawl budget intelligence na sredniej witrynie?
Dla witryny e-commerce 100 000 do 500 000 URL, roczny koszt licencji to typowo 4 000 do 8 000 EUR (Oncrawl albo JetOctopus Starter/Pro). Do tego trzeba dodac czas pracy SEO senior: setup zajmuje 20 do 40 godzin, comiesieczny przeglad i optymalizacja 8 do 16 godzin. Sumarycznie pierwsza inwestycja w pierwszym kwartale to okolo 6 000 do 12 000 EUR, w kolejnych kwartalach 2 000 do 4 000 EUR.
Czy mozna polaczyc Screaming Frog z analiza logow?
Tak, ale recznie. Screaming Frog ma osobny produkt Screaming Frog Log File Analyser (99 GBP rocznie). Pozwala wczytac surowe logi i sparsowac je obok danych z crawla. Funkcjonalnosc nizsza od JetOctopus i Oncrawl, ale dla witryn do 100 000 URL czesto wystarcza. Mozna takze wpiac wyniki crawla z SF i logi z hostingu do BigQuery i analizowac to recznie w SQL, co ma sens, jezeli zespol ma kompetencje data engineerskie.
