Crawl budget 2026: diagnoza i optymalizacja

Crawl budżet to limit zasobów, które Googlebot gotów jest wydać na przeszukiwanie Twojej domeny w określonym czasie. Dla sklepów z 500 produktami to kwestia drugorzędna. Dla marketplace’a z 200 000 URL-i, portalu z filtrami kategorii lub serwisu news z publikacją 200 artykułów dziennie – crawl budżet decyduje, czy Google w ogóle zobaczy nowe treści i jak szybko.

W 2026 roku crawl budżet stał się krytyczny z trzech powodów: wzrostu kosztów indexowania po stronie Google (limity fizyczne data centers), większego udziału JS-rendered content (koszt renderingu jest 3-5× wyższy niż statycznego HTML) i ekspansji AI crawlerów (GPTBot, ClaudeBot, PerplexityBot), które konkurują z Googlebotem o zasoby serwera. Pełen kontekst technicznego SEO opisujemy w przewodniku SEO 2026.

W skrócie

Crawl budżet to produkt crawl rate limit × crawl demand – technika (szybkość, błędy) razy popyt (popularność, świeżość).
Do 10 000 URL-i crawl budżet nie jest problemem — Google spokojnie indeksuje wszystko.
Powyżej 50 000 URL-i crawl budżet wymaga świadomej optymalizacji – sitemap, internal linking, log analysis.
80% marnotrawstwa crawl budżet to parameter URLs, facet navigation, search results i duplicated content.
Log file analysis to jedyny sposób, żeby naprawdę zobaczyć, co Googlebot robi na Twojej stronie.

Czym jest crawl budżet i jak go policzyć

Crawl budżet to iloczyn dwóch zmiennych: crawl rate limit (ile requestów Googlebot może wykonać bez zmęczenia serwera) i crawl demand (jak bardzo Google chce odwiedzić stronę, bazując na popularności i świeżości). Produkt tych zmiennych definiuje realny limit dziennego crawla — więcej w artykule SEO 2026 – przewodnik.

Crawl rate limit

Google monitoruje czas odpowiedzi serwera i błędy 5xx.
Serwer odpowiadający 1 s – niższy.
Każdy 5xx obniża rate limit na 24–48 h.
W Search Console → Crawl Stats widać dzienny wykres.
Ręczne ustawienie (Crawl rate) zostało wycofane w 2024 – teraz tylko algorytmiczne.

Crawl demand

Popularność: strony z wieloma linkami przychodzącymi crawlują się częściej.
Świeżość: sekcje z częstymi zmianami (blog, aktualności) mają wyższy demand.
Staleness: strony niezmienione 6+ miesięcy crawlują się rzadko (raz/miesiąc).
Ważność: homepage i strony kategorii wyższego poziomu > pojedyncze strony produktowe.
Hreflang: strony z hreflangiem dodatkowo crawlowane w kontekście wersji językowych.

Kiedy crawl budżet jest realnym problemem

Sygnały z Search Console

Indexing Coverage pokazuje 30%+ stron „Discovered – currently not indexed” lub „Crawled – currently not indexed”.
Nowe treści indeksują się > 72h po publikacji (standardem jest 2–24h).
Średnia liczba requestów dziennie w Crawl Stats znacznie niższa od liczby URL-i w sitemap.
Growing gap między „Valid” a „Submitted” w sitemap reports.
Stałe ostrzeżenia o wykluczonych URL-ach z parametrami.

Progi wielkości, przy których zaczyna boleć

Liczba URL-i	Crawl budżet status
< 10 000	Nie problem – Google indeksuje wszystko
10 000–50 000	Monitoruj; optymalizuj jeśli rośnie
50 000–500 000	Aktywna optymalizacja konieczna
> 500 000	Krytyczny priorytet — log analysis obowiązkowa

Gdzie crawl budżet jest marnotrawiony

80% problemów crawl budżet w audytach polskich sklepów Q1 2026 pochodzi z pięciu powtarzalnych źródeł. Każde z nich można zdiagnozować w ciągu 2–4 godzin.

Parameter URLs

UTM tagi indeksowane jako osobne strony (?utm_source=facebook).
Parametry filtracji w URL (?color=red&size=M).
Parametry sortowania (?sort=price_asc, ?sort=price_desc).
Session ID w URL (?session_id=abc123).
Query strings od zewnętrznych trackerów (?gclid, ?fbclid).

Facet navigation

Filtry kategorii w e-commerce (kolor, rozmiar, marka, cena) generują tysiące kombinacji URL-i. 5 filtrów po 10 opcji = 10^5 teoretycznych stron, z czego 99% to duplikaty lub strony niskiej wartości. Rozwiązania: noindex dla kombinacji > 2 filtrów, kanoniczny do bazowej kategorii, robots.txt blok.

Search results pages

Wewnętrzne strony wyszukiwania (site.com/search?q=produkt).
Paginacja search (site.com/search?q=produkt&page=2).
Google nie chce tych stron w indeksie — używa ich tylko do crawlu.
Standard: blok w robots.txt (/search*, /szukaj*).

Soft 404 i pagination over-extension

Strony kategorii z 0 produktami (soft 404).
Paginacja page=1000 dla kategorii z 20 produktami.
Strony profilowe użytkowników z 0 postami.
Tag pages z 1 wpisem.

Duplicated content

www vs non-www bez 301.
http vs https bez 301.
Trailing slash vs no trailing slash bez kanonicznych.
Upper case vs lower case w URL.
Ta sama treść na wielu URL-ach (print version, AMP, mobile subdomen).

Narzędzia do diagnozy crawl budżet

Google Search Console

Crawl Stats (Settings → Crawl stats) – wykres requestów dziennych, średni response time, breakdown po typach (HTML, image, JS, CSS).
Index Coverage – ile URL-i indexed vs excluded, z podziałem na powód.
Sitemaps — submitted vs indexed — różnica to pierwszy sygnał problemu.
URL Inspection – pokazuje, kiedy Googlebot ostatnio crawlował dany URL.

Log file analysis

Logi Apache / Nginx filtrowane po user-agent Googlebot.
Narzędzia: Screaming Frog Log Analyzer, Oncrawl, JetOctopus, Botify.
Pokazuje co Googlebot faktycznie robi, nie co powinien.
Pełny tutorial opisujemy w osobnym artykule (Log file analysis dla SEO).

Screaming Frog crawl

Symulacja Googlebota (user-agent + rendering).
Wykrywa orphaned pages, broken links, długie redirect chains.
Analiza linków wewnętrznych – ile linków wskazuje na każdy URL.
Eksport crawl depth – jak głęboko od homepage jest każdy URL.

Optymalizacja – pięć dźwigni

1. Robots.txt – blokowanie marnotrawstwa

Zablokuj katalogi search, filter, parameter URLs w robots.txt.
Nie blokuj zasobów renderowania (CSS, JS) — Googlebot musi je ściągnąć do renderowania JS.
Przykład: Disallow: /search/, Disallow: /*?sort=, Disallow: /*?utm_*.
Test w Search Console → robots.txt tester przed deployem.
Po zmianie czekaj 48–72h na re-crawl robots.txt przez Google.

2. Meta robots i X-Robots-Tag

<meta name="robots" content="noindex,follow"> dla stron niskiej wartości, które chcesz, żeby Google przeszedł (follow) ale nie indeksował.
X-Robots-Tag w HTTP header dla plików nie-HTML (PDF, obrazy).
Nie kombinować Disallow w robots.txt z noindex meta — Google nie zobaczy meta, jeśli nie może scrawlować strony.

3. Kanoniczne URL-e

<link rel="canonical" href="..."> wskazuje preferowaną wersję.
Dla filtracji: kanoniczny do bazowej kategorii bez filtrów.
Dla paginacji 2026: każda strona jako canonical do siebie (rel=prev/next wycofane).
Dla www/non-www, http/https: 301 zamiast kanonicznego (bezpieczniejsze).

4. Sitemap XML – czysty i aktualny

Tylko strony, które chcesz indeksować (200 status, canonical do siebie, indexable).
Maksymalnie 50 000 URL-i na sitemap; większe dziel na wiele plików w sitemap index.
Aktualizuj lastmod przy każdej zmianie treści – Googlebot używa do priorytetyzacji.
Rozdziel na sitemap per typ treści: /sitemap-products.xml, /sitemap-blog.xml, /sitemap-categories.xml.
W Search Console → Sitemaps zobaczysz indexed / submitted per sitemap.

5. Internal linking

Ważne strony z crawl depth 2–3 od homepage, nie 5+.
Breadcrumbs dla wszystkich stron produktowych i kategorii.
Related products / related articles — linki z produktów na inne produkty.
Hub pages – strony agregujące kategorii z linkami do poszczególnych.
Strategia opisana szerzej w przewodniku SEO 2026.

Crawl budżet a JavaScript rendering

JS-rendered content zużywa 3–5× więcej crawl budżet niż statyczny HTML. Google używa dwuetapowego indeksowania: najpierw HTML, potem rendering w Web Rendering Service (WRS). Strony ciężkie JS-em siedzą w kolejce renderingu 1–14 dni.

Koszty crawlu dla różnych typów renderingu

Typ	Czas crawlu	Koszt dla budżet
Static HTML (SSG)	50–200 ms	1× (baseline)
SSR (Next.js, Nuxt)	200–600 ms	1,5–2×
CSR (React, Vue SPA)	1–5 s + WRS queue	3–5×
Hybrid (ISR)	100–300 ms	1,2–1,5×

Pełne omówienie renderingu w kontekście SEO znajdziesz w Rendering JavaScript pod SEO w 2026.

Konkurencja AI crawlerów o zasoby serwera

W 2026 Googlebot konkuruje z GPTBot, ClaudeBot, PerplexityBot, CCBot i kilkoma mniejszymi. Łącznie AI crawlery generują 15–35% ruchu botów na typowym polskim e-commerce.

Strategia współżycia z AI crawlerami

Rozdziel user agents w logach – mierz każdego osobno.
AI crawlery zjadają pasmo serwera, które mogłoby trafić do Googlebota.
Decyzja: blokować AI crawlery w robots.txt (stracić AIO visibility) czy serwować (utrzymać AIO, ale nawalić bandwidth).
Kompromis: zezwolić AI na główne strony, zablokować na parameter URLs i paginacji.
Dla dużych serwisów: rate limiting per user-agent na poziomie serwera (nginx limit_req_zone).

Plan optymalizacji crawl budżet w 30 dni

Tydzień 1: audyt

Pobierz 30 dni logów serwera; filtruj po Googlebot user-agent.
Screaming Frog crawl całej strony (max 500 000 URL-i).
Search Console → Crawl Stats, Index Coverage, Sitemap reports.
Lista 20 najbardziej crawlowanych URL-i — czy są wartościowe?
Lista 20 najmniej crawlowanych URL-i z sitemap – dlaczego Google je pomija?

Tydzień 2: robots.txt i meta robots

Dodaj Disallow dla parameter URLs, search, filter combinations.
Sprawdź i popraw meta robots na stronach niskiej wartości (soft 404, pagination).
Testuj w robots.txt tester przed deployem.
Deploy, monitoruj Crawl Stats 7 dni.

Tydzień 3: sitemap i kanoniczne

Przegenerowanie sitemap – tylko indexable 200-status URL-e.
Split na sitemap per typ treści.
Aktualizacja lastmod dla zmienionych URL-i.
Naprawa kanonicznych – wszystkie strony powinny canonical do siebie (chyba że alias).

Tydzień 4: internal linking

Audyt crawl depth – strony priorytetowe muszą być ≤ 3 kliki od homepage.
Dodanie breadcrumbs i related links.
Usunięcie orphaned pages lub dodanie do nich linków wewnętrznych.
Re-submit sitemap w Search Console.

Monitoring po optymalizacji

Metryki do śledzenia co tydzień

Średnia liczba requestów Googlebot / dzień w Crawl Stats.
Średni response time (< 200 ms = ok).
Liczba 5xx w crawlu (0 = ideal).
Indexed / submitted ratio w sitemap (> 95% = ok).
Czas od publikacji do indexing dla nowych treści (< 24h = ok).

Kiedy ponownie zrobić full audit

Co 6 miesięcy rutynowo.
Po migracji domeny / CMS.
Po dodaniu nowej sekcji z 1000+ URL-ami.
Po update algorytmu Google (ogłoszonym).
Gdy Crawl Stats pokazuje spadek > 30% w ciągu 14 dni.

FAQ – najczęstsze pytania o crawl budżet

Czy crawl budżet to problem dla mojego sklepu z 2000 produktami?

Prawdopodobnie nie. Google spokojnie indeksuje strony do 10 000 URL-i bez optymalizacji crawl budżet, pod warunkiem że serwer odpowiada szybko (< 500 ms) i nie ma 5xx. Problemy zaczynają się od 50 000 URL-i. Jeśli Twój sklep ma 2000 produktów, ale dodatkowo filtracje generują 500 000 kombinacji URL-i — wtedy tak, crawl budżet jest problemem. Diagnoza: Search Console → Index Coverage → porównaj „Valid” z „Excluded”. Jeśli Excluded > 3× Valid, masz problem.

Czy robots.txt blokowanie jest lepsze niż noindex?

Nie zawsze. Robots.txt blokuje crawlowanie – Google w ogóle nie widzi strony, nie może jej zindeksować, ale też nie może przekazać page rank przez linki na niej. Noindex pozwala Google przeczytać stronę i przejść dalej linkami, ale nie indeksuje. Wybór: robots.txt dla czystego marnotrawstwa (search, parameter URLs); noindex dla stron, które mają wartość linking (author pages, tag pages). Nigdy nie łącz Disallow w robots.txt z noindex w meta – Google nie zobaczy meta.

Jak szybko widać efekty optymalizacji crawl budżet?

Pierwsze sygnały w Crawl Stats 3–7 dni po deployu. Pełne efekty w indexing coverage 14–30 dni. Google potrzebuje czasu na przecrawlowanie całej strony i zaktualizowanie swojego wewnętrznego rozumienia sitemapy. Dla dużych serwisów (100 000+ URL-i) pełny cykl może trwać 60–90 dni. Nie panikuj, jeśli w pierwszym tygodniu Crawl Stats pokazują spadek requestów — to oczekiwane, bo Google uczy się nowej struktury.

Czy warto ręcznie zwiększać crawl rate w Search Console?

Nie da się. Google wycofał ręczne ustawienie crawl rate w 2024. Teraz wszystko jest algorytmiczne – oparte na szybkości serwera i demand. Jedyny sposób zwiększenia crawl rate: poprawa response time (< 200 ms), eliminacja 5xx, zwiększenie demand przez świeże treści i linki przychodzące. Szybszy serwer to dosłownie większy crawl budżet – w audytach widzimy, że optymalizacja CDN i cachowania podwaja liczbę requestów Googlebot w ciągu 30 dni.

Czy AI crawlery (GPTBot, ClaudeBot) zjadają crawl budżet Google?

Nie bezpośrednio – Google ma oddzielny budżet. Ale pośrednio: jeśli AI crawlery zasypują serwer, response time rośnie, Google obniża crawl rate dla Googlebota. W logach polskich e-commerce Q1 2026 widzimy AI crawlery generujące 15–35% ruchu botów. Decyzja strategiczna: blokować (stracić widoczność w ChatGPT, Claude, Perplexity) czy tolerować (zjada infra). Kompromis: rate limiting per user-agent (nginx) lub blokowanie AI na paramater URLs i search, ale pozwolenie na główne strony.

Czy pagination wymaga rel=prev/next?

Nie. Google wycofał support dla rel=prev/next w marcu 2019. W 2026 każda strona paginacji powinna mieć canonical do siebie i być normalnie indexable. Wyjątek: dla bardzo głębokiej paginacji (page=50+) warto noindex lub krótsza lista wyświetlanych produktów per strona. Dla list kategorii: infinite scroll z progressive enhancement (linki w HTML) działa najlepiej pod SEO; pure infinite scroll bez linków = orphaned pages.

Ile logów serwera trzeba zachowywać do analizy?

Minimum 30 dni dla typowej analizy. 90 dni dla pełnego obrazu sezonowości. 365 dni dla analizy year-over-year i trendów po update’ach algorytmu. W praktyce polskich e-commerce 90 dni to sweet spot — wystarczy danych, a koszty storage kontrolowalne. Logi kompresuj (gzip), przechowuj w cold storage (S3 Glacier, GCS Coldline). Do analizy bieżącej 30 dni w hot storage wystarczy. Narzędzia analizy (Screaming Frog Log Analyzer, JetOctopus) akceptują pliki gzipped bezpośrednio.

Budżet – koszty analizy i optymalizacji

SME (do 50k URL)

Audit jednorazowy: 8–20 tys. PLN (konsultant + narzędzia).
Ongoing monitoring: 1,5–4 tys. PLN/mies. (freelance retainer).
Narzędzia: GSC free + Screaming Frog 99 GBP/rok.

Mid-market (50k–500k URL)

Audit: 30–80 tys. PLN.
Monthly: 8–20 tys. PLN.
Narzędzia: JetOctopus 300–1000 USD/mies., Ahrefs 500 USD/mies.

Enterprise (500k+ URL)

Dedykowany team 2–4 FTE: 400 tys.–1 mln PLN/rok.
Platform (Botify, Lumar): 30–150 tys. PLN/rok.
Retainer agency: 20–80 tys. PLN/mies.

ROI optymalizacji crawl budżet

Typowa optymalizacja uwalnia 15–30% budżetu dla ważnych URL.
Traffic gain: 10–25% w 3–6 mies. po fixach.
Break-even: 2–4 mies. dla mid-market, 1–3 mies. dla enterprise.
Długoterminowy ROI: 5–12× w 12 mies. dzięki lepszej indexacji i pozycjom.
Dodatkowe korzyści: niższe koszty hostingu (mniej marnotrawnego ruchu), szybsze time-to-index dla nowego contentu.
Mniej błędów w GSC Coverage = mniejszy stres techniczny i prostszy raport dla zarządu.
Konkurencyjna przewaga: większość rywali nie optymalizuje crawl budżet i tracisz oraz zyskujesz na tej pominiętej dyscyplinie.
Lepsza widoczność w AI search – AI bots cenią dostępność i strukturę równie mocno jak Googlebot.
Ułatwione planowanie content roadmap – wiesz, ile realnie możesz publikować bez ryzyka, że Google zacznie ignorować nowe URL-e.
Stabilność rankingów podczas sezonowości i peaków traffic.

90-dniowy roadmap optymalizacji crawl budżet

Dni 1–30: diagnoza

Audit obecnej sytuacji: GSC Crawl Stats, Screaming Frog crawl, log export 30 dni.
Identyfikacja top 5 problemów (redirect chains, 5xx, thin content, orphans, crawl traps).
Baseline KPI: crawl rate, error rate, unique URL crawled, time to index.

Dni 31–60: implementacja fixów

Fix 5xx errors (najwyższy priorytet).
Fix redirect chains – direct redirects.
robots.txt optymalizacja – disallow low-value URL patterns.
Sitemap split i resubmit w GSC.
Internal linking audit i fix orphans.

Dni 61–90: monitoring i iteracja

Setup automated monitoring (n8n procesy, Looker dashboard).
Weekly review meetings z dev team.
Comparison vs baseline – quantify improvement.
Plan kolejnego kwartału (content pruning, URL rationalization).

Team i role – kto zarządza crawl budgetem

Technical SEO: 12–18 tys. PLN B2B. Główny odpowiedzialny.
Backend / Infrastructure Engineer: 16–24 tys. PLN. Server-side fixy.
DevOps / SRE: 18–26 tys. PLN. CDN, hosting, caching.
Data Engineer: 14–22 tys. PLN. Log analysis ciąg procesów.

Model zespołu

Skala site	Team	Miesięczny effort
< 10k URL	1 Tech SEO 0,1 FTE	4–8h/mies.
10k–100k	1 Tech SEO 0,3 FTE	15–30h/mies.
100k–1M	1 Tech SEO + 1 Backend	60–120h/mies.
1M+	Dedicated team 2–4 FTE	Fulltime

Automatyzacja monitoringu crawl budżet

Manualny monitoring skaluje się tylko do pewnego punktu. Od 100k URL – automatyzacja obowiązkowa.

n8n proces „Daily crawl health”

Cron 7:00 – pobiera GSC Crawl Stats API.
Porównuje z 7-day moving average.
Alert Slack jeśli: 5xx rate > 1%, crawl volume spadł > 20%, Googlebot average response time wzrósł > 30%.
Dashboard Looker Studio z daily trend.

Proces „Weekly log analysis”

Niedziela wieczór – agreguje log z tygodnia.
Top 20 crawled URL (dobry) vs top 20 z errors (zły).
Comparison vs prev week — nowe problemy flagged.
Mail do Technical SEO z summary + link do dashboardu.

Proces „Deploy impact monitoring”

Webhook z CI/CD po każdym deployment.
Następne 2h — intensywny monitoring crawl + CWV.
Alert jeśli 5xx rate > 0,5% po deploy.
Automatyczna rollback recommendation jeśli threshold exceeded.

Narzędzia do zarządzania crawl budżet

Monitoring i audit

Google Search Console: Crawl stats report, Coverage, URL Inspection.
Screaming Frog: crawl simulation, identifies crawl traps.
Sitebulb: detailed crawl analysis, hint suggestions.
Ahrefs Site Audit: weekly crawl, issue śledzenie.
Lumar (ex-DeepCrawl): enterprise crawler, scheduled crawls.

Log analysis

Screaming Frog Log File Analyser: desktop, affordable (99 GBP/rok).
JetOctopus: cloud-based, log + crawl correlation.
Semrush Log File Analyzer: w ramach Semrush plan.
Botify / OnCrawl: enterprise platforms.

Infrastruktura

Cloudflare: edge cache, WAF rules, bot management.
Fastly: real-time logs, custom rules.
BunnyCDN: affordable CDN with good performance.
Redis / Memcached: object cache dla dynamic content.

Typowe problemy crawl budżet – sygnatury

Problem: Infinite crawl spaces

Sygnatura: miliony URL w logach, większość filter/sort combinations.
Fix: robots.txt disallow dla patterns, use JS SPA dla filtry.

Problem: Session IDs w URL

Sygnatura: URL z parametrami ?sid=xyz123, nowe przy każdej wizycie.
Fix: usuń session ID z URL, użyj cookies.

Problem: Paginacja bez limit

Sygnatura: /blog/page/487/, tysiące stron paginacji.
Fix: noindex,follow po page 5, canonical do page 1.

Problem: Kalendarz z nieskończoną głębokością

Sygnatura: /events/2019/03/15/, /events/2018/11/28/…
Fix: robots.txt disallow dla przeszłych dat, canonical do głównej events page.

Problem: Tag/category explosion

Sygnatura: 10 000 tagów, 95% z 1 postem.
Fix: konsolidacja tagów, noindex dla tagów < 3 posts.

Kiedy crawl budżet to realny problem

Większość SME nie ma problemu z crawl budżet. To głównie zagadnienie dla średnich i dużych serwisów. Dla każdej skali inne priorytety.

Do 10k URL – nie przejmuj się

Google crawluje 100% ważnych URL bez optymalizacji.
Skup się na content quality, nie crawl management.
Podstawy: sitemap aktualny, canonical tagi, brak 5xx.

10k–100k URL – zacznij monitorować

Wprowadź log analysis (nawet manualną, raz na kwartał).
Audit sitemap vs real URL universe – czy wszystko co ważne jest w sitemap.
Watch 4xx/5xx rate – cel < 1%.

100k–1 mln URL – aktywnie zarządzaj

Monthly log analysis z identyfikacją wzorców.
Sitemap split per content type.
Robots.txt precise dla low-value URLs.
Internal linking strategy.

1 mln+ URL – priority zadanie

Dedykowany analyst z real-time monitoring.
Custom dashboard dla key metrics.
A/B tests optymalizacji.
Budżet śledzenie per category/section.

Sygnały wpływające na crawl budżet — pełna lista

Google nie publikuje pełnej listy sygnałów, ale z dziesiątków lat obserwacji (John Mueller Q&A, Gary Illyes tweets, własne testy) znamy 8 głównych:

1. Host load / server health

Googlebot monitoruje response time i error rate.
Spada crawl rate automatycznie przy 5xx lub wolnych odpowiedziach.
Fast hosting z < 500ms TTFB = wyższy crawl rate.

2. Content quality signals

Thin content zmniejsza crawl priority dla nowych URL.
Google „uczy się”, które sekcje są high-value i prioritizuje te.
Helpful Content update bezpośrednio wpłynął na crawl distribution.

3. Internal linking strength

URLs z silnym internal linking = wyższy crawl priority.
Orphan pages (brak internal links) crawlowane rzadko lub wcale.
Depth od homepage < 3 kliknięć = lepszy crawl rate.

4. Update frequency

Pages aktualizowane regularnie crawlowane częściej.
Stale pages (brak zmian > 12 mies.) crawlowane rzadko.
News / blog content z częstymi publikacjami zwiększa host crawl rate.

5. Backlinks quality

URLs z silnymi external backlinks = wyższy priority.
Link authority przekłada się na crawl priority.
Homepage z wysokim DR → wysoki crawl rate całej domeny.

6. Sitemap signals

URL w sitemapie z lastmod signaluje priority.
Sitemap per category pomaga Google zrozumieć strukturę.
Updated sitemap = re-crawl triggera.

7. HTTP headers

Last-Modified i ETag – pozwalają Googlebot użyć 304 (not modified).
Cache-Control z sensownym TTL.
Proper 200/301/404/410 – nie 200 dla missing content.

8. robots.txt directives

Disallow oszczędza crawl budżet.
Crawl-delay (dla Bingbot, Yandex).
Sitemap declaration.

Optymalizacja crawl budżet – checklista 20 punktów

Szybkie wygrane (1 tydzień)

Fix 404s – identyfikuj w GSC Coverage, naprawi redirecty.
Fix 5xx errors – server-side, natychmiastowy impact.
Optimizuj największe images (WebP, responsive sizing).
Enable Gzip/Brotli compression.
Fix broken internal links.

Średnioterminowe (1 miesiąc)

Canonical strategy – 100% URL z canonical.
Noindex dla wew. search results, filter URLs.
Sitemap split per category.
Internal linking audit – top 100 URL linkowanych z home.
Redirect chains fix.
Image CDN setup (Cloudflare, BunnyCDN).

Długoterminowe (3+ miesięcy)

Upgrade hostingu dla CWV Good.
JavaScript rendering audit – SSR vs CSR decision.
Content pruning – usuń/consolidate thin content.
URL structure rationalization.
Log analysis rhythm (monthly).

Crawl budżet dla AI bots – nowy wymiar

W 2026 AI bots (GPTBot, ClaudeBot, PerplexityBot) generują 10–25% total crawl. Ich crawl budżet działa podobnie jak Googlebot, ale z różnicami:

Charakterystyka AI bots

GPTBot: aggressive discovery, crawluje wszystko dostępne.
PerplexityBot: wybiórczy, priorytetuje authoritative sources.
ClaudeBot: umiarkowany, respects crawl-delay w większości przypadków.
CCBot: używany przez wiele LLM, crawluje raz na 1–3 mies.

Optymalizacja dla AI bots

Open robots.txt dla AI crawlers jeśli chcesz widoczności w AI search.
Sitemaps z wszystkimi URL – AI bots nie spędzają czasu na discovery.
Structured content (Schema.org) – AI preferuje strukturalne źródła.
Factoid density — AI cytuje strony z konkretnymi faktami.
Monitoring separately od Googlebot w logach.

Rate limiting

Niektóre AI bots mogą generować 1000+ req/godz. – zawieszenie serwera.
Cloudflare WAF rule: max 500 req/min per AI bot.
Monitoring LCP/INP w okresach AI bot activity.

Case: marketplace z 800k URL, crawl budżet rescue

Klient: marketplace product listings, 800k URL, baseline: 50k crawl/dzień Googlebot, tylko 6% ważnych URL crawlowanych miesięcznie.

Problemy zidentyfikowane

500k URL z faceted search (size + color + price + brand combinations).
200k URL z paginacji (20 produktów per page, 10k pages).
100k legacy URL zdeprecjonowanych (nie usunięte, nie 301).
5xx errors na 2% requests podczas peak (DB bottleneck).

Rozwiązania

robots.txt disallow dla facet combinations – obsługa przez JS SPA zamiast URL.
410 dla 100k legacy URL (szybkie usunięcie z indeksu).
Paginacja: noindex, follow po stronie 5, canonical do page 1.
DB optymalizacja – query caching, new indexes, Redis.
CDN edge cache dla product pages (Cloudflare APO).

Rezultaty po 4 miesiącach

Useful URL crawled monthly: 6% → 72%.
Crawl errors rate: 2,1% → 0,3%.
New products indexed within 7 days: 40% → 88%.
Organic traffic: +54%.
Przychód attributable to organic: +31% (180 tys. PLN/mies.).

Co dalej

Crawl budżet to mechanizm, który aktywujesz optymalizacją – nie ma magicznego switcha w Search Console. Kluczowe są: log analysis, robots.txt, canonicals, internal linking i szybki serwer. Każdy z tych elementów kontrybuuje 10–25% do ogólnego wyniku.

Jeśli chcesz pogłębić temat, sprawdź Rendering JavaScript pod SEO w 2026. Warto również zapoznać się z Indexing 2026.

Crawl budget: diagnoza i optymalizacja