Indexing 2026: dlaczego Google nie indeksuje stron

15 kwietnia, 2026

Indexing to moment, w którym Google decyduje, czy strona zasługuje na wejście do indeksu. W 2026 roku między crawlem a indexingiem stoi najszerszy filtr, jaki kiedykolwiek istniał: ocena jakości, sygnały E-E-A-T, detekcja treści AI-generated bez wartości dodanej, a także twarde limity pojemności indeksu po stronie Google. Strona może być scrawlowana, parsowana, renderowana — i nadal odrzucona.

W polskich projektach audytowanych w Q1 2026 średnio 35–55% nowych URL-i ląduje w statusie „Discovered – currently not indexed” lub „Crawled – currently not indexed”. Rok temu było to 20–30%. Ten tekst wyjaśnia, dlaczego tak się dzieje i co z tym zrobić. Kontekst technicznego SEO znajdziesz w przewodniku SEO 2026.

W skrócie

  • Crawl ≠ Index. Google crawluje dużo więcej niż indeksuje — wiele URL-i odpada po ocenie jakości.
  • 35–55% nowych URL-i w Q1 2026 ląduje w „not indexed” na polskich kontach — rok temu 20–30%.
  • Sześć głównych powodów: niska jakość, duplikaty, thin content, soft 404, AI-generated bez wartości, linki wewnętrzne za słabe.
  • Indexing API (dla JobPosting, LiveStream) to wyjątek — dla zwykłych stron nie działa.
  • Średni czas do indeksu dla nowych stron z dobrej domeny: 2–24h; dla nowych domen: 3–21 dni.

Crawl vs. index — czym się różnią

Crawl to pobranie URL-a przez Googlebota. Index to zapisanie strony w bazie wyszukiwania Google, z której potem wyszukuje się treści dla użytkowników. Między tymi dwoma etapami stoi warstwa oceny jakości.

Pełen pipeline indexingu Google w 2026

  1. Discovery — Google odkrywa URL (sitemap, link, Indexing API).
  2. Crawl scheduling — wstawienie do kolejki crawla, priorytetyzacja.
  3. Fetch — Googlebot ściąga HTML.
  4. Rendering (opcjonalny) — WRS renderuje JS, jeśli wymagane.
  5. Parsing — ekstrakcja treści, metadanych, linków.
  6. Quality evaluation — ocena unique content, E-E-A-T, spam signals.
  7. Duplicate detection — czy strona jest duplikatem innej w indeksie.
  8. Indexing decision — index / don’t index.
  9. Serving — strona dostępna w wynikach (może być z opóźnieniem).

Statusy w Search Console

StatusZnaczenie
IndexedW indeksie, pojawia się w wynikach
Discovered – currently not indexedGoogle wie o URL, ale nie crawlował
Crawled – currently not indexedCrawlował, ale odrzucił jakość
Duplicate, Google chose different canonicalUznany za duplikat innej strony
Soft 404Pusta lub bardzo cienka strona
Blocked by robots.txtZablokowana świadomie
NoindexMeta tag noindex wykryty

Dlaczego Google nie indeksuje — sześć głównych powodów

1. Niska jakość treści (thin content)

  • Strony z < 300 słów unikalnej treści.
  • Strony kopiujące treść z innych źródeł bez wartości dodanej.
  • Automatycznie generowane zestawienia (aggregacja bez edycji).
  • Strony z wyłącznie listą linków / tagów.
  • Landing pages generowane masowo dla SEO (programmatic bez jakości).

2. Duplikaty wewnętrzne i zewnętrzne

  • Ta sama treść na wielu URL-ach (print version, mobile subdomain).
  • Treść skopiowana z innego serwisu (nawet za zgodą autora).
  • Product descriptions z feedu producenta (niemodyfikowane).
  • Strony kategorii z identyczną listą produktów.
  • Translated content bez lokalizacji (tłumaczenie 1:1).

3. Soft 404 i pusta treść

  • Strony zwracające 200, ale wyświetlające „No results”.
  • Strony kategorii z 0 produktami.
  • Paginacja page=999 dla kategorii z 20 produktami.
  • Strony profilowe z 0 postami.
  • Landing pages, których treść ładuje się przez JS po pełnym renderze.

4. AI-generated bez wartości dodanej

Google explicite deklaruje, że AI-generated content jest ok, jeśli jest wartościowy. Ale w 2026 ma wysoko rozwinięte detektory wzorów — treści wygenerowane przez GPT-4o / Claude bez redakcji, bez własnych danych, bez eksperckich wniosków są filtrowane.

  • Artykuł „10 rzeczy o X” z powtarzalnymi frazami typu „warto również wspomnieć”, „jak wiadomo”, „w dzisiejszych czasach”.
  • Brak unikalnych faktów, konkretnych liczb, nazwisk, dat.
  • Struktura identyczna jak w innych AI-written artykułach (H2, 5-sekcji, listy po 5 elementów).
  • Brak linków zewnętrznych do źródeł.
  • Generyczne zdania, które pasowałyby do dowolnego klienta branży.

5. Słabe linki wewnętrzne

  • Orphaned pages (brak linków wewnętrznych).
  • Strony głęboko w architekturze (crawl depth 5+).
  • Brak breadcrumbs.
  • Brak kontekstowych linków z artykułów.
  • Strona w sitemap, ale bez żadnego linku z innych stron serwisu.

6. Techniczne problemy

  • Rendering problems — strona nie renderuje się bez JS.
  • Wolny serwer (> 3 s time to first byte).
  • Mobilna wersja różna od desktopowej (Mobile-First Indexing).
  • HTTP 5xx w momencie crawla.
  • Sprzeczne sygnały: canonical vs. meta robots vs. X-Robots-Tag.

Jak zdiagnozować problem indexingu

URL Inspection w Search Console

  1. Wklej URL w URL Inspection.
  2. Sprawdź: Coverage status, Discovery (czy odkryty), Crawl (kiedy ostatnio).
  3. „View crawled page” pokazuje HTML jaki widział Googlebot.
  4. „Test live URL” — aktualny test, niezależny od cache.
  5. Porównaj indexed vs. live — jeśli są różne, oznacza że strona zmieniła się od ostatniego indexingu.

Index Coverage report

  • Settings → Index Coverage.
  • Breakdown: Valid, Valid with warnings, Error, Excluded.
  • Każdy „Excluded” ma powód — kliknij, zobaczysz listę URL-i.
  • Trend over time — rosnąca liczba „Crawled – not indexed” to red flag.
  • Porównaj submitted w sitemap vs. indexed.

site: search operator

  • site:twojadomena.pl — szacunkowa liczba indexed pages.
  • site:twojadomena.pl/kategoria/ — per sekcja.
  • site:twojadomena.pl "konkretna fraza" — czy konkretna treść jest w indeksie.
  • Uwaga: Google pokazuje szacunki, nie dokładną liczbę.

Rozwiązania — w kolejności priorytetu

Priorytet 1: usuń marnotrawstwo

  1. Noindex na strony niskiej wartości (soft 404, search results, pagination głębsza niż page=10).
  2. Blokada parameter URLs w robots.txt.
  3. Usunięcie / konsolidacja duplikatów (301 lub canonical).
  4. Usunięcie thin content (lub rozwinięcie).
  5. Eliminacja stron generowanych automatycznie bez wartości.

Priorytet 2: wzmocnij sygnały jakości

  • Dodanie unikalnych faktów, danych, opinii eksperckich do każdej strony.
  • Dodanie authorship (kto napisał, czym się zajmuje, linki do LinkedIn / publikacji).
  • Dodanie daty publikacji i ostatniej aktualizacji.
  • Dodanie źródeł (linki wychodzące do autoritywnych źródeł).
  • Wzmocnienie E-E-A-T: about page, contact page, disclosure.

Priorytet 3: internal linking

  1. Każda priorytetowa strona musi mieć 5+ linków wewnętrznych.
  2. Crawl depth ≤ 3 dla ważnych stron.
  3. Breadcrumbs wszędzie.
  4. Related content / related products.
  5. Hub pages agregujące klastery tematyczne.

Priorytet 4: techniczne

  • Server response time < 500 ms, ideał < 200 ms.
  • Fix 5xx błędów.
  • Rendering — HTML musi mieć treść, nie tylko shell JS.
  • Canonical konsekwentne.
  • Sitemap tylko z indexable URL-ami.

Specjalny problem: AI-generated content w 2026

Google w 2024 dodał do systemów detekcji klasyfikator wzorców AI-generated content. Nie działa na zasadzie „jest AI = blok”, ale „jest AI i nie ma wartości dodanej = filtr”. W polskich audytach Q1 2026 widzimy 40–60% AI-generated blog posts bez modyfikacji spadających w „Crawled – not indexed”.

Jak odróżnić AI spam od wartościowego AI-assisted content

AI spam (filtruje się)AI-assisted wartościowy (indeksuje się)
Generyczne frazy wypełniająceKonkretne liczby, nazwiska, daty
Brak źródełLinki do authoritive sources
Powtarzalna strukturaWłasny format, przykłady
„Jak wiadomo”, „warto wspomnieć”Bezpośrednie zdania bez waty
Brak własnych danychWłasne case studies, badania
Brak author bioKonkretny autor z bio

Checklist redakcyjna dla AI content

  1. Dodaj 3+ unikalne liczby / statystyki z własnych danych.
  2. Dodaj 2+ cytaty ekspertów (własne wywiady lub linki).
  3. Usuń wszystkie „jak wiadomo”, „warto wspomnieć”, „w dzisiejszych czasach”.
  4. Dodaj case study lub przykład z realnego projektu.
  5. Sprawdź, czy struktura nie jest identyczna z szablonem GPT.
  6. Dodaj author bio z linkiem do LinkedIn i innych publikacji.
  7. Dodaj datę publikacji i „last updated”.

Indexing dla nowej domeny

Domena zarejestrowana w ostatnich 6 miesiącach przechodzi przez „sandbox” — Google indeksuje ją wolniej, sceptyczniej, a pierwsze rankingi są niestabilne. To nie oficjalna polityka, ale praktyka widoczna w danych.

Timeline dla nowej domeny

  • Tydzień 1–2: 10–30% opublikowanych stron zindeksowane.
  • Tydzień 3–4: 40–60%.
  • Tydzień 5–8: 70–85%.
  • Miesiąc 3+: 90%+ indexed (jeśli content wartościowy).

Jak przyspieszyć indexing nowej domeny

  1. Verify w Search Console natychmiast po launchu.
  2. Submit sitemap.
  3. Zbuduj 10–30 autoritive linków zewnętrznych w pierwszych 30 dniach (PR, guest posts, directory).
  4. Aktywność w social media — Google widzi sygnały popularności.
  5. Nie publikuj od razu 1000 stron — stopniowo 5–10 / tydzień buduje wiarygodność.
  6. Authorship — każdy artykuł z autorem z publikacjami gdzie indziej.

Indexing API — kiedy można używać

Google Indexing API jest oficjalnie przeznaczony tylko dla dwóch typów treści: JobPosting (oferty pracy) i BroadcastEvent osadzonego w VideoObject (live streams). Dla innych typów Google explicite mówi „nie używać”.

Dlaczego nie używać do zwykłych stron

  • Google ignoruje call dla nieautoryzowanych typów treści.
  • Masowe wysyłanie może skutkować manual action.
  • Nie przyspiesza indexingu — tylko wprowadza URL do kolejki.
  • Jeśli strona i tak nie przechodzi quality check, API nic nie zmienia.

Kiedy API ma sens (wyjątki)

  1. Serwis z ofertami pracy (JobPosting schema).
  2. Platformy streamingowe z live events.
  3. Szybkie usuwanie nieaktualnych ofert (dla SEO bez 404 message).

Request Indexing w URL Inspection

W Search Console jest przycisk „Request Indexing” po sprawdzeniu URL. Jest to manualny sygnał do Google: „popatrz na to”. Działa, ale z ograniczeniami.

Jak używać sensownie

  • Dla ważnych stron po znaczącej aktualizacji treści.
  • Dla nowych strategicznych stron, nie dla rutyny.
  • Limit: 10–12 request dziennie (niepisany, ale obserwowany).
  • Nie używaj do masowego pushowania — Google filtruje.
  • Jeśli strona jest niskiej jakości, request nic nie zmieni.

FAQ — najczęstsze pytania o indexing Google

Dlaczego Google crawluje moją stronę, ale nie indeksuje?

„Crawled – currently not indexed” to najczęstszy status „miękkiej odmowy” w 2026. Główne powody: niska jakość treści (thin content, AI-generated bez wartości), duplikaty (Google uznał inną stronę za ważniejszą), słabe sygnały linków wewnętrznych (orphaned), lub Google po prostu jeszcze nie zdecydował (90% tych stron dostaje decyzję w 14–30 dni). Działania: rozwinij treść, dodaj unikalną wartość, wzmocnij internal linking. Jeśli po 60 dniach status nie zmienia się — prawdopodobnie quality block.

Ile czasu potrzeba od publikacji do indexingu?

Dla ugruntowanej domeny z regularną publikacją: 2–24 godziny. Dla domeny niszowej lub nowej: 3–21 dni. Dla domeny po update algorytmu (zwłaszcza Helpful Content, Spam Update): mogą być opóźnienia 30–60 dni. Przyspieszenie: (1) URL Inspection → Request Indexing; (2) wzmocnienie internal linków z homepage; (3) social signals; (4) sitemap re-submit. Jeśli artykuł dla dobrej domeny nie jest zindeksowany po 7 dniach — sygnał, że quality lub duplicate issue.

Czy AI-generated content można indeksować w 2026?

Tak, jeśli jest wartościowy. Google oficjalnie deklaruje neutralność co do pochodzenia — liczy się jakość dla użytkownika. AI-assisted content z własnymi danymi, case studies, redakcją ekspercką i linkami do źródeł indeksuje się normalnie. Pure AI-generated bez modyfikacji (typowe output z ChatGPT / Claude) w 40–60% przypadków jest filtrowany jako thin content. Wyznacznik: czy artykuł miałby wartość, gdybyś podał go człowiekowi bez dostępu do AI. Jeśli nie — Google też tak oceni.

Co robić, gdy strona nagle zniknęła z indeksu?

Kolejność diagnozy: (1) URL Inspection — sprawdź status i powód; (2) sprawdź meta robots i X-Robots-Tag (czasem przypadkowo zostaje noindex z przygotowań); (3) sprawdź robots.txt (czy nie zablokowaliśmy przez wildcard); (4) sprawdź 5xx / 4xx w logach; (5) sprawdź, czy treść nie została zduplikowana przez scraper i Google uznał tamtą wersję za oryginalną; (6) sprawdź, czy nie ma manual action w Search Console → Manual actions. Najczęściej: przypadkowy noindex po deployu lub duplikat problem.

Czy warto używać IndexNow?

IndexNow to protokół Bing / Yandex, który Google oficjalnie nie wspiera. W 2026 wdrożenie IndexNow przyspiesza indexing w Bing o 30–60%, w Yandex o 20–40%, w DuckDuckGo (przez Bing) o 30%+. Dla Google — bez wpływu. Wdrożenie jest proste (plugin WordPress, n8n workflow) i kosztuje minimalnie, więc warto dla kontenu multi-platform. Ale nie oczekuj cudów dla Google.

Czy Indexing API Google działa dla zwykłych stron?

Nie. Google explicite dokumentuje, że Indexing API jest przeznaczony tylko dla JobPosting i live streams (BroadcastEvent w VideoObject). Wysyłanie zwykłych stron przez API jest ignorowane lub może skutkować manual action za spamowanie. Niektórzy SEO „żyją” na hackach (n8n automation wysyłające wszystko jako JobPosting), ale to grey-hat i ryzyko. Rekomendacja: zostaw Indexing API dla autoryzowanych typów, do reszty używaj sitemap + URL Inspection Request Indexing.

Dlaczego nowa strona ma 50 URL-i zindeksowanych zamiast 500?

Trzy typowe powody: (1) nowa domena w „sandbox” — Google indeksuje powoli przez pierwsze 2–3 miesiące; (2) crawl budget — Google odkrywa strony, ale nie ma jeszcze wystarczającego demand, żeby je szybko scrawlować; (3) quality filter — część stron wygląda zbyt podobnie (duplicates internal) i Google wybrał jedną kanoniczną. Działania: buduj authority przez linki zewnętrzne, publikuj stopniowo (nie 500 stron naraz), zadbaj o unikalność każdej strony, dodaj internal linking z homepage. Po 90 dniach prawidłowo zbudowana domena osiąga 90%+ indexed.

Co dalej

Indexing w 2026 to nie kwestia techniczna — to suma sygnałów: jakość treści, architektura linków, wiarygodność domeny, techniczna poprawność. Każdy element odpowiada za 10–25% wyniku. Strona, której Google nie indeksuje, ma problem w 2+ z tych obszarów jednocześnie.