Indexing to moment, w którym Google decyduje, czy strona zasługuje na wejście do indeksu. W 2026 roku między crawlem a indexingiem stoi najszerszy filtr, jaki kiedykolwiek istniał: ocena jakości, sygnały E-E-A-T, detekcja treści AI-generated bez wartości dodanej, a także twarde limity pojemności indeksu po stronie Google. Strona może być scrawlowana, parsowana, renderowana — i nadal odrzucona.
W polskich projektach audytowanych w Q1 2026 średnio 35–55% nowych URL-i ląduje w statusie „Discovered – currently not indexed” lub „Crawled – currently not indexed”. Rok temu było to 20–30%. Ten tekst wyjaśnia, dlaczego tak się dzieje i co z tym zrobić. Kontekst technicznego SEO znajdziesz w przewodniku SEO 2026.
W skrócie
- Crawl ≠ Index. Google crawluje dużo więcej niż indeksuje — wiele URL-i odpada po ocenie jakości.
- 35–55% nowych URL-i w Q1 2026 ląduje w „not indexed” na polskich kontach — rok temu 20–30%.
- Sześć głównych powodów: niska jakość, duplikaty, thin content, soft 404, AI-generated bez wartości, linki wewnętrzne za słabe.
- Indexing API (dla JobPosting, LiveStream) to wyjątek — dla zwykłych stron nie działa.
- Średni czas do indeksu dla nowych stron z dobrej domeny: 2–24h; dla nowych domen: 3–21 dni.
Crawl vs. index — czym się różnią
Crawl to pobranie URL-a przez Googlebota. Index to zapisanie strony w bazie wyszukiwania Google, z której potem wyszukuje się treści dla użytkowników. Między tymi dwoma etapami stoi warstwa oceny jakości.
Pełen pipeline indexingu Google w 2026
- Discovery — Google odkrywa URL (sitemap, link, Indexing API).
- Crawl scheduling — wstawienie do kolejki crawla, priorytetyzacja.
- Fetch — Googlebot ściąga HTML.
- Rendering (opcjonalny) — WRS renderuje JS, jeśli wymagane.
- Parsing — ekstrakcja treści, metadanych, linków.
- Quality evaluation — ocena unique content, E-E-A-T, spam signals.
- Duplicate detection — czy strona jest duplikatem innej w indeksie.
- Indexing decision — index / don’t index.
- Serving — strona dostępna w wynikach (może być z opóźnieniem).
Statusy w Search Console
| Status | Znaczenie |
|---|---|
| Indexed | W indeksie, pojawia się w wynikach |
| Discovered – currently not indexed | Google wie o URL, ale nie crawlował |
| Crawled – currently not indexed | Crawlował, ale odrzucił jakość |
| Duplicate, Google chose different canonical | Uznany za duplikat innej strony |
| Soft 404 | Pusta lub bardzo cienka strona |
| Blocked by robots.txt | Zablokowana świadomie |
| Noindex | Meta tag noindex wykryty |
Dlaczego Google nie indeksuje — sześć głównych powodów
1. Niska jakość treści (thin content)
- Strony z < 300 słów unikalnej treści.
- Strony kopiujące treść z innych źródeł bez wartości dodanej.
- Automatycznie generowane zestawienia (aggregacja bez edycji).
- Strony z wyłącznie listą linków / tagów.
- Landing pages generowane masowo dla SEO (programmatic bez jakości).
2. Duplikaty wewnętrzne i zewnętrzne
- Ta sama treść na wielu URL-ach (print version, mobile subdomain).
- Treść skopiowana z innego serwisu (nawet za zgodą autora).
- Product descriptions z feedu producenta (niemodyfikowane).
- Strony kategorii z identyczną listą produktów.
- Translated content bez lokalizacji (tłumaczenie 1:1).
3. Soft 404 i pusta treść
- Strony zwracające 200, ale wyświetlające „No results”.
- Strony kategorii z 0 produktami.
- Paginacja page=999 dla kategorii z 20 produktami.
- Strony profilowe z 0 postami.
- Landing pages, których treść ładuje się przez JS po pełnym renderze.
4. AI-generated bez wartości dodanej
Google explicite deklaruje, że AI-generated content jest ok, jeśli jest wartościowy. Ale w 2026 ma wysoko rozwinięte detektory wzorów — treści wygenerowane przez GPT-4o / Claude bez redakcji, bez własnych danych, bez eksperckich wniosków są filtrowane.
- Artykuł „10 rzeczy o X” z powtarzalnymi frazami typu „warto również wspomnieć”, „jak wiadomo”, „w dzisiejszych czasach”.
- Brak unikalnych faktów, konkretnych liczb, nazwisk, dat.
- Struktura identyczna jak w innych AI-written artykułach (H2, 5-sekcji, listy po 5 elementów).
- Brak linków zewnętrznych do źródeł.
- Generyczne zdania, które pasowałyby do dowolnego klienta branży.
5. Słabe linki wewnętrzne
- Orphaned pages (brak linków wewnętrznych).
- Strony głęboko w architekturze (crawl depth 5+).
- Brak breadcrumbs.
- Brak kontekstowych linków z artykułów.
- Strona w sitemap, ale bez żadnego linku z innych stron serwisu.
6. Techniczne problemy
- Rendering problems — strona nie renderuje się bez JS.
- Wolny serwer (> 3 s time to first byte).
- Mobilna wersja różna od desktopowej (Mobile-First Indexing).
- HTTP 5xx w momencie crawla.
- Sprzeczne sygnały: canonical vs. meta robots vs. X-Robots-Tag.
Jak zdiagnozować problem indexingu
URL Inspection w Search Console
- Wklej URL w URL Inspection.
- Sprawdź: Coverage status, Discovery (czy odkryty), Crawl (kiedy ostatnio).
- „View crawled page” pokazuje HTML jaki widział Googlebot.
- „Test live URL” — aktualny test, niezależny od cache.
- Porównaj indexed vs. live — jeśli są różne, oznacza że strona zmieniła się od ostatniego indexingu.
Index Coverage report
- Settings → Index Coverage.
- Breakdown: Valid, Valid with warnings, Error, Excluded.
- Każdy „Excluded” ma powód — kliknij, zobaczysz listę URL-i.
- Trend over time — rosnąca liczba „Crawled – not indexed” to red flag.
- Porównaj submitted w sitemap vs. indexed.
site: search operator
site:twojadomena.pl— szacunkowa liczba indexed pages.site:twojadomena.pl/kategoria/— per sekcja.site:twojadomena.pl "konkretna fraza"— czy konkretna treść jest w indeksie.- Uwaga: Google pokazuje szacunki, nie dokładną liczbę.
Rozwiązania — w kolejności priorytetu
Priorytet 1: usuń marnotrawstwo
- Noindex na strony niskiej wartości (soft 404, search results, pagination głębsza niż page=10).
- Blokada parameter URLs w robots.txt.
- Usunięcie / konsolidacja duplikatów (301 lub canonical).
- Usunięcie thin content (lub rozwinięcie).
- Eliminacja stron generowanych automatycznie bez wartości.
Priorytet 2: wzmocnij sygnały jakości
- Dodanie unikalnych faktów, danych, opinii eksperckich do każdej strony.
- Dodanie authorship (kto napisał, czym się zajmuje, linki do LinkedIn / publikacji).
- Dodanie daty publikacji i ostatniej aktualizacji.
- Dodanie źródeł (linki wychodzące do autoritywnych źródeł).
- Wzmocnienie E-E-A-T: about page, contact page, disclosure.
Priorytet 3: internal linking
- Każda priorytetowa strona musi mieć 5+ linków wewnętrznych.
- Crawl depth ≤ 3 dla ważnych stron.
- Breadcrumbs wszędzie.
- Related content / related products.
- Hub pages agregujące klastery tematyczne.
Priorytet 4: techniczne
- Server response time < 500 ms, ideał < 200 ms.
- Fix 5xx błędów.
- Rendering — HTML musi mieć treść, nie tylko shell JS.
- Canonical konsekwentne.
- Sitemap tylko z indexable URL-ami.
Specjalny problem: AI-generated content w 2026
Google w 2024 dodał do systemów detekcji klasyfikator wzorców AI-generated content. Nie działa na zasadzie „jest AI = blok”, ale „jest AI i nie ma wartości dodanej = filtr”. W polskich audytach Q1 2026 widzimy 40–60% AI-generated blog posts bez modyfikacji spadających w „Crawled – not indexed”.
Jak odróżnić AI spam od wartościowego AI-assisted content
| AI spam (filtruje się) | AI-assisted wartościowy (indeksuje się) |
|---|---|
| Generyczne frazy wypełniające | Konkretne liczby, nazwiska, daty |
| Brak źródeł | Linki do authoritive sources |
| Powtarzalna struktura | Własny format, przykłady |
| „Jak wiadomo”, „warto wspomnieć” | Bezpośrednie zdania bez waty |
| Brak własnych danych | Własne case studies, badania |
| Brak author bio | Konkretny autor z bio |
Checklist redakcyjna dla AI content
- Dodaj 3+ unikalne liczby / statystyki z własnych danych.
- Dodaj 2+ cytaty ekspertów (własne wywiady lub linki).
- Usuń wszystkie „jak wiadomo”, „warto wspomnieć”, „w dzisiejszych czasach”.
- Dodaj case study lub przykład z realnego projektu.
- Sprawdź, czy struktura nie jest identyczna z szablonem GPT.
- Dodaj author bio z linkiem do LinkedIn i innych publikacji.
- Dodaj datę publikacji i „last updated”.
Indexing dla nowej domeny
Domena zarejestrowana w ostatnich 6 miesiącach przechodzi przez „sandbox” — Google indeksuje ją wolniej, sceptyczniej, a pierwsze rankingi są niestabilne. To nie oficjalna polityka, ale praktyka widoczna w danych.
Timeline dla nowej domeny
- Tydzień 1–2: 10–30% opublikowanych stron zindeksowane.
- Tydzień 3–4: 40–60%.
- Tydzień 5–8: 70–85%.
- Miesiąc 3+: 90%+ indexed (jeśli content wartościowy).
Jak przyspieszyć indexing nowej domeny
- Verify w Search Console natychmiast po launchu.
- Submit sitemap.
- Zbuduj 10–30 autoritive linków zewnętrznych w pierwszych 30 dniach (PR, guest posts, directory).
- Aktywność w social media — Google widzi sygnały popularności.
- Nie publikuj od razu 1000 stron — stopniowo 5–10 / tydzień buduje wiarygodność.
- Authorship — każdy artykuł z autorem z publikacjami gdzie indziej.
Indexing API — kiedy można używać
Google Indexing API jest oficjalnie przeznaczony tylko dla dwóch typów treści: JobPosting (oferty pracy) i BroadcastEvent osadzonego w VideoObject (live streams). Dla innych typów Google explicite mówi „nie używać”.
Dlaczego nie używać do zwykłych stron
- Google ignoruje call dla nieautoryzowanych typów treści.
- Masowe wysyłanie może skutkować manual action.
- Nie przyspiesza indexingu — tylko wprowadza URL do kolejki.
- Jeśli strona i tak nie przechodzi quality check, API nic nie zmienia.
Kiedy API ma sens (wyjątki)
- Serwis z ofertami pracy (JobPosting schema).
- Platformy streamingowe z live events.
- Szybkie usuwanie nieaktualnych ofert (dla SEO bez 404 message).
Request Indexing w URL Inspection
W Search Console jest przycisk „Request Indexing” po sprawdzeniu URL. Jest to manualny sygnał do Google: „popatrz na to”. Działa, ale z ograniczeniami.
Jak używać sensownie
- Dla ważnych stron po znaczącej aktualizacji treści.
- Dla nowych strategicznych stron, nie dla rutyny.
- Limit: 10–12 request dziennie (niepisany, ale obserwowany).
- Nie używaj do masowego pushowania — Google filtruje.
- Jeśli strona jest niskiej jakości, request nic nie zmieni.
FAQ — najczęstsze pytania o indexing Google
Dlaczego Google crawluje moją stronę, ale nie indeksuje?
„Crawled – currently not indexed” to najczęstszy status „miękkiej odmowy” w 2026. Główne powody: niska jakość treści (thin content, AI-generated bez wartości), duplikaty (Google uznał inną stronę za ważniejszą), słabe sygnały linków wewnętrznych (orphaned), lub Google po prostu jeszcze nie zdecydował (90% tych stron dostaje decyzję w 14–30 dni). Działania: rozwinij treść, dodaj unikalną wartość, wzmocnij internal linking. Jeśli po 60 dniach status nie zmienia się — prawdopodobnie quality block.
Ile czasu potrzeba od publikacji do indexingu?
Dla ugruntowanej domeny z regularną publikacją: 2–24 godziny. Dla domeny niszowej lub nowej: 3–21 dni. Dla domeny po update algorytmu (zwłaszcza Helpful Content, Spam Update): mogą być opóźnienia 30–60 dni. Przyspieszenie: (1) URL Inspection → Request Indexing; (2) wzmocnienie internal linków z homepage; (3) social signals; (4) sitemap re-submit. Jeśli artykuł dla dobrej domeny nie jest zindeksowany po 7 dniach — sygnał, że quality lub duplicate issue.
Czy AI-generated content można indeksować w 2026?
Tak, jeśli jest wartościowy. Google oficjalnie deklaruje neutralność co do pochodzenia — liczy się jakość dla użytkownika. AI-assisted content z własnymi danymi, case studies, redakcją ekspercką i linkami do źródeł indeksuje się normalnie. Pure AI-generated bez modyfikacji (typowe output z ChatGPT / Claude) w 40–60% przypadków jest filtrowany jako thin content. Wyznacznik: czy artykuł miałby wartość, gdybyś podał go człowiekowi bez dostępu do AI. Jeśli nie — Google też tak oceni.
Co robić, gdy strona nagle zniknęła z indeksu?
Kolejność diagnozy: (1) URL Inspection — sprawdź status i powód; (2) sprawdź meta robots i X-Robots-Tag (czasem przypadkowo zostaje noindex z przygotowań); (3) sprawdź robots.txt (czy nie zablokowaliśmy przez wildcard); (4) sprawdź 5xx / 4xx w logach; (5) sprawdź, czy treść nie została zduplikowana przez scraper i Google uznał tamtą wersję za oryginalną; (6) sprawdź, czy nie ma manual action w Search Console → Manual actions. Najczęściej: przypadkowy noindex po deployu lub duplikat problem.
Czy warto używać IndexNow?
IndexNow to protokół Bing / Yandex, który Google oficjalnie nie wspiera. W 2026 wdrożenie IndexNow przyspiesza indexing w Bing o 30–60%, w Yandex o 20–40%, w DuckDuckGo (przez Bing) o 30%+. Dla Google — bez wpływu. Wdrożenie jest proste (plugin WordPress, n8n workflow) i kosztuje minimalnie, więc warto dla kontenu multi-platform. Ale nie oczekuj cudów dla Google.
Czy Indexing API Google działa dla zwykłych stron?
Nie. Google explicite dokumentuje, że Indexing API jest przeznaczony tylko dla JobPosting i live streams (BroadcastEvent w VideoObject). Wysyłanie zwykłych stron przez API jest ignorowane lub może skutkować manual action za spamowanie. Niektórzy SEO „żyją” na hackach (n8n automation wysyłające wszystko jako JobPosting), ale to grey-hat i ryzyko. Rekomendacja: zostaw Indexing API dla autoryzowanych typów, do reszty używaj sitemap + URL Inspection Request Indexing.
Dlaczego nowa strona ma 50 URL-i zindeksowanych zamiast 500?
Trzy typowe powody: (1) nowa domena w „sandbox” — Google indeksuje powoli przez pierwsze 2–3 miesiące; (2) crawl budget — Google odkrywa strony, ale nie ma jeszcze wystarczającego demand, żeby je szybko scrawlować; (3) quality filter — część stron wygląda zbyt podobnie (duplicates internal) i Google wybrał jedną kanoniczną. Działania: buduj authority przez linki zewnętrzne, publikuj stopniowo (nie 500 stron naraz), zadbaj o unikalność każdej strony, dodaj internal linking z homepage. Po 90 dniach prawidłowo zbudowana domena osiąga 90%+ indexed.
Co dalej
Indexing w 2026 to nie kwestia techniczna — to suma sygnałów: jakość treści, architektura linków, wiarygodność domeny, techniczna poprawność. Każdy element odpowiada za 10–25% wyniku. Strona, której Google nie indeksuje, ma problem w 2+ z tych obszarów jednocześnie.
- Rendering JavaScript pod SEO — jak rendering wpływa na decyzję indexingową.
- Crawl budget — dlaczego Google najpierw musi móc scrawlować.
- Audyt SEO 2026 — gdzie indexing audit mieści się w pełnym audycie.
- SEO 2026 — przewodnik — pełny kontekst.