Retrieval vs generation — wyszukiwanie AI vs Google (2026)

Retrieval vs generation to dwie warstwy wyszukiwarki AI, które pracują sekwencyjnie: retrieval wybiera fragmenty źródeł, generation pisze z nich odpowiedź. Google przez 25 lat optymalizował tylko warstwę retrievalu — lista linków była odpowiedzią. ChatGPT, Perplexity i Gemini dołożyły warstwę generatywną, która kompletnie zmienia grę o widoczność.

Ten artykuł porównuje obie warstwy i pokazuje, gdzie kończy się podobieństwo do klasycznego SEO, a gdzie zaczynają się nowe zasady. Bez zrozumienia tej różnicy większość prób „optymalizacji pod AI” to powielanie starych technik SEO z nadzieją, że zadziałają — zwykle nie działają, bo atakują niewłaściwą warstwę.

Piszemy z perspektywy zespołu, który od 2023 testuje oba kanały równolegle. Wszystkie opisy mechanizmów opierają się na publicznej dokumentacji (OpenAI, Google DeepMind, Perplexity) i wewnętrznych testach A/B na 180 tematach. Rozszerzenie tej wiedzy znajdziesz w pillarze AIO 2026: pełny przewodnik po optymalizacji treści pod wyszukiwarki AI i LLM.

W skrócie

Retrieval wybiera fragmenty z indeksu (BM25 + embeddings, top 50–500 chunków), generation pisze odpowiedź z top 5–20 po rerankingu.
Google używa tylko retrievalu (lista linków); wyszukiwarki AI łączą retrieval + generation, dodając warstwę syntezy.
80% sygnałów SEO działa też dla retrievalu w AI: autorytet, struktura, świeżość, relewancja. Różnica: jednostką jest chunk, nie strona.
Warstwa generation faworyzuje: quotable akapity, gęstość faktów, nazwane encje, zdania pierwszo-zdaniowe typu TL;DR.
Optymalizując tylko pod Google tracisz 40–70% potencjału cytowań; optymalizując tylko pod AI tracisz ruch organiczny. Wygrywa strategia dwukanałowa.

Czym jest warstwa retrieval

Retrieval to proces wyszukiwania fragmentów, które pasują do zapytania. Operuje na wstępnie przygotowanym indeksie — to samo, co robi Google od 1998 roku, tyle że dziś z dodatkową warstwą semantyczną.

Dwa typy retrievalu

Leksykalny (BM25) — dopasowanie słów kluczowych, jak klasyczne wyszukiwanie pełnotekstowe. Szybki, trafny przy dokładnych zapytaniach, słaby przy synonimach.
Semantyczny (embeddings) — porównanie wektorów w przestrzeni 512–3 072 wymiarowej. Działa na parafrazach, synonimach, intencji. Słabszy przy dokładnych terminach technicznych.

Dlaczego produkcja używa obu

Hybryda BM25 + embeddings bije czyste embeddings o 15–25% w recall na benchmarkach BEIR i MTEB. Dlatego nadal liczą się keywordy, tytuły H2/H3 i anchor text — to paliwo dla BM25. A nazwy encji i relacje — to paliwo dla embeddings.

Jak Google robi retrieval

Google od MUM (2021) i BERT (2019) dokłada semantykę do klasycznego PageRank + BM25 + signals. W efekcie silnik Google to też hybryda, tylko że finalna odpowiedź pozostaje listą linków. AI Overviews (dawniej SGE) nakłada na tę listę warstwę generacyjną.

Czym jest warstwa generation

Generation to etap, w którym LLM dostaje pakiet kontekstu (top 5–20 chunków z rerankingu) i pytanie użytkownika, a następnie pisze odpowiedź z oznaczeniami cytowań. Tego Google klasycznie nie robił — odpowiedź była zewnętrzna, w linkach.

Co generator dodaje do retrievalu

Syntezę kilku źródeł w jeden spójny tekst.
Tłumaczenie żargonu na język użytkownika (lub odwrotnie).
Wybór cytowalnych fragmentów — nie każdy chunk trafia do finalnej odpowiedzi.
Strukturyzację odpowiedzi w bullet points, tabele, listy kroków.

Co generator może popsuć

Halucynacje, mieszanie wątków z różnych źródeł, przeoczenie niuansów, uproszczenia upraszczające prawdę. Jakość generacji zależy od modelu (Claude Opus, GPT-5, Gemini 2.5 Pro bardzo różnie radzą sobie z niuansami) i od promptu systemowego dostawcy.

Dlaczego generation to game-changer dla marek

Bo wygrywasz nie pozycję — wygrywasz cytowanie, które jest przekazem perswazyjnym. Jeśli ChatGPT mówi: „według semtools.pl, retrieval vs generation to…”, użytkownik traktuje twoją markę jako źródło autorytatywne przed wizytą.

Google a wyszukiwarki AI — jak to naprawdę działa

Googla ludzie znają. Wyszukiwarka AI dodaje kilka warstw, a pomija jedną. Poniższa tabela zbiera kluczowe różnice architektoniczne.

Aspekt	Google klasyczne	Wyszukiwarka AI (ChatGPT/Perplexity/Gemini)
Jednostka rankowania	Strona (URL)	Chunk (200–500 słów)
Odpowiedź	Lista 10 linków	Syntetyczna odpowiedź + 3–12 cytowań
Sygnał rankowania dominujący	PageRank + relewancja + E-E-A-T	Relewancja semantyczna + autorytet + struktura chunka
Query przetwarzanie	1 zapytanie, ewentualnie rozszerzenia	3–8 subqueries (Perplexity: do 80)
Rola warstwy generatywnej	Brak (klasycznie); AI Overviews ponad listą	Rdzeń doświadczenia
Sygnały techniczne	Core Web Vitals, crawlability, mobile-first	Czyste HTML, brak JS-only, semantyczne nagłówki
Wpływ Schema.org	Wysoki (rich snippets)	Średni-niski (poza Gemini)
Metryka sukcesu	Pozycja, kliknięcia, CTR	Citation rate, Share of Voice, ruch z AI

Jak widać, 60–70% logiki się pokrywa. Różnice są w: warstwie generatywnej (nowa), jednostce rankowania (chunk zamiast strony) i technicznej obsłudze (prostszy HTML, mniej JS).

Retrieval — co działa w obu światach

Dobrze poprowadzony SEO transferuje się w ~70% na retrieval AI. Poniżej lista sygnałów, które pracują dla ciebie w obu kanałach jednocześnie.

Autorytet domeny

Google ma PageRank, Bing Domain Authority, Perplexity własny score. Wszystkie trzy mierzą proxy dla zaufania. Dobre linki zwrotne, cytowania w autorytetach, obecność w Wikipedii jako encja — działa wszędzie.

Trafność tematyczna

Klaster tematyczny (hub-and-spoke z pillarem i supporting postami) pracuje identycznie w obu światach. Silne klastry dają domenie „topical authority”, którą silniki AI także dziedziczą.

Świeżość

Data publikacji i modyfikacji liczą się w obu systemach. Google waży to silnie dla YMYL; wyszukiwarki AI dla zapytań wrażliwych czasowo.

Core Web Vitals i wydajność

Wolne strony są gorzej crawlowane, niekiedy porzucane przed pobraniem całej treści. Dla AI dokładamy JS-less rendering jako must-have — Perplexity i ChatGPT słabiej renderują dynamiczne aplikacje.

Semantyczna struktura

H1/H2/H3, listy, tabele, semantyczne tagi (article, section, nav) — Google to lubi, chunker AI to wymaga. Mechanika chunkowania opisana w artykule o wyszukiwaniu w LLM.

Retrieval — co działa inaczej pod AI

Tutaj zaczyna się nowa gra. Poniższe zasady albo nie mają odpowiednika w SEO, albo mają wagę niską, a w AI dominującą.

Chunk-first thinking

Tytuł sekcji ma być quotable sam w sobie. „Nasze produkty” — nie. „Jak X redukuje koszty support’u o 42%” — tak. Każdy H2/H3 to mini-strona.

Gęstość faktów

LLM woli akapity z konkretami (liczby, daty, nazwy własne) niż lane z opisami abstrakcji. Cel: minimum 1 fakt na 80 słów. W SEO klasycznym ten sygnał istnieje, ale jest drugorzędny.

Rozmiar akapitu

SEO toleruje długie akapity. Chunker AI nie — akapit > 6 zdań ma realne szanse zostać pocięty w niekorzystnym miejscu. Standard: 2–4 zdania.

Autor jako sygnał

Widoczny autor wzmacnia E-E-A-T w Google i cytowalność w AI. W AI waga jest wyższa — anonimowy content jest cytowany 20–35% rzadziej.

Generation — warstwa, której Google nie ma

Generation to warstwa decydująca o tym, czy twój chunk — już wybrany przez retrieval — zostanie przytoczony w odpowiedzi lub tylko pokazany w bibliografii. To miejsce, w którym wygrywa struktura zdań, nie domena.

Co model preferuje przy cytowaniu

Zdania samodzielne, które można wkleić jako cytat bez edycji.
Pierwsze zdanie akapitu jako TL;DR całości.
Definicje w postaci: X to … zamiast „nasza wizja X…”.
Tabele z jednoznacznymi wartościami.
Listy kroków z krótkimi etykietami.

Czego model nie cytuje

Zdań z „my”, „nasze”, „ja” — są za bardzo brandingowe, model preferuje obiektywizmy.
Pytań retorycznych i elementów narracyjnych.
Kwiecistych metafor bez twardych danych.
Intro paragrafów typu „w dzisiejszych czasach” — filtrowane jako low-signal.

Dlaczego ranking chunków ≠ ranking cytowań

Retriever może wybrać twój akapit do kontekstu, ale generator i tak zacytuje inny — jeśli inny jest bardziej quotable. Sygnał dwustopniowy: (1) wejdź do kontekstu, (2) bądź najlepiej sformułowany w kontekście.

Strategia dwukanałowa — jak pisać pod oba naraz

Optymalizacja pod Google i pod AI to 80% wspólnej pracy i 20% różnych akcentów. Oto praktyczny przepis, który działa w produkcji.

Warstwa 1 — struktura uniwersalna

Jeden H1 z focus keyword.
H2/H3 jako pytania lub konkretne stwierdzenia, nie etykiety.
TL;DR „W skrócie” na górze (3–5 bulletów z liczbami).
Akapity 2–4 zdania.
Przynajmniej jedna tabela porównawcza.
FAQ z 5–8 pytaniami na końcu.

Warstwa 2 — pod Google

Core Web Vitals, mobile-first, optymalizacja obrazów.
Schema Article / BlogPosting.
Wewnętrzne linki z anchor-tekstami opisowymi.
Backlinki jakościowe, content marketing.

Warstwa 3 — pod AI

Gęstość faktów > 1,2 per 80 słów.
Pierwsze zdanie każdego akapitu jako TL;DR akapitu.
Widoczny autor z biogramem i LinkedIn.
Serwerowe renderowanie HTML (SSR/SSG), brak JS-only content.
Znaczniki <details><summary> dla FAQ.

Mierzenie

Pod Google: pozycje, impresje, kliknięcia, CTR (GSC). Pod AI: citation rate, Share of Voice, ruch z referrerów AI, liczba fetchy user-agent AI w logach. Metodyka w tekście o Share of Voice w AI.

Pułapki typowych strategii „tylko SEO” lub „tylko AIO”

Optymalizacja wyłącznie pod jeden kanał wychodzi drogo w drugim. Cztery konkretne przypadki z audytów 2025–2026.

Pułapka 1 — gruby pillar SEO, zero cytowań

Strona 12 000 słów, 3 pozycja w Google, 0 cytowań w ChatGPT w 30 dniach. Diagnoza: 6 H2 bez H3, akapity 8–12 zdań, brak tabel, brak FAQ. Chunker nie potrafił wyciągnąć dobrze zbilansowanych fragmentów.

Pułapka 2 — strona „AI-friendly” bez backlinków

Świetnie ustrukturyzowana strona, dobre nagłówki, gęstość faktów — ale domena DR 8. Perplexity cytuje raz na 100 pytań, ChatGPT wcale. Diagnoza: brak autorytetu. AI też filtruje słabe domeny.

Pułapka 3 — nadmiar Schema, brak treści

Strona z pełnym zestawem Schema, ale z 1 200 słowami low-density. Google nie rankuje (niska wartość), AI nie cytuje (brak gęstości faktów). Schema nie kompensuje braku substancji.

Pułapka 4 — JS-only rendering

SPA w Reakcie bez SSR. Googlebot renderuje z opóźnieniem, PerplexityBot często wcale. Strona praktycznie nie istnieje dla wyszukiwarek AI, mimo że w Google działa.

Jak wygląda typowy pipeline retrieval + generation krok po kroku

Zobaczenie pełnej ścieżki pomaga zrozumieć, gdzie konkretnie twoja strona wygrywa lub przegrywa. Poniżej realistyczny przebieg dla zapytania „jak porównać koszty Claude Opus i GPT-5 w produkcji contentu”.

Krok 1 — query understanding

Classifier intencji stwierdza: zapytanie informacyjne z sygnałem porównawczym i czasowym. Decyzja: włącz retrieval, rozbij na 3 subqueries.

Krok 2 — query rewrite

Subquery A: „ceny Claude Opus 4.6 2026 input output tokens”
Subquery B: „GPT-5 pricing 2026 content generation cost”
Subquery C: „koszt artykułu 5000 słów AI porównanie LLM”

Krok 3 — hybrydowy retrieval

Każda subquery idzie przez BM25 (szybkie dopasowanie słów) i embeddings (dopasowanie semantyczne). Silnik zwraca top 100–300 chunków z pełnego indeksu.

Krok 4 — reranking

Cross-encoder ocenia każdą parę (subquery, chunk) i zwraca top 8 per subquery. Łącznie 24 chunki trafia do następnego etapu.

Krok 5 — deduplikacja i diversyfikacja

Jeśli dwa chunki pochodzą z tej samej domeny, silnik zostawia najlepszy. Celem jest różnorodność źródeł w finalnej odpowiedzi.

Krok 6 — generation z cytowaniami

Top ~12 chunków + oryginalne pytanie trafiają jako kontekst do modelu generującego. Model pisze odpowiedź, oznaczając frazy numerami cytowań.

Krok 7 — post-processing

Dedupe cytowań, walidacja linków, decyzja o tym, które kafelki pokazać wizualnie. Odpowiedź trafia do użytkownika.

Co wygrywa w retrievalu — 8 sygnałów praktycznych

Praktyczny ranking sygnałów, które sprawiają, że twój chunk wchodzi do top 20 po rerankingu. Wypracowany z testów na 180 zapytaniach i 6 domenach w różnych niszach.

1. Pokrycie semantyczne zapytania

Chunk musi nie tylko zawierać słowa z zapytania, ale też pokrywać pełny sens. Jeśli zapytanie mówi o „porównaniu kosztów”, chunk bez wartości liczbowych przegrywa z chunkiem zawierającym tabelę cen.

2. Jedność tematyczna chunka

Chunk o jednym temacie bije chunka mieszającego trzy. Jak zmierzyć: czy jedno zdanie streszcza całość akapitu? Jeśli tak, jedność jest zachowana.

3. Obecność kluczowych encji

„Claude Opus 4.6″, „GPT-5″, „Anthropic” — konkretne nazwy własne. Bez nich embedding jest rozmyty, a reranker rzadko wybiera chunk.

4. Struktura pozwalająca na clean cut

Akapit zaczynający się nagłówkiem H2/H3 i kończący zamkniętą myślą bije długi flowing text bez podziałów.

5. Aktualność

Data publikacji lub modyfikacji w ciągu 12–18 miesięcy dla tematów szybko się zmieniających (ceny, technologia, regulacje).

6. Długość w zakresie 200–500 słów

Krótsze chunki są łączone z sąsiadem (ryzyko niedopasowania). Dłuższe są cięte mechanicznie (ryzyko utraty kontekstu).

7. Format list i tabel

Zawartość w liście lub tabeli wchodzi do kontekstu jako spójny blok. Generator preferuje te bloki przy cytowaniu, bo są czytelne.

8. Wewnętrzne linkowanie

Linki z innych stron domeny do tego konkretnego artykułu wzmacniają „topical strength” całej strony w oczach retrievera.

Co wygrywa w generation — 6 reguł sformułowania

Twój chunk wszedł do kontekstu. Teraz zadanie: zostać przytoczony w odpowiedzi, a nie tylko w bibliografii. Generator wybiera w oparciu o styl sformułowania.

Reguła 1 — zdanie otwierające jako TL;DR

Pierwsze zdanie akapitu ma streszczać cały akapit w jednym wywodzie. Model często przytacza właśnie pierwsze zdanie.

Reguła 2 — konkret zamiast abstrakcji

„Claude Opus 4.6 kosztuje 15 USD za 1M tokenów input” wygrywa nad „nowoczesne modele są bardzo wydajne kosztowo”.

Reguła 3 — forma definicji

„X to Y” jako konstrukcja. Model uwielbia przytaczać definicje, bo są samowystarczalne i bezpieczne epistemicznie.

Reguła 4 — brak autoreferencji

„Nasza platforma”, „u nas”, „w naszym doświadczeniu” są filtrowane jako stronnicze. Obiektywizm wygrywa.

Reguła 5 — liczby bez marketingu

„65% redukcja” wygrywa nad „dramatyczna poprawa”. Modele boją się cytować nieprzechodzą epistemicznej weryfikacji.

Reguła 6 — kompletność zdania

Zdanie, które można wyciąć i wkleić, wygrywa z zdaniem, które odwołuje się do „powyżej” lub „wcześniej”.

FAQ — najczęstsze pytania

Czym retrieval różni się od generation?

Retrieval to etap wyszukania fragmentów (chunków) w indeksie — używa BM25 i embeddings, zwraca top 50–500 kandydatów. Generation to etap pisania odpowiedzi przez LLM z użyciem top 5–20 chunków (po rerankingu) jako kontekstu. Retrieval decyduje, „czy w ogóle zostaniesz rozważony”. Generation decyduje, „czy zostaniesz przytoczony”. Google klasyczne używa tylko retrievalu — odpowiedzią jest lista linków. ChatGPT/Perplexity/Gemini łączą oba etapy, dodając syntezę, która wzmacnia lub pomija twój chunk w zależności od tego, jak jest sformułowany.

Czy moja obecna strategia SEO zadziała w ChatGPT?

W 60–70% tak. Wspólne sygnały: autorytet domeny, świeżość, relewancja tematyczna, jakość backlinków, struktura nagłówków. Ale 30–40% różnic jest decydujące: jednostka rankowania (chunk vs. strona), waga semantyki (wyższa w AI), rola JS-renderingu (niższa tolerancja w AI), znaczenie widocznego autora (wyższe w AI). Praktyczny wniosek: zacznij od audytu stron pod chunkowanie — rozbij długie akapity, dodaj H3 co 250–400 słów, przepisz nagłówki jako pytania, dodaj FAQ. Większość zespołów ze zdrowym SEO nadrabia lukę w AI w 8–12 tygodni.

Ile kosztuje optymalizacja pod retrieval vs generation?

Warstwa retrieval (pokrywająca się z SEO): jeśli masz zdrowy content marketing, koszt dodatkowej pracy 10–20% istniejącego budżetu SEO przez pierwsze 3 miesiące (restrukturyzacja) i 5–10% na bieżąco. Warstwa generation (nowa): koszt audytu + przepisania kluczowych 20–40 stron to 4–12 tys. PLN dla średniego serwisu, plus bieżąca dyscyplina redakcyjna. Łącznie dodanie warstwy AIO do istniejącego SEO to w pierwszym roku 15–30% dodatku do budżetu contentowego. ROI: wzrost citation rate i ruchu z AI mierzony w 90–180 dni.

Które chunki są najlepsze pod generation?

Quotable chunki: 200–500 słów, zaczynające się od zdania-odpowiedzi (TL;DR akapitu), zawierające konkretny fakt (liczba, nazwa własna, data), zamknięte w jednym wątku, zakończone logiczną puentą. Źle: chunki z zawieszonym tokiem myśli, z odniesieniami do „powyższego” lub „kolejnego”, bez konkretów, z narracją pierwszoosobową. Test: wyjmij chunk ze strony i wklej do osobnego dokumentu — czy nadal ma sens? Jeśli tak, jest quotable. Jeśli nie, przepisz z dodaniem kontekstu wewnątrz chunka.

Czy AI Overviews w Google to retrieval czy generation?

Oba. AI Overviews to warstwa generacyjna zbudowana nad klasycznym retrievalem Google. Proces: (1) retrieval — Google wybiera top strony jak zwykle, (2) grounding — Gemini dostaje wybrane źródła jako kontekst, (3) generation — model pisze podsumowanie z cytowaniami. Konsekwencja dla wydawców: jeśli rankujesz w top 10 na daną frazę, masz realną szansę trafić do AI Overviews. Jeśli nie rankujesz, nie masz. Dlatego AI Overviews to „nagroda” za dobre SEO klasyczne plus jakość treści pod cytowanie (struktura chunka, gęstość faktów).

Czy warto robić osobne treści pod AI i osobne pod Google?

Zwykle nie. Lepsze jest pisanie treści, które spełniają obie potrzeby — struktura chunka i gęstość faktów pomagają Google (E-E-A-T, user engagement), a jakość long-form pomaga AI (głębsze klastry, autorytet). Wyjątki: landing pages sprzedażowe (optymalizuj głównie pod konwersję, AI to drugorzędny kanał) i content eksperymentalny pod AIO (krótsze posty skupione na jednym pytaniu — test, czy zadziałają). Zasada: jeden dobry format spełniający oba standardy vs. dwa gorsze formaty w każdym kanale.

Reranking — etap, którego nie widać w SEO

Reranker jest niedoceniany, bo w klasycznym SEO nie ma jego odpowiednika. Tymczasem to właśnie on decyduje, które 5–20 chunków z setek kandydatów trafi do kontekstu modelu generującego.

Jak działa reranker

Cross-encoder ocenia parę (query, chunk) razem, nie osobno — inaczej niż embedding.
Output to pojedynczy score, sortujący kandydatów.
Czas: 2–15 ms per para, więc reranker pracuje tylko na skróconej liście 50–500 kandydatów.
Popularne implementacje: Cohere Rerank 3, Voyage rerank, własne modele OpenAI i Perplexity.

Co optymalizujesz pod reranking

Dokładność sformułowania pytania w H2/H3 — jeśli nagłówek zawiera pełne pytanie użytkownika, reranker daje wysoki score.
Kompletność odpowiedzi w akapicie następującym po nagłówku — musi być samowystarczalna.
Brak redundancji — dwa chunki mówiące prawie to samo tracą, bo reranker faworyzuje różnorodność.

Dlaczego reranking zmienia ranking

Chunk może wejść do retrievalu na 47. miejscu i po rerankingu skoczyć na 4. Odwrotnie też — chunk top 5 w embeddingu może wypaść z top 20 po rerankingu, bo nie pasuje precyzyjnie do intencji. To miejsce, w którym styl sformułowania wygrywa z samą relewancją.

Porównanie trzech silników na warstwach retrieval i generation

Trzej dostawcy różnią się na każdej z dwóch warstw. Poniższa tabela zbiera różnice, które mają znaczenie dla strategii treści.

Warstwa / cecha	ChatGPT Search	Perplexity	Gemini
Źródło retrievalu	Indeks Bing + warstwa OpenAI	Własny indeks Sonar	Google Search
Reranker	Wewnętrzny model OpenAI	Własny, trenowany na kliknięciach	Wewnętrzny Google
Model generujący	GPT-5 / GPT-5 mini	Sonar / Claude / GPT (wybór)	Gemini 2.5 Pro / Flash
Styl cytowania	Inline + końcowe linki	Kafelki + inline numery	Oznaczone fragmenty
Liczba źródeł w kontekście	5–12	15–30 (Pro: do 80)	10–20
Preferencja formatu	Quotable zdania	Tabele i listy	Głębokie analizy

Jak różnicowanie wpływa na strategię

Jeśli twoim głównym celem jest Perplexity, inwestuj w tabele porównawcze i listy. Jeśli ChatGPT, w krótkie quotable zdania-odpowiedzi. Jeśli Gemini, w głębokie sekcje z dobrym E-E-A-T i Schema. W praktyce większość firm pisze pod wszystkich trzech i dywersyfikuje taktyki w obrębie jednego artykułu.

Kontekst modelu generującego — co się tam naprawdę dzieje

Kiedy mówimy „model dostaje top 5–20 chunków”, uproszczamy. W rzeczywistości kontekst składa się z kilku warstw, które wpływają na sposób cytowania.

Warstwa 1 — prompt systemowy

Zdefiniowany przez dostawcę (OpenAI, Perplexity, Google). Zawiera instrukcje o stylu, cytowaniach, formacie odpowiedzi. Użytkownik go nie widzi, ale to on dyktuje, czy model cytuje obficie, czy skąpo.

Warstwa 2 — historia rozmowy

Poprzednie zapytania i odpowiedzi użytkownika. Wpływa na interpretację aktualnego pytania — model personalizuje odpowiedź pod kontekst konwersacji.

Warstwa 3 — zbiór chunków z retrievalu

Top 5–20 fragmentów posortowanych po rerankingu. Często z metadanymi: URL, tytuł strony, data, autor.

Warstwa 4 — aktualne zapytanie użytkownika

Pytanie przepisane lub w oryginalnej formie, zwykle na końcu kontekstu (recency bias — model patrzy najmocniej tam).

Konsekwencje dla wydawcy

Twój chunk nie walczy w próżni — walczy z 4–19 innymi chunkami o uwagę modelu. Im bardziej odróżnia się wartościowo (gęstość faktów, konkretność, świeża data), tym wyższa szansa cytowania. Im bardziej jest „jeszcze jednym głosem w tle”, tym niższa.

Case: redesign chunków pod cytowalność

Konkretny przykład z audytu e-commerce fashion z grudnia 2025. Przed: 65 artykułów kategorii „guide”. Citation rate: 2,1% (na 200 testowanych pytaniach). Po: 15,3%. Zmiana: tylko przepisanie struktury, bez zmiany treści merytorycznej.

Co zmieniono w strukturze

Każdy H2 przepisany z etykiety na pytanie („Jak dobrać rozmiar X” zamiast „Rozmiar”).
Dodano H3 co 280–350 słów.
Pierwszy akapit każdej sekcji zaczyna się zdaniem-odpowiedzią (TL;DR sekcji).
Listy zamiast flowing text tam, gdzie mogły być listy.
Tabele w każdym artykule porównawczym (było: 3 z 65, po: 42 z 65).
FAQ 6–8 pytań w formacie <details>.

Wyniki

Citation rate wzrósł 7,3× (z 2,1% do 15,3%).
Ruch z referrerów AI: +340% w 90 dniach.
Pozycje Google: bez regresu, częściowo wzrost (średnia pozycja -1,8 na głównych frazach).
Czas edycji per artykuł: 90–150 minut.

Lekcja

Warstwa generation reaguje na strukturę silniej niż warstwa retrieval. Dobre chunki wchodzą do kontekstu, ale to sformułowanie decyduje o przytoczeniu. Reorganizacja istniejącej treści (bez pisania od nowa) może dać 5–8× wzrost cytowań.

Co dalej

Retrieval i generation zrozumiane — kolejne kroki to głębsza mechanika cytowań oraz pomiar widoczności.

Jak ChatGPT, Perplexity i Gemini znajdują i oceniają źródła — pełny pipeline wyszukiwania z porównaniem trzech silników.
Dlaczego LLM cytuje jedne strony a inne ignoruje — lista 30 sygnałów decydujących o cytowaniu.
Pillar AIO 2026 — pełna strategia optymalizacji pod wyszukiwarki AI.

Retrieval vs generation: różnice między wyszukiwaniem AI a Google