Retrieval vs generation to dwie warstwy wyszukiwarki AI, które pracują sekwencyjnie: retrieval wybiera fragmenty źródeł, generation pisze z nich odpowiedź. Google przez 25 lat optymalizował tylko warstwę retrievalu — lista linków była odpowiedzią. ChatGPT, Perplexity i Gemini dołożyły warstwę generatywną, która kompletnie zmienia grę o widoczność.
Ten artykuł porównuje obie warstwy i pokazuje, gdzie kończy się podobieństwo do klasycznego SEO, a gdzie zaczynają się nowe zasady. Bez zrozumienia tej różnicy większość prób „optymalizacji pod AI” to powielanie starych technik SEO z nadzieją, że zadziałają — zwykle nie działają, bo atakują niewłaściwą warstwę.
Piszemy z perspektywy zespołu, który od 2023 testuje oba kanały równolegle. Wszystkie opisy mechanizmów opierają się na publicznej dokumentacji (OpenAI, Google DeepMind, Perplexity) i wewnętrznych testach A/B na 180 tematach. Rozszerzenie tej wiedzy znajdziesz w pillarze AIO 2026: pełny przewodnik po optymalizacji treści pod wyszukiwarki AI i LLM.
W skrócie
- Retrieval wybiera fragmenty z indeksu (BM25 + embeddings, top 50–500 chunków), generation pisze odpowiedź z top 5–20 po rerankingu.
- Google używa tylko retrievalu (lista linków); wyszukiwarki AI łączą retrieval + generation, dodając warstwę syntezy.
- 80% sygnałów SEO działa też dla retrievalu w AI: autorytet, struktura, świeżość, relewancja. Różnica: jednostką jest chunk, nie strona.
- Warstwa generation faworyzuje: quotable akapity, gęstość faktów, nazwane encje, zdania pierwszo-zdaniowe typu TL;DR.
- Optymalizując tylko pod Google tracisz 40–70% potencjału cytowań; optymalizując tylko pod AI tracisz ruch organiczny. Wygrywa strategia dwukanałowa.
Czym jest warstwa retrieval
Retrieval to proces wyszukiwania fragmentów, które pasują do zapytania. Operuje na wstępnie przygotowanym indeksie — to samo, co robi Google od 1998 roku, tyle że dziś z dodatkową warstwą semantyczną.
Dwa typy retrievalu
- Leksykalny (BM25) — dopasowanie słów kluczowych, jak klasyczne wyszukiwanie pełnotekstowe. Szybki, trafny przy dokładnych zapytaniach, słaby przy synonimach.
- Semantyczny (embeddings) — porównanie wektorów w przestrzeni 512–3 072 wymiarowej. Działa na parafrazach, synonimach, intencji. Słabszy przy dokładnych terminach technicznych.
Dlaczego produkcja używa obu
Hybryda BM25 + embeddings bije czyste embeddings o 15–25% w recall na benchmarkach BEIR i MTEB. Dlatego nadal liczą się keywordy, tytuły H2/H3 i anchor text — to paliwo dla BM25. A nazwy encji i relacje — to paliwo dla embeddings.
Jak Google robi retrieval
Google od MUM (2021) i BERT (2019) dokłada semantykę do klasycznego PageRank + BM25 + signals. W efekcie silnik Google to też hybryda, tylko że finalna odpowiedź pozostaje listą linków. AI Overviews (dawniej SGE) nakłada na tę listę warstwę generacyjną.
Czym jest warstwa generation
Generation to etap, w którym LLM dostaje pakiet kontekstu (top 5–20 chunków z rerankingu) i pytanie użytkownika, a następnie pisze odpowiedź z oznaczeniami cytowań. Tego Google klasycznie nie robił — odpowiedź była zewnętrzna, w linkach.
Co generator dodaje do retrievalu
- Syntezę kilku źródeł w jeden spójny tekst.
- Tłumaczenie żargonu na język użytkownika (lub odwrotnie).
- Wybór cytowalnych fragmentów — nie każdy chunk trafia do finalnej odpowiedzi.
- Strukturyzację odpowiedzi w bullet points, tabele, listy kroków.
Co generator może popsuć
Halucynacje, mieszanie wątków z różnych źródeł, przeoczenie niuansów, uproszczenia upraszczające prawdę. Jakość generacji zależy od modelu (Claude Opus, GPT-5, Gemini 2.5 Pro bardzo różnie radzą sobie z niuansami) i od promptu systemowego dostawcy.
Dlaczego generation to game-changer dla marek
Bo wygrywasz nie pozycję — wygrywasz cytowanie, które jest przekazem perswazyjnym. Jeśli ChatGPT mówi: „według semtools.pl, retrieval vs generation to…”, użytkownik traktuje twoją markę jako źródło autorytatywne przed wizytą.
Google a wyszukiwarki AI — jak to naprawdę działa
Googla ludzie znają. Wyszukiwarka AI dodaje kilka warstw, a pomija jedną. Poniższa tabela zbiera kluczowe różnice architektoniczne.
| Aspekt | Google klasyczne | Wyszukiwarka AI (ChatGPT/Perplexity/Gemini) |
|---|---|---|
| Jednostka rankowania | Strona (URL) | Chunk (200–500 słów) |
| Odpowiedź | Lista 10 linków | Syntetyczna odpowiedź + 3–12 cytowań |
| Sygnał rankowania dominujący | PageRank + relewancja + E-E-A-T | Relewancja semantyczna + autorytet + struktura chunka |
| Query przetwarzanie | 1 zapytanie, ewentualnie rozszerzenia | 3–8 subqueries (Perplexity: do 80) |
| Rola warstwy generatywnej | Brak (klasycznie); AI Overviews ponad listą | Rdzeń doświadczenia |
| Sygnały techniczne | Core Web Vitals, crawlability, mobile-first | Czyste HTML, brak JS-only, semantyczne nagłówki |
| Wpływ Schema.org | Wysoki (rich snippets) | Średni-niski (poza Gemini) |
| Metryka sukcesu | Pozycja, kliknięcia, CTR | Citation rate, Share of Voice, ruch z AI |
Jak widać, 60–70% logiki się pokrywa. Różnice są w: warstwie generatywnej (nowa), jednostce rankowania (chunk zamiast strony) i technicznej obsłudze (prostszy HTML, mniej JS).
Retrieval — co działa w obu światach
Dobrze poprowadzony SEO transferuje się w ~70% na retrieval AI. Poniżej lista sygnałów, które pracują dla ciebie w obu kanałach jednocześnie.
Autorytet domeny
Google ma PageRank, Bing Domain Authority, Perplexity własny score. Wszystkie trzy mierzą proxy dla zaufania. Dobre linki zwrotne, cytowania w autorytetach, obecność w Wikipedii jako encja — działa wszędzie.
Trafność tematyczna
Klaster tematyczny (hub-and-spoke z pillarem i supporting postami) pracuje identycznie w obu światach. Silne klastry dają domenie „topical authority”, którą silniki AI także dziedziczą.
Świeżość
Data publikacji i modyfikacji liczą się w obu systemach. Google waży to silnie dla YMYL; wyszukiwarki AI dla zapytań wrażliwych czasowo.
Core Web Vitals i wydajność
Wolne strony są gorzej crawlowane, niekiedy porzucane przed pobraniem całej treści. Dla AI dokładamy JS-less rendering jako must-have — Perplexity i ChatGPT słabiej renderują dynamiczne aplikacje.
Semantyczna struktura
H1/H2/H3, listy, tabele, semantyczne tagi (article, section, nav) — Google to lubi, chunker AI to wymaga. Mechanika chunkowania opisana w artykule o wyszukiwaniu w LLM.
Retrieval — co działa inaczej pod AI
Tutaj zaczyna się nowa gra. Poniższe zasady albo nie mają odpowiednika w SEO, albo mają wagę niską, a w AI dominującą.
Chunk-first thinking
Tytuł sekcji ma być quotable sam w sobie. „Nasze produkty” — nie. „Jak X redukuje koszty support’u o 42%” — tak. Każdy H2/H3 to mini-strona.
Gęstość faktów
LLM woli akapity z konkretami (liczby, daty, nazwy własne) niż lane z opisami abstrakcji. Cel: minimum 1 fakt na 80 słów. W SEO klasycznym ten sygnał istnieje, ale jest drugorzędny.
Rozmiar akapitu
SEO toleruje długie akapity. Chunker AI nie — akapit > 6 zdań ma realne szanse zostać pocięty w niekorzystnym miejscu. Standard: 2–4 zdania.
Autor jako sygnał
Widoczny autor wzmacnia E-E-A-T w Google i cytowalność w AI. W AI waga jest wyższa — anonimowy content jest cytowany 20–35% rzadziej.
Generation — warstwa, której Google nie ma
Generation to warstwa decydująca o tym, czy twój chunk — już wybrany przez retrieval — zostanie przytoczony w odpowiedzi lub tylko pokazany w bibliografii. To miejsce, w którym wygrywa struktura zdań, nie domena.
Co model preferuje przy cytowaniu
- Zdania samodzielne, które można wkleić jako cytat bez edycji.
- Pierwsze zdanie akapitu jako TL;DR całości.
- Definicje w postaci: X to … zamiast „nasza wizja X…”.
- Tabele z jednoznacznymi wartościami.
- Listy kroków z krótkimi etykietami.
Czego model nie cytuje
- Zdań z „my”, „nasze”, „ja” — są za bardzo brandingowe, model preferuje obiektywizmy.
- Pytań retorycznych i elementów narracyjnych.
- Kwiecistych metafor bez twardych danych.
- Intro paragrafów typu „w dzisiejszych czasach” — filtrowane jako low-signal.
Dlaczego ranking chunków ≠ ranking cytowań
Retriever może wybrać twój akapit do kontekstu, ale generator i tak zacytuje inny — jeśli inny jest bardziej quotable. Sygnał dwustopniowy: (1) wejdź do kontekstu, (2) bądź najlepiej sformułowany w kontekście.
Strategia dwukanałowa — jak pisać pod oba naraz
Optymalizacja pod Google i pod AI to 80% wspólnej pracy i 20% różnych akcentów. Oto praktyczny przepis, który działa w produkcji.
Warstwa 1 — struktura uniwersalna
- Jeden H1 z focus keyword.
- H2/H3 jako pytania lub konkretne stwierdzenia, nie etykiety.
- TL;DR „W skrócie” na górze (3–5 bulletów z liczbami).
- Akapity 2–4 zdania.
- Przynajmniej jedna tabela porównawcza.
- FAQ z 5–8 pytaniami na końcu.
Warstwa 2 — pod Google
- Core Web Vitals, mobile-first, optymalizacja obrazów.
- Schema Article / BlogPosting.
- Wewnętrzne linki z anchor-tekstami opisowymi.
- Backlinki jakościowe, content marketing.
Warstwa 3 — pod AI
- Gęstość faktów > 1,2 per 80 słów.
- Pierwsze zdanie każdego akapitu jako TL;DR akapitu.
- Widoczny autor z biogramem i LinkedIn.
- Serwerowe renderowanie HTML (SSR/SSG), brak JS-only content.
- Znaczniki
<details><summary>dla FAQ.
Mierzenie
Pod Google: pozycje, impresje, kliknięcia, CTR (GSC). Pod AI: citation rate, Share of Voice, ruch z referrerów AI, liczba fetchy user-agent AI w logach. Metodyka w tekście o Share of Voice w AI.
Pułapki typowych strategii „tylko SEO” lub „tylko AIO”
Optymalizacja wyłącznie pod jeden kanał wychodzi drogo w drugim. Cztery konkretne przypadki z audytów 2025–2026.
Pułapka 1 — gruby pillar SEO, zero cytowań
Strona 12 000 słów, 3 pozycja w Google, 0 cytowań w ChatGPT w 30 dniach. Diagnoza: 6 H2 bez H3, akapity 8–12 zdań, brak tabel, brak FAQ. Chunker nie potrafił wyciągnąć dobrze zbilansowanych fragmentów.
Pułapka 2 — strona „AI-friendly” bez backlinków
Świetnie ustrukturyzowana strona, dobre nagłówki, gęstość faktów — ale domena DR 8. Perplexity cytuje raz na 100 pytań, ChatGPT wcale. Diagnoza: brak autorytetu. AI też filtruje słabe domeny.
Pułapka 3 — nadmiar Schema, brak treści
Strona z pełnym zestawem Schema, ale z 1 200 słowami low-density. Google nie rankuje (niska wartość), AI nie cytuje (brak gęstości faktów). Schema nie kompensuje braku substancji.
Pułapka 4 — JS-only rendering
SPA w Reakcie bez SSR. Googlebot renderuje z opóźnieniem, PerplexityBot często wcale. Strona praktycznie nie istnieje dla wyszukiwarek AI, mimo że w Google działa.
Jak wygląda typowy pipeline retrieval + generation krok po kroku
Zobaczenie pełnej ścieżki pomaga zrozumieć, gdzie konkretnie twoja strona wygrywa lub przegrywa. Poniżej realistyczny przebieg dla zapytania „jak porównać koszty Claude Opus i GPT-5 w produkcji contentu”.
Krok 1 — query understanding
Classifier intencji stwierdza: zapytanie informacyjne z sygnałem porównawczym i czasowym. Decyzja: włącz retrieval, rozbij na 3 subqueries.
Krok 2 — query rewrite
- Subquery A: „ceny Claude Opus 4.6 2026 input output tokens”
- Subquery B: „GPT-5 pricing 2026 content generation cost”
- Subquery C: „koszt artykułu 5000 słów AI porównanie LLM”
Krok 3 — hybrydowy retrieval
Każda subquery idzie przez BM25 (szybkie dopasowanie słów) i embeddings (dopasowanie semantyczne). Silnik zwraca top 100–300 chunków z pełnego indeksu.
Krok 4 — reranking
Cross-encoder ocenia każdą parę (subquery, chunk) i zwraca top 8 per subquery. Łącznie 24 chunki trafia do następnego etapu.
Krok 5 — deduplikacja i diversyfikacja
Jeśli dwa chunki pochodzą z tej samej domeny, silnik zostawia najlepszy. Celem jest różnorodność źródeł w finalnej odpowiedzi.
Krok 6 — generation z cytowaniami
Top ~12 chunków + oryginalne pytanie trafiają jako kontekst do modelu generującego. Model pisze odpowiedź, oznaczając frazy numerami cytowań.
Krok 7 — post-processing
Dedupe cytowań, walidacja linków, decyzja o tym, które kafelki pokazać wizualnie. Odpowiedź trafia do użytkownika.
Co wygrywa w retrievalu — 8 sygnałów praktycznych
Praktyczny ranking sygnałów, które sprawiają, że twój chunk wchodzi do top 20 po rerankingu. Wypracowany z testów na 180 zapytaniach i 6 domenach w różnych niszach.
1. Pokrycie semantyczne zapytania
Chunk musi nie tylko zawierać słowa z zapytania, ale też pokrywać pełny sens. Jeśli zapytanie mówi o „porównaniu kosztów”, chunk bez wartości liczbowych przegrywa z chunkiem zawierającym tabelę cen.
2. Jedność tematyczna chunka
Chunk o jednym temacie bije chunka mieszającego trzy. Jak zmierzyć: czy jedno zdanie streszcza całość akapitu? Jeśli tak, jedność jest zachowana.
3. Obecność kluczowych encji
„Claude Opus 4.6″, „GPT-5″, „Anthropic” — konkretne nazwy własne. Bez nich embedding jest rozmyty, a reranker rzadko wybiera chunk.
4. Struktura pozwalająca na clean cut
Akapit zaczynający się nagłówkiem H2/H3 i kończący zamkniętą myślą bije długi flowing text bez podziałów.
5. Aktualność
Data publikacji lub modyfikacji w ciągu 12–18 miesięcy dla tematów szybko się zmieniających (ceny, technologia, regulacje).
6. Długość w zakresie 200–500 słów
Krótsze chunki są łączone z sąsiadem (ryzyko niedopasowania). Dłuższe są cięte mechanicznie (ryzyko utraty kontekstu).
7. Format list i tabel
Zawartość w liście lub tabeli wchodzi do kontekstu jako spójny blok. Generator preferuje te bloki przy cytowaniu, bo są czytelne.
8. Wewnętrzne linkowanie
Linki z innych stron domeny do tego konkretnego artykułu wzmacniają „topical strength” całej strony w oczach retrievera.
Co wygrywa w generation — 6 reguł sformułowania
Twój chunk wszedł do kontekstu. Teraz zadanie: zostać przytoczony w odpowiedzi, a nie tylko w bibliografii. Generator wybiera w oparciu o styl sformułowania.
Reguła 1 — zdanie otwierające jako TL;DR
Pierwsze zdanie akapitu ma streszczać cały akapit w jednym wywodzie. Model często przytacza właśnie pierwsze zdanie.
Reguła 2 — konkret zamiast abstrakcji
„Claude Opus 4.6 kosztuje 15 USD za 1M tokenów input” wygrywa nad „nowoczesne modele są bardzo wydajne kosztowo”.
Reguła 3 — forma definicji
„X to Y” jako konstrukcja. Model uwielbia przytaczać definicje, bo są samowystarczalne i bezpieczne epistemicznie.
Reguła 4 — brak autoreferencji
„Nasza platforma”, „u nas”, „w naszym doświadczeniu” są filtrowane jako stronnicze. Obiektywizm wygrywa.
Reguła 5 — liczby bez marketingu
„65% redukcja” wygrywa nad „dramatyczna poprawa”. Modele boją się cytować nieprzechodzą epistemicznej weryfikacji.
Reguła 6 — kompletność zdania
Zdanie, które można wyciąć i wkleić, wygrywa z zdaniem, które odwołuje się do „powyżej” lub „wcześniej”.
FAQ — najczęstsze pytania
Czym retrieval różni się od generation?
Retrieval to etap wyszukania fragmentów (chunków) w indeksie — używa BM25 i embeddings, zwraca top 50–500 kandydatów. Generation to etap pisania odpowiedzi przez LLM z użyciem top 5–20 chunków (po rerankingu) jako kontekstu. Retrieval decyduje, „czy w ogóle zostaniesz rozważony”. Generation decyduje, „czy zostaniesz przytoczony”. Google klasyczne używa tylko retrievalu — odpowiedzią jest lista linków. ChatGPT/Perplexity/Gemini łączą oba etapy, dodając syntezę, która wzmacnia lub pomija twój chunk w zależności od tego, jak jest sformułowany.
Czy moja obecna strategia SEO zadziała w ChatGPT?
W 60–70% tak. Wspólne sygnały: autorytet domeny, świeżość, relewancja tematyczna, jakość backlinków, struktura nagłówków. Ale 30–40% różnic jest decydujące: jednostka rankowania (chunk vs. strona), waga semantyki (wyższa w AI), rola JS-renderingu (niższa tolerancja w AI), znaczenie widocznego autora (wyższe w AI). Praktyczny wniosek: zacznij od audytu stron pod chunkowanie — rozbij długie akapity, dodaj H3 co 250–400 słów, przepisz nagłówki jako pytania, dodaj FAQ. Większość zespołów ze zdrowym SEO nadrabia lukę w AI w 8–12 tygodni.
Ile kosztuje optymalizacja pod retrieval vs generation?
Warstwa retrieval (pokrywająca się z SEO): jeśli masz zdrowy content marketing, koszt dodatkowej pracy 10–20% istniejącego budżetu SEO przez pierwsze 3 miesiące (restrukturyzacja) i 5–10% na bieżąco. Warstwa generation (nowa): koszt audytu + przepisania kluczowych 20–40 stron to 4–12 tys. PLN dla średniego serwisu, plus bieżąca dyscyplina redakcyjna. Łącznie dodanie warstwy AIO do istniejącego SEO to w pierwszym roku 15–30% dodatku do budżetu contentowego. ROI: wzrost citation rate i ruchu z AI mierzony w 90–180 dni.
Które chunki są najlepsze pod generation?
Quotable chunki: 200–500 słów, zaczynające się od zdania-odpowiedzi (TL;DR akapitu), zawierające konkretny fakt (liczba, nazwa własna, data), zamknięte w jednym wątku, zakończone logiczną puentą. Źle: chunki z zawieszonym tokiem myśli, z odniesieniami do „powyższego” lub „kolejnego”, bez konkretów, z narracją pierwszoosobową. Test: wyjmij chunk ze strony i wklej do osobnego dokumentu — czy nadal ma sens? Jeśli tak, jest quotable. Jeśli nie, przepisz z dodaniem kontekstu wewnątrz chunka.
Czy AI Overviews w Google to retrieval czy generation?
Oba. AI Overviews to warstwa generacyjna zbudowana nad klasycznym retrievalem Google. Proces: (1) retrieval — Google wybiera top strony jak zwykle, (2) grounding — Gemini dostaje wybrane źródła jako kontekst, (3) generation — model pisze podsumowanie z cytowaniami. Konsekwencja dla wydawców: jeśli rankujesz w top 10 na daną frazę, masz realną szansę trafić do AI Overviews. Jeśli nie rankujesz, nie masz. Dlatego AI Overviews to „nagroda” za dobre SEO klasyczne plus jakość treści pod cytowanie (struktura chunka, gęstość faktów).
Czy warto robić osobne treści pod AI i osobne pod Google?
Zwykle nie. Lepsze jest pisanie treści, które spełniają obie potrzeby — struktura chunka i gęstość faktów pomagają Google (E-E-A-T, user engagement), a jakość long-form pomaga AI (głębsze klastry, autorytet). Wyjątki: landing pages sprzedażowe (optymalizuj głównie pod konwersję, AI to drugorzędny kanał) i content eksperymentalny pod AIO (krótsze posty skupione na jednym pytaniu — test, czy zadziałają). Zasada: jeden dobry format spełniający oba standardy vs. dwa gorsze formaty w każdym kanale.
Reranking — etap, którego nie widać w SEO
Reranker jest niedoceniany, bo w klasycznym SEO nie ma jego odpowiednika. Tymczasem to właśnie on decyduje, które 5–20 chunków z setek kandydatów trafi do kontekstu modelu generującego.
Jak działa reranker
- Cross-encoder ocenia parę (query, chunk) razem, nie osobno — inaczej niż embedding.
- Output to pojedynczy score, sortujący kandydatów.
- Czas: 2–15 ms per para, więc reranker pracuje tylko na skróconej liście 50–500 kandydatów.
- Popularne implementacje: Cohere Rerank 3, Voyage rerank, własne modele OpenAI i Perplexity.
Co optymalizujesz pod reranking
- Dokładność sformułowania pytania w H2/H3 — jeśli nagłówek zawiera pełne pytanie użytkownika, reranker daje wysoki score.
- Kompletność odpowiedzi w akapicie następującym po nagłówku — musi być samowystarczalna.
- Brak redundancji — dwa chunki mówiące prawie to samo tracą, bo reranker faworyzuje różnorodność.
Dlaczego reranking zmienia ranking
Chunk może wejść do retrievalu na 47. miejscu i po rerankingu skoczyć na 4. Odwrotnie też — chunk top 5 w embeddingu może wypaść z top 20 po rerankingu, bo nie pasuje precyzyjnie do intencji. To miejsce, w którym styl sformułowania wygrywa z samą relewancją.
Porównanie trzech silników na warstwach retrieval i generation
Trzej dostawcy różnią się na każdej z dwóch warstw. Poniższa tabela zbiera różnice, które mają znaczenie dla strategii treści.
| Warstwa / cecha | ChatGPT Search | Perplexity | Gemini |
|---|---|---|---|
| Źródło retrievalu | Indeks Bing + warstwa OpenAI | Własny indeks Sonar | Google Search |
| Reranker | Wewnętrzny model OpenAI | Własny, trenowany na kliknięciach | Wewnętrzny Google |
| Model generujący | GPT-5 / GPT-5 mini | Sonar / Claude / GPT (wybór) | Gemini 2.5 Pro / Flash |
| Styl cytowania | Inline + końcowe linki | Kafelki + inline numery | Oznaczone fragmenty |
| Liczba źródeł w kontekście | 5–12 | 15–30 (Pro: do 80) | 10–20 |
| Preferencja formatu | Quotable zdania | Tabele i listy | Głębokie analizy |
Jak różnicowanie wpływa na strategię
Jeśli twoim głównym celem jest Perplexity, inwestuj w tabele porównawcze i listy. Jeśli ChatGPT, w krótkie quotable zdania-odpowiedzi. Jeśli Gemini, w głębokie sekcje z dobrym E-E-A-T i Schema. W praktyce większość firm pisze pod wszystkich trzech i dywersyfikuje taktyki w obrębie jednego artykułu.
Kontekst modelu generującego — co się tam naprawdę dzieje
Kiedy mówimy „model dostaje top 5–20 chunków”, uproszczamy. W rzeczywistości kontekst składa się z kilku warstw, które wpływają na sposób cytowania.
Warstwa 1 — prompt systemowy
Zdefiniowany przez dostawcę (OpenAI, Perplexity, Google). Zawiera instrukcje o stylu, cytowaniach, formacie odpowiedzi. Użytkownik go nie widzi, ale to on dyktuje, czy model cytuje obficie, czy skąpo.
Warstwa 2 — historia rozmowy
Poprzednie zapytania i odpowiedzi użytkownika. Wpływa na interpretację aktualnego pytania — model personalizuje odpowiedź pod kontekst konwersacji.
Warstwa 3 — zbiór chunków z retrievalu
Top 5–20 fragmentów posortowanych po rerankingu. Często z metadanymi: URL, tytuł strony, data, autor.
Warstwa 4 — aktualne zapytanie użytkownika
Pytanie przepisane lub w oryginalnej formie, zwykle na końcu kontekstu (recency bias — model patrzy najmocniej tam).
Konsekwencje dla wydawcy
Twój chunk nie walczy w próżni — walczy z 4–19 innymi chunkami o uwagę modelu. Im bardziej odróżnia się wartościowo (gęstość faktów, konkretność, świeża data), tym wyższa szansa cytowania. Im bardziej jest „jeszcze jednym głosem w tle”, tym niższa.
Case: redesign chunków pod cytowalność
Konkretny przykład z audytu e-commerce fashion z grudnia 2025. Przed: 65 artykułów kategorii „guide”. Citation rate: 2,1% (na 200 testowanych pytaniach). Po: 15,3%. Zmiana: tylko przepisanie struktury, bez zmiany treści merytorycznej.
Co zmieniono w strukturze
- Każdy H2 przepisany z etykiety na pytanie („Jak dobrać rozmiar X” zamiast „Rozmiar”).
- Dodano H3 co 280–350 słów.
- Pierwszy akapit każdej sekcji zaczyna się zdaniem-odpowiedzią (TL;DR sekcji).
- Listy zamiast flowing text tam, gdzie mogły być listy.
- Tabele w każdym artykule porównawczym (było: 3 z 65, po: 42 z 65).
- FAQ 6–8 pytań w formacie
<details>.
Wyniki
- Citation rate wzrósł 7,3× (z 2,1% do 15,3%).
- Ruch z referrerów AI: +340% w 90 dniach.
- Pozycje Google: bez regresu, częściowo wzrost (średnia pozycja -1,8 na głównych frazach).
- Czas edycji per artykuł: 90–150 minut.
Lekcja
Warstwa generation reaguje na strukturę silniej niż warstwa retrieval. Dobre chunki wchodzą do kontekstu, ale to sformułowanie decyduje o przytoczeniu. Reorganizacja istniejącej treści (bez pisania od nowa) może dać 5–8× wzrost cytowań.
Co dalej
Retrieval i generation zrozumiane — kolejne kroki to głębsza mechanika cytowań oraz pomiar widoczności.
- Jak ChatGPT, Perplexity i Gemini znajdują i oceniają źródła — pełny pipeline wyszukiwania z porównaniem trzech silników.
- Dlaczego LLM cytuje jedne strony a inne ignoruje — lista 30 sygnałów decydujących o cytowaniu.
- Pillar AIO 2026 — pełna strategia optymalizacji pod wyszukiwarki AI.