Kolaps wyszukiwania AI: zatruty internet i petla cytowan

Wyszukiwarki oparte na sztucznej inteligencji moga paradoksalnie zatruwac sie wlasnymi odpowiedziami. Z glosnej analizy naglosnionej pod koniec czerwca 2026 roku wynika, ze gdy w internecie przybywa tresci generowanych maszynowo, systemy retrieval-augmented generation zaczynaja cytowac przede wszystkim inne teksty AI, a jakosc oraz roznorodnosc zrodel gwaltownie spada. Branza nazywa to zjawisko „kolapsem wyszukiwania” (retrieval collapse) i traktuje jako jedno z powazniejszych zagrozen dla widocznosci w odpowiedziach ChatGPT, Perplexity czy Google AI Overviews.

Sprawa wrocila na pierwsze strony serwisow technologicznych za sprawa publikacji portalu Axios z 25 czerwca, ktory zestawil akademickie badania nad zanieczyszczeniem sieci z komercyjna symulacja firmy Graphite. Obraz, ktory wylania sie z obu zrodel, jest niewygodny dla calego ekosystemu generative search: im wiecej AI pisze, tym chetniej AI samo siebie cytuje, a ludzie znikaja z lancucha cytowan.

Kontekst: internet zalany trescia maszynowa

Problem nie powstal z dnia na dzien. Od premiery generatywnych asystentow koszt produkcji tekstu spadl niemal do zera, a siec zaczela wypelniac sie artykulami, opisami produktow i poradnikami pisanymi w calosci przez modele jezykowe. W tym samym czasie zmienila sie struktura ruchu w internecie: jak pisalismy w analizie o tym, ze boty po raz pierwszy generuja wiecej ruchu niz ludzie, crawlery AI i automaty przejely wieksza czesc aktywnosci sieciowej niz realni uzytkownicy.

Wyszukiwarki generatywne dzialaja w modelu RAG: najpierw wyszukuja dokumenty pasujace do zapytania, a potem na ich podstawie skladaja odpowiedz. Jesli pula dokumentow, z ktorej czerpia, sklada sie coraz czesciej z tresci maszynowej, asystent buduje odpowiedz na fundamencie wlasnych, wczesniejszych wytworow. To petla sprzezenia zwrotnego, ktora w skrajnym scenariuszu odcina model od oryginalnych, ludzkich zrodel wiedzy.

Do tego dochodzi warstwa manipulacji. Tresc syntetyczna bywa celowo optymalizowana pod algorytmy, a czasem wprost zatruwana, by przepchnac konkretny przekaz. Pokazalismy to w materiale o tym, jak trzynascie slow wystarczy, by oszukac agenty deep research przez spreparowane wpisy na forach. Kolaps wyszukiwania laczy oba watki w jeden mechanizm.

Mechanika tej petli jest dosc bezlitosna. Modele jezykowe ucza sie na danych z internetu, a nastepnie produkuja tresc, ktora do tego internetu wraca i staje sie materialem treningowym oraz zrodlem cytowan dla kolejnych generacji. Kiedy udzial tekstow ludzkich maleje, kazda runda obiegu wzmacnia statystyczne wzorce typowe dla maszyn: te same sformulowania, te same struktury argumentacji, te same przyklady. Zjawisko bywa porownywane do fotokopiowania kopii, w ktorym z kazdym powtorzeniem traci sie detale oryginalu, az zostaje rozmyty schemat.

Kluczowe fakty z badan

Fundamentem dyskusji jest praca naukowa zatytulowana „Retrieval Collapses When AI Pollutes the Web”, opublikowana 19 lutego 2026 roku przez troje badaczy zwiazanych z koreanska firma Naver. Zespol zbudowal kontrolowane srodowisko, w ktorym krok po kroku zwiekszal udzial tresci maszynowej w puli dokumentow i mierzyl, jak zmienia sie zachowanie systemow wyszukiwania.

Eksperyment opieral sie na tysiacu par pytanie-odpowiedz z benchmarku MS MARCO oraz dziesieciu tysiacach dokumentow pobranych z czolowych wynikow Google. Symulacja przebiegala przez dwadziescia rund zanieczyszczania, w ktorych model GPT-5 Nano generowal tania tresc imitujaca farmy contentu, a GPT-5 Mini pelnil role oceniajacego. Badacze sledzili trzy wskazniki: udzial AI w calej puli dokumentow, udzial AI w pierwszej dziesiatce wynikow oraz udzial tresci syntetycznej w finalnych cytowaniach.

Parametr	Wartosc
Udzial AI w puli dokumentow	50 procent
Tresc AI w czolowych wynikach (ranker BM25)	ponad 68 procent
Udzial AI przy 67 procentach puli	ponad 80 procent czolowych wynikow
Zaleznosc rankera LLM od tresci AI (przy 50 procentach puli)	okolo 76 procent
Penetracja tresci adwersaryjnej (BM25)	19–24 procent
Penetracja tresci adwersaryjnej (ranker LLM)	blisko zera

Z liczb wynika prosty wniosek: wystarczy, ze polowa dostepnych dokumentow pochodzi od maszyn, a klasyczny ranker oparty na dopasowaniu slow kluczowych zaczyna obsadzac czolowke wynikow przede wszystkim trescia AI. Przy dwoch trzecich zanieczyszczenia ludzkie zrodla praktycznie znikaja z pierwszej dziesiatki.

Dwa etapy kolapsu

Autorzy opisuja kolaps jako proces dwuetapowy. Najpierw tresc generowana maszynowo dominuje wyniki wyszukiwania i eroduje roznorodnosc zrodel. Potem do potoku trafiaja materialy niskiej jakosci lub celowo adwersaryjne, ktore przeciskaja sie przez filtry rankingowe. Co istotne, wskazniki trafnosci odpowiedzi pozostawaly pozornie stabilne, mimo ze baza dowodowa odrywala sie od ludzkich zrodel. Innymi slowy, asystent nadal brzmial wiarygodnie, choc jego fundament cichcem sie wykruszal.

Symulacja Graphite: AI cytuje samo siebie

Drugim filarem czerwcowej dyskusji jest analiza firmy Graphite, ktora przeprowadzila wlasna symulacje. Na probie tysiaca pieciuset dwudziestu osmiu przebiegow az 79,6 procent zakonczylo sie kolapsem rozumianym jako zawezenie i powtarzalnosc odpowiedzi. Modele cytowaly wlasne, wygenerowane przez AI tresci w 38,9 procent przypadkow, podczas gdy materialy pisane przez ludzi trafialy do cytowan zaledwie w 7,4 procent. To ponad pieciokrotna przewaga tresci maszynowej.

Nalezy jednak zachowac ostroznosc interpretacyjna. Sami komentatorzy, na ktorych powoluje sie Axios, podkreslaja, ze badanie Graphite to symulacja przygotowana przez firme majaca komercyjny interes w temacie widocznosci w AI, a nie recenzowana praca akademicka. Wynik pokazuje kierunek ryzyka, nie zas dowod, ze realne wyszukiwarki juz dzis sie zalamuja.

Mimo to zbieznosc obu zrodel jest wymowna. Niezalezna praca akademicka z lutego oraz komercyjna symulacja z czerwca dochodza do podobnego wniosku: gdy tresc maszynowa przekracza pewien prog obecnosci w sieci, systemy retrieval zaczynaja preferowac wlasny gatunek. Roznia sie metodologia i skala, ale wskazuja ten sam kierunek. To wystarczajacy powod, by branza potraktowala zanieczyszczenie sieci jako realne ryzyko operacyjne, a nie odlegla ciekawostke z laboratorium.

Co to znaczy dla SEO i AIO

Dla specjalistow SEO oraz tych, ktorzy zajmuja sie optymalizacja pod modele jezykowe (AIO, okreslana tez jako GEO, czyli generative engine optimization), wnioski sa konkretne. Po pierwsze, jakosc i pochodzenie tresci zyskuja na znaczeniu kosztem masowej produkcji. Skoro systemy zaczynaja preferowac materialy AI, najwieksza wartoscia rynkowa staje sie tresc, ktorej maszyna nie potrafi latwo podrobic: oryginalne dane, badania wlasne, eksperckie komentarze i realne doswiadczenie.

Po drugie, rosnie ranga sygnalow proweniencji, czyli mozliwosci wykazania, skad pochodzi informacja. Badacze z Naver wprost sugeruja, ze zamiast filtrowac tresc po fakcie, wyszukiwarki powinny budowac grafy pochodzenia (provenance graphs) i defensywne strategie rankingowe. Dla wydawcow oznacza to, ze klarowne autorstwo, cytowania zrodel pierwotnych i transparentna metodologia moga w przyszlosci wazyc na widocznosci.

Po trzecie, kolaps wyszukiwania zmienia kalkulacje wokol llms.txt i innych prob sterowania tym, co modele widza. Przypomnijmy, ze w naszej analizie pokazalismy, jak Google ignoruje plik llms.txt, a 97 procent takich plikow nie dostaje ani jednego zapytania. Skoro deklaratywne mechanizmy zawodza, walka o cytowania przenosi sie na poziom realnej jakosci i wiarygodnosci zasobu.

Praktyczne priorytety na najblizsze miesiace

Stawiaj na tresc trudna do zsyntetyzowania: dane wlasne, wywiady, studia przypadkow, autorskie analizy.
Wzmacniaj sygnaly autorstwa i eksperckosci, bo to one moga stac sie kryterium odsiewania tresci maszynowej.
Cytuj zrodla pierwotne i linkuj do oryginalnych badan, zwiekszajac proweniencje wlasnych publikacji.
Monitoruj, czy Twoja marka jest cytowana w odpowiedziach AI, a nie tylko pozycjonowana w klasycznych wynikach.
Unikaj masowej produkcji tekstow pod algorytm, ktora moze trafic pod polityki antyspamowe wyszukiwarek.

Trzy wskazniki, ktore warto znac

Badacze z Naver zaproponowali trzy miary, ktore pomagaja opisac postep zanieczyszczenia. Pierwsza to udzial tresci maszynowej w calej puli dostepnych dokumentow, czyli skala problemu u zrodla. Druga to udzial AI w pierwszej dziesiatce wynikow, a wiec to, co realnie widzi system skladajacy odpowiedz. Trzecia to udzial tresci syntetycznej w finalnych cytowaniach, czyli w tym, na co asystent faktycznie sie powoluje. Roznica miedzy tymi poziomami bywa duza: tresc AI moze stanowic polowe puli, a jednoczesnie ponad dwie trzecie czolowych wynikow, co pokazuje, jak rankingi potrafia wzmacniac przewage materialu maszynowego.

Dla praktyka oznacza to, ze sama obecnosc w indeksie nie wystarczy. Liczy sie, czy tresc przebija sie do warstwy, z ktorej model czerpie cytowania. To kolejny argument za jakoscia i wiarygodnoscia zamiast ilosci, bo wlasnie te cechy decyduja o awansie z puli do czolowki, a z czolowki do finalnej odpowiedzi.

Reakcje branzy

W srodowisku marketerow czerwcowe doniesienia padly na podatny grunt. Generative engine optimization, definiowana jako nastepca SEO nastawiony na wplywanie na to, co modele cytuja, streszczaja i rekomenduja, juz wczesniej budzila pytania o granice manipulacji. Google odpowiedzialo aktualizacja polityki „scaled content abuse”, wymierzona w strony tworzone masowo wylacznie po to, by przepychac sie w wynikach, a take komunikatem, ze zasady antyspamowe obejmuja rowniez funkcje AI w wyszukiwarce.

Czesc komentatorow zwraca uwage, ze kolaps wyszukiwania to argument za powrotem do fundamentow: realnej wartosci dla czytelnika zamiast inzynierii cytowan. Inni studza emocje, przypominajac, ze badania to modele i symulacje, a rzeczywiste systemy produkcyjne maja dodatkowe warstwy obronne, ktorych eksperymenty laboratoryjne nie odwzorowuja w pelni. Wspolny mianownik jest taki, ze problem zanieczyszczenia sieci trzeba traktowac powaznie, nawet jesli skala katastrofy bywa wyolbrzymiana.

Z perspektywy wydawcow niepokoi zwlaszcza obserwacja, ze trafnosc odpowiedzi potrafi maskowac utrate roznorodnosci. Asystent moze brzmiec rownie pewnie, gdy opiera sie na ludzkiej wiedzy, jak i wtedy, gdy karmi sie wlasnymi tekstami. Dla uzytkownika roznica jest niewidoczna, a dla rynku informacji potencjalnie fundamentalna.

Pojawiaja sie tez glosy, ze kolaps wyszukiwania to w istocie problem ekonomiczny, a nie wylacznie techniczny. Jesli widocznosc w odpowiedziach AI przestanie odsylac ruch do zrodel, autorzy oryginalnych tresci traca bodziec, by je tworzyc. W dluzszej perspektywie moze to oslabic sama baze wiedzy, z ktorej modele czerpia, i przyspieszyc petle zubozenia. To argument, ktory laczy debate o kolapsie z szersza dyskusja o przyszlosci modelu wydawniczego w erze asystentow.

Co dalej

Najblizsze miesiace przyniosa zapewne kolejne proby pomiaru skali zjawiska na zywych systemach, a nie tylko w symulacjach. Kluczowe pytanie brzmi: jaki realny odsetek tresci w sieci jest dzis maszynowy i czy zbliza sie do progow, przy ktorych badacze obserwowali zalamanie. Drugim watkiem beda mechanizmy obronne dostawcow wyszukiwarek, od grafow pochodzenia po preferowanie zrodel o potwierdzonej reputacji.

Dla polskich firm i wydawcow plynie z tego jasny sygnal strategiczny. Inwestycja w tresc autorska, ekspercka i mozliwa do zweryfikowania przestaje byc tylko kwestia wizerunku, a staje sie polisa na utrzymanie widocznosci w swiecie, w ktorym maszyny coraz chetniej cytuja maszyny. Kto dzis zbuduje reputacje zrodla pierwotnego, ten ma szanse przetrwac ewentualny kolaps z mocniejsza pozycja.

Warto tez sledzic, jak na nowy uklad zareaguja narzedzia analityczne i raporty widocznosci w AI. Pomiar cytowan, a nie tylko pozycji, bedzie w nadchodzacym roku jednym z najwazniejszych obszarow rozwoju dla calej branzy SEO i AIO.

Dobrze jest tez patrzec na kolaps wyszukiwania w kontekscie innych sygnalow, ktore obserwujemy na rynku. Rosnacy udzial ruchu generowanego przez automaty, rozjazd dominacji poszczegolnych asystentow oraz zmieniajace sie zasady cytowan skladaja sie na jeden obraz: ekosystem informacji wchodzi w faze, w ktorej liczy sie nie sama obecnosc tresci, lecz jej wiarygodnosc i mozliwosc potwierdzenia. Firmy, ktore juz teraz uloza procesy redakcyjne wokol tych kryteriow, zyskaja przewage w momencie, gdy wyszukiwarki zaczna na powaznie premiowac proweniencje.

Na poziomie czysto operacyjnym warto rozwazyc audyt wlasnego portfolio tresci pod katem tego, ile materialow ma realna, niemozliwa do podrobienia wartosc, a ile to wypelniacz, ktory za rok moze zlac sie z morzem podobnych tekstow AI. Taka inwentaryzacja pozwala skierowac budzet tam, gdzie zwrot bedzie najtrwalszy, czyli w zasoby budujace autorytet zrodla.

FAQ

Czym jest kolaps wyszukiwania (retrieval collapse)?

To zjawisko, w ktorym systemy wyszukiwania oparte na AI zaczynaja dominujaco cytowac tresci generowane maszynowo, kosztem roznorodnosci i jakosci zrodel ludzkich. W skrajnym scenariuszu odpowiedzi modeli opieraja sie glownie na wczesniejszych wytworach AI, co tworzy petle sprzezenia zwrotnego i moze przepuszczac do wynikow tresc niskiej jakosci lub adwersaryjna.

Skad pochodza przytaczane liczby?

Glowne dane pochodza z pracy „Retrieval Collapses When AI Pollutes the Web” opublikowanej 19 lutego 2026 roku przez badaczy zwiazanych z firma Naver oraz z symulacji firmy Graphite, ktora naglosnil serwis Axios pod koniec czerwca 2026 roku. Praca akademicka mierzyla udzial tresci AI w wynikach, a analiza Graphite badala sklonnosc modeli do cytowania wlasnych tekstow.

Czy to oznacza, ze wyszukiwarki AI juz sie zalamuja?

Nie. Komentatorzy podkreslaja, ze chodzi o symulacje i modele laboratoryjne, a nie dowod na realny kolaps systemow produkcyjnych. Badanie Graphite pochodzi dodatkowo od firmy o komercyjnym interesie w temacie i nie jest recenzowane naukowo. Wyniki pokazuja kierunek ryzyka, ktory branza powinna monitorowac.

Jak SEO i AIO powinny zareagowac na to ryzyko?

Priorytetem staje sie tresc trudna do podrobienia przez maszyny: dane wlasne, badania, eksperckie komentarze i realne doswiadczenie. Rosnie znaczenie sygnalow autorstwa, cytowania zrodel pierwotnych i transparentnej metodologii, czyli proweniencji. Masowa produkcja tekstow pod algorytm staje sie coraz bardziej ryzykowna, takze ze wzgledu na polityki antyspamowe wyszukiwarek.

Co to jest GEO i czym rozni sie od SEO?

GEO (generative engine optimization), nazywane tez AIO, to optymalizacja pod modele jezykowe i wyszukiwarki generatywne. W odroznieniu od klasycznego SEO, ktore walczy o pozycje w niebieskich linkach, GEO koncentruje sie na tym, by tresc byla cytowana, streszczana i rekomendowana przez asystentow AI w rodzaju ChatGPT, Perplexity czy Gemini.

Zatruty internet grozi kolapsem wyszukiwania AI: modele zaczynaja cytowac same siebie