Zatruwanie agentów deep research: 13 słów zmienia wynik

Wystarczy kilkanaście słów wklejonych w komentarz na forum, by autonomiczny agent badawczy oparty na sztucznej inteligencji zaczął rekomendować nieistniejącą kryptowalutę jako realną opcję inwestycyjną. Tak brzmi główny wniosek z pracy badaczy z Cornell Tech, która w ostatnich dniach obiegła branżę SEO i AIO. Naukowcy pokazali, że popularne pipeline’y typu deep research można „zatruć” treścią generowaną przez użytkowników, a klasyczne filtry antyspamowe tego nie wychwytują.

Dla osób, które budują widoczność marek w odpowiedziach ChatGPT, Gemini czy Perplexity, to sygnał ostrzegawczy. Walka o cytowania w generatywnej wyszukiwarce zyskuje nowy, niewygodny wymiar: nie chodzi już tylko o to, jak zaistnieć w odpowiedzi modelu, ale też o to, kto i w jaki sposób może tę odpowiedź po cichu przechylić na swoją korzyść.

Kontekst: agenty deep research stały się nową warstwą wyszukiwania

W ciągu ostatniego roku tryb głębokiego researchu wszedł do głównego nurtu. OpenAI, Google i Perplexity oferują funkcje, które samodzielnie planują zapytania, przeszukują dziesiątki źródeł, czytają je i składają w wielostronicowy raport z przypisami. Użytkownik zadaje jedno pytanie, a system w tle wykonuje pracę, która kiedyś zajmowała analitykowi pół dnia. To wygodne i właśnie dlatego tak szybko zyskuje zaufanie odbiorców.

Problem w tym, że agent badawczy jest tak wiarygodny, jak źródła, które wciągnie do swojego łańcucha rozumowania. A te źródła w sporej części pochodzą z treści tworzonych przez użytkowników. Badacze z Cornell Tech (Tingwei Zhang, Harold Triedman i Vitaly Shmatikov) opublikowali na arXiv pracę zatytułowaną „Deep-Research Agents Can Be Poisoned via User-Generated Content”, a jej ustalenia w okolicach 24 czerwca opisał między innymi serwis Search Engine Land. To właśnie ten materiał wywołał szerszą dyskusję w środowisku specjalistów od optymalizacji pod wyszukiwarki i pod modele językowe.

Dlaczego to ważne akurat dla SEO i AIO? Bo mechanika, którą opisują naukowcy, jest lustrzanym odbiciem tego, czym zajmuje się branża. Optymalizacja pod modele (nazywana GEO lub AEO) polega na tym, by treść marki trafiała do odpowiedzi generatywnych. Atak opisany przez Cornell pokazuje ciemną stronę tej samej monety: jeśli model można skłonić do cytowania marki, można go też skłonić do cytowania fałszywej rekomendacji.

Kluczowe fakty z badania

Zespół zbudował środowisko symulacyjne nazwane GeoStorm i przetestował trzy otwarte pipeline’y deep research: STORM, Co-STORM oraz OmniThink. Komercyjne funkcje OpenAI Deep Research i Gemini Deep Research zostały przeanalizowane pod kątem architektury, ale nie były testowane „na żywo”. Sam atak badacze nazwali WARP, czyli Web Agent Retrieval Poisoning. Najważniejsze liczby zebraliśmy poniżej.

Parametr	Wynik
Udział adresów URL z platform UGC w pobieranych źródłach	17–23%
Udział Reddita wśród źródeł UGC	54–71%
Minimalna długość wstrzykniętego fragmentu	13–15 słów
Pojawienie się fałszywej encji przy jednej zatrutej stronie	38–51% raportów
Pojawienie się fałszywej encji przy wielu zatrutych stronach	42–62% raportów
Skuteczność, gdy wstrzyknięty tekst stanowił poniżej 4% wątku	30–53% raportów

Najbardziej obrazowy przykład dotyczy fikcyjnej kryptowaluty o nazwie BananaCoin. Jedno zdanie liczące piętnaście słów, wpisane w treść przetwarzaną przez Co-STORM, wystarczyło, by raport końcowy przedstawił ten wymyślony token jako jedną z opcji inwestycyjnych. Skala manipulacji jest tu uderzająco niewspółmierna do nakładu: kilkanaście słów kontra wielostronicowe, profesjonalnie wyglądające opracowanie z cytowaniami.

Na czym polega atak

Mechanizm jest prosty i właśnie ta prostota czyni go groźnym. Agent deep research, planując odpowiedź, generuje zapytania i pobiera strony, w tym wątki z Reddita, opisy filmów na YouTube, posty z Facebooka czy hasła z Wikipedii. Według badaczy te platformy odpowiadały za od 17 do 23 procent wszystkich pobranych adresów, a sam Reddit stanowił od 54 do 71 procent źródeł z kategorii UGC. To oznacza, że jeśli ktoś chce wpłynąć na agenta, wie dokładnie, gdzie umieścić spreparowaną treść.

Atakujący nie musi przejmować całego wątku ani publikować ściany tekstu. Wystarczy krótki, płynnie napisany fragment osadzony w istniejącej dyskusji. Co istotne, badacze odnotowali skuteczność rzędu 30–53 procent nawet wtedy, gdy wstrzyknięty tekst stanowił mniej niż 4 procent długości całego wątku. Innymi słowy: ziarno trucizny jest niewielkie, a kiełkuje w finalnym raporcie z zaskakującą regularnością.

Cały łańcuch ataku WARP można streścić w kilku krokach. Atakujący najpierw ustala, na jakie zapytania agent reaguje w danej kategorii, potem identyfikuje popularne wątki UGC, które model najczęściej pobiera, a na końcu osadza w nich krótki, naturalnie brzmiący fragment z pożądaną narracją. Reszta dzieje się automatycznie: agent pobiera wątek, model językowy uznaje wtręt za wiarygodny element dyskusji i przenosi go do raportu. Nie ma tu włamania, nie ma exploita w klasycznym sensie, jest jedynie sprytne wykorzystanie tego, że systemy ufają otwartej sieci.

Druga warstwa problemu to efekt prania wiarygodności. Treść, która zaczyna życie jako anonimowy komentarz, przechodzi przez agenta i wychodzi z drugiej strony jako zdanie w schludnym raporcie opatrzonym przypisem. Dla czytelnika wygląda to jak rzetelnie sprawdzona informacja, bo trafia w otoczeniu prawdziwych, sensownych cytowań. Granica między faktem a wstrzykniętą narracją zaciera się całkowicie.

Dlaczego filtry zawodzą

Najbardziej niepokojący element badania dotyczy obrony. Wiele systemów polega na filtrach opartych na perpleksji, czyli na statystycznej nietypowości tekstu. Założenie jest takie, że treść spamowa lub generowana maszynowo odstaje od naturalnego języka i da się ją wyłapać. Tymczasem wstrzyknięte fragmenty były pisane przez model językowy, więc brzmiały płynnie i naturalnie. Efekt? Filtr częściej oznaczał zwykłą, autentyczną wypowiedź użytkownika niż spreparowany wtręt.

Zawiodły też kontrole na poziomie całego raportu. System sprawdzający gotowy dokument nie wychwytywał, że jedno z dziesiątek zdań pochodzi z zatrutego źródła, bo nic w nim nie wyglądało podejrzanie. To pokazuje, jak trudne jest wykrywanie tego typu manipulacji: nie ma tu literówek, nie ma niegramatycznych fraz, nie ma oczywistych sygnałów spamu. Jest płynny, przekonujący tekst, który po prostu jest nieprawdziwy.

Co to znaczy dla SEO i AIO

Dla specjalistów od widoczności w wyszukiwarkach i modelach to badanie ma kilka praktycznych konsekwencji. Po pierwsze, redefiniuje pojęcie reputacji marki. W świecie klasycznego SEO dbaliśmy o linki, recenzje i wzmianki. W świecie AIO trzeba dodatkowo monitorować, co na temat marki mówi się na platformach UGC, bo to właśnie one zasilają odpowiedzi agentów. Negatywna lub fałszywa narracja w popularnym wątku na Reddicie może realnie wpłynąć na to, jak model opisze produkt.

Po drugie, rośnie znaczenie obecności w wiarygodnych, własnych źródłach. Jeśli agent szuka informacji o marce i znajduje spójny, autorytatywny materiał na stronie producenta oraz w renomowanych serwisach, trudniej jest go przekonać pojedynczym, podrzuconym komentarzem. To argument za budowaniem mocnej, dobrze ustrukturyzowanej bazy treści, a nie za sztuczkami. Pisaliśmy o tym przy okazji analizy, w której Google ostrzegało przed narzędziami do AI SEO i kupowaniem cytowań. Wniosek z obu materiałów jest zbieżny: autentyczność wygrywa z manipulacją w dłuższej perspektywie, choć krótkoterminowo luki istnieją.

Po trzecie, badanie podważa naiwne podejście do plików sterujących zachowaniem botów. Skoro agenty i tak masowo sięgają po treści użytkowników, samo zarządzanie dostępem na poziomie własnej domeny nie chroni przed narracją budowaną poza nią. Przypomina to wcześniejsze ustalenia, według których Google w praktyce ignoruje pliki llms.txt: deklaratywne sygnały dla modeli to za mało, bo realny obieg informacji toczy się w komentarzach, na forach i w serwisach społecznościowych.

Po czwarte, dochodzi kwestia bezpieczeństwa marki w nowym kanale. Funkcje takie jak agenty informacyjne uruchamiane przez Google w AI Mode mają działać w tle i dostarczać użytkownikom gotowe wnioski. Im bardziej autonomiczny agent, tym mniej okazji, by człowiek zweryfikował, skąd pochodzi rekomendacja. To przenosi ciężar odpowiedzialności na dostawców modeli i na zespoły, które monitorują reputację w czasie rzeczywistym.

Jak chronić markę przed zatruciem rekomendacji

Choć główny ciężar obrony spoczywa na dostawcach modeli, marki nie są wobec tego zjawiska bezbronne. Klucz leży w przesunięciu uwagi z samej strony firmowej na cały ekosystem, w którym krąży narracja o produkcie. Skoro agenty czerpią wiedzę z wątków na Reddicie, opisów na YouTube czy haseł w Wikipedii, to właśnie tam rozstrzyga się, jak model opisze ofertę. Bierne ignorowanie tych kanałów przestało być opcją.

Warto potraktować poniższą listę jako punkt wyjścia do audytu obecności marki w warstwie generatywnej. Żaden z tych kroków nie wymaga dużego budżetu, a razem budują odporność na pojedyncze, podrzucone fragmenty.

Regularnie zadawaj agentom deep research pytania o swoją markę, kategorię i konkurencję, a następnie sprawdzaj, jakie źródła cytują i czy nie pojawia się obca narracja.
Monitoruj duże platformy UGC (Reddit, YouTube, fora branżowe) pod kątem wzmianek o produkcie, traktując je jak realny kanał reputacji, a nie margines.
Buduj spójną, dobrze udokumentowaną bazę treści własnych, która stanowi wiarygodny punkt odniesienia, gdy model szuka faktów.
Reaguj szybko na fałszywe lub wprowadzające w błąd informacje w popularnych wątkach, zanim utrwalą się w odpowiedziach agentów.
Dokumentuj kluczowe dane o firmie (nazwy, liczby, daty) w renomowanych źródłach, by utrudnić wstrzyknięcie sprzecznej, lecz płynnie napisanej narracji.

To podejście jest spójne z tym, co od miesięcy powtarzają specjaliści od AIO: w generatywnej wyszukiwarce wygrywa marka, która jest spójnie opisana w wielu wiarygodnych miejscach naraz. Pojedyncze zatrute źródło ma wtedy mniejszą szansę przebicia się przez krzyżową weryfikację, którą agent (przynajmniej teoretycznie) powinien wykonać. Im więcej niezależnych, zgodnych sygnałów, tym trudniej je zagłuszyć.

Reakcje branży

W środowisku SEO i AIO praca z Cornell wywołała mieszankę uznania i niepokoju. Część specjalistów zwraca uwagę, że to pierwszy tak konkretny, liczbowo udokumentowany dowód na podatność deep researchu, a nie kolejny teoretyczny scenariusz. Inni podkreślają, że badanie dotyczyło głównie otwartych pipeline’ów (STORM, Co-STORM, OmniThink), więc nie da się wprost przełożyć wszystkich liczb na zamknięte, komercyjne produkty OpenAI czy Google, które mają własne, nieujawnione warstwy zabezpieczeń.

Pojawia się też wątek etyczny. Skoro tak łatwo wpłynąć na odpowiedzi agenta, granica między dozwoloną optymalizacją a manipulacją staje się cienka. Branża, która od miesięcy uczy się GEO i AEO, musi zmierzyć się z pytaniem, gdzie kończy się budowanie obecności, a zaczyna zatruwanie ekosystemu. To dyskusja podobna do tej, którą SEO przechodziło przy okazji link buildingu sprzed dekady, tylko stawka jest wyższa, bo dotyczy zaufania do całej warstwy generatywnej.

Dostawcy modeli na razie nie skomentowali szeroko konkretnych wyników. Historycznie reagowali jednak na podobne doniesienia aktualizacjami systemów filtrujących i mechanizmów oceny źródeł. Można więc oczekiwać, że temat odbicia treści UGC w raportach deep research stanie się jednym z priorytetów w pracach nad bezpieczeństwem tych funkcji.

Co dalej

Badacze sugerują, że obrona musi wyjść poza proste filtry tekstowe. Skoro perpleksja zawodzi przy treści pisanej przez model, potrzebne są mechanizmy oceny wiarygodności źródła, krzyżowej weryfikacji faktów między wieloma niezależnymi domenami oraz wykrywania anomalii w samym łańcuchu pobierania. To kierunek, w którym prawdopodobnie pójdą kolejne wersje komercyjnych agentów.

Dla zespołów marketingowych i SEO praktyczny plan na najbliższe miesiące jest dość jasny. Warto włączyć monitoring wzmianek na platformach UGC do standardowego zestawu narzędzi, traktując Reddit, YouTube czy duże fora jako realne źródła sygnałów dla modeli. Warto też testować, jak agenty deep research opisują naszą markę i kategorię, bo to najszybszy sposób, by wychwycić, czy do odpowiedzi nie wkradła się obca narracja. I wreszcie warto inwestować w spójne, dobrze udokumentowane treści własne, które stanowią naturalną przeciwwagę dla pojedynczych, podrzuconych fragmentów.

Jedno jest pewne: deep research nie zniknie, a jego rola w ścieżce decyzyjnej użytkowników będzie rosła. Im powszechniejsze stają się autonomiczne agenty, tym ważniejsze staje się pytanie, komu i czemu ufamy, gdy czytamy wygenerowany raport. Praca z Cornell Tech nie zamyka tematu, ale wyznacza nowy punkt odniesienia w dyskusji o integralności generatywnego wyszukiwania.

FAQ

Czym są agenty deep research?

To funkcje sztucznej inteligencji, które samodzielnie planują zapytania, przeszukują wiele źródeł w sieci, czytają je i składają w wielostronicowy raport z przypisami. Oferują je między innymi OpenAI, Google i Perplexity. Użytkownik zadaje jedno pytanie, a system w tle wykonuje pracę przypominającą researche analityka.

Na czym polega atak opisany przez Cornell Tech?

Badacze nazwali go WARP (Web Agent Retrieval Poisoning). Polega na wstrzyknięciu krótkiego, płynnie napisanego fragmentu (wystarczy 13–15 słów) w treść na platformie UGC, na przykład w komentarz na Reddicie. Agent pobiera tę treść i cytuje ją w raporcie, przedstawiając fałszywą informację jako wiarygodną.

Dlaczego klasyczne filtry nie wykrywają manipulacji?

Filtry oparte na perpleksji szukają tekstu nietypowego statystycznie. Wstrzyknięte fragmenty były jednak pisane przez model językowy, więc brzmiały naturalnie i płynnie. W efekcie filtr częściej oznaczał autentyczne wypowiedzi użytkowników niż spreparowane wtręty. Zawiodły też kontrole na poziomie całego raportu.

Co to oznacza dla SEO i AIO?

Reputacja marki na platformach UGC staje się czynnikiem widoczności w odpowiedziach generatywnych. Warto monitorować, co mówi się o marce na Reddicie, YouTube czy forach, testować, jak agenty opisują naszą kategorię, oraz budować spójną, autorytatywną bazę treści własnych, która równoważy pojedyncze, podrzucone fragmenty.

Czy dotyczy to ChatGPT i Gemini?

Badanie testowało na żywo trzy otwarte pipeline’y: STORM, Co-STORM i OmniThink. Komercyjne funkcje OpenAI Deep Research i Gemini Deep Research przeanalizowano pod kątem architektury, ale nie poddano pełnym testom. Mają one własne, nieujawnione warstwy zabezpieczeń, więc liczb nie należy przekładać wprost, choć sama mechanika ryzyka jest wspólna.

13 słów wystarczy, by oszukać agenty deep research. Cornell pokazuje zatruwanie treścią z forów