Weryfikacja i fact-check tekstów AI: checklist redaktora

15 kwietnia, 2026

Weryfikacja treści AI to osobny krok procesu produkcyjnego, nie „część edycji”. Gdy redaktor sprawdza fakty jednocześnie ze stylem, łapie 40–60% halucynacji. Gdy robi to jako osobny checkpoint z checklistą — łapie 95–100% i robi to w 10–20 minut, a nie w godzinę.

Ten tekst daje redaktorowi gotowy protokół: co sprawdzać, w jakiej kolejności, jakimi narzędziami, w jakich limitach czasu. Metody opisujemy w takiej formie, w jakiej testowaliśmy je w produkcji przez dwa lata na kilkuset artykułach long-form.

W skrócie

  • Dobra weryfikacja treści AI dla tekstu 3 500 słów zajmuje 15–25 minut — jeśli dłużej, brief był słaby.
  • Modele halucynują najczęściej w 5 kategoriach: liczby statystyczne, ceny, daty premier, nazwiska badaczy, cytaty.
  • Sekwencja: skan liczb → weryfikacja nazwisk → kontrola cytatów → test linków → audyt logiczny.
  • Checklist redukuje halucynacje w publikacji z 3–5 na artykuł do 0 w 90% zespołów w ciągu 6 tygodni.
  • Drugi model jako verifier (Perplexity z internetem) skraca ręczny fact-check o 40–60%.

Dlaczego fact-check musi być osobnym krokiem

Redaktor, który edytuje i weryfikuje jednocześnie, wpada w pułapkę: poprawia zdanie stylistycznie, zanim sprawdzi, czy w ogóle powinno być w tekście. Godzinę później usuwa to zdanie, bo liczba była halucynacją — godzina pracy w kosz.

Fact-check przed edycją stylistyczną jest tańszy (usuwa złe zdania, zanim zostaną dopieszczone) i skuteczniejszy (redaktor skupia uwagę na jednym zadaniu). To zasada, która w naszym przewodniku po AI w marketingu 2026 wraca przy każdym kroku procesu.

Co właściwie halucynuje model

  • Liczby statystyczne — „65% firm B2B używa X” bez źródła; liczba wymyślona z średniej pokrewnych twierdzeń.
  • Ceny i warunki licencji — model podaje ceny sprzed 12–18 miesięcy albo zmyśla warianty planów.
  • Daty premier funkcji — miesza GPT-4 z GPT-5, Claude 3 z Claude 4, datami rollout.
  • Nazwiska badaczy i instytucji — „badania prof. Kowalskiego z MIT” bez takiej osoby.
  • Cytaty z publikacji — cytat brzmi wiarygodnie, ale w oryginalnym tekście go nie ma.

Czego model NIE halucynuje

Są obszary, w których ryzyko halucynacji jest niskie: definicje terminów technicznych, mechanizmy działania (SEO, algorytmy, protokoły), ogólnie znane fakty historyczne, struktury dokumentów. W tych obszarach fact-check może być pobieżny — 30 sekund na sekcję.

Protokół weryfikacji w 20 minut — pięć kroków

Checklist ma pięć warstw, każda z osobną logiką i osobnym narzędziem. Kolejność jest istotna: warstwa wcześniejsza łapie błędy, które uczyniłyby weryfikację późniejszych bezcelową.

Krok 1. Skan liczb (3–5 minut)

  1. Wyszukujemy w tekście wszystkie liczby (regex d+).
  2. Dla każdej liczby pytamy: „czy w briefie jest to źródło?”.
  3. Jeśli tak — pomijamy. Jeśli nie — flagujemy do weryfikacji.
  4. Flagowane liczby sprawdzamy w zaufanym źródle (raport branżowy, strona producenta).
  5. Liczby bez źródła usuwamy albo zastępujemy mechanizmem („znacząca redukcja” zamiast „65%”).

Krok 2. Weryfikacja nazwisk (2–4 minuty)

  1. Każde nazwisko osoby, każda nazwa instytucji, każde narzędzie — do listy.
  2. Szybki test: nazwisko + afiliacja w Google/Scholar.
  3. Narzędzie — strona producenta; sprawdzamy, czy istnieje i czy ma cechy, które opisujemy.
  4. Instytucja — sprawdzamy istnienie i rok.
  5. Nazwiska bez potwierdzenia usuwamy bezwarunkowo — koszt błędu jest za wysoki.

Krok 3. Kontrola cytatów (2–4 minuty)

  1. Każdy cytat w cudzysłowie — do listy.
  2. Wklej fragment cytatu w Google lub Perplexity z operatorem dokładnego dopasowania.
  3. Jeśli wynik zero — cytat jest halucynacją, usuwamy.
  4. Jeśli wynik jest z innego źródła — poprawiamy atrybucję.
  5. Cytaty z dokumentów wewnętrznych weryfikujemy przez własny RAG/search.

Krok 4. Test linków (2–3 minuty)

  1. Każdy link (zewnętrzny i wewnętrzny) — otwieramy i sprawdzamy.
  2. Zewnętrzny link do 404 lub zmienionej strony — poprawiamy albo usuwamy.
  3. Wewnętrzny link — sprawdzamy, czy strona już istnieje (pillar, sibling, peer).
  4. Anchor text — czy opisuje cel linka (bez „kliknij tutaj”, „dowiedz się więcej”).
  5. Zgodność URL z content-planem — jeden link to jedno źródło prawdy.

Krok 5. Audyt logiczny (4–8 minut)

  1. Czytamy tekst szybko, szukając sprzeczności wewnętrznych.
  2. Sprawdzamy, czy każda H2 rozwiązuje obiecany problem.
  3. Szukamy duplikatów: czy sekcja X i sekcja Y mówią to samo.
  4. Sprawdzamy, czy TL;DR na górze zgadza się z treścią artykułu.
  5. Sprawdzamy, czy wnioski są uzasadnione przedstawionymi faktami.

Narzędzia wspierające fact-check

Ręczny fact-check skalowany jest kosztowny. Trzy klasy narzędzi skracają go o 40–60% — każde ma inną rolę.

Perplexity jako primary verifier

Perplexity z dostępem do internetu w czasie rzeczywistym jest najszybszym narzędziem do weryfikacji liczb i cytatów. Workflow: kopiujemy zdanie z liczbą, pytamy „czy to prawda, podaj źródło z datą”. Dobry zwrot w 5–15 sekund per zdanie. Wersja płatna (Pro) zwraca lepsze źródła dla specjalistycznych dziedzin.

Google Scholar i Wayback Machine

  • Scholar — weryfikacja nazwisk akademickich i cytatów z publikacji naukowych.
  • Wayback Machine — weryfikacja historycznych dat funkcji, zmian w cennikach, starszych wersji stron.
  • archive.today — kopie zapasowe, gdy Wayback nie ma indeksu.

Własny RAG na wewnętrznych dokumentach

Dla liczb związanych z firmą (nasze wyniki, case studies, benchmarki wewnętrzne) publiczne internety nie pomogą. Potrzebny jest RAG na dokumentach własnych — intranet, reporty, notion. Odpowiedź musi zawierać link do konkretnego dokumentu źródłowego.

Drugi model jako auto-verifier

Prompt do drugiego modelu (innego niż generujący): „Znajdź w poniższym tekście wszystkie zdania faktograficzne (zawierające liczby, nazwiska, daty, cytaty). Dla każdego zdania zwróć: (1) zdanie, (2) typ faktu, (3) poziom ryzyka halucynacji (niski/średni/wysoki), (4) sugerowana metoda weryfikacji”. Wynik kierunkuje ręczny fact-check na zdania najbardziej ryzykowne.

Checklist redaktora — 18 punktów do odhaczenia

Poniższa lista jest tym, co redaktor ma otworzyć przed każdym fact-checkiem. Po miesiącu praktyki większość zespołów uruchamia checklistę z pamięci, ale początkowo warto ją mieć wydrukowaną lub przypiętą do karty artykułu.

Fakty i liczby

  • Każda liczba ma źródło w briefie lub została zweryfikowana w Perplexity.
  • Daty premier funkcji zgadzają się z oficjalną dokumentacją producenta.
  • Ceny API/SaaS są aktualne na dzień publikacji (nie starsze niż 30 dni).
  • Statystyki rynkowe mają autora i rok (lub zostały usunięte).
  • Wewnętrzne liczby (nasze case’y) są w RAG i mają dokument źródłowy.

Ludzie i instytucje

  • Każde nazwisko ma afiliację, która istnieje.
  • Każda nazwa narzędzia odpowiada faktycznie istniejącemu produktowi.
  • Badania przypisane instytucjom — potwierdzone w Scholarze lub na stronie instytucji.
  • Cytaty mają atrybucję sprawdzoną w źródle pierwotnym.

Linki

  • Każdy link zewnętrzny otwiera się (brak 404).
  • Każdy link wewnętrzny prowadzi do istniejącej strony.
  • Anchor text jest naturalny, nie „kliknij tutaj”.
  • Link do pillar występuje co najmniej 2× (wczesny i późny).
  • Linki do siblingów: minimum 2, do peer cluster: minimum 1.

Struktura i logika

  • Każda H2 rozwiązuje problem, który zapowiada.
  • TL;DR zgadza się z treścią artykułu.
  • Nie ma duplikatów tez między sekcjami.
  • Wnioski wynikają z faktów przedstawionych wcześniej w tekście.

Najczęstsze pułapki podczas fact-checku

Nawet z checklistą redaktorzy wpadają w pięć powtarzających się pułapek. Każda z nich obniża recall o 10–25 pp i jest trudna do zauważenia bez świadomej praktyki.

Pułapka 1: złudzenie wiarygodności

Zdanie brzmi profesjonalnie, ma liczbę, autora i instytucję — redaktor zakłada, że to prawda. Model jest doskonały w produkowaniu zdań, które „brzmią”. Zasada przeciwdziałania: wiarygodność stylistyczna zdania nigdy nie zwalnia z weryfikacji źródła.

Pułapka 2: potwierdzenie z pierwszego wyniku Google

Redaktor wkleja zdanie do Google i widzi ten sam tekst na innej stronie — zakłada, że potwierdzone. Problem: może być ta sama halucynacja powielona przez inne treści AI. Zasada: weryfikujemy w źródle pierwotnym (raport, publikacja naukowa, strona producenta), nie w wtórnej reprodukcji.

Pułapka 3: tolerancja dla liczb „zaokrąglonych”

„65% firm” wygląda jak zaokrąglona liczba z prawdziwego badania, więc redaktor nie flaguje. W rzeczywistości model wygenerował ją z uśrednienia pokrewnych stwierdzeń. Zasada: każda liczba bez atrybucji = halucynacja, niezależnie od „wiarygodności” wartości.

Pułapka 4: pomijanie cytatów jako „niegroźnych”

Cytaty brzmią neutralnie, więc redaktor je przepuszcza. Tymczasem halucynowany cytat to największe ryzyko prawne — autor cytatu może zareagować, a artykuł trafia na shortlistę „przykładów manipulacji AI”. Zasada: każdy cytat w cudzysłowie musi być potwierdzony w źródle pierwotnym.

Pułapka 5: pomijanie weryfikacji linków wewnętrznych

„Przecież to nasza strona” — tak, ale link mógł powstać z błędnego slugu, a strona jeszcze nie istnieje. Publikujemy artykuł z 3–4 linkami 404. Zasada: wszystkie linki, również wewnętrzne, testujemy kliknięciem przed publikacją.

Rodzaje błędów i ich koszty

Nie każdy błąd ma tę samą wagę. Niektóre są kosztowne biznesowo (utrata zaufania), inne kosmetyczne.

Tabela klasyfikacji błędów

Typ błęduKoszt biznesowyPriorytet
Halucynowane nazwiskoWysoki — ryzyko reputacyjneKrytyczny
Błędna liczba statystycznaWysoki — zaufanieKrytyczny
Nieprawdziwy cytatBardzo wysoki — ryzyko prawneKrytyczny
Stara cena produktuŚredni — zaufanieWysoki
Zły link zewnętrznyŚredni — UX i SEOWysoki
Literówka w imieniu produktuNiski — SEOŚredni
Drobna niezgodność w tabeliNiskiNiski

Zasada kaskady priorytetów

Jeśli mamy 10 minut na weryfikację, koncentrujemy się na błędach krytycznych. Wysoki i średni priorytet mogą zostać złapane w edycji stylistycznej. Niski priorytet sprawdzamy w ostatnim przebiegu przed publikacją.

Kiedy wstrzymać publikację

  • Jakikolwiek błąd krytyczny niepotwierdzony — wstrzymujemy.
  • Więcej niż 3 błędy wysokiego priorytetu — wracamy do redakcji.
  • Brak możliwości zweryfikowania źródła w 15 minut — usuwamy zdanie.

Studium przypadku: jak zespół wyeliminował halucynacje w 6 tygodni

Zespół B2B SaaS z branży martech publikował 14 artykułów miesięcznie. W początkowym okresie audyt wykazał średnio 4,2 halucynacji per publikacja (liczby, nazwiska, cytaty, linki). Po wprowadzeniu protokołu opisanego w tym tekście, w szóstym tygodniu liczba halucynacji spadła do zera.

Przed wdrożeniem protokołu

Redaktorzy łączyli fact-check z edycją. Średni czas „weryfikacji” to ~10 minut, ale praktycznie rozproszone po całej edycji. Recall (% halucynacji wychwyconych) wynosił ~55%. Trzy halucynacje tygodniowo trafiały do publikacji. Dwa razy w kwartale marka musiała publikować korektę po sygnale od czytelnika.

Po wdrożeniu

Fact-check wyodrębniono jako osobny krok z checklistą 18 punktów. Czas: 18 minut average per artykuł. Recall wzrósł do 96%. Halucynacje w publikacji: zero przez ostatnie 12 tygodni. Korekty po publikacji: zero.

Co konkretnie zadziałało

ZmianaTydzień wdrożeniaEfekt
Wyodrębnienie fact-checku jako osobnego krokuTydzień 1Recall: 55% → 78%
Checklist 18 punktów drukowana przy każdym tekścieTydzień 2Recall: 78% → 89%
Perplexity Pro dla każdej liczbyTydzień 3Recall: 89% → 93%
Drugi model jako pre-scan verifierTydzień 5Recall: 93% → 96%; czas −5 min
Sample losowy 15% niezagrożonych zdańTydzień 6Recall: 96% → 99%+

Lekcje z case’u

  1. Największy skok recall (+23 pp) dało samo wyodrębnienie fact-checku jako osobnego kroku.
  2. Checklist działa nawet bez narzędzi — sama systematyczność daje kolejne +11 pp.
  3. Narzędzia (Perplexity, pre-scan) to już „szlifowanie”, zamykające resztę luki.
  4. Sample losowy kluczowy — wychwytuje błędy, których żaden automat nie oznaczył.

Automatyzacja fact-checkingu

Ręczny fact-check skaluje się do 10–15 artykułów tygodniowo w zespole 2-osobowym. Powyżej tej skali konieczna jest automatyzacja. Szczegóły implementacji pokazujemy w workflow content AI, a integrację z agentami w materiale o agentach AI w marketingu.

Pipeline automatycznego fact-checku

  1. Model-verifier analizuje tekst i zwraca listę zdań faktograficznych z poziomem ryzyka.
  2. Dla każdego zdania wysokiego ryzyka — zapytanie do Perplexity z prośbą o weryfikację.
  3. Dla cytatów — zapytanie z dokładnym dopasowaniem frazy.
  4. Dla nazwisk — zapytanie do Google Scholar API.
  5. Wynik: raport dla redaktora z listą zdań i statusem (potwierdzone / niepotwierdzone / sporne).

Metryki pipeline’u

  • Recall: % halucynacji złapanych przez pipeline vs. przez człowieka.
  • Precision: % zdań oznaczonych jako „halucynacja” faktycznie błędnych.
  • Czas na artykuł: 3–6 minut zamiast 15–25 ręcznych.
  • Koszt per artykuł: 0,30–0,80 PLN (zapytania do Perplexity API).

Ograniczenia automatyzacji

Żaden auto-verifier nie wychwytuje wszystkich halucynacji — w naszych testach recall wynosi 75–88%. Pozostałe 12–25% wymaga ludzkiej intuicji (np. cytat brzmi wiarygodnie, ale nie występuje u danego autora — auto-verifier nie zawsze to wie). Dobra kombinacja: auto-verifier jako pre-scan + człowiek jako final approve.

Organizacja pracy fact-checkera w zespole

W małym zespole (do 4 osób) fact-check robi redaktor, autor tekstu robi sam. W zespole większym warto rozdzielić role — dedykowany fact-checker skupiony na weryfikacji łapie o 8–15 pp więcej błędów niż autor weryfikujący własny tekst.

Modele organizacji ról

  • Autor = fact-checker — tanie, ale recall spada, bo autor widzi własny tekst „oczywisto-prawdziwym”.
  • Rotacja 1:1 — redaktorzy weryfikują się nawzajem; recall +10 pp, koszt neutralny.
  • Dedykowany fact-checker — jedna osoba weryfikuje wszystkie teksty; najwyższy recall, ale koszt 4–8 h/tydzień.
  • Fact-checker zewnętrzny — freelancer lub agencja, 60–120 PLN per artykuł.
  • Hybryda — pre-scan modelem, rotacja wewnętrzna, sample zewnętrzny raz w kwartale (audyt jakości).

Onboarding nowego fact-checkera

Nowy fact-checker potrzebuje 3–5 dni, żeby w pełni wejść w proces: jeden dzień na checklistę i konfigurację narzędzi, dwa dni shadowing doświadczonego redaktora w realnej produkcji, dwa dni pracy samodzielnej z double-checkiem ze strony seniora. Po tym okresie recall stabilizuje się na poziomie 85–92% i rośnie przez kolejne 4–6 tygodni do poziomu 95–99%.

FAQ — najczęstsze pytania

Ile czasu powinna zajmować weryfikacja treści AI dla artykułu 3 500 słów?

W dojrzałym procesie z checklistą i auto-verifierem jako pre-scan: 10–15 minut. W procesie manualnym z dobrą checklistą: 15–25 minut. W procesie bez checklisty (redaktor improwizuje): 40–70 minut, przy czym recall spada do 50–70%. Kluczowy moment przyspieszenia to wprowadzenie checklisty — sama mobilizacja do systematyczności skraca czas o 30–50% w pierwszym tygodniu. Drugim przyspieszeniem jest pre-scan przez drugi model: za 0,30–0,80 PLN per artykuł redaktor dostaje listę zdań wysokiego ryzyka i nie musi skanować całego tekstu.

Czy Perplexity wystarczy do pełnego fact-checku?

Do 80% zadań — tak. Perplexity świetnie radzi sobie z liczbami statystycznymi, cenami produktów, datami premier i potwierdzaniem cytatów. Słabiej sprawdza się w weryfikacji bardzo specjalistycznych nazwisk akademickich (do tego Scholar) i wewnętrznych liczb firmowych (do tego własny RAG). Dla 100% pokrycia rekomendujemy kombinację trzech narzędzi: Perplexity jako primary, Scholar jako backup dla akademii, własny RAG dla danych wewnętrznych. Dla małych zespołów wystarczy Perplexity Pro (80 PLN/mies.) — pokrywa realistycznie wszystkie nietypowe przypadki po dodaniu ludzkiej weryfikacji co najmniej raz na artykuł.

Co robić, gdy model halucynuje statystykę, której brzmi wiarygodnie?

Usunąć albo zastąpić. Zasada zero-tolerance: jeśli liczba nie ma źródła po 60 sekundach weryfikacji, albo ją wycinamy, albo zastępujemy opisem mechanizmu. Przykład: „65% firm B2B zwiększyło konwersję” → „większość firm B2B raportuje wzrost konwersji” (jeśli to prawda mechanizmowa) lub całkowite usunięcie zdania. Nigdy nie publikujemy statystyki bez źródła, nawet jeśli „tak się mówi” w branży — bo to właśnie fraza, którą cytują LLM i inne teksty, multiplikując błąd. Niesprawdzona statystyka w publikacji to jedno z trzech najszybszych źródeł utraty autorytetu treści.

Jak weryfikować teksty AI w języku polskim, gdy źródła są po angielsku?

Narzędzia weryfikacyjne (Perplexity, Scholar) pracują dobrze dwujęzycznie — zapytanie po polsku często zwraca źródło angielskie i na odwrót. Problem pojawia się przy nazewnictwie: polskie tłumaczenia terminów technicznych bywają niejednoznaczne, co prowadzi do błędnych dopasowań. Praktyczna zasada: weryfikujemy w języku oryginalnego źródła. Jeśli fakt dotyczy amerykańskiego raportu, pytamy po angielsku; jeśli polskiego badania rynkowego — po polsku. W przypadku wątpliwości wklejamy cytat w obu językach i porównujemy wyniki. To dodaje 10–20% czasu do fact-checku, ale zmniejsza ryzyko fałszywych pozytywów.

Czy drugi model AI może zastąpić ludzkiego fact-checkera?

Nie całkowicie, ale redukuje jego obciążenie o 60–75%. Model-verifier wykrywa ~80% halucynacji w fazie pre-scan, ale pozostałe 20% wymaga ludzkiej intuicji — zwłaszcza subtelnych błędów w kontekście (np. prawdziwy cytat błędnie przypisany, albo prawdziwa liczba z niewłaściwej kategorii rynku). Optymalna konfiguracja: model-verifier robi pre-scan, człowiek przechodzi przez flagowane zdania + robi losowy sample 15–20% niezagrożonych zdań. Ten sample ma znaczenie: auto-verifier nie oznaczy jako ryzyka zdania, które brzmi naturalnie, a jest fałszywe. Sample to bezpiecznik.

Jak budować checklistę weryfikacji dla niszowej branży (medycyna, finanse, prawo)?

Bazowa checklist 18 punktów zostaje, ale dodajemy warstwę branżową. W medycynie: obowiązkowa weryfikacja dawek, interakcji, zgodności z ChPL/FDA; każda porada zdrowotna musi mieć źródło z peer-reviewed publikacji. W finansach: obowiązkowa weryfikacja liczb procentowych (odsetki, prowizje), dat regulacji, kursów walutowych z datą; zgodność z KNF/MiFID. W prawie: każda interpretacja przepisu musi być podparta dokładnym artykułem ustawy lub orzeczeniem; obowiązuje ostrzeżenie „to nie jest porada prawna”. W tych branżach czas weryfikacji rośnie do 30–50 minut per artykuł, a część treści wymaga dodatkowej redakcji przez osobę z uprawnieniami (lekarz, doradca, prawnik).

Czy warto publikować teksty AI bez ludzkiej weryfikacji, jeśli są pilne?

Nie. Każdy tekst bez ludzkiej weryfikacji niesie ryzyko halucynacji, które może zniszczyć autorytet marki. Nawet przy ekstremalnej presji czasu (news, reaction) minimalny fact-check to 5 minut: skan liczb, weryfikacja nazwisk, test linków. Ten minimalny checklist wychwytuje ~75% błędów krytycznych. Publikacja bez żadnej weryfikacji jest akceptowalna tylko dla treści wewnętrznych (dokumentacja, notatki) — nigdy dla treści publikowanych pod marką. Jeśli zespół nie ma 5 minut na podstawowy fact-check, problem nie leży w procesie AI, tylko w planowaniu redakcyjnym — warto zatrzymać publikację i przesunąć na jutro.

Co dalej

Weryfikacja jest drugim z dwóch checkpointów, ale ich fundamentem są jakość briefu i promptu. Przejrzyjcie framework promptów do treści SEO i całościowy workflow content AI od briefu do publikacji, żeby ograniczyć halucynacje u źródła. Gdy proces stoi na nogach, czas sięgnąć po agentów AI w marketingu oraz pogłębić temat w przewodniku po AI w marketingu 2026.