Multi-variate testing vs A/B — kiedy co stosować

16 kwietnia, 2026

Multivariate vs AB testing to jedno z tych pytań, na które większość artykułów odpowiada „to zależy” — i w tym miejscu kończy. W 2026, gdy budżety na eksperymenty są zwykle ograniczone do kilku tysięcy użytkowników tygodniowo, odpowiedź musi być bardziej precyzyjna. Multi-variate testing (MVT) nie jest „lepszym A/B” — jest zupełnie inną bronią, która działa tylko przy konkretnej kombinacji ruchu, liczby wariantów i hipotezy biznesowej.

Ten artykuł pokazuje, kiedy wybierać MVT, kiedy klasyczne A/B, kiedy bandit (multi-armed), a kiedy wcale nie testować — bo próbka jest zbyt mała. Pracujemy na realnych liczbach: tygodniowa próbka, poziom istotności, MDE (minimum detectable effect), koszt testu. Bez teoretycznego „a gdybyś miał milion użytkowników” — bo większość zespołów w Polsce takiej skali nie ma.

Tekst jest częścią klastra analityka marketingowa 2026. Jeżeli nie wiesz, czy w ogóle masz wystarczająco ruchu na test, zacznij od statystyki eksperymentów. Jeśli szukasz narzędzi, które zastąpiły Google Optimize, przejdź do alternatyw 2026.

W skrócie

  • A/B test — 2–3 warianty, próbka 500–10 000 konwersji na wariant, czas 2–4 tygodnie. Domyślny wybór w 80% przypadków.
  • MVT (full-factorial) — 4–16 kombinacji, wymaga 20 000–100 000+ sesji tygodniowo, czas 3–8 tygodni. Działa tylko dla zespołów z dużym ruchem.
  • MVT (Taguchi / fractional) — 8–32 kombinacji redukowanych do 8 testów, szybszy niż full-factorial, ale traci detekcję interakcji.
  • Bandit (Thompson sampling, UCB) — szybszy, alokuje ruch dynamicznie do wygrywającego wariantu, idealny dla kampanii krótkoterminowych z natychmiastową konwersją.
  • Próg decyzyjny: jeśli masz poniżej 5 000 konwersji miesięcznie i chcesz testować więcej niż 2 zmienne, nie rób MVT — prowadź sekwencyjne A/B.

Spis treści

  1. Definicje: A/B, A/B/n, MVT, bandit
  2. Matematyka: ile ruchu potrzebuje każda metoda
  3. Kiedy A/B jest wystarczające (80% przypadków)
  4. Kiedy MVT ma sens
  5. Kiedy bandit, kiedy nie
  6. Przykłady z życia — 5 scenariuszy
  7. Pułapki MVT, o których nie piszą w dokumentacji narzędzi
  8. Narzędzia: co obsługuje MVT w 2026
  9. Workflow decyzyjny: 5 pytań przed wyborem metody
  10. FAQ
  11. Co dalej

Definicje: A/B, A/B/n, MVT, bandit

Zanim porównamy metody, trzeba się zgodzić, co dokładnie znaczy każda z nich. W literaturze (i w materiałach marketingowych dostawców) te pojęcia są używane luźno, co powoduje połowę nieporozumień.

A/B test (classical, two-sample)

Dwa warianty: kontrola (A) i testowany (B). Użytkownik losowo trafia do jednego. Po osiągnięciu zaplanowanej próbki sprawdzasz istotność statystyczną. Ty zmieniasz jedną zmienną: kolor przycisku, copy headera, kolejność pól w formularzu. Hipoteza: „B konwertuje istotnie lepiej niż A”.

A/B/n test

Wariant A/B z większą liczbą opcji — np. A, B, C, D. Wciąż testujesz jedną zmienną, ale w kilku wersjach (cztery różne headery copy). Próbka na wariant rośnie liniowo — czterowariantowy test wymaga 2× więcej ruchu niż dwuwariantowy, żeby dojść do tej samej mocy statystycznej, bo porównujesz C i D osobno z A.

Multi-variate testing (MVT, full-factorial)

Testujesz wiele zmiennych jednocześnie w pełnej kombinatoryce. Przykład: 2 headery × 2 obrazy × 2 CTA = 8 kombinacji. Każdy użytkownik trafia do jednej z 8 wersji. Celem jest nie tylko znalezienie najlepszej kombinacji, ale też zrozumienie interakcji między elementami — czy headline X działa lepiej z obrazem Y niż z obrazem Z.

MVT fractional (Taguchi)

Wariant MVT, w którym zamiast testować wszystkie kombinacje, testujesz matematycznie dobraną podgrupę (np. 8 z 16). Szybsze, tańsze — ale tracisz zdolność do wykrywania interakcji wyższego rzędu. Dobre, gdy zmiennych jest dużo (4–6), a ruch umiarkowany.

Multi-armed bandit

Algorytm, który w trakcie testu przesuwa ruch do wariantu, który wygląda na zwycięzcę (tzw. exploit), jednocześnie pozostawiając małą część dla eksploracji pozostałych. Najpopularniejsze: Thompson sampling, UCB (Upper Confidence Bound), epsilon-greedy. Traci precyzję statystyczną, zyskuje szybkość i przychód w trakcie testu.

Matematyka: ile ruchu potrzebuje każda metoda

Kluczowe pytanie, które ignoruje większość poradników. Oto realne wymagania dla baseline conversion rate 3%, MDE 10% (chcesz wykryć zmianę z 3% na 3,3%), poziom istotności 95%, moc 80%:

MetodaWariantyPróbka na wariantŁączna próbkaCzas (10k/tydz)
A/B2~15 70031 400~3 tygodnie
A/B/n (4)4~18 00072 000~7 tygodni
MVT 2×2 (full)4~16 00064 000~6 tygodni
MVT 3×3 (full)9~20 000180 000~18 tygodni
MVT 2×2×2 (full)8~19 000152 000~15 tygodni
Bandit4dynamicznie~40 000–70 000~4–7 tygodni

Wnioski praktyczne: MVT 3×3 przy ruchu 10k/tydzień trwa 4 miesiące. Przez ten czas rynek się zmieni, sezonowość zaburzy wyniki, a zespół straci cierpliwość. MVT 2×2 jest realistyczne dla większości firm — MVT 3×3 i powyżej wymaga już sklepów z 50 000+ sesji tygodniowo.

Efekt wielu porównań (multiple comparison problem)

Przy MVT z 8 kombinacjami robisz efektywnie 28 porównań par (8 × 7 / 2). Przy poziomie istotności 5% prawdopodobieństwo, że przynajmniej jedno porównanie da fałszywy pozytyw: 1 − 0,95^28 ≈ 76%. Bez korekty (Bonferroni, Benjamini-Hochberg) MVT praktycznie gwarantuje fałszywe odkrycia. W pytaniu MVT vs AB to jeden z najpoważniejszych argumentów za A/B — prostszym metodom rzadziej towarzyszy problem wielu porównań.

Kiedy A/B jest wystarczające (80% przypadków)

Domyślna odpowiedź na pytanie „co wybrać” to A/B. Nie dlatego, że jest „gorsze” — dlatego że dla większości hipotez testowych jest idealnie dopasowane.

Warunki wskazujące na A/B

  • Testujesz jedną konkretną hipotezę (np. „nowy copy CTA zwiększy konwersję”).
  • Masz mniej niż 30 000 sesji tygodniowo na stronie, którą testujesz.
  • Zmiana, którą testujesz, jest dużą zmianą jakościową, nie mikroooptymalizacją (np. cały nowy układ strony vs tylko kolor przycisku).
  • Chcesz wynik za 2–4 tygodnie, nie za 3 miesiące.
  • Interesuje Cię prosta odpowiedź „lepiej czy gorzej”, nie matryca interakcji.

Typowe testy A/B, które zwracają wartość biznesową

  1. Copy CTA (przycisk zakupu, rejestracji, zapisu) — zazwyczaj 3–8% przyrost konwersji.
  2. Kolejność pól w formularzu — 5–15% przyrost completion rate.
  3. Obecność/brak social proof (recenzje, logotypy klientów) — 4–12% przyrost.
  4. Pricing display (per miesiąc vs per rok, kwotowo vs procentowo) — 8–25% przyrost revenue per visitor.
  5. Long-form vs short-form landing — 10–40% różnica, zwykle long-form wygrywa dla B2B.

Kiedy MVT ma sens

MVT jest świetnym narzędziem — dla 10–15% zespołów, które mają konkretne warunki.

Warunki wskazujące na MVT

  • Ruch powyżej 30 000 sesji tygodniowo na stronie testowej (baseline CR ok. 3%).
  • Badasz interakcje między elementami, nie pojedynczy element (np. „czy nasz hero image działa inaczej z copy agresywnym vs spokojnym”).
  • Masz wystarczająco czasu (6–10 tygodni) i akceptujesz sezonowe zaburzenia.
  • Strona ma umiarkowaną zmienność — codzienne update’y produktowe zaburzają MVT bardziej niż A/B.
  • Decyzje testowe wpłyną na długookresową architekturę strony, nie na bieżącą kampanię.

Typowe dobre zastosowania MVT

  1. Landing pages performance marketing z wysokim ruchem (powyżej 50k sesji/tydz) — testujesz headline × obraz × CTA łącznie.
  2. Strony kategorii e-commerce — testujesz układ filtrów × sposób sortowania × rozmiar kafelków.
  3. Hero section serwisu SaaS — testujesz 3 headery × 2 wezwania do akcji × 2 animacje.
  4. Formularze lead-gen z wieloma elementami — jeżeli możesz osiągnąć min. 40 000 wyświetleń/tydz.

Fractional vs full-factorial

Jeżeli masz 4 zmienne po 2 wersje każda (16 kombinacji) i nie masz ruchu na full-factorial, rozważ Taguchi design — testujesz tylko 8 kombinacji, wybranych tak, żeby wciąż móc oszacować główne efekty. Ograniczenie: nie zmierzysz interakcji trójnikowych. Dla większości zastosowań biznesowych to akceptowalny kompromis.

Kiedy bandit, kiedy nie

Multi-armed bandit to trzecia ścieżka, często pomijana. Algorytm dynamicznie alokuje ruch do wariantu, który aktualnie wygląda najlepiej — minimalizuje regret (utracony revenue w trakcie testu).

Warunki wskazujące na bandit

  • Krótkotrwała kampania (np. Black Friday, promocja 2–4 tygodnie) — nie zdążysz dokończyć klasycznego A/B.
  • Koszt utraconych konwersji w trakcie testu jest wysoki — np. testujesz copy w reklamie Google Ads kosztującej 20 zł/klik.
  • Nie potrzebujesz precyzyjnej statystyki — wystarczy „działające” rozwiązanie.
  • Masz aktywne optymalizowanie, gdzie kilka wariantów może się przeplatać.

Warunki wskazujące przeciw banditowi

  • Chcesz uzyskać czyste dane statystyczne do publikacji wewnętrznej, prezentacji zarządowi lub decyzji produktowej.
  • Konwersja jest opóźniona (B2B lead → sprzedaż w 30–90 dni) — bandit nie wie, który wariant wygrywa, dopóki nie zamkniesz cyklu.
  • Zmiany mają efekt nowości (novelty effect) — wariant wygrywa przez pierwsze dni, bo jest nowy, potem wyrównuje się do poziomu kontroli.
  • Chcesz wykryć małe różnice (MDE < 5%) — bandit nie zapewnia wystarczającej mocy.

Algorytmy bandita — co wybrać

  • Epsilon-greedy — najprostszy, 90% ruchu do lidera, 10% rozproszone. Dobry do prostych zadań.
  • UCB (Upper Confidence Bound) — matematycznie optymalny dla zadań ze stałą konwersją.
  • Thompson sampling — najczęściej polecany, działa dobrze przy zmiennej konwersji, szybciej zbiega do lidera.

Przykłady z życia — 5 scenariuszy

Scenariusz 1: e-commerce mid-market, 18 000 sesji/tydz

Zespół chce przetestować nowy układ karty produktu: headline, zdjęcie, pozycja CTA. Trzy zmienne, każda w 2 wersjach = 8 kombinacji. Wymagany ruch: ~152 000 sesji. Przy 18k/tydz test trwałby ponad 8 tygodni. Decyzja: zamiast MVT sekwencyjne trzy A/B testy po 3 tygodnie każdy. Łączny czas 9 tygodni, ale każdy test ma czyste wyniki, a zespół uczy się między iteracjami.

Scenariusz 2: SaaS B2B, landing page płatna kampania, 60 000 sesji/tydz

Testowanie kombinacji hero headline (3 wersje) × CTA copy (2 wersje). 6 kombinacji, potrzebna próbka ~120 000. Przy 60k/tydz test trwa 2 tygodnie. Decyzja: MVT 3×2, z korektą Bonferroni dla 15 porównań par.

Scenariusz 3: kampania Black Friday, 2 tygodnie okno

Trzy warianty copy promocyjnego, budżet Google Ads 80 000 zł. Nie ma czasu na klasyczny A/B (3–4 tygodnie). Decyzja: Thompson sampling bandit, alokacja aktualizowana codziennie. Po 5 dniach widać lidera, algorytm przekierowuje 70% ruchu do niego. Regret minimalizowany, kampania wygrywa 12–18% więcej konwersji niż z równym rozkładem.

Scenariusz 4: B2B z długim cyklem sprzedaży 60 dni

Zespół chce testować landing page dla kampanii leadgen. Bandit odpada — feedback na „lead → klient” przychodzi po 60 dniach. Decyzja: A/B test z proxy metric (np. „lead z lead scoring > 40″) zamiast finalnej sprzedaży. Po 6 tygodniach decyzja na podstawie proxy, finalna walidacja revenue po 4 miesiącach.

Scenariusz 5: mała firma, 3 000 sesji/tydz

Pytanie: czy zmiana kolorystyki CTA z niebieskiego na pomarańczowy zwiększy konwersję. MDE 10%, baseline CR 2%. Wymagana próbka ~47 000 sesji na wariant. Przy 3k/tydz test trwałby 31 tygodni. Decyzja: nie testować. Albo zaakceptować MDE 25% (test 6 tygodni), albo wprowadzić zmianę na oko i monitorować agregowaną konwersję miesiąc do miesiąca. Niektóre firmy nie mają skali, żeby testować — i trzeba to sobie uczciwie powiedzieć.

Pułapki MVT, o których nie piszą w dokumentacji narzędzi

1. Power analysis ignorowany

Większość narzędzi MVT (VWO, Optimizely, AB Tasty) pokazuje wynik „wygrywa wariant X z 92% prawdopodobieństwem”. To nie jest p-value z klasycznej statystyki — to bayesowskie prawdopodobieństwo posteriorne. Zespoły, które mylą jedno z drugim, za wcześnie zatrzymują test. Zawsze sprawdzaj, czy osiągnąłeś zaplanowaną próbkę zanim spojrzysz na wynik.

2. Seasonality zaburza długie testy

Test MVT trwający 8 tygodni obejmuje różne tygodnie pracy, okresy wypłat, wakacje. To zaburza baseline. Rozwiązanie: minimum dwa pełne tygodnie, a dla e-commerce minimum dwa pełne cykle miesięczne, żeby nie złapać okresu „po 10-tym”.

3. Novelty effect

Nowy wariant w pierwszych dniach wygrywa, bo stali użytkownicy klikają „co to jest”. Po tygodniu efekt znika. Dla MVT wielowariantowego novelty effect na trzech różnych elementach może się skumulować w fałszywego zwycięzcę. Rozwiązanie: odrzucaj pierwsze 5–7 dni danych z analizy końcowej dla testów powyżej 3 tygodni.

4. Interakcja z innymi zmianami

W trakcie MVT marketing puszcza nową kampanię, produkt zmienia pricing, wychodzi update SEO. Każda z tych zmian zaburza test. Rozwiązanie: zamroź środowisko wokół testu. Jeżeli zamrożenie niemożliwe, dokumentuj każdą zmianę z datą i analizuj segmenty przed/po w raporcie końcowym.

5. Sample ratio mismatch

Narzędzie alokuje 50/50, ale po tygodniu widzisz 52/48 na 100 000 sesji. To nie jest losowość — to błąd implementacji (cookie leak, caching, błędna konfiguracja). Uruchom chi-squared test na proporcji alokacji; p < 0,01 oznacza problem techniczny, nie statystyczny. Nie analizuj wyniku konwersji, dopóki nie naprawisz SRM.

Narzędzia: co obsługuje MVT w 2026

NarzędzieA/BMVT fullBanditKoszt/miesiąc
VWOtaktaktak (Pro+)299–1 499 USD
Optimizely Webtaktaktakod 36k USD/rok
AB Tastytaktaktakkontrakt
Converttaktakczęściowo99–699 USD
GrowthBook (open source)takograniczonetak0 / 99+ USD
Unbounce Smart Traffictaknietak (bandit-like)99–649 USD

Dla większości polskich zespołów w 2026 rekomendacja: zacznij od Convert (dobry stosunek cena/funkcjonalność) lub GrowthBook self-hosted (open source, koszt = hosting). VWO i Optimizely są świetne, ale ceny są międzynarodowe i nieprzyjazne dla zespołów PL mid-market. Szczegółowe porównanie w artykule o alternatywach do Google Optimize.

Workflow decyzyjny: 5 pytań przed wyborem metody

  1. Ile mam sesji tygodniowo na stronie testowej? Poniżej 5 000 — nie testuj nic poza dużymi zmianami strategicznymi. 5–30k — A/B. 30–100k — A/B lub MVT 2×2. Powyżej 100k — pełny zakres metod.
  2. Co chcę się dowiedzieć? „Czy ta zmiana działa” = A/B. „Jak elementy ze sobą współpracują” = MVT. „Który wariant zarabia najwięcej w trakcie” = bandit.
  3. Ile mam czasu? 2–4 tygodnie = A/B lub bandit. 4–8 tygodni = A/B sekwencyjnie, MVT 2×2. 8+ tygodni = MVT 3×3 lub większe.
  4. Jak długa jest ścieżka konwersji? Natychmiastowa (zakup, rejestracja) — wszystkie metody. Długa (B2B lead 30–90 dni) — odpada bandit, MVT trudne. Preferuj A/B z proxy metric.
  5. Czy mam statystyka lub analityka w zespole? Nie — A/B z prostym kalkulatorem sample size. Tak — rozważ MVT i bandit, zespół poradzi sobie z korektami wielokrotnych porównań i analizą SRM.

FAQ

Czy mogę zrobić MVT w Google Optimize?

Nie, Google Optimize został wycofany 30 września 2023 roku. Od tego czasu zespoły migrują do Optimizely, VWO, AB Tasty, Convert lub open-source GrowthBook. Szczegółowa lista alternatyw z porównaniem funkcji MVT jest w osobnym materiale — każda z tych platform obsługuje MVT w różnym stopniu. VWO i Optimizely mają najpełniejszą implementację (full factorial, Taguchi, analiza interakcji). GrowthBook radzi sobie dobrze z A/B i prostszym MVT, ale dla złożonych designów wymaga dodatkowej analizy poza narzędziem (Python, R). Migracja z GO w 2026 powinna już być zakończona — jeśli nadal jej nie zrobiłeś, tracisz możliwość testowania.

Czy bayesowski MVT (posterior probability) zastępuje klasyczne testy istotności?

Zastępuje — ale nie uwalnia Cię od dyscypliny. W podejściu bayesowskim nie ma p-value, jest prawdopodobieństwo posteriorne, że wariant B pokonuje A o X%. Narzędzia typu VWO i Optimizely raportują np. „Variant B ma 94% szansę na pokonanie kontroli”. Brzmi prosto, ale pułapki są dwie: (1) narzędzia domyślnie używają priorsów, które nie zawsze pasują do Twoich warunków — dla małych próbek priors mocno wpływa na wynik; (2) zatrzymywanie testu, gdy tylko probability przekroczy próg, jest w bayesowskim frameworku bardziej akceptowalne niż w klasycznym, ale wciąż zaniża precyzję. Praktyczna zasada: zaplanuj minimalną próbkę z góry nawet w bayesowskim podejściu i nie reaguj na „shiny” 95% po 3 dniach.

Jak liczyć wymaganą próbkę dla MVT w praktyce?

Najłatwiej użyć kalkulatora z Evan Miller lub wbudowanego w GrowthBook/VWO. Ręcznie: dla N kombinacji próbka na wariant rośnie wolniej niż liniowo, ale liczba porównań par rośnie kwadratowo. Dla MVT 2×2 (4 kombinacje, 6 porównań par) zwykle mnożysz próbkę A/B przez 1,15–1,3 per wariant. Dla MVT 3×3 (9 kombinacji, 36 porównań) stosujesz korektę Bonferroni α/36 = 0,0014 zamiast 0,05, co wymaga ~3× większej próbki per wariant. Jeśli dopiero zaczynasz z MVT, konsultuj design z analitykiem przed uruchomieniem — błąd w power analysis kosztuje 4–6 tygodni straconego ruchu.

Co robić, gdy MVT nie pokazuje zwycięzcy po 6 tygodniach?

Jeżeli osiągnąłeś zaplanowaną próbkę i żaden wariant nie jest istotnie lepszy, to jest prawdziwy wynik — zmiana, którą testowałeś, nie ma istotnego wpływu. Nie przedłużaj testu „jeszcze tydzień, może się pokaże” — to manipulacja p-value. Zinterpretuj: albo MDE było źle dobrane (zmiana jest prawdziwa, ale za mała, żeby ją wykryć przy Twoim ruchu), albo hipoteza była błędna. W drugim przypadku dobra praktyka: zapisz test w repozytorium „inconclusive / no effect”, żeby zespół nie powtarzał go za pół roku. Jedna trzecia wszystkich testów w dojrzałych zespołach CRO daje wynik null — i to jest OK.

Ile kosztuje wdrożenie kultury eksperymentowania w firmie 20-osobowej?

W 2026 w Polsce: 6–18 tys. zł/miesiąc na licencje narzędzia (Convert, VWO tier średni), 8–15 tys. zł jednorazowo na szkolenie zespołu (2 dni analityki + 3 dni warsztatu eksperymentów), 60–150 tys. zł/rok kosztu pracowniczego dla dedykowanego CRO/analityka (pełny etat) lub agencji (0,5 FTE). Zwrot mierzalny po 6–9 miesiącach przez przyrost konwersji w testowanych strumieniach (zwykle 12–35% kumulatywnie po roku), pod warunkiem że firma faktycznie wdraża wyniki testów — co w praktyce dzieje się w 40–60% przypadków. Reszta testów „kończy w szufladzie” przez brak procesu roll-out, co jest niedocenianym kosztem eksperymentowania.

Czy MVT się opłaca dla landing page z Google Ads?

Opłaca się, jeśli na tę konkretną landing przychodzi minimum 25 000 kliknięć tygodniowo (baseline CR 3%). Przy niższym ruchu lepiej zrobić sekwencję A/B lub bandit. Dla landingów Google Ads szczególnie dobrze działa Thompson sampling — reklamy mają krótki cykl życia (2–6 tygodni), ruch jest drogi (8–40 zł/klik), a bandit minimalizuje regret. W agencjach PPC w 2026 standardem staje się nawet wewnętrznie „bandit na 2 tygodnie, potem A/B na zwycięzcę vs nowa hipoteza” — hybryda, która łączy szybkość z jakością statystyki.

Co dalej

MVT nie jest „lepszym A/B”. Jest specjalizowanym narzędziem, które działa w wąskim zakresie warunków. Jeśli masz ruch, czas i pytanie o interakcje — używaj. Jeśli masz mniej niż 30 000 sesji/tydz — nie używaj, A/B zrobi to samo, szybciej i z mniejszym ryzykiem fałszywych odkryć.

Trzy wskaźniki dojrzałości zespołu eksperymentującego, które warto mierzyć co kwartał: liczba uruchomionych testów (cel: 4–8 testów/miesiąc dla aktywnego zespołu), odsetek wyników null (30–50% jest zdrowe; poniżej 20% sugeruje, że zespół testuje tylko oczywiste zmiany; powyżej 70% — hipotezy są słabe), odsetek wdrożeń po teście (powyżej 80% dla zwycięzców i powyżej 30% dla null-result decyzji). Zespoły, które monitorują te trzy metryki, w ciągu roku budują systematyczny wzrost konwersji na poziomie 15–40% — niezależnie od wyboru MVT, A/B czy bandit.