Multivariate vs AB testing 2026: kiedy wybrać MVT, a kiedy A/B

Multivariate vs AB testing to jedno z tych pytań, na które większość artykułów odpowiada „to zależy” — i w tym miejscu kończy. W 2026, gdy budżety na eksperymenty są zwykle ograniczone do kilku tysięcy użytkowników tygodniowo, odpowiedź musi być bardziej precyzyjna. Multi-variate testing (MVT) nie jest „lepszym A/B” — jest zupełnie inną bronią, która działa tylko przy konkretnej kombinacji ruchu, liczby wariantów i hipotezy biznesowej.

Ten artykuł pokazuje, kiedy wybierać MVT, kiedy klasyczne A/B, kiedy bandit (multi-armed), a kiedy wcale nie testować — bo próbka jest zbyt mała. Pracujemy na realnych liczbach: tygodniowa próbka, poziom istotności, MDE (minimum detectable effect), koszt testu. Bez teoretycznego „a gdybyś miał milion użytkowników” — bo większość zespołów w Polsce takiej skali nie ma.

Tekst jest częścią klastra analityka marketingowa 2026. Jeżeli nie wiesz, czy w ogóle masz wystarczająco ruchu na test, zacznij od statystyki eksperymentów. Jeśli szukasz narzędzi, które zastąpiły Google Optimize, przejdź do alternatyw 2026.

W skrócie

A/B test — 2–3 warianty, próbka 500–10 000 konwersji na wariant, czas 2–4 tygodnie. Domyślny wybór w 80% przypadków.
MVT (full-factorial) — 4–16 kombinacji, wymaga 20 000–100 000+ sesji tygodniowo, czas 3–8 tygodni. Działa tylko dla zespołów z dużym ruchem.
MVT (Taguchi / fractional) — 8–32 kombinacji redukowanych do 8 testów, szybszy niż full-factorial, ale traci detekcję interakcji.
Bandit (Thompson sampling, UCB) — szybszy, alokuje ruch dynamicznie do wygrywającego wariantu, idealny dla kampanii krótkoterminowych z natychmiastową konwersją.
Próg decyzyjny: jeśli masz poniżej 5 000 konwersji miesięcznie i chcesz testować więcej niż 2 zmienne, nie rób MVT — prowadź sekwencyjne A/B.

Spis treści

Definicje: A/B, A/B/n, MVT, bandit
Matematyka: ile ruchu potrzebuje każda metoda
Kiedy A/B jest wystarczające (80% przypadków)
Kiedy MVT ma sens
Kiedy bandit, kiedy nie
Przykłady z życia — 5 scenariuszy
Pułapki MVT, o których nie piszą w dokumentacji narzędzi
Narzędzia: co obsługuje MVT w 2026
Workflow decyzyjny: 5 pytań przed wyborem metody
FAQ
Co dalej

Definicje: A/B, A/B/n, MVT, bandit

Zanim porównamy metody, trzeba się zgodzić, co dokładnie znaczy każda z nich. W literaturze (i w materiałach marketingowych dostawców) te pojęcia są używane luźno, co powoduje połowę nieporozumień.

A/B test (classical, two-sample)

Dwa warianty: kontrola (A) i testowany (B). Użytkownik losowo trafia do jednego. Po osiągnięciu zaplanowanej próbki sprawdzasz istotność statystyczną. Ty zmieniasz jedną zmienną: kolor przycisku, copy headera, kolejność pól w formularzu. Hipoteza: „B konwertuje istotnie lepiej niż A”.

A/B/n test

Wariant A/B z większą liczbą opcji — np. A, B, C, D. Wciąż testujesz jedną zmienną, ale w kilku wersjach (cztery różne headery copy). Próbka na wariant rośnie liniowo — czterowariantowy test wymaga 2× więcej ruchu niż dwuwariantowy, żeby dojść do tej samej mocy statystycznej, bo porównujesz C i D osobno z A.

Multi-variate testing (MVT, full-factorial)

Testujesz wiele zmiennych jednocześnie w pełnej kombinatoryce. Przykład: 2 headery × 2 obrazy × 2 CTA = 8 kombinacji. Każdy użytkownik trafia do jednej z 8 wersji. Celem jest nie tylko znalezienie najlepszej kombinacji, ale też zrozumienie interakcji między elementami — czy headline X działa lepiej z obrazem Y niż z obrazem Z.

MVT fractional (Taguchi)

Wariant MVT, w którym zamiast testować wszystkie kombinacje, testujesz matematycznie dobraną podgrupę (np. 8 z 16). Szybsze, tańsze — ale tracisz zdolność do wykrywania interakcji wyższego rzędu. Dobre, gdy zmiennych jest dużo (4–6), a ruch umiarkowany.

Multi-armed bandit

Algorytm, który w trakcie testu przesuwa ruch do wariantu, który wygląda na zwycięzcę (tzw. exploit), jednocześnie pozostawiając małą część dla eksploracji pozostałych. Najpopularniejsze: Thompson sampling, UCB (Upper Confidence Bound), epsilon-greedy. Traci precyzję statystyczną, zyskuje szybkość i przychód w trakcie testu.

Matematyka: ile ruchu potrzebuje każda metoda

Kluczowe pytanie, które ignoruje większość poradników. Oto realne wymagania dla baseline conversion rate 3%, MDE 10% (chcesz wykryć zmianę z 3% na 3,3%), poziom istotności 95%, moc 80%:

Metoda	Warianty	Próbka na wariant	Łączna próbka	Czas (10k/tydz)
A/B	2	~15 700	31 400	~3 tygodnie
A/B/n (4)	4	~18 000	72 000	~7 tygodni
MVT 2×2 (full)	4	~16 000	64 000	~6 tygodni
MVT 3×3 (full)	9	~20 000	180 000	~18 tygodni
MVT 2×2×2 (full)	8	~19 000	152 000	~15 tygodni
Bandit	4	dynamicznie	~40 000–70 000	~4–7 tygodni

Wnioski praktyczne: MVT 3×3 przy ruchu 10k/tydzień trwa 4 miesiące. Przez ten czas rynek się zmieni, sezonowość zaburzy wyniki, a zespół straci cierpliwość. MVT 2×2 jest realistyczne dla większości firm — MVT 3×3 i powyżej wymaga już sklepów z 50 000+ sesji tygodniowo.

Efekt wielu porównań (multiple comparison problem)

Przy MVT z 8 kombinacjami robisz efektywnie 28 porównań par (8 × 7 / 2). Przy poziomie istotności 5% prawdopodobieństwo, że przynajmniej jedno porównanie da fałszywy pozytyw: 1 − 0,95^28 ≈ 76%. Bez korekty (Bonferroni, Benjamini-Hochberg) MVT praktycznie gwarantuje fałszywe odkrycia. W pytaniu MVT vs AB to jeden z najpoważniejszych argumentów za A/B — prostszym metodom rzadziej towarzyszy problem wielu porównań.

Kiedy A/B jest wystarczające (80% przypadków)

Domyślna odpowiedź na pytanie „co wybrać” to A/B. Nie dlatego, że jest „gorsze” — dlatego że dla większości hipotez testowych jest idealnie dopasowane.

Warunki wskazujące na A/B

Testujesz jedną konkretną hipotezę (np. „nowy copy CTA zwiększy konwersję”).
Masz mniej niż 30 000 sesji tygodniowo na stronie, którą testujesz.
Zmiana, którą testujesz, jest dużą zmianą jakościową, nie mikroooptymalizacją (np. cały nowy układ strony vs tylko kolor przycisku).
Chcesz wynik za 2–4 tygodnie, nie za 3 miesiące.
Interesuje Cię prosta odpowiedź „lepiej czy gorzej”, nie matryca interakcji.

Typowe testy A/B, które zwracają wartość biznesową

Copy CTA (przycisk zakupu, rejestracji, zapisu) — zazwyczaj 3–8% przyrost konwersji.
Kolejność pól w formularzu — 5–15% przyrost completion rate.
Obecność/brak social proof (recenzje, logotypy klientów) — 4–12% przyrost.
Pricing display (per miesiąc vs per rok, kwotowo vs procentowo) — 8–25% przyrost revenue per visitor.
Long-form vs short-form landing — 10–40% różnica, zwykle long-form wygrywa dla B2B.

Kiedy MVT ma sens

MVT jest świetnym narzędziem — dla 10–15% zespołów, które mają konkretne warunki.

Warunki wskazujące na MVT

Ruch powyżej 30 000 sesji tygodniowo na stronie testowej (baseline CR ok. 3%).
Badasz interakcje między elementami, nie pojedynczy element (np. „czy nasz hero image działa inaczej z copy agresywnym vs spokojnym”).
Masz wystarczająco czasu (6–10 tygodni) i akceptujesz sezonowe zaburzenia.
Strona ma umiarkowaną zmienność — codzienne update’y produktowe zaburzają MVT bardziej niż A/B.
Decyzje testowe wpłyną na długookresową architekturę strony, nie na bieżącą kampanię.

Typowe dobre zastosowania MVT

Landing pages performance marketing z wysokim ruchem (powyżej 50k sesji/tydz) — testujesz headline × obraz × CTA łącznie.
Strony kategorii e-commerce — testujesz układ filtrów × sposób sortowania × rozmiar kafelków.
Hero section serwisu SaaS — testujesz 3 headery × 2 wezwania do akcji × 2 animacje.
Formularze lead-gen z wieloma elementami — jeżeli możesz osiągnąć min. 40 000 wyświetleń/tydz.

Fractional vs full-factorial

Jeżeli masz 4 zmienne po 2 wersje każda (16 kombinacji) i nie masz ruchu na full-factorial, rozważ Taguchi design — testujesz tylko 8 kombinacji, wybranych tak, żeby wciąż móc oszacować główne efekty. Ograniczenie: nie zmierzysz interakcji trójnikowych. Dla większości zastosowań biznesowych to akceptowalny kompromis.

Kiedy bandit, kiedy nie

Multi-armed bandit to trzecia ścieżka, często pomijana. Algorytm dynamicznie alokuje ruch do wariantu, który aktualnie wygląda najlepiej — minimalizuje regret (utracony revenue w trakcie testu).

Warunki wskazujące na bandit

Krótkotrwała kampania (np. Black Friday, promocja 2–4 tygodnie) — nie zdążysz dokończyć klasycznego A/B.
Koszt utraconych konwersji w trakcie testu jest wysoki — np. testujesz copy w reklamie Google Ads kosztującej 20 zł/klik.
Nie potrzebujesz precyzyjnej statystyki — wystarczy „działające” rozwiązanie.
Masz aktywne optymalizowanie, gdzie kilka wariantów może się przeplatać.

Warunki wskazujące przeciw banditowi

Chcesz uzyskać czyste dane statystyczne do publikacji wewnętrznej, prezentacji zarządowi lub decyzji produktowej.
Konwersja jest opóźniona (B2B lead → sprzedaż w 30–90 dni) — bandit nie wie, który wariant wygrywa, dopóki nie zamkniesz cyklu.
Zmiany mają efekt nowości (novelty effect) — wariant wygrywa przez pierwsze dni, bo jest nowy, potem wyrównuje się do poziomu kontroli.
Chcesz wykryć małe różnice (MDE < 5%) — bandit nie zapewnia wystarczającej mocy.

Algorytmy bandita — co wybrać

Epsilon-greedy — najprostszy, 90% ruchu do lidera, 10% rozproszone. Dobry do prostych zadań.
UCB (Upper Confidence Bound) — matematycznie optymalny dla zadań ze stałą konwersją.
Thompson sampling — najczęściej polecany, działa dobrze przy zmiennej konwersji, szybciej zbiega do lidera.

Przykłady z życia — 5 scenariuszy

Scenariusz 1: e-commerce mid-market, 18 000 sesji/tydz

Zespół chce przetestować nowy układ karty produktu: headline, zdjęcie, pozycja CTA. Trzy zmienne, każda w 2 wersjach = 8 kombinacji. Wymagany ruch: ~152 000 sesji. Przy 18k/tydz test trwałby ponad 8 tygodni. Decyzja: zamiast MVT sekwencyjne trzy A/B testy po 3 tygodnie każdy. Łączny czas 9 tygodni, ale każdy test ma czyste wyniki, a zespół uczy się między iteracjami.

Scenariusz 2: SaaS B2B, landing page płatna kampania, 60 000 sesji/tydz

Testowanie kombinacji hero headline (3 wersje) × CTA copy (2 wersje). 6 kombinacji, potrzebna próbka ~120 000. Przy 60k/tydz test trwa 2 tygodnie. Decyzja: MVT 3×2, z korektą Bonferroni dla 15 porównań par.

Scenariusz 3: kampania Black Friday, 2 tygodnie okno

Trzy warianty copy promocyjnego, budżet Google Ads 80 000 zł. Nie ma czasu na klasyczny A/B (3–4 tygodnie). Decyzja: Thompson sampling bandit, alokacja aktualizowana codziennie. Po 5 dniach widać lidera, algorytm przekierowuje 70% ruchu do niego. Regret minimalizowany, kampania wygrywa 12–18% więcej konwersji niż z równym rozkładem.

Scenariusz 4: B2B z długim cyklem sprzedaży 60 dni

Zespół chce testować landing page dla kampanii leadgen. Bandit odpada — feedback na „lead → klient” przychodzi po 60 dniach. Decyzja: A/B test z proxy metric (np. „lead z lead scoring > 40″) zamiast finalnej sprzedaży. Po 6 tygodniach decyzja na podstawie proxy, finalna walidacja revenue po 4 miesiącach.

Scenariusz 5: mała firma, 3 000 sesji/tydz

Pytanie: czy zmiana kolorystyki CTA z niebieskiego na pomarańczowy zwiększy konwersję. MDE 10%, baseline CR 2%. Wymagana próbka ~47 000 sesji na wariant. Przy 3k/tydz test trwałby 31 tygodni. Decyzja: nie testować. Albo zaakceptować MDE 25% (test 6 tygodni), albo wprowadzić zmianę na oko i monitorować agregowaną konwersję miesiąc do miesiąca. Niektóre firmy nie mają skali, żeby testować — i trzeba to sobie uczciwie powiedzieć.

Pułapki MVT, o których nie piszą w dokumentacji narzędzi

1. Power analysis ignorowany

Większość narzędzi MVT (VWO, Optimizely, AB Tasty) pokazuje wynik „wygrywa wariant X z 92% prawdopodobieństwem”. To nie jest p-value z klasycznej statystyki — to bayesowskie prawdopodobieństwo posteriorne. Zespoły, które mylą jedno z drugim, za wcześnie zatrzymują test. Zawsze sprawdzaj, czy osiągnąłeś zaplanowaną próbkę zanim spojrzysz na wynik.

2. Seasonality zaburza długie testy

Test MVT trwający 8 tygodni obejmuje różne tygodnie pracy, okresy wypłat, wakacje. To zaburza baseline. Rozwiązanie: minimum dwa pełne tygodnie, a dla e-commerce minimum dwa pełne cykle miesięczne, żeby nie złapać okresu „po 10-tym”.

3. Novelty effect

Nowy wariant w pierwszych dniach wygrywa, bo stali użytkownicy klikają „co to jest”. Po tygodniu efekt znika. Dla MVT wielowariantowego novelty effect na trzech różnych elementach może się skumulować w fałszywego zwycięzcę. Rozwiązanie: odrzucaj pierwsze 5–7 dni danych z analizy końcowej dla testów powyżej 3 tygodni.

4. Interakcja z innymi zmianami

W trakcie MVT marketing puszcza nową kampanię, produkt zmienia pricing, wychodzi update SEO. Każda z tych zmian zaburza test. Rozwiązanie: zamroź środowisko wokół testu. Jeżeli zamrożenie niemożliwe, dokumentuj każdą zmianę z datą i analizuj segmenty przed/po w raporcie końcowym.

5. Sample ratio mismatch

Narzędzie alokuje 50/50, ale po tygodniu widzisz 52/48 na 100 000 sesji. To nie jest losowość — to błąd implementacji (cookie leak, caching, błędna konfiguracja). Uruchom chi-squared test na proporcji alokacji; p < 0,01 oznacza problem techniczny, nie statystyczny. Nie analizuj wyniku konwersji, dopóki nie naprawisz SRM.

Narzędzia: co obsługuje MVT w 2026

Narzędzie	A/B	MVT full	Bandit	Koszt/miesiąc
VWO	tak	tak	tak (Pro+)	299–1 499 USD
Optimizely Web	tak	tak	tak	od 36k USD/rok
AB Tasty	tak	tak	tak	kontrakt
Convert	tak	tak	częściowo	99–699 USD
GrowthBook (open source)	tak	ograniczone	tak	0 / 99+ USD
Unbounce Smart Traffic	tak	nie	tak (bandit-like)	99–649 USD

Dla większości polskich zespołów w 2026 rekomendacja: zacznij od Convert (dobry stosunek cena/funkcjonalność) lub GrowthBook self-hosted (open source, koszt = hosting). VWO i Optimizely są świetne, ale ceny są międzynarodowe i nieprzyjazne dla zespołów PL mid-market. Szczegółowe porównanie w artykule o alternatywach do Google Optimize.

Workflow decyzyjny: 5 pytań przed wyborem metody

Ile mam sesji tygodniowo na stronie testowej? Poniżej 5 000 — nie testuj nic poza dużymi zmianami strategicznymi. 5–30k — A/B. 30–100k — A/B lub MVT 2×2. Powyżej 100k — pełny zakres metod.
Co chcę się dowiedzieć? „Czy ta zmiana działa” = A/B. „Jak elementy ze sobą współpracują” = MVT. „Który wariant zarabia najwięcej w trakcie” = bandit.
Ile mam czasu? 2–4 tygodnie = A/B lub bandit. 4–8 tygodni = A/B sekwencyjnie, MVT 2×2. 8+ tygodni = MVT 3×3 lub większe.
Jak długa jest ścieżka konwersji? Natychmiastowa (zakup, rejestracja) — wszystkie metody. Długa (B2B lead 30–90 dni) — odpada bandit, MVT trudne. Preferuj A/B z proxy metric.
Czy mam statystyka lub analityka w zespole? Nie — A/B z prostym kalkulatorem sample size. Tak — rozważ MVT i bandit, zespół poradzi sobie z korektami wielokrotnych porównań i analizą SRM.

FAQ

Czy mogę zrobić MVT w Google Optimize?

Nie, Google Optimize został wycofany 30 września 2023 roku. Od tego czasu zespoły migrują do Optimizely, VWO, AB Tasty, Convert lub open-source GrowthBook. Szczegółowa lista alternatyw z porównaniem funkcji MVT jest w osobnym materiale — każda z tych platform obsługuje MVT w różnym stopniu. VWO i Optimizely mają najpełniejszą implementację (full factorial, Taguchi, analiza interakcji). GrowthBook radzi sobie dobrze z A/B i prostszym MVT, ale dla złożonych designów wymaga dodatkowej analizy poza narzędziem (Python, R). Migracja z GO w 2026 powinna już być zakończona — jeśli nadal jej nie zrobiłeś, tracisz możliwość testowania.

Czy bayesowski MVT (posterior probability) zastępuje klasyczne testy istotności?

Zastępuje — ale nie uwalnia Cię od dyscypliny. W podejściu bayesowskim nie ma p-value, jest prawdopodobieństwo posteriorne, że wariant B pokonuje A o X%. Narzędzia typu VWO i Optimizely raportują np. „Variant B ma 94% szansę na pokonanie kontroli”. Brzmi prosto, ale pułapki są dwie: (1) narzędzia domyślnie używają priorsów, które nie zawsze pasują do Twoich warunków — dla małych próbek priors mocno wpływa na wynik; (2) zatrzymywanie testu, gdy tylko probability przekroczy próg, jest w bayesowskim frameworku bardziej akceptowalne niż w klasycznym, ale wciąż zaniża precyzję. Praktyczna zasada: zaplanuj minimalną próbkę z góry nawet w bayesowskim podejściu i nie reaguj na „shiny” 95% po 3 dniach.

Jak liczyć wymaganą próbkę dla MVT w praktyce?

Najłatwiej użyć kalkulatora z Evan Miller lub wbudowanego w GrowthBook/VWO. Ręcznie: dla N kombinacji próbka na wariant rośnie wolniej niż liniowo, ale liczba porównań par rośnie kwadratowo. Dla MVT 2×2 (4 kombinacje, 6 porównań par) zwykle mnożysz próbkę A/B przez 1,15–1,3 per wariant. Dla MVT 3×3 (9 kombinacji, 36 porównań) stosujesz korektę Bonferroni α/36 = 0,0014 zamiast 0,05, co wymaga ~3× większej próbki per wariant. Jeśli dopiero zaczynasz z MVT, konsultuj design z analitykiem przed uruchomieniem — błąd w power analysis kosztuje 4–6 tygodni straconego ruchu.

Co robić, gdy MVT nie pokazuje zwycięzcy po 6 tygodniach?

Jeżeli osiągnąłeś zaplanowaną próbkę i żaden wariant nie jest istotnie lepszy, to jest prawdziwy wynik — zmiana, którą testowałeś, nie ma istotnego wpływu. Nie przedłużaj testu „jeszcze tydzień, może się pokaże” — to manipulacja p-value. Zinterpretuj: albo MDE było źle dobrane (zmiana jest prawdziwa, ale za mała, żeby ją wykryć przy Twoim ruchu), albo hipoteza była błędna. W drugim przypadku dobra praktyka: zapisz test w repozytorium „inconclusive / no effect”, żeby zespół nie powtarzał go za pół roku. Jedna trzecia wszystkich testów w dojrzałych zespołach CRO daje wynik null — i to jest OK.

Ile kosztuje wdrożenie kultury eksperymentowania w firmie 20-osobowej?

W 2026 w Polsce: 6–18 tys. zł/miesiąc na licencje narzędzia (Convert, VWO tier średni), 8–15 tys. zł jednorazowo na szkolenie zespołu (2 dni analityki + 3 dni warsztatu eksperymentów), 60–150 tys. zł/rok kosztu pracowniczego dla dedykowanego CRO/analityka (pełny etat) lub agencji (0,5 FTE). Zwrot mierzalny po 6–9 miesiącach przez przyrost konwersji w testowanych strumieniach (zwykle 12–35% kumulatywnie po roku), pod warunkiem że firma faktycznie wdraża wyniki testów — co w praktyce dzieje się w 40–60% przypadków. Reszta testów „kończy w szufladzie” przez brak procesu roll-out, co jest niedocenianym kosztem eksperymentowania.

Czy MVT się opłaca dla landing page z Google Ads?

Opłaca się, jeśli na tę konkretną landing przychodzi minimum 25 000 kliknięć tygodniowo (baseline CR 3%). Przy niższym ruchu lepiej zrobić sekwencję A/B lub bandit. Dla landingów Google Ads szczególnie dobrze działa Thompson sampling — reklamy mają krótki cykl życia (2–6 tygodni), ruch jest drogi (8–40 zł/klik), a bandit minimalizuje regret. W agencjach PPC w 2026 standardem staje się nawet wewnętrznie „bandit na 2 tygodnie, potem A/B na zwycięzcę vs nowa hipoteza” — hybryda, która łączy szybkość z jakością statystyki.

Co dalej

MVT nie jest „lepszym A/B”. Jest specjalizowanym narzędziem, które działa w wąskim zakresie warunków. Jeśli masz ruch, czas i pytanie o interakcje — używaj. Jeśli masz mniej niż 30 000 sesji/tydz — nie używaj, A/B zrobi to samo, szybciej i z mniejszym ryzykiem fałszywych odkryć.

Zacznij od matematyki — bez sample size i MDE żaden test nie da wiarygodnych wyników. Zobacz statystykę eksperymentów.
Wybierz narzędzie — porównanie platform po Google Optimize jest w alternatywach 2026.
Upewnij się, że GA4 jest skonfigurowany tak, żeby dane z eksperymentów były analizowalne — zobacz GA4 dla zaawansowanych.
Szerszy kontekst analityki i pomiaru — wróć do pillara analityka marketingowa 2026.

Trzy wskaźniki dojrzałości zespołu eksperymentującego, które warto mierzyć co kwartał: liczba uruchomionych testów (cel: 4–8 testów/miesiąc dla aktywnego zespołu), odsetek wyników null (30–50% jest zdrowe; poniżej 20% sugeruje, że zespół testuje tylko oczywiste zmiany; powyżej 70% — hipotezy są słabe), odsetek wdrożeń po teście (powyżej 80% dla zwycięzców i powyżej 30% dla null-result decyzji). Zespoły, które monitorują te trzy metryki, w ciągu roku budują systematyczny wzrost konwersji na poziomie 15–40% — niezależnie od wyboru MVT, A/B czy bandit.

Multi-variate testing vs A/B — kiedy co stosować