Orchestration agentów AI to nie detail implementacyjny – to jedna z kluczowych decyzji architektonicznych. Zły wybór oznacza miesiące kompilowania procesów ręcznie lub ograniczeń, które blokują rozwój. Dobry wybór to platforma, która znika z pola widzenia – po prostu wykonuje to, co powinna. W tym tekście porównujemy trzy najczęściej używane opcje: Temporal, n8n, Zapier, na podstawie 8 miesięcy produkcji 3 różnych agentów.
Artykuł jest częścią klastra AI w marketingu 2026. Zobacz także wprowadzenie do agentów AI, praktyczne case agent AI WordPress, oraz proces content AI.
W skrócie
- Zapier – najłatwiejszy start, gotowe integracje 6000+, no-code. Problem: drogi powyżej 5 000 tasków/miesiąc, słabe debugging, brak complex procesy.
- n8n – open-source, self-hosted, no/low-code z custom JS, 400+ natywnych integracji. Sweet spot dla zespołów technicznych 1-5 osób.
- Temporal – code-first, stateful procesy, enterprise-grade reliability. Wymaga dev kompetencji, ale skaluje do tysięcy procesy/sekunda.
- Wybór: Zapier do MVP (1-4 tygodnie), n8n do 200-2000 procesów/dzień, Temporal dla production mission-critical.
- Hybrid: czasem najlepszy. Triggers z Zapier (łatwe integracje) → logika w Temporal (niezawodność) – stosujemy u 1 klienta.
Spis treści
- Kryteria wyboru orchestrator
- Zapier – kiedy ma sens
- n8n – sweet spot dla SaaS/marketing
- Temporal – enterprise-grade
- Porównanie head-to-head
- Drzewo decyzyjne
- Architektury hybrydowe
- Typowe błędy wyboru
- FAQ
- Co dalej
Kryteria wyboru orchestrator
Zanim zagłębisz się w tooling, zdefiniuj priorytety:
- Skala – ile procesów/dzień? 10? 1 000? 100 000? Zapier do ~500/dzień, n8n do ~10 000, Temporal do milionów.
- Complexity – pojedynczy linear flow, czy branching + loops + human-in-loop + long-running (dni)?
- Reliability – 95% OK? 99,9%? 99,999%? Każdy „9″ zmienia wybór tooling.
- Team skills – marketerzy bez dev background, vs full-stack engineers?
- Budżet — 50 USD/miesiąc vs 5 000 USD vs unlimited?
- Integrations – ile SaaS-ów potrzebujesz łączyć? 5? 50?
- Debugging – jak ważne widoczność błędów w runtime?
Matryca decyzyjna
| Kryterium | Zapier | n8n | Temporal |
|---|---|---|---|
| Skala (max procesy/dzień) | ~500 | ~10 000 | miliony |
| Complexity support | Prosta | Średnia | Wysoka |
| Reliability (out of box) | 99% | 99,5% | 99,99% |
| Team skills | No-code | Low-code | Code-first |
| Koszt startowy | 20-50 USD/mies. | 35-200 USD/mies. (self-hosted) | 35 USD (self) lub 200+ (Cloud) |
| Koszt w skali | Drogi (per task) | Tani (flat infra) | Średni (usage-based Cloud) |
| Integrations native | 6 000+ | 400+ | 0 (code everything) |
| Long-running procesy | Brak | Ograniczone | Natywne (dni, miesiące) |
Zapier – kiedy ma sens
Zapier jest najprostszym entry-pointem do automatyzacji. 6 000+ gotowych integracji, no-code interface, 15-minutowe setupy.
Plusy
- Natychmiastowe integracje. Slack, Gmail, Google Sheets, Notion, HubSpot, Salesforce – wszystko out-of-box, zero konfiguracji API.
- No-code UI. Marketerzy mogą samodzielnie tworzyć automatyzacje bez pomocy dev.
- AI Actions – natywne integracje z OpenAI, Anthropic, Perplexity. Prosty prompt przez formularz.
Minusy
- Koszt rośnie liniowo. 2 000 tasków/miesiąc = 50 USD. 10 000 = 150 USD. 50 000 = ~600 USD. Dla agenta produkującego 100 artykułów/miesiąc (każdy = 10-15 tasków) koszt sięga 300-500 USD/mies.
- Limited debugging. Gdy task fail, widzisz error message, ale historyczny view jest słaby.
- Brak złożoności. Loops, complex branching, retries z custom logic – albo niemożliwe, albo bardzo utrudnione.
- Brak long-running. Zapier nie utrzymuje proces dłużej niż kilka minut – dla flowów czekających na human approval trzeba hacków z delays.
Kiedy używać Zapier
- MVP agent AI – pierwsze 4-8 tygodni. Zbuduj szybko, zobacz co działa.
- Proste agenty – 1-3 sekwencyjne kroki, bez complex logic.
- Marketerzy-owned procesy – gdy zespół bez developera musi iterować samodzielnie.
- Event-driven triggery – Gmail → Slack → HubSpot (tu Zapier nie ma konkurencji dla prostoty).
n8n – sweet spot dla SaaS/marketing
n8n to open-source orchestrator z 400+ natywnymi integracjami. Można self-host (Docker container, 35 EUR/mies. na Hetzner) lub użyć n8n Cloud (20-500 EUR/mies.).
Plusy
- Self-hosting = flat cost. Nieważne, czy 100 czy 10 000 procesy/dzień – koszt infra stały.
- Custom JavaScript/Python. W każdym nodzie możesz napisać kod, rozwiązując limity no-code.
- Lepsze debugging. Proces execution historia z pełnymi input/output każdego node.
- Versioning – procesy jako JSON, łatwo commit to git.
- Queue mode – Redis-backed, real concurrency, czeka na wolne worker’y.
Minusy
- Wymaga infra management. Self-host = Twój SSL, backups, monitoring, upgrades.
- Fewer integrations than Zapier. Dla niszowych SaaS niektóre wymagają custom HTTP request node.
- Still not fully code-first. Dla bardzo złożonych procesy UI staje się clutter.
- Long-running nie pełne. Procesy > 12h wymagają hacków (split na kilka proces’ów z triggerami).
Kiedy używać n8n
- Marketing automation z custom logic. Lead scoring, multi-step nurture z LLM.
- SaaS MVP budowany przez zespół 1-3 dev. Sweet spot kosztowo-techniczny.
- Agentów AI z 5-20 kroków. Content ciąg procesów, social media proces, email automation.
- Integracje wielu SaaS bez enterprise budżet.
Setup i koszty
Najprostszy n8n setup: Docker compose na Hetzner CCX23 (8 GB RAM, 4 vCPU) = 35 EUR/mies. Obsługuje ~1 000 procesy/dzień. Przy 10 000 procesy/dzień – rozbudujesz do CCX33 (60 EUR) + Postgres external (+20 EUR).
Alternatywa: n8n Cloud – 20 EUR/mies. za Starter, 99 EUR za Team, 500+ za Enterprise. Wygodniejsze dla zespołów nie chcących ops burden.
Temporal — enterprise-grade
Temporal to code-first orchestrator stworzony przez ex-Amazonian’ów (autorzy AWS SWF). Procesy piszesz w kodzie (Go, TypeScript, Python, Java), Temporal zapewnia state persistence, retry, timers, signals.
Plusy
- Reliability 99,99%. Mission-critical procesy w Uber, Snap, Netflix.
- Long-running native. Proces może trwać dni, tygodnie, miesiące. State przetrzymuje.
- Complex patterns. Parallel execution, child procesy, cross-proces signals, human-in-loop – wszystko natywne.
- Code-first = testable. Unit tests, integration tests, mock activities – normalne dev proces.
- Observability. Web UI z pełną historią każdego proces, każdej aktywności, każdej decyzji.
Minusy
- Wymaga dev. Zero UI do tworzenia proces’ów – wszystko w kodzie.
- Steeper learning curve. 2-4 tygodnie do produktywności, vs 1 dzień dla n8n.
- Infra overhead. Self-host Temporal = Postgres + Cassandra/Elasticsearch + workers. Temporal Cloud = 200+ USD/mies.
- Brak natywnych SaaS integracji. Musisz napisać każdą integrację jako activity w kodzie.
Kiedy używać Temporal
- Agenty AI w produkcji mission-critical. Gdy downtime = stracone przychody.
- Long-running procesy. Np. kwartalny lifecycle content: publish → monitor 90 dni → rewrite → republish.
- High-scale (> 10 000 procesy/dzień). Temporal radzi sobie bez zadyszki.
- Compliance i audit. Full history każdego proces, immutable log – ważne dla regulated industries.
Stack produkcyjny
Minimum production Temporal deployment:
- Temporal server (self-hosted lub Cloud).
- PostgreSQL 12+ jako persistence.
- Elasticsearch (opcjonalnie) dla advanced search.
- Workers (Go/TS/Python) w autoskalowanej grupie.
- Monitoring: Prometheus + Grafana (Temporal metrics out-of-box).
Porównanie head-to-head
Scenariusz 1: agent publikujący 10 artykułów/tydzień
- Zapier: możliwe. 15 kroków × 10 = 150 tasków/tydzień × 4 = 600/mies. Koszt: 20-30 USD. OK.
- n8n: flat 35 EUR/mies. Jakość debugging wyższa. OK.
- Temporal: przesada. Setup 2-3 tygodnie, value dopiero przy 10× skali.
- Winner: Zapier (szybkość) lub n8n (kontrola).
Scenariusz 2: 3 klientów, każdy 100 artykułów/miesiąc
- Zapier: 45 000 tasków/mies × 3 klientów = 135 000 tasków. Koszt: ~1500 USD/mies.
- n8n: 35-100 EUR/mies flat, regardless of volume.
- Temporal: 35 EUR self-hosted. Complexity OK dla tej skali.
- Winner: n8n (prostota + koszt) lub Temporal (reliability).
Scenariusz 3: agent z 90-dniowym monitoring loop
- Zapier: trudne. Musisz hack’ować delays lub budować multi-proces architekturę.
- n8n: możliwe, ale z ograniczeniami (wait node do 10 000 sekund, potem musisz split proces).
- Temporal: natywne.
await sleep(Duration.fromDays(90))— proces czeka. - Winner: Temporal (jednoznaczny).
Scenariusz 4: 10 000 rebranding proces’ów w jeden weekend
- Zapier: koszt +3000 USD jednorazowy, rate limits mogłyby blokować.
- n8n: OK z queue mode, ale wymaga maintenance.
- Temporal: idealne – parallel execution, automatic retries.
- Winner: Temporal.
Drzewo decyzyjne
- Czy zespół ma dev? NIE → Zapier (koniec). TAK → następne pytanie.
- Czy proces potrzebuje long-running (> 24h)? TAK → Temporal (koniec). NIE → następne.
- Czy skala > 10 000 procesy/dzień lub mission-critical? TAK → Temporal. NIE → n8n.
Ten prosty tree rozwiązuje 80% decyzji. Resztę rozstrzyga: team preferences (code-first vs no-code), existing infra (masz już Temporal dla innych rzeczy? — wygrywa), budżet ops (możesz utrzymać self-hosted n8n? – jeśli nie, Temporal Cloud lub Zapier).
Architektury hybrydowe
Czasem najlepsza jest kombinacja:
Pattern 1: Zapier triggers + Temporal execution
Zapier łapie event (nowy email, form submit, webhook z SaaS), wywołuje endpoint Temporal. Temporal wykonuje złożony proces. Best of both: łatwe integracje + reliable execution.
Pattern 2: n8n dla marketing + Temporal dla AI
Marketing automation (email drip, lead scoring) w n8n — marketerzy sami edytują. Agenty AI (content, customer support) w Temporal – dev team.
Pattern 3: Zapier dla simple, Temporal dla complex
Triaż: jeżeli proces < 5 kroków, bez long-running, bez high reliability → Zapier. Wszystko inne → Temporal. Jedna decyzja na proces, clear boundaries.
Typowe błędy wyboru
- Overspending na Zapier przy skali. Najczęstszy. Zespół zaczyna z 500 tasków/mies, rośnie do 50 000, a nadal płaci per-task. Migracja na n8n = 60-80% oszczędności.
- Undersizing n8n infra. Ktoś uruchamia n8n na 2GB RAM VPS, po miesiącu pada przy 1000 procesy/dzień. Migracja do silniejszego servera = 2-4 tygodnie dev time.
- Temporal dla MVP. Zespół bez dev doświadczenia próbuje zacząć od Temporal, spędza 3 miesiące bez produktywnego output. Lepiej: MVP w Zapier, migracja do Temporal po validacji.
- Brak monitoring. Failed procesy w Zapier/n8n znikają w historii, bez alerting. Problem: błędy odkrywane dopiero, gdy klient się skarży.
- Ignoring versioning. Proces w produkcji, zmiana UI-click, coś psuje. Bez git versioning ciężko rollback. Dla n8n – export JSON do git przy każdej zmianie.
FAQ – najczęstsze pytania
Który orchestrator wybrać, jeśli dopiero zaczynam z agentami AI?
Dla pierwszego MVP: Zapier lub n8n. Zapier – jeśli zespół bez dev. n8n – jeśli masz 1+ dev i chcesz kontroli oraz lower long-term cost. Temporal odkładaj na moment, gdy MVP zwalidowałeś business case i wiesz, że potrzebujesz 99,9% reliability. Typowy timeline: 1-3 mies. Zapier → 4-12 mies. n8n → 12+ mies. Temporal (jeśli osiągniesz skalę).
Ile kosztuje Temporal w produkcji?
Self-hosted: ~100-300 USD/mies. (serwer + Postgres + Elasticsearch). Temporal Cloud: starts 200 USD/mies. (Starter), średnio 500-2000 USD/mies. dla produkcyjnych setupów z 100k+ proces/mies., enterprise 5000+ USD/mies. Dodatkowo: dev time na integration (100-300h jednorazowo dla pierwszego proces, 20-40h dla kolejnych).
Czy n8n nadaje się do agentów AI wymagających szybkiej odpowiedzi (real-time chat)?
Nie idealnie. n8n ma latency 100-500ms overhead per node, co przy 5-8 node proces daje 0,5-4 sekundy total latency – zwykle za dużo dla real-time chat. Dla real-time: bezpośrednia integracja LLM API w aplikacji (Next.js, FastAPI), bez orchestrator. n8n/Temporal lepsze dla async procesy (content generation, background processing), gdzie latency kilka sekund jest akceptowalna.
Czy można łatwo migrować między orchestratorami?
Nie łatwo. Każdy ma własną strukturę proces (Zapier: linear steps, n8n: graph, Temporal: code). Migracja = przepisanie, nie export/import. Typowy czas: 1-2 tygodnie na proces średniej złożoności. Strategia mitygacji: buduj procesy modularnie, z clear inputs/outputs per step, żeby single step był przenośny. Plus: trzymaj business logic w API Twojego systemu, nie w orchestrator – orchestrator wtedy tylko koordynuje calls, migracja łatwiejsza.
Co z alternatywami jak Make (dawniej Integromat)?
Make jest bezpośrednim konkurentem Zapier – podobna filozofia (no-code, natywne integracje), często tańszy per task (Make: 9 USD/10 000 operations, Zapier: 20+ USD). Gorsze: mniej integracji (1500 vs 6000), gorsze UX. Dobre dla: cost-conscious no-code. Poza tym: Airflow (Python-first, heavyweight dla data ciągi procesów, nie dla agent AI), Prefect (data-oriented, ale rosnący AI use case), Windmill (open-source alternative dla Zapier, młody).
Czy Temporal działa z Claude/Anthropic API?
Tak. Każda LLM API jest wrapowana jako activity w Temporal. Activity definiuje retry policy (np. 3 próby z backoff dla 429/500), timeout (default 60s, możesz zmienić), idempotency. Nasz przykład kodu w case agent AI WordPress. W produkcji testujemy też multi-provider fallback: jeśli Anthropic 503, Temporal retry → po 3 próbach activity wywołuje OpenAI jako backup.
Integracje z CRM, WordPress, marketingowym stackiem
Agent bez integracji to zabawka. Trzy integracje, które wdrażamy najczęściej:
Agent + CRM (HubSpot, Pipedrive)
- Lead enrichment — agent pobiera dane z LinkedIn, web, wzbogaca rekord CRM.
- Lead scoring – ocena quality lead na podstawie behavior + firmograficznych danych.
- Follow-up drafting – agent pisze personalizowane maile, human review + send.
- Meeting prep — briefing na podstawie historii kontaktu i company data.
Agent + WordPress (Blogers Connector)
- Content generation — agent tworzy drafty zgodnie z content planem.
- SEO optymalizacja – meta tags, schema, internal linking.
- Media — generowanie hero images przez DALL-E / Midjourney API.
- Scheduling – publikacja w kalendarzu editorial plan.
Agent + marketing automation (n8n, Zapier)
- Agent jako „node” w proces — triggerowany z formularza lub eventu.
- Webhook-based triggers, output JSON do dalszego przetwarzania.
- Flexibility: łatwo dołożyć kolejny krok (approval, notification, archive).
Integracja z data warehouse
- Agent jako konsument danych z BigQuery, Snowflake — generuje raporty, alerty.
- Write-back: wyniki analiz zapisywane do dedicated table.
- Retencja promptów i outputów dla compliance i późniejszych audytów.
Integracja z helpdesk / support
- Agent odpowiada na tier-1 tickets (proste pytania) automatycznie.
- Eskalacja do human dla complex case z pełnym kontekstem.
- Suggested responses dla support agentów w Zendesk/Intercom.
Tool use – agent podejmuje akcje
Różnica między chatbotem a agentem: agent wywołuje zewnętrzne narzędzia. W 2026 to core capability — wszyscy providerzy (OpenAI functions, Anthropic tool use, Gemini function calling) mają natywne wsparcie.
Typy narzędzi
- Read tools: wyszukiwanie, lookup w bazie, API calls GET. Najbezpieczniejsze, najczęstsze.
- Write tools: create post, send email, update CRM. Wymagają approval gates w krytycznych ścieżkach.
- Compute tools: Python interpreter, code execution, calculator. Sandbox wymagany.
- External APIs: HubSpot, Stripe, Zapier, WordPress. Auth management krytyczny.
Dobre praktyki definicji tool
- Nazwa tool opisowa (
search_knowledge_base, nietool1). - Description dla LLM w 1–2 zdaniach z przypadki użycia.
- Parameters schema (JSON Schema) z type hints.
- Required parameters wyraźnie oznaczone.
- Przykłady output w description dla LLM guidance.
Tool selection challenges
- Za dużo tools (> 15) – LLM myli się, używa nie tego.
- Overlapping tools – niejasna decyzja który użyć.
- Brak feedback loop – agent nie wie, czy tool się udał.
- Rekomendacja: 3–8 tools per agent, jasne boundaries.
State management — najtrudniejsze zagadnienie
80% agentów, które padają w produkcji, pada przez złe state management. Cztery wzorce, które działają:
Stateless z external memory
- Agent nie przechowuje stanu, każdy request czerpie z zewnętrznej bazy (Redis, PostgreSQL, vector DB).
- Zalety: skalowalność horyzontalna, łatwy restart, cheap recovery.
- Wady: latencja zwiększona przez external lookup.
- Use case: serverless agents, high concurrency.
Stateful z checkpoints
- Stan persistowany w kluczowych punktach proces (np. co 30 sekund, po każdym step).
- Narzędzia: LangGraph checkpoints, Temporal state, custom event sourcing.
- Zalety: resumable po crash, audyt trail.
- Wady: więcej storage, complexity invalidation.
Conversation memory
- Dla chat-based agentów: okno kontekstu + summary + long-term memory.
- Short-term: ostatnie N wiadomości (np. 10 turns).
- Mid-term: summary poprzednich rozmów (LLM-generated).
- Long-term: vector DB z retrievalem top-K relevant.
Shared state (multi-agent)
- Wiele agentów czyta/pisze do wspólnego contextu (blackboard pattern).
- Lock mechanisms dla concurrent writes.
- Event bus (Redis Streams, Kafka) dla real-time sync.
Frameworki orkiestracji agentów – porównanie 2026
Wybór frameworka decyduje o 60% kosztów utrzymania i 40% elastyczności systemu. Poniżej matryca dla trzech scenariuszy wdrożeniowych.
LangGraph (LangChain)
- Dla: zespoły z doświadczeniem Python/Node, złożone grafy decyzyjne, conditional branching.
- Mocne strony: state management, persistence, resumable procesy, dobry debug.
- Słabe strony: krzywa uczenia stroma, szybkie breaking changes w API.
- Koszt dev: 2–6 tyg. na pierwszego agenta produkcyjnego.
CrewAI
- Dla: szybkie prototypy, scenariusze multi-agent z jasnymi rolami (researcher, writer, editor).
- Mocne strony: prosta składnia, gotowe role patterns, community templates.
- Słabe strony: mniej elastyczne niż LangGraph dla complex flows.
- Koszt dev: 1–2 tyg. na pierwszego agenta, 1–3 dni na POC.
AutoGen (Microsoft)
- Dla: enterprise, integracja z Microsoft stack (Azure OpenAI, Teams).
- Mocne strony: conversation-first, multi-agent dialogues, human-in-the-loop.
- Słabe strony: heavy config dla simple cases, Azure-centric.
- Koszt dev: 3–8 tyg. z uwagi na enterprise compliance.
Temporal + custom agents
- Dla: zespoły, które już używają Temporal, potrzeby high reliability + long-running.
- Mocne strony: durability, retries, visibility, observability out of box.
- Słabe strony: wymaga custom kodu dla LLM orchestration layer.
- Koszt dev: 4–12 tyg. dla pełnego stack, idealny dla long-term ownership.
n8n + AI nodes
- Dla: non-dev teams, marketing automation, szybka iteracja wizualna.
- Mocne strony: 500+ integracji, wizualne budowanie, niskie wejście techniczne.
- Słabe strony: skalowanie do enterprise trudne, debugging złożonych flows.
- Koszt dev: dni, nie tygodnie, dla podstawowych agentów.
Wzorce orkiestracji – kiedy który
Sequential ciąg procesów
- Agent A → Agent B → Agent C, każdy przetwarza output poprzedniego.
- Use case: research → writing → editing → publikacja.
- Zalety: prostota, łatwy debug, jasny flow.
- Wady: nie równoległe, pojedynczy punkt failure.
Orchestrator-worker (hub and spoke)
- Główny agent deleguje zadania do specialist agents, agreguje wyniki.
- Use case: content brief → workers generują sections → orchestrator składa.
- Zalety: równoległość, specialized prompts, skalowalność.
- Wady: potrzeba solidnego aggregation layer.
Peer-to-peer debate
- Wielu agentów dyskutuje ze sobą, osiągają consensus lub głosują.
- Use case: content review (writer vs editor vs fact-checker), decision making.
- Zalety: wyższa jakość output, multiple perspectives.
- Wady: wyższy koszt tokenów, dłuższy czas odpowiedzi.
Hierarchical
- Manager agent deleguje do sub-managers, którzy delegują do workers.
- Use case: złożone workflowy z wieloma domenami (SEO + copy + design + analytics).
- Zalety: separation of concerns, skalowalność.
- Wady: complexity, lots of overhead.
Case: studio content agency, ciąg procesów 30 artykułów/mies.
Klient: marketingowe studio produkujące content dla 8 marek B2B, 30 artykułów miesięcznie, zespół 4 copywriters + 2 editors.
Stan pre-automatyzacja
- Research: 2h/artykuł (ręcznie przez copywriters).
- Outline: 45 min/artykuł.
- Draft: 4h/artykuł.
- Edit: 1,5h/artykuł.
- SEO optymalizacja: 45 min/artykuł.
- Total: ~9h/artykuł, 270h/mies. dla 30 artykułów.
System multi-agent
- Researcher agent: GPT-4o + search API, zbiera 10–20 źródeł, ekstrahuje key wnioski.
- Outline agent: Claude Sonnet, buduje strukturę H2/H3 z research briefem.
- Writer agent: Claude Sonnet, pisze draft per sekcja, równolegle.
- SEO agent: GPT-4o-mini, optymalizuje meta, internal linking, schema.
- Editor agent: Claude Opus, finalny review, fact-checking, style consistency.
- Human approval: copywriter review finalnego outputu (0,5–1h/artykuł).
Wyniki
- Czas pracy: 270h → 90h/mies. (-67%).
- Koszt AI API: ~4 200 PLN/mies. (30 artykułów × 140 PLN/artykuł).
- Produkcja: 30 → 75 artykułów/mies. (skalowanie przy tym samym zespole).
- Kwota zaoszczędzona: 180h × 85 PLN/h średnio = 15 300 PLN/mies. netto.
- ROI: 3,6× miesięcznie.
- Jakość: NPS klientów +12 punktów (stabilniejsza, mniej human errors).
Obserwowalność i monitoring agentów
Agent produkcyjny bez monitoringu to bomba zegarowa. Pięć warstw, które wdrażamy standardowo:
Tracing
- Każdy request z trace ID, każdy step zapisany (inputs, outputs, duration).
- Narzędzia: Langfuse, Helicone, LangSmith, Arize AI.
- Storage: 30–90 dni retention.
Metryki biznesowe
- Success rate: % tasków zakończonych bez human intervention.
- Cost per task: tokeny + API calls przeliczone na PLN.
- Latency: p50, p95, p99 czas odpowiedzi.
- Quality score: human rating sample 5% outputów.
Alerts
- Success rate spada < 85% → PagerDuty.
- Cost per task > 2× baseline → Slack alert.
- Latency p95 > 30s → dashboard red state.
- Model fallback fired > 10% → investigation.
A/B testy modeli
- Split 80/20 między production model a candidate.
- Śledzenie identyczny dla obu wersji.
- Decision po 7 dniach na podstawie quality + cost + latency.
Eval framework
- Golden dataset 50–200 przykładów z expected outputs.
- Automated eval po każdym deploymencie prompta.
- Pass/fail threshold przed merge.
Koszty agentów — modelowanie TCO
Najprostszy model kosztów, na którym prowadzimy decyzje make-vs-buy.
Koszty bezpośrednie
- API calls (OpenAI, Anthropic, Google): 50–70% TCO.
- Vector store (Pinecone, Weaviate, Qdrant): 5–10% TCO.
- Compute (serverless lub VPS): 5–10% TCO.
- Observability platform: 3–8% TCO.
Koszty pośrednie
- Dev time na pierwsze wdrożenie: 200–800h (zależnie od complexity).
- Maintenance retainer: 20–80h/mies. (bugfix, prompt tuning, model upgrades).
- Compliance / security audit: 40–120h rocznie dla enterprise.
Modelowanie jednostkowe
- Proste zadanie (classification, extraction): 0,05–0,30 PLN/zadanie.
- Średnie (short generation, lookup): 0,80–3,00 PLN/zadanie.
- Złożone (multi-agent, long document): 8–40 PLN/zadanie.
- Enterprise proces (full ciąg procesów): 30–150 PLN/zadanie.
Team i role — kto buduje i utrzymuje agentów
- AI Engineer / LLM Engineer: 18–28 tys. PLN B2B. Prompt engineering, eval, fine-tuning.
- ML Ops: 16–24 tys. PLN. Infrastruktura, monitoring, deploy.
- Backend Engineer: 14–22 tys. PLN. Integracje, API, orchestration layer.
- Product Manager AI: 15–22 tys. PLN. Przypadki użycia, priorytety, wspólny język z biznesem.
- Domain Expert (Marketer/SEO/etc): 12–18 tys. PLN. Definiuje wymagania, ocenia output.
Error handling i retry strategies
LLM API fallują – 5–8% requests w skali tygodnia dostaje 429 (rate limit), 500, 502, timeout. Solidna strategia retry to nie opcja, to fundament.
Kategorie błędów
- Transient (retry OK): 429, 500, 502, 503, 504, network timeout.
- Permanent (retry nie pomoże): 400 bad request, 401 unauthorized, 403 forbidden, 404 not found.
- Model-specific: content filter triggered, context length exceeded.
- Business logic: output nie spełnia schema, facts są wrong.
Retry policies
- Exponential backoff: 1s, 2s, 4s, 8s, 16s.
- Jitter: ±30% randomness żeby uniknąć thundering herd.
- Max retries: 3–5 dla transient, 0 dla permanent.
- Circuit breaker po 50% fail rate w ostatnich 100 requests.
Fallback providers
- Primary: Claude Sonnet (dobra jakość, średnia cena).
- Fallback 1: GPT-4o (gdy Anthropic 5xx).
- Fallback 2: Gemini 1.5 Pro (gdy oba niedostępne).
- Last resort: mniejszy, tani model (GPT-4o-mini) z degraded quality warning.
Guardrails na output
- Schema validation (Pydantic, Zod) — reject + retry jeśli output nie pasuje.
- Fact-checking agent jako validator.
- Profanity / safety filter przed dostarczeniem do usera.
- Hallucination detection (confidence score + external fact lookup).
Security i governance
Agent ma dostęp do systemów firmy. Bez security layer to zagrożenie większe niż korzyść.
Prompt injection defense
- System prompt odseparowany od user input.
- Input sanitization — usuwanie potencjalnych injection patterns.
- Output validation – czy agent zrobił to, co miał.
- Separation of privilege — agent ma minimalne uprawnienia do wykonania zadania.
PII handling
- PII detection przed wysłaniem do LLM (Presidio, AWS Macie).
- Tokenization: zamień emaile na
[EMAIL_1], phone na[PHONE_1], odwróć na końcu. - Zero-retention policy w konfiguracji API (OpenAI Enterprise, Anthropic Zero-Data-Retention).
- Audit log wszystkich PII operations.
Access control
- Agent per team/role z oddzielnymi credentials.
- Tool permissions – agent ma dostęp tylko do tych API, które są w scope.
- Rate limiting per user / per agent.
- Human approval gate dla krytycznych akcji (finance transactions, data deletion).
Co dalej
Wybór orchestratora to decyzja 2-3-letnia. Dobrze zrobić ją dwukrotnie (raz dla MVP, drugi raz dla production) niż jeden raz na stałe, trzymając się niefit tool. Najbardziej żałosny scenariusz: zespół spędza 6 miesięcy w toolu nieadekwatnym do skali, tracąc tempo rozwoju agenta.
- Zobacz praktyczny wdrożenie w case agent AI WordPress – używamy Temporal i pokazujemy kod.
- Dla nowych w temacie agentów – wprowadzenie do agentów AI.
- Szczegóły proces contentu w proces content AI.
- Pełny kontekst AI w marketingu – pillar AI w marketingu 2026.
Ostateczna rada: nie wybieraj orchestratora dłużej niż 2 tygodnie. Każdy wybór jest „good enough” dla MVP. Koszt migracji za 6 miesięcy jest niższy niż koszt niepodjęcia decyzji i nie zbudowania agenta wcale.