Confronta due tassi di conversione: p-value, lift, significatività statistica.
Test z a due proporzioni su errore standard aggregato. Il valore p deriva dalla CDF normale standard (erf di Abramowitz & Stegun, accurata fino a 10⁻⁷). I baffi mostrano ±2 SE per ogni variante — la sovrapposizione suggerisce che la differenza possa essere rumore. Aumento e IC sono calcolati sull'errore standard non aggregato.
Quando si esegue un test A/B su un sito web, su un oggetto di un'e-mail, su una pagina di prezzi o su qualsiasi altro risultato binario (ha cliccato / non ha cliccato, si è iscritto / non si è iscritto, ha pagato / non ha pagato), la domanda a cui si vuole realmente rispondere è scomodamente semplice: il cambiamento ha effettivamente avuto un impatto significativo, o sto solo osservando del rumore casuale? I tassi di conversione fluttuano di giorno in giorno su ogni prodotto, anche quando nulla è cambiato. Se la variante B ha convertito il 6,4 % dei visitatori e il controllo A ha convertito il 5,0 %, non si può dichiarare vittoria solo perché il numero di B è maggiore. Bisogna chiedersi quanto spesso una differenza di 1,4 punti potrebbe apparire per puro caso, data la dimensione del pubblico misurato. Questo è l'intero compito del test di significatività statistica: separare i segnali dal rumore del campionamento. Se lo si salta, si implementeranno modifiche casuali, si proclameranno vittorie che svaniranno il mese successivo e si perderà la fiducia del proprio team. Usandolo correttamente, si costruisce una cultura basata sull'evidenza: si implementa solo ciò che si può difendere con i numeri.
Il test standard per esperimenti A/B a due proporzioni è il z-test a due proporzioni sull'errore standard aggregato (pooled standard error). Data la variante A con n_A visitatori e c_A conversioni, e la variante B con n_B visitatori e c_B conversioni, il calcolatore computa:
p_A = c_A / n_A, p_B = c_B / n_Bp̂ = (c_A + c_B) / (n_A + n_B)SE = √( p̂·(1 − p̂) · (1/n_A + 1/n_B) )z = (p_B − p_A) / SEp = 2 · (1 − Φ(|z|)) o a una coda p = 1 − Φ(z) per l'alternativa B > AΦ è la funzione di distribuzione cumulativa normale standard, calcolata dall'approssimazione erf di Abramowitz & Stegun (accurata a circa 10⁻⁷). Il lift relativo è (p_B − p_A) / p_A. L'intervallo di confidenza del 95 % per la differenza assoluta utilizza l'errore standard non aggregato (unpooled) SE_u = √( p_A·(1−p_A)/n_A + p_B·(1−p_B)/n_B ), poiché la forma aggregata assume l'ipotesi nulla. La visualizzazione mostra ±2 SE attorno a ogni tasso per permettere di vedere se le due bande di confidenza si sovrappongono.
Inserite i quattro conteggi grezzi: visitatori e conversioni per ogni variante. I "Visitatori" dovrebbero essere utenti unici assegnati alla variante, non visualizzazioni di pagina — e la stessa persona dovrebbe sempre vedere la stessa variante. Le "Conversioni" sono il conteggio di quei visitatori che hanno completato l'obiettivo almeno una volta. Scegliete un livello di confidenza: il 95 % è l'impostazione predefinita nel settore; usate il 99 % quando il cambiamento è rischioso e annullarlo costa denaro o fiducia; il 90 % è accettabile per piccole modifiche all'interfaccia utente a basso rischio, dove si tiene principalmente alla velocità di iterazione. Scegliete una coda: il test a due code è l'impostazione predefinita più sicura — verifica se le varianti differiscono in entrambe le direzioni, il che vi protegge dalla "cherry-picking" (selezione opportunistica dei dati). Usate il test a una coda solo quando avete una forte evidenza a priori che B può essere solo ≥ A (un'affermazione quasi impossibile in pratica). Leggete il verdetto: se Significativo = Sì avete prove per dichiarare il vincitore mostrato; se No, i dati sono coerenti con l'assenza di differenze reali al livello α scelto. L'indicatore KPI "lift" vi indica la magnitudine del cambiamento in termini relativi — un lift di 2 punti su una base del 5 % è un lift relativo del 40 %, il che è enorme.
Avete condotto un test di riprogettazione di una landing page per due settimane. La variante A (la pagina esistente) è stata mostrata a 5.000 visitatori e ha generato 250 iscrizioni. La variante B (la riprogettazione) è stata mostrata a 5.100 visitatori e ha generato 320 iscrizioni. Inserite questi numeri. Il calcolatore computa p_A = 5,00 %, p_B = 6,27 %, una differenza assoluta di 1,27 punti, un lift relativo del +25,5 % — promettente a prima vista. Il tasso aggregato è (250 + 320) / (5.000 + 5.100) ≈ 5,64 %, l'errore standard aggregato è circa 0,00459, e z ≈ +2,78. Il p-value a due code è all'incirca 0,0055, ben al di sotto di α = 0,05. Il verdetto: Significativo = Sì, vincitore = B, e potete implementare la riprogettazione con ragionevole fiducia. L'intervallo di confidenza del 95 % per la differenza è approssimativamente [+0,36 %, +2,18 %] — notate che anche il limite inferiore è comodamente sopra lo zero, che è l'analogo visivo di "i baffi non si incrociano". Ora rifate lo stesso esempio con solo 1.500 visitatori per variante e un lift assoluto simile: la statistica z si riduce al di sotto di 1,96 e il risultato diventa inconclusivo. Stesso effetto, meno dati, nessuna decisione di implementazione. Questo è il calcolatore che si dimostra utile.
Il più grande errore nei test A/B è il peeking (sbirciare): controllare il p-value quotidianamente e interrompere il test la prima volta che scende al di sotto di 0,05. Facendo ciò, si gonfia il tasso di falsi positivi dal 5 % nominale a circa 25-30 % nel giro di poche settimane, perché ogni controllo aggiuntivo è un'ulteriore possibilità che il rumore sembri un segnale. Scegliete una dimensione del campione in anticipo e attenetevi ad essa. Secondo, varianti multiple senza correzione: se si eseguono A/B/C/D/E con 4 confronti simultanei rispetto al controllo, l'α effettivo esplode. Applicate una correzione di Bonferroni (α_per_test = α / k) o eseguite prima un singolo test in stile ANOVA. Terzo, interruzione anticipata basata sulla dimensione del lift: un lift del 40 % nei primi tre giorni è quasi sempre una regressione alla media — i primi ad adottare una nuova variante tendono ad essere entusiasti. Quarto, effetto novità: qualsiasi cambiamento sembra migliore nella settimana 1 perché gli utenti reagiscono a qualsiasi cosa nuova; lasciate che il test duri almeno un ciclo settimanale completo. Quinto, stagionalità settimanale: iniziare il lunedì e finire il sabato rompe la simmetria tra le varianti se il mix di traffico differisce per giorno della settimana. Sesto, discrepanza nel rapporto del campione (SRM - Sample-Ratio Mismatch): se la vostra divisione A/B era impostata a 50/50 ma avete misurato 5.000 contro 5.800, qualcosa non va con la logica di assegnazione — il test è invalido finché non lo risolvete. Settimo, lanci confondenti: non eseguite mai due test su pubblici sovrapposti senza un'adeguata isolazione; i risultati si influenzano a vicenda.
Diversi framework alternativi affrontano le debolezze del classico test frequentista. Il test A/B bayesiano riporta la probabilità a posteriori che B sia la migliore dati i prior, il che evita il verdetto binario "significativo / non significativo" e permette di interrompere in anticipo basandosi su soglie di probabilità — ma la risposta dipende dal vostro prior, che dovete difendere. Il testing sequenziale con p-value sempre validi (mSPRT, disegni group-sequential) permette di sbirciare quante volte si vuole senza gonfiare l'errore di tipo I, al costo di richiedere un campione leggermente più grande per raggiungere la stessa confidenza. Il CUPED (Controlled-experiment Using Pre-Experiment Data) utilizza covariabili del periodo precedente all'esperimento per sottrarre il rumore di base, riducendo spesso le dimensioni del campione richieste del 30-50 % su metriche con alta correlazione pre-esperimento. I multi-armed bandit (campionamento di Thompson, UCB) allocano più traffico ai rami vincenti in tempo reale — ottimi per decisioni a breve termine o quando un ramo è drasticamente peggiore, ma inadatti quando si desidera una lettura pulita post-test. Per metriche non binarie come i ricavi per visitatore o le pagine per sessione, sostituite il test di proporzione con un t-test di Welch, idealmente su valori log-trasformati per domare le code pesanti. I test di sopravvivenza o di step del funnel sono appropriati quando il risultato si sviluppa nel tempo (tempo all'acquisto, retention al giorno 30): utilizzate le curve di Kaplan-Meier con un log-rank test anziché collassare a una singola proporzione. Infine, eseguite un'analisi della potenza prima di iniziare: uno strumento che vi indica la dimensione minima del campione richiesta per rilevare la più piccola dimensione dell'effetto che interessa alla vostra attività — senza di essa, "abbiamo bisogno di più dati" è l'unica risposta onesta a quasi ogni test inconclusivo.