Significativité test A/B

03Comment ça marche

Pourquoi ce calcul

Lorsque vous menez un test A/B sur un site web, une ligne d'objet d'e-mail, une page de prix, ou tout autre résultat binaire (a cliqué / n'a pas cliqué, s'est inscrit / ne s'est pas inscrit, a payé / n'a pas payé), la question à laquelle vous voulez vraiment répondre est d'une simplicité déconcertante : le changement a-t-il réellement eu un impact, ou s'agit-il d'un bruit aléatoire ? Les taux de conversion fluctuent de jour en jour sur chaque produit, même lorsque rien n'a changé. Si la variante B a converti 6,4 % des visiteurs et le contrôle A a converti 5,0 %, vous ne pouvez pas déclarer victoire simplement parce que le chiffre de B est plus grand. Vous devez vous demander à quelle fréquence un écart de 1,4 point pourrait apparaître par pur hasard, étant donné la taille des audiences que vous avez mesurées. C'est la tâche entière des tests de signification statistique — séparer les signaux du bruit d'échantillonnage. Ignorez-le et vous déploierez des changements aléatoires, revendiquerez des victoires qui s'évaporeront le mois suivant et perdrez la confiance de votre équipe. Utilisez-le correctement et vous construirez une culture de la preuve : ne déployez que ce que vous pouvez défendre avec des chiffres.

La formule

Le test standard pour les expériences A/B à deux proportions est le test z de deux proportions sur une erreur standard groupée. Étant donné la variante A avec n_A visiteurs et c_A conversions, et la variante B avec n_B visiteurs et c_B conversions, le calculateur calcule :

p_A = c_A / n_A, p_B = c_B / n_B
taux groupé p̂ = (c_A + c_B) / (n_A + n_B)
erreur standard groupée SE = √( p̂·(1 − p̂) · (1/n_A + 1/n_B) )
statistique z z = (p_B − p_A) / SE
valeur p : bilatérale p = 2 · (1 − Φ(|z|)) ou unilatérale p = 1 − Φ(z) pour l'alternative B > A

Φ est la fonction de répartition cumulative normale standard, calculée à partir de l'approximation erf d'Abramowitz & Stegun (précise à environ 10⁻⁷). Le gain relatif est (p_B − p_A) / p_A. L'intervalle de confiance à 95 % pour la différence absolue utilise l'erreur standard non groupée SE_u = √( p_A·(1−p_A)/n_A + p_B·(1−p_B)/n_B ), étant donné que la forme groupée suppose l'hypothèse nulle. La visualisation montre des moustaches de ±2 SE autour de chaque taux afin que vous puissiez voir si les deux bandes de confiance se chevauchent.

Comment l'utiliser

Saisissez les quatre chiffres bruts : visiteurs et conversions pour chaque variante. Les « visiteurs » doivent être des utilisateurs uniques attribués à la variante, pas des vues de page — et la même personne doit toujours voir la même variante. Les « conversions » sont le nombre de visiteurs ayant atteint l'objectif au moins une fois. Choisissez un niveau de confiance : 95 % est la valeur par défaut dans l'industrie ; utilisez 99 % lorsque le changement est risqué et que l'annuler coûte de l'argent ou de la confiance ; 90 % est acceptable pour les ajustements d'interface utilisateur à faible enjeu où vous vous souciez principalement de la vitesse d'itération. Choisissez une queue : bilatérale est la valeur par défaut sûre — elle teste si les variantes diffèrent dans une direction ou l'autre, ce qui vous protège du « cherry-picking » (choix sélectif). N'utilisez unilatéral que si vous avez une forte conviction préalable que B ne peut être que ≥ A (une affirmation presque impossible en pratique). Lisez le verdict : si Significatif = Oui, vous avez des preuves pour déclarer le gagnant affiché ; si Non, les données sont cohérentes avec l'absence de différence réelle au seuil α choisi. Le KPI de gain vous indique l'ampleur du changement en termes relatifs — un gain de 2 points sur une base de 5 % représente un gain relatif de 40 %, ce qui est énorme.

Exemple concret

Vous avez mené un test de refonte de page de destination pendant deux semaines. La variante A (la page existante) a été montrée à 5 000 visiteurs et a généré 250 inscriptions. La variante B (la refonte) a été montrée à 5 100 visiteurs et a généré 320 inscriptions. Entrez ces chiffres. Le calculateur détermine p_A = 5,00 %, p_B = 6,27 %, un écart absolu de 1,27 point, un gain relatif de +25,5 % — prometteur à première vue. Le taux groupé est (250 + 320) / (5 000 + 5 100) ≈ 5,64 %, l'erreur standard groupée est d'environ 0,00459, et z ≈ +2,78. La valeur p bilatérale est d'environ 0,0055, bien en dessous de α = 0,05. Le verdict : Significatif = Oui, gagnant = B, et vous pouvez déployer la refonte avec une confiance raisonnable. L'IC à 95 % pour la différence est d'environ [+0,36 %, +2,18 %] — notez que même la borne inférieure est confortablement au-dessus de zéro, ce qui est l'analogue visuel de « les moustaches ne se croisent pas ». Refaites maintenant le même exemple avec seulement 1 500 visiteurs par variante et un gain absolu similaire : la statistique z diminue en dessous de 1,96 et le résultat devient non concluant. Même effet, moins de données, pas de décision de déploiement. C'est ainsi que le calculateur prouve son utilité.

Pièges

La plus grande erreur dans les tests A/B est le « peeking » (le fait de jeter un œil) : vérifier quotidiennement la valeur p et arrêter le test la première fois qu'elle tombe en dessous de 0,05. Cela gonfle votre taux de faux positifs du taux nominal de 5 % à environ 25–30 % sur quelques semaines, car chaque vérification supplémentaire est une autre occasion pour le bruit de ressembler à un signal. Choisissez une taille d'échantillon à l'avance et engagez-vous à la respecter. Deuxièmement, variantes multiples sans correction : si vous exécutez A/B/C/D/E avec 4 comparaisons simultanées par rapport au contrôle, votre α effectif explose. Appliquez une correction de Bonferroni (α_per_test = α / k) ou exécutez d'abord un seul test de type ANOVA. Troisièmement, arrêt anticipé basé sur l'ampleur du gain : un gain de 40 % sur les trois premiers jours est presque toujours une régression vers la moyenne — les premiers utilisateurs d'une nouvelle variante sont souvent excessivement enthousiastes. Quatrièmement, effet de nouveauté : tout changement semble meilleur la première semaine car les utilisateurs réagissent à toute nouveauté ; laissez le test s'exécuter pendant au moins un cycle hebdomadaire complet. Cinquièmement, saisonnalité hebdomadaire : commencer le lundi et terminer le samedi rompt la symétrie entre les variantes si la répartition du trafic diffère selon les jours de la semaine. Sixièmement, déséquilibre du ratio d'échantillons (SRM) : si votre répartition A/B était fixée à 50/50 mais que vous avez mesuré 5 000 contre 5 800, quelque chose ne va pas avec le mécanisme d'attribution — le test est invalide jusqu'à ce que vous le corrigiez. Septièmement, lancements confondants : ne jamais exécuter deux tests sur des audiences qui se chevauchent sans une isolation adéquate ; les résultats se mélangent.

Variations

Plusieurs cadres alternatifs abordent les faiblesses du test fréquentiste classique. Le test A/B bayésien rapporte la probabilité postérieure que B soit le meilleur étant donné les a priori, ce qui évite le verdict binaire « significatif / non » et vous permet d'arrêter tôt sur des seuils de probabilité — mais la réponse dépend de votre a priori, que vous devez défendre. Le test séquentiel avec des valeurs p toujours valides (mSPRT, plans séquentiels de groupe) vous permet de jeter un œil aussi souvent que vous le souhaitez sans gonfler l'erreur de type I, au prix de nécessiter un échantillon légèrement plus grand pour atteindre la même confiance. Le CUPED (Controlled-experiment Using Pre-Experiment Data) utilise des covariables pré-expérimentales pour soustraire le bruit de base, réduisant souvent les tailles d'échantillon requises de 30 à 50 % sur les métriques ayant une forte corrélation pré-expérimentale. Les bandits manchots (échantillonnage de Thompson, UCB) allouent plus de trafic aux bras gagnants en temps réel — excellent pour les décisions à court terme ou lorsqu'un bras est considérablement moins performant, mais inadapté lorsque vous souhaitez une lecture post-test propre. Pour les métriques non binaires comme le revenu par visiteur ou les pages par session, remplacez le test de proportion par un test t de Welch, idéalement sur des valeurs transformées logarithmiquement pour apprivoiser les queues épaisses. Les tests de survie ou d'étapes de tunnel sont appropriés lorsque le résultat se déroule dans le temps (temps d'achat, rétention au jour 30) : utilisez des courbes de Kaplan-Meier avec un test de log-rank plutôt que de réduire à une seule proportion. Enfin, effectuez une analyse de puissance avant de commencer : un outil qui vous indique la taille d'échantillon minimale requise pour détecter la plus petite taille d'effet qui intéresse votre entreprise — sans elle, « nous avons besoin de plus de données » est la seule réponse honnête à presque tout test non concluant.