A/B Testing :
L’A/B testing permet de comparer différentes versions des éléments d’un site internet, afin d’en déterminer la plus performante.
Les éléments testés (boutons, formulaires, logo, etc.) peuvent être modifiés selon un ensemble de critères (couleurs, libellés, taille, disposition, etc.)
On peut notamment tester deux pages complètement différentes et qui vont combiner différents types de modifications.
Pour un test entre deux versions d’une page, on parlera souvent de la « variation A » pour la page originale, et de la « variation B », pour la version de la page contenant les modifications.
Mesure :
Pour déterminer laquelle des versions testées est la plus performante, il faut se fixer un objectif mesurable à atteindre. Il est souvent représenté sous la forme d’un taux. En voici quelques exemples :
- Taux de rebond sur un page
- Taux de clic sur un bouton
- Taux d’ajout au panier
- Taux de remplissage d’un formulaire
- Taux d’inscription à une newsletter
- Etc.
Quantification des résultats :
Quand on effectue des tests A/B, il est important de quantifier les résultats obtenus, afin de prendre les meilleures décisions.
Avec de nombreux outils d’A/B testing, on obtient les indicateurs suivants :
- Nombres de visites sur la page
- Nombre de conversions (Nombre d’objectifs atteints : souvent le nombre de clics sur un élément ou sur la page.)
- Taux de conversion (Pourcentage des visites ayant menées à la conversion)
Analyse des résultats :
Ces indicateurs (Nombres de visites, Nombre de conversions, Taux de conversion) ne sont bien souvent pas suffisants à eux seuls pour pouvoir prendre une décision. En effet, on pourrait être tenté de se baser uniquement sur le taux de conversion, mais si il n’y que quelques visites, ce n’est pas un indicateur très parlant.
De même, si les taux de conversions des variations A et B sont très proches, mais que le nombre de visites s’échelonne à plusieurs dizaines ou centaines de milliers, l’information peut avoir bien plus de poids.
La question reste, au final : comment prendre des bonnes décisions dans les cas où les données ne sont pas très parlantes ?
Khi deux :
Le test du χ² (prononcer « Khi-deux ») permet de déterminer si les résultats obtenus (taux de conversion) sont significatifs. Il peut s’exprimer par un taux de confiance.
Il s’agit pour l’utilisateur de définir un degré de confiance appréciable pour considérer ses propres résultats comme significatifs.
Voici ci-dessous un calculateur qui effectue le test du Khi-deux :
| Version originale (Test A) | Variation (Test B) | ||
| Nombre de visites | |||
| Nombre de conversions | |||
| – [Résultats] – | |||
| Taux de conversions | |||
| Khi-deux (χ²) | |||
| Degré de confiance | |||
Lecture des résultats :
Si on prend les valeurs pré-remplies dans le calculateur, on peut lire les résultats de la manière suivante :
- Sur la variation A : Il y a eu 220 visiteurs, et 70 d’entre eux ont converti sur l’objectif donné. (Soit un taux de conversion de 31.82 %)
- Sur la variation B : Il y a eu 700 visiteurs, et 150 d’entre eux ont converti sur l’objectif. (Soit un taux de conversion de 21.43 %)
Sur ce test, les résultats sont significatifs (selon le test du Khi-deux), avec un degré de confiance de 99.84%.
Il est généralement considéré que 95%, est un taux statistiquement acceptable.Cela signifiera donc qu’il y a 95% de chances que les résultats mesurés ne soient pas liés à la chance, donc que la variation ayant le plus grand taux de conversion dans cet échantillon soit réellement la gagnante.
Le choix du degré de confiance nécessaire à la validation des résultats est arbitraire, c’est donc à vous de le choisir. Cependant, plus il est élevé, plus vos résultats reflèteront avec précision la réalité. Vous n’obtiendrez jamais 100%, mais les degrés de confiance généralement utilisé en statistiques sont : 95%, 98%, 99%, et 99.9%.
Pour comprendre à quel point ce pourcentage est important, prenons un nouvel exemple. Votre variation B obtient un meilleur taux de conversion que A. Le degré de confiance est dans cet exemple est de 90%. Cela signifie qu’il y a une chance sur 10 que vous vous trompiez… et donc que A soit en fait le meilleur.
Maintenant c’est à vous de voir si une telle incertitude est acceptable pour vous !
Conclusion :
Il existe d’autres calculs statistiques utiles pour exploiter les résultats de vos tests. Il est impératif de ne comparer entre eux que les résultats obtenus à partir d’un même test mathématique (ici le Khi-deux).
En espérant que ce calculateur facilitera grandement vos prises de décisions !
Geoffroy (bricoleur daltonien)





Merci pour l’article et pour le calculateur…
On ne parle pas assez de l’incertitude statistique des test a/b, surtout lorsque que les données sur lesquelles on se repose ne sont pas assez conséquentes.
P.S.: J’aime beaucoup la photo du scientifique
Déjà, ça fait plaisir de voir une approche statistique de la validité des résultats obtenues ! Et pas un simple : “oui 20% c’est mieux que 15 %” “Sur combien de visites ?” “heu…”
“Pour comprendre à quel point ce pourcentage est important, prenons un nouvel exemple. Votre variation B obtient un meilleur taux de conversion que A. Le degré de confiance est dans cet exemple est de 90%. Cela signifie qu’il y a une chance sur 10 que vous vous trompiez… et donc que A soit en fait le meilleur.”
Petite imprécision, ça ne veut pas nécessairement dire que le résultat est faux ou irait d’en l’autre sens, c’est juste que l’effet observé n’est pas généralisable à l’ensemble de la population “parente”, ce n’est pas prédictif. Une chance sur 10 que l’effet observé ne soit valable que pour la population testée.
Mais je chipote !
Merci pour l’article, en effet le volume doit être assez important pour obtenir des conclusions. Il ne faut pas “forcer” les conclusions, il vaut mieux déclarer que le test n’est pas concluant.