Expérimentation

SRM en expérimentation : diagnostiquer un biais d’échantillon

Par La rédaction
Publié le 23 juin 2026 · 17 min de lecture

Quand la randomisation se dérègle, tout le test devient suspect

Un test A/B peut afficher un uplift, amélioration relative de la variante par rapport au contrôle, de 6 % sur le taux de conversion et pourtant être inutilisable. La raison n’est pas toujours un manque de puissance statistique, un MDE, minimum detectable effect, effet minimal détectable, trop ambitieux, ou une fenêtre d’observation trop courte. Elle peut être plus fondamentale : les utilisateurs n’ont pas été répartis comme prévu entre les variantes. C’est le problème que mesure le SRM, sample ratio mismatch, déséquilibre entre la répartition d’échantillon attendue et la répartition réellement observée.

Dans une expérimentation 50/50, observer 50 200 utilisateurs dans le contrôle et 49 800 dans la variante sur 100 000 expositions n’a rien d’inquiétant. Observer 54 000 contre 46 000 est une alerte majeure. La différence peut sembler opérationnelle, presque anodine, mais elle indique que la mécanique censée rendre les groupes comparables ne fonctionne peut-être plus. Or sans comparabilité initiale, l’estimation causale du test est fragilisée. On ne sait plus si l’écart de conversion vient de la variante ou d’un biais de composition.

Pour des professionnels du marketing, le SRM est particulièrement critique parce que les expérimentations ne se limitent plus aux pages produit. Elles touchent l’acquisition paid, les campagnes CRM, l’onboarding, les parcours product-led, les modèles d’enchères, les audiences retargeting et les séquences de marketing automation. Un biais d’échantillon sur une campagne optimisée au CPA, cost per acquisition, coût par acquisition ou par action selon le contexte, peut conduire à scaler une variante qui capte seulement des utilisateurs plus chauds. Un test de landing page peut être déclaré gagnant alors que la variante a reçu davantage de trafic mobile ou de visiteurs déjà connus. Un test d’email peut être faussé si un fournisseur de messagerie filtre différemment les versions.

Le SRM n’est donc pas un détail de statisticien. C’est un test de santé du protocole. Il répond à une question préalable à toute lecture de performance : les groupes comparés ressemblent-ils encore à ce que le plan d’expérience avait prévu ? Si la réponse est non, les métriques aval, taux de clic, taux de conversion, ROAS, return on ad spend, ratio entre revenu attribué et dépenses publicitaires, activation, rétention ou revenu par visiteur, deviennent secondaires. Avant d’optimiser le funnel, entonnoir de conversion allant de l’exposition à l’acquisition, l’activation, la rétention et le revenu, il faut vérifier que le funnel a été mesuré sur des populations correctement réparties.

Comprendre le SRM : un contrôle de randomisation, pas une métrique de performance

Le SRM compare la distribution observée des utilisateurs, sessions, comptes ou événements entre variantes à la distribution attendue. Dans un test A/B classique à allocation 50/50, on attend approximativement la moitié du trafic dans chaque bras. Dans un test 90/10, fréquent lors d’un rollout progressif ou d’une expérimentation risquée, on attend 90 % dans le contrôle et 10 % dans la variante. Le SRM apparaît lorsque l’écart est trop important pour être expliqué raisonnablement par le hasard.

La méthode la plus courante repose sur un test du chi-deux, test statistique qui compare des effectifs observés à des effectifs attendus. Le principe est simple : plus les écarts entre attendu et observé sont grands relativement à la taille d’échantillon, plus la probabilité que ce déséquilibre soit dû au hasard diminue. En pratique, les plateformes d’expérimentation affichent souvent une p-value, probabilité d’observer un écart au moins aussi extrême si la répartition attendue était vraie. Si cette p-value est inférieure à 0,001 ou 0,01 selon la politique interne, l’équipe déclenche une alerte SRM.

Exemple chiffré. Une équipe lance un test 50/50 sur une page de demande de démo. Après 80 000 visiteurs éligibles, elle observe 41 900 utilisateurs dans le contrôle et 38 100 dans la variante. L’écart brut est de 3 800 utilisateurs. À faible volume, un tel écart pourrait être bruité. À 80 000 visiteurs, il est extrêmement improbable sous une randomisation correcte. Le diagnostic n’est pas : la variante convertit moins parce qu’elle a moins de trafic. Le diagnostic est : le système de répartition ou de collecte ne respecte pas la distribution prévue, donc toute conclusion de conversion doit être suspendue.

Il est important de ne pas confondre SRM et différence de résultats. Un test peut avoir un SRM parfait et une variante perdante. À l’inverse, un test peut avoir un SRM significatif et une variante gagnante sur la métrique primaire. Le SRM ne dit pas si l’expérience a réussi. Il dit si l’échantillon autorise une interprétation causale fiable. C’est un garde-fou de validité interne.

L’unité d’analyse est décisive. Un SRM peut être calculé au niveau session, utilisateur, compte, impression ou email envoyé. Mais la bonne unité doit correspondre à l’unité de randomisation. Si le test randomise des utilisateurs mais que l’analyse compte des sessions, un comportement différent entre variantes peut créer un déséquilibre apparent de sessions sans problème de randomisation utilisateur. Si un onboarding est randomisé au niveau compte B2B mais analysé au niveau utilisateur, les entreprises avec plus de sièges peuvent déséquilibrer les résultats. Beaucoup de faux diagnostics SRM viennent d’un mauvais alignement entre randomisation, exposition et mesure.

La règle opérationnelle est donc stricte : avant de regarder le taux de conversion, l’ARPU, average revenue per user, revenu moyen par utilisateur, ou le pipeline généré, l’équipe doit vérifier que le ratio d’échantillon est conforme sur l’unité randomisée et sur les principaux segments pré-spécifiés. Un SRM global absent peut masquer un SRM local sur mobile, Safari, une zone géographique, un canal paid ou un segment de comptes enterprise.

Pourquoi un SRM apparaît : les causes techniques, marketing et organisationnelles

Un SRM est rarement causé par la statistique elle-même. Il révèle presque toujours une anomalie dans la chaîne d’expérimentation. Les causes peuvent être techniques, liées au tracking, à la livraison des variantes, aux règles d’éligibilité, ou marketing, liées aux canaux d’acquisition et aux traitements aval. Le diagnostic doit donc dépasser le dashboard d’A/B testing.

La première famille de causes concerne l’assignation. Si la randomisation est faite côté client, dans le navigateur, elle peut être affectée par les bloqueurs de scripts, les contraintes de consentement, les navigateurs limitant les cookies, les temps de chargement ou les erreurs JavaScript. Une variante plus lourde peut charger plus lentement et perdre une partie des expositions mesurées. Une règle de feature flag peut exclure certains utilisateurs après assignation. Un cache CDN, content delivery network, réseau de serveurs distribuant les contenus plus rapidement, peut servir une mauvaise version à une partie du trafic. Dans tous ces cas, la répartition observée ne reflète plus l’allocation prévue.

La deuxième famille concerne l’éligibilité. Un test peut annoncer 50/50 mais appliquer des filtres différents après coup. Par exemple, les utilisateurs connectés sont inclus dans les deux variantes, mais les anonymes ne déclenchent l’événement d’exposition que dans le contrôle. Ou bien les visiteurs déjà clients sont exclus de la variante par une règle CRM mal synchronisée. Le SRM est alors le symptôme d’une population analysée différente de la population randomisée.

La troisième famille concerne la collecte. Un événement exposure, c’est-à-dire l’événement confirmant qu’un utilisateur a réellement vu une variante, peut ne pas être envoyé de manière symétrique. Une page alternative peut rediriger plus vite, déclencher un consentement différent, bloquer un pixel analytics ou modifier l’ordre de chargement des tags. Dans les tests marketing, ce point est fréquent : une landing page B contient un formulaire intégré via un prestataire tiers, tandis que la page A utilise un formulaire natif. Les événements arrivent dans des pipelines de données différents et les pertes ne sont pas homogènes.

La quatrième famille est spécifique aux canaux paid media. En acquisition, les expériences s’exécutent souvent au-dessus d’algorithmes qui optimisent eux-mêmes la diffusion. Une DSP, demand-side platform, plateforme d’achat programmatique permettant d’acheter des impressions sur différents inventaires, peut réagir différemment aux créations ou aux pages de destination. Le RTB, real-time bidding, système d’enchères publicitaires en temps réel impression par impression, peut concentrer une variante sur certains inventaires si son taux de clic initial paraît meilleur. Si l’expérimentation randomise au niveau campagne mais que la plateforme optimise au niveau audience, les groupes ne sont plus comparables. On mesure à la fois une variante créative et une sélection algorithmique d’audience.

La cinquième famille est organisationnelle. Un commercial peut recevoir les leads d’une variante avec un SLA, service level agreement, engagement de délai de traitement, différent. Une équipe CRM peut modifier une séquence en cours de test. Un pays peut être ajouté au ciblage sans être équilibré entre bras. Une équipe produit peut corriger un bug uniquement sur la variante. Ces interventions sont souvent invisibles dans l’outil d’expérimentation, mais elles créent des déséquilibres de composition ou de traitement.

Un bon réflexe consiste à traiter le SRM comme une enquête de chaîne de custody, traçabilité complète de l’exposition à la conversion. Où l’utilisateur est-il rendu éligible ? Où est-il assigné ? Où voit-il effectivement la variante ? Où l’événement est-il collecté ? Où est-il filtré ? Où entre-t-il dans l’analyse ? À chaque étape, une asymétrie peut transformer un test apparemment propre en comparaison biaisée.

Diagnostiquer un SRM : un protocole en quatre niveaux

Face à une alerte SRM, la pire réaction est de regarder rapidement les conversions, de constater que l’effet semble robuste et de continuer. Le bon protocole commence par isoler le niveau où le déséquilibre apparaît. On ne résout pas de la même manière un problème d’assignation, d’exposition, de tracking ou d’analyse.

Le premier niveau consiste à comparer assignation et exposition. L’assignation correspond au moment où le système décide qu’un utilisateur appartient au contrôle ou à la variante. L’exposition correspond au moment où l’utilisateur voit réellement l’expérience. Si l’assignation est équilibrée mais l’exposition déséquilibrée, le problème se situe probablement dans le rendu, le chargement, l’éligibilité post-assignation ou la collecte de l’exposition. Si l’assignation elle-même est déséquilibrée, il faut examiner le moteur de randomisation, la persistance des variantes, les règles de ciblage et les conflits entre expériences simultanées.

Le deuxième niveau consiste à segmenter sans tomber dans le p-hacking, pratique consistant à multiplier les analyses jusqu’à trouver un résultat favorable. Les segments doivent être choisis parce qu’ils correspondent à des risques plausibles : device, navigateur, statut connecté, pays, canal d’acquisition, source UTM, type de consentement, nouveau versus récurrent, client versus prospect. Si le SRM apparaît surtout sur Safari mobile, la piste cookies et tracking devient prioritaire. S’il apparaît sur paid social mais pas sur organic, la piste d’optimisation de plateforme ou de paramètres UTM est plus probable. S’il apparaît sur une géographie, une règle de ciblage ou de CDN peut être en cause.

Le troisième niveau consiste à vérifier la cohérence des volumes dans toute la cascade. Pour un test de landing page, la cascade peut être : visiteurs éligibles, assignés, exposés, page vue, formulaire commencé, formulaire soumis, lead créé, MQL, marketing qualified lead, lead jugé suffisamment qualifié pour être travaillé, SQL, sales qualified lead, lead accepté comme commercialement exploitable. Le SRM doit être évalué au moins sur les premières étapes. Si la répartition est correcte à l’exposition mais se déséquilibre à la création du lead, ce n’est plus un SRM de randomisation ; c’est peut-être un effet réel ou un problème de tracking formulaire. La distinction est cruciale.

Le quatrième niveau consiste à auditer les logs bruts, pas seulement les agrégats. Les outils d’expérimentation et d’analytics appliquent parfois des déduplications, filtres bots, règles de sessionisation ou fenêtres d’attribution différentes. L’attribution, méthode qui assigne une conversion ou une part de revenu à un ou plusieurs points de contact, peut réconcilier des événements tardifs d’une manière qui modifie les effectifs analysés. Un export brut avec identifiant utilisateur, variante, horodatage, source, device, pays, consentement, événement exposure et événement de conversion permet souvent d’identifier le point de rupture.

Un exemple concret. Une entreprise SaaS observe un SRM sur un test de formulaire : 52 800 utilisateurs en contrôle, 47 200 en variante, allocation attendue 50/50. La segmentation montre que le déséquilibre est presque absent sur desktop, mais massif sur mobile iOS. Les logs révèlent que la variante utilise un composant qui charge après acceptation du consentement, tandis que le contrôle déclenche l’exposition avant consentement. Une partie des utilisateurs iOS quitte la page avant l’envoi de l’événement. Le taux de conversion de la variante semblait plus élevé, mais il était calculé sur une population exposée artificiellement plus engagée, puisque les sorties rapides n’étaient pas comptées.

Ce cas illustre une règle simple : le SRM n’indique pas seulement que les volumes sont déséquilibrés. Il peut aussi révéler que le dénominateur de la métrique primaire a changé. Et lorsque le dénominateur change, l’uplift peut devenir une illusion mathématique.

Décider quoi faire : invalider, corriger, relancer ou restreindre

Tous les SRM ne conduisent pas automatiquement à jeter un test, mais tout SRM significatif doit suspendre la décision de rollout. La question n’est pas seulement de savoir si la p-value est faible. Elle est de savoir si la cause est comprise, si elle affecte la comparabilité des groupes et si elle peut être corrigée sans introduire un nouveau biais.

Le premier cas est l’invalidation pure. Elle s’impose lorsque le SRM touche l’assignation ou l’exposition initiale et que la cause n’est pas isolée. Si un test 50/50 reçoit 60 % du trafic dans le contrôle sans explication, les résultats de conversion ne doivent pas être utilisés pour décider. Même si l’écart de performance est important, l’équipe ne sait pas si les groupes sont comparables. Dans une culture d’expérimentation saine, invalider un test est une décision de qualité, pas un échec.

Le deuxième cas est la correction analytique limitée. Elle peut être acceptable lorsque le problème est situé après l’exposition et n’affecte pas l’assignation. Par exemple, si un événement de scroll est perdu sur une variante mais que l’exposition, les conversions serveur et les revenus sont fiables, il est possible d’exclure cette métrique secondaire sans invalider tout le test. En revanche, corriger un SRM par pondération statistique est risqué. Pondérer les groupes pour retrouver 50/50 ne restaure pas la randomisation si la perte d’observations est liée au comportement ou au segment. La pondération peut masquer le problème au lieu de le résoudre.

Le troisième cas est la relance après correctif. C’est souvent la meilleure option. L’équipe identifie la cause, corrige le déclenchement de l’événement, harmonise les règles d’éligibilité, purge les affectations instables, puis relance sur une nouvelle cohorte. Les données du test contaminé peuvent servir à apprendre, mais pas à décider. La relance doit idéalement inclure un test A/A, comparaison de deux versions identiques, pour vérifier que la plateforme répartit correctement le trafic et que le SRM ne réapparaît pas.

Le quatrième cas est la restriction segmentée. Si le SRM est localisé à un segment clairement isolé et non stratégique, l’équipe peut parfois analyser les autres segments, à condition que cela ait été prévu ou justifié par le diagnostic. Exemple : un test d’onboarding est propre sur web desktop et Android, mais invalide sur iOS à cause d’un SDK analytics défaillant. Si la décision concerne uniquement le déploiement web, l’analyse web peut rester exploitable. Mais il faut éviter de transformer cette restriction en sélection opportuniste du segment où la variante gagne.

La décision doit intégrer le coût d’erreur. Pour un changement mineur de wording avec faible risque aval, l’organisation peut accepter de relancer rapidement. Pour un changement de pricing, de checkout, de scoring lead ou d’allocation budgétaire paid media, le niveau de preuve doit être plus élevé. Un faux positif sur un test de prix peut dégrader la marge et la confiance. Un faux positif sur une campagne d’acquisition peut déplacer des dizaines de milliers d’euros vers un canal non incrémental.

Une règle pratique peut être formulée ainsi : si le SRM touche l’unité randomisée avant ou au moment de l’exposition, le test ne doit pas être utilisé pour une décision business. Si le SRM touche un événement aval, il faut déterminer s’il s’agit d’un effet réel, d’une perte de tracking ou d’un filtre analytique. Si la cause est inconnue, on relance. Si la cause est connue et isolée, on documente la restriction. Dans tous les cas, le résultat doit être marqué comme contaminé ou partiellement exploitable dans le registre d’expérimentation.

Prévenir les biais d’échantillon : instrumentation, garde-fous et gouvernance

Le meilleur moment pour traiter le SRM est avant le lancement. Une expérimentation robuste doit intégrer des contrôles de ratio dans son protocole, exactement comme elle définit une métrique primaire, des métriques secondaires, des garde-fous et une taille d’échantillon cible. Le SRM ne doit pas être une vérification manuelle réalisée seulement quand le résultat paraît étrange.

La première pratique consiste à définir explicitement l’unité de randomisation. Session, utilisateur, compte, magasin, zone géographique ou email : le choix dépend du risque d’interférence. En B2B, randomiser au niveau utilisateur peut contaminer les résultats si plusieurs personnes d’un même compte voient des variantes différentes. En drive-to-store, randomiser au niveau individu peut être insuffisant si l’objectif est de mesurer un effet magasin ou zone de chalandise. En CRM, randomiser au niveau contact peut être problématique si plusieurs contacts d’une même entreprise reçoivent des messages contradictoires.

La deuxième pratique consiste à séparer assignation, exposition et conversion dans la donnée. L’assignation doit être loggée dès que la variante est attribuée. L’exposition doit être loggée uniquement lorsque l’utilisateur a réellement la possibilité de percevoir la variante. La conversion doit être rattachée à l’exposition selon une fenêtre claire. Cette séparation permet de savoir si un déséquilibre vient du moteur de randomisation, du rendu ou de la mesure aval.

La troisième pratique consiste à automatiser les alertes SRM. Un dashboard d’expérimentation devrait afficher la distribution attendue et observée, la p-value du chi-deux, les volumes par segment prioritaire et l’évolution temporelle. L’alerte doit se déclencher tôt, mais pas trop tôt. Sur les premiers centaines d’utilisateurs, les fluctuations sont normales. Beaucoup d’équipes déclenchent une alerte après un volume minimal, par exemple 1 000 expositions par bras ou un seuil adapté au trafic. L’objectif est d’éviter de laisser tourner pendant trois semaines un test déjà contaminé au deuxième jour.

La quatrième pratique consiste à contrôler les expériences concurrentes. Deux tests actifs peuvent interagir : un test de header modifie le comportement de navigation, tandis qu’un test de formulaire mesure la conversion. Si les règles d’exclusion ne sont pas maîtrisées, certains utilisateurs peuvent être éligibles à une combinaison de variantes qui déséquilibre l’échantillon. Les plateformes de feature flags et d’expérimentation doivent gérer des namespaces, espaces de répartition indépendants, ou des règles de priorité documentées.

La cinquième pratique consiste à intégrer les canaux marketing dans le protocole. En paid media, il faut décider si la randomisation se fait avant la plateforme, dans la plateforme ou sur la landing page. Ces choix ne sont pas équivalents. Randomiser les créations dans une plateforme algorithmique peut laisser l’algorithme sélectionner les audiences. Randomiser la landing page après le clic contrôle mieux l’audience entrante, mais ne teste pas l’effet de la création sur le clic. Randomiser au niveau utilisateur identifié permet une meilleure cohérence, mais exige une résolution d’identité fiable. Chaque choix détermine le type de SRM possible.

Enfin, la gouvernance doit rendre le SRM visible dans les décisions. Un comité d’expérimentation devrait refuser de discuter d’un uplift tant que les contrôles de validité ne sont pas passés. Le registre de tests doit contenir : allocation prévue, volumes observés, p-value SRM, segments contrôlés, incidents, statut de validité et décision. Cette discipline évite que les tests contaminés reviennent trois mois plus tard dans une présentation de résultats comme s’ils étaient des preuves.

Lire le SRM avec nuance : faux positifs, puissance et limites pratiques

Le SRM est puissant, mais il n’est pas magique. Une lecture experte doit intégrer ses limites. La première est le risque de faux positif lorsque les équipes multiplient les contrôles segmentés. Si l’on teste le ratio sur 80 segments, certains apparaîtront significatifs par hasard. C’est pourquoi les segments de diagnostic doivent être hiérarchisés : d’abord le global, puis les segments à risque connus, puis l’exploration si nécessaire. L’objectif n’est pas de prouver qu’aucun micro-segment ne bouge, mais de détecter les déséquilibres susceptibles de biaiser la décision.

La deuxième limite est la sensibilité aux grands volumes. Avec des millions d’expositions, un écart très faible peut devenir statistiquement significatif sans impact business réel. Par exemple, une allocation observée de 50,15 % contre 49,85 % peut déclencher une p-value faible à très grand volume. Il faut alors distinguer significativité statistique et matérialité. Une politique mature combine un seuil statistique et un seuil d’écart minimal, par exemple une alerte critique seulement si la p-value est inférieure à 0,001 et si l’écart absolu dépasse 0,5 point ou un volume significatif selon le risque du test.

La troisième limite concerne les designs adaptatifs. Certains tests utilisent du bandit testing, méthode d’allocation adaptative qui dirige progressivement plus de trafic vers les variantes performantes, ou des rollouts progressifs 90/10 puis 75/25 puis 50/50. Dans ces cas, un ratio non 50/50 n’est pas forcément un SRM. Il faut comparer les volumes au plan d’allocation temporel réel, pas à une règle simplifiée. Le SRM doit être calculé par période d’allocation ou avec les probabilités d’assignation enregistrées au moment de l’exposition.

La quatrième limite concerne les métriques dépendantes du comportement. Si l’unité de randomisation est l’utilisateur mais que l’on compte les sessions, une variante qui augmente naturellement le nombre de sessions peut produire un déséquilibre de sessions. Ce n’est pas une erreur de randomisation ; c’est potentiellement un effet du traitement. Le SRM doit donc être appliqué à l’unité correcte. Beaucoup d’expériences produit gagnantes modifient justement la fréquence d’usage. Les analyser uniquement au niveau événement peut créer des alertes trompeuses.

La cinquième limite est liée aux environnements sans identité stable. Les restrictions cookies, le consent mode, les bloqueurs, les appareils partagés et les connexions intermittentes rendent la persistance de variante plus difficile. Une partie des utilisateurs peut être réassignée involontairement. Le SRM peut alors être le symptôme d’un problème plus large : l’organisation n’a pas de couche d’identité suffisamment robuste pour certains types d’expérimentation. La solution n’est pas seulement statistique ; elle peut impliquer une randomisation serveur, un identifiant first-party, une logique de compte ou une réduction du périmètre de test.

La nuance ne doit pas servir à relativiser tous les signaux. Dans la majorité des cas opérationnels, un SRM net sur l’unité randomisée est une alerte grave. Mais l’équipe doit savoir distinguer l’anomalie bloquante, l’écart statistiquement visible mais business négligeable, le design adaptatif normal et le faux SRM lié à une mauvaise unité d’analyse. Cette maturité évite à la fois le laxisme et le blocage excessif.

Conclusion : faire du SRM un réflexe de qualité expérimentale

Le SRM rappelle une vérité souvent oubliée dans les programmes growth : la précision d’un dashboard ne compense pas un protocole biaisé. Avant de discuter d’un uplift, d’un CPA réduit, d’un ROAS amélioré ou d’un meilleur taux d’activation, il faut vérifier que les groupes comparés proviennent bien de la répartition prévue. Sans cette étape, l’expérimentation peut devenir une machine à produire des décisions faussement rationnelles.

Une méthode actionnable peut se résumer en sept décisions. Premièrement, définir l’unité de randomisation et l’unité d’analyse avant le lancement : utilisateur, session, compte, email, magasin ou zone. Deuxièmement, journaliser séparément assignation, exposition et conversion pour localiser les déséquilibres. Troisièmement, calculer automatiquement le SRM avec un test du chi-deux sur le global et quelques segments à risque pré-spécifiés. Quatrièmement, fixer des seuils combinant p-value et matérialité business afin de ne pas réagir à des écarts microscopiques. Cinquièmement, diagnostiquer toute alerte par cascade : éligibles, assignés, exposés, événements clés, conversions et statuts CRM. Sixièmement, suspendre toute décision de rollout si le SRM touche l’assignation ou l’exposition et que la cause n’est pas comprise. Septièmement, documenter le statut de validité dans le registre d’expérimentation pour éviter que des résultats contaminés ne soient réutilisés.

Pour les équipes marketing avancées, le SRM est aussi un révélateur de maturité data. Il force à aligner expérimentation, analytics, CRM, paid media, consentement, feature flags et opérations commerciales. Il met en lumière les points faibles de la stack : événements déclenchés au mauvais moment, règles d’éligibilité opaques, plateformes publicitaires qui sélectionnent l’audience, identifiants instables, analyses au mauvais niveau. Le corriger améliore souvent bien plus que le test concerné ; cela renforce toute la capacité de l’organisation à apprendre correctement.

Dans un environnement où les coûts d’acquisition augmentent et où les signaux d’attribution deviennent moins déterministes, l’expérimentation reste un levier central de décision. Mais elle ne vaut que par la qualité de ses hypothèses, de sa randomisation et de sa mesure. Diagnostiquer un biais d’échantillon n’est pas une formalité technique. C’est la condition pour transformer les tests en preuves exploitables, et les preuves en décisions de croissance réellement maîtrisées.

srm expérimentation a/b testing biais statistique analytics randomisation